Блог белорусского сисадмина

Перечень Zabbix ошибок.

Все неисправности, которые были выявлены, перечислены в подзаголовках которые указывает в своих названиях, характер реагирования Zabbix на ситуационные моменты работы мониторинга.

Zabbix ошибка выполнения команды.

Возникает, когда нужно выполнить проверку узла. Мониторинговая система Zabbix пытается запустить команду nmap и вывести информацию о узле.

nmap — инструмент исследования сети и сканер безопасности портов

Попытка запуска команды «обнаружение операционной системы».

Обнаружение операционной системы.

В результате наших действий получаем следующею ошибку.

Ошибка выполнения команды nmap Zabbix.

Возникшая неисправность указывает на отказ доступа к каталогу /usr/bin/, где находится утилита nmap.

Для решения проблемы, проверяем/устанавливаем утилиту nmap.

Допускаем условие, для пользователя zabbix, от имени которого происходит запуск nmap, выполнение команды без ввода пароля.

Добавляем пользователя zabbix в группу администраторов whell.

Снова запускаем команду «обнаружение операционной системы».

Не забудьте перезапустить сервер Zabbix, см. справка.

Нажатие кнопки «Detect operating system».

Теперь мы видим полную информацию о проверяемом узле.

Правильная работа кнопки «Detect operating system».

Zabbix ошибка: host notfound

Следующая ошибка появляется при просмотре журнала Zabbix.

  • Требуется проверить:

Диагностика работы узла.

настройки DNS сервера на котором работает Zabbix

файл конфигурации Zabbix PostgreSQL, для MySQL см.справка

Проверить настройки сервера, см .выше и агента Zabbix.

— Не работает агент Zabbix, красный «фонарь».

Проверить настройки агента Zabbix.

Анализ полученной информации о длительности

Длительность Zabbix — это важный показатель, описывающий время, за которое приложение собирает данные о состоянии системы. Полученная информация является ценным инструментом для анализа производительности и выявления узких мест в работе системы.

Анализируя данные о длительности Zabbix, можно определить, какие процессы и операции занимают больше времени, и выявить возможные проблемы. Если длительность сбора данных увеличивается, это может указывать на неправильную настройку мониторинга, загруженность системы или проблемы связанные с сетью.

Чтобы получить максимальную пользу от данных о длительности Zabbix, нужно регулярно анализировать и агрегировать полученную информацию, составлять графики и сравнивать их с данными из других источников. Таким образом, можно выявить и устранить проблемы в работе системы, улучшить ее производительность и повысить качество обслуживания пользователей.

Итак, анализ полученной информации о длительности является неотъемлемой частью работы с Zabbix и позволяет оптимизировать работу системы и достичь максимальной эффективности ее функционирования.

Вопрос-ответ:

Какова специфика включения длительности Zabbix в Last?

Чтобы учесть длительность Zabbix в Last, необходимо настроить мониторинг Zabbix и назначить агента мониторинга для подключения к Last.

Какую роль играет длительность Zabbix в контексте учета метрик в Last?

Длительность Zabbix важна для точного отображения метрик в Last, так как она позволяет учитывать временные интервалы и изменения в состоянии системы на протяжении определенного периода времени.

Можно ли использовать Last без учета длительности Zabbix?

Да, возможно использовать Last без учета длительности Zabbix, но это может привести к неточностям в отображаемых метриках.

Как настроить мониторинг Zabbix для подключения к Last?

Для настройки мониторинга Zabbix необходимо использовать специальный агент мониторинга, который позволит собирать данные о состоянии системы и передавать их в Last для отображения.

Какие метрики можно отслеживать при использовании Last с длительностью Zabbix?

При использовании Last с учетом длительности Zabbix можно отслеживать широкий спектр метрик, таких как загрузка CPU, использование памяти, количество запросов к базе данных и т.д.

Что происходит, если мониторинг Zabbix не работает с Last?

Если мониторинг Zabbix не работает с Last, то метрики не будут отображаться в системе, что может привести к необходимости вручную отслеживать состояние системы и выявлять проблемы.

Оптимизация работы системы на основе полученных данных

Каждая система мониторинга имеет свои особенности, но здесь мы рассмотрим основные принципы оптимизации работы системы на основе полученных данных.

Во-первых, необходимо анализировать данные, которые мы собираем с помощью системы мониторинга. На основе этих данных можно выявлять проблемы в работе системы и усовершенствовать её.

Во-вторых, может возникнуть ситуация, когда система генерирует слишком много данных. В этом случае необходимо оптимизировать систему и настроить фильтры, чтобы получать только нужную информацию.

В-третьих, важно мониторить загруженность системы и оптимизировать её работу на основе полученных данных. Если выявлена большая нагрузка, можно учесть эту информацию и расширить ресурсы для обработки данных или оптимизировать код, чтобы он работал более эффективно

Кроме того, важно проводить анализ длительности работы системы и её узлов. На основе этой информации можно оптимизировать работу системы и распределить ресурсы более эффективно

В целом, оптимизация работы системы на основе полученных данных является важным этапом в поддержании её эффективности и производительности.

Алексей Владышев ( alexvl )

Zabbix

https://player.vimeo.com/video/151815647

  • это уровень железа – что-то произошло с какой-то железякой, мы тут же об этом узнаем,
  • уровень операционной системы,
  • сеть, в основном это мониторинг через SNMP,
  • виртуальный уровень, т.е. «из коробки» мы предлагаем, например, мониторинг WMware инфраструктуры, vCenter и vSphere,
  • дальше идет middleware,
  • бизнес-приложения.

это работает быстро, по крайней мере, быстрее, т.к

сервер не должен заниматься постоянным опрашиванием устройств, сами устройства отправляют информацию,
более безопасно с точки зрения агента, потому что агент не должен слушать никакие TCP-соединения или сетевые соединения.
небольшое преимущество, то, что нам сегодня важно – в активном режиме есть буферизация. Если Zabbix-сервер недоступен по каким-то причинам, допустим, мы делаем апгрейд Zabbix-сервера, у нас downtime несколько минут, то данные будут накапливаться на стороне агента

Как только мы сервер запускаем, данные тут же отправятся на сторону сервера, и мы их сможем обрабатывать.

История. Мы основываем свое решение не только на real-time мониторинге, на оперативной информации, которую мы только-только получили, но и смотрим в историю. В историю нужно обязательно смотреть

Это важно.
Отсутствие проблемы – не есть ее решение. Я привел несколько примеров, но на самом деле, вы многие используете Zabbix, посмотрите критическим взглядом на те триггеры, которые у вас сейчас есть

Комбинация анализа истории с гистерезисом, с разными условиями для проблемы и для выхода из проблемы – она на самом деле творит чудеса. Получается такое очень-очень умное обнаружение проблем. Нужно обязательно использовать эту функциональность.
С аномалиями, опять же, мне трудно сказать, принесет ли это какую-то практическую пользу, но, по крайней мере, стоит попробовать. Что касается аномалии, в Zabbix 3.0, возможно, мы реализуем baseline monitoring. Что это означает? Baseline – это некая норма, т.е. этот baseline будет высчитываться из трендов. Если сейчас все триггеры работают с историей, то для baseline мониторинга мы будем брать информацию из трендов, из тенденций, и будет возможность, например, сравнивать поведение системы в рабочее время на прошлой неделе с поведением системы на этой неделе или сегодня. Т.е. мы что-то будем брать за основу, за нормальную ситуацию и сравнивать с тем, что есть сейчас. Это такой статистический анализ, основанный на тенденциях, на трендах.
Автоматическое решение проблем. Наверное, у каждого из вас, если вы используете систему мониторинга, есть такой класс проблем, про который вы знаете, что эта проблема произойдет рано или поздно, и с этим ничего нельзя сделать. Я привел примеры каких-то случайных падений операционной системы – мы знаем, что такая проблема есть, она может произойти в любое время, соответственно, автоматическое решение проблем – это хорошее решение.
И эскалируем проблемы. Отличный стимул для администраторов, если мы делаем эскалирование. Эскалирование не означает, что вот есть администратор, начальник, начальник начальника, начальник начальника начальника… Эскалирование – это означает, что мы сможем среагировать на проблему сразу одним способом, дальше попытаться, может быть, автоматически решить ее другим способом, и дальше, может быть, через 5 минут, если проблема все еще существует, попытаться решить ее следующим способом. Сначала мы перезапускаем сервис, проблема все еще существует, скажем, exchange не завелся с первого раза, что мы тогда можем сделать? Мы можем перезапустить сервер на физическом уровне и тогда уже смотреть, что произойдет.

Причины ошибки

Может быть несколько причин, по которым вы можете столкнуться с ошибкой «Не удалось отправить запрос: неправильный элемент zabbix». Давайте рассмотрим некоторые распространенные причины:

  1. Неправильно настроены параметры предмета: Одна из возможностей заключается в том, что рассматриваемый элемент был неправильно настроен. Возможно, используется неправильный ключ или параметр, что приводит к ошибке. Двойная проверка конфигурации элемента всегда является хорошим первым шагом.

  2. Отсутствующие или неправильные шаблоны: Zabbix полагается на шаблоны для определения параметров и настроек элементов. Если шаблон отсутствует или неверен, это может привести к появлению сообщения об ошибке. Проверка шаблонов, связанных с элементом, может помочь решить проблему.

  3. Разрешения и права доступа: Еще одним фактором, который следует учитывать, являются разрешения и права доступа, назначенные пользователю или процессу мониторинга. Убедитесь, что у пользователя есть необходимые права для доступа к элементу и выполнения необходимых действий.

  4. Проблемы с сетью или подключением: Иногда ошибка может быть связана с проблемами сети или подключения. Проверьте, доступен ли сервер или агент Zabbix и существуют ли какие-либо сетевые ограничения или брандмауэры, блокирующие связь.

  5. Несовместимость программного обеспечения или версий: Также возможно, что ошибка вызвана проблемой совместимости между сервером Zabbix, агентом и другими компонентами программного обеспечения. Убедитесь, что все версии программного обеспечения совместимы и обновлены.

Рекомендации по устранению high error rate в Zabbix

High error rate в системе мониторинга Zabbix может негативно сказаться на работе сети и привести к сбоям в работе серверов. В данном разделе предоставляем рекомендации по устранению проблемы high error rate в Zabbix.

1. Проверьте сетевое оборудование: убедитесь, что все коммутаторы, маршрутизаторы и другие устройства работают корректно. Проведите анализ трафика и выявите возможные проблемные зоны.

2. Проверьте сервер Zabbix: убедитесь, что сервер работает без перегрузки и доступен для клиентов. Мониторите загрузку процессора, памяти и дискового пространства. При необходимости оптимизируйте настройки сервера.

3. Проверьте настройки агентов Zabbix: убедитесь, что агенты правильно настроены и работают без ошибок. Проверьте наличие и корректность всех необходимых ключей, отслеживаемых параметров и пороговых значений.

4. Убедитесь, что система Zabbix обновлена до последней версии: проверьте наличие обновлений и установите их, если это необходимо. Новые версии Zabbix могут содержать исправления ошибок и улучшения в области мониторинга и управления.

5. Анализируйте логи: регулярно проверяйте журналы событий и ошибок, чтобы выявить возможные проблемы связанные с high error rate. Изучайте сообщения об ошибках и принимайте меры для исправления выявленных проблем.

6. Оптимизируйте настройки мониторинга: проверьте настройки мониторинга и убедитесь, что ресурсы сервера Zabbix используются эффективно. Удалите лишние элементы мониторинга, настройте группы узлов и шаблоны, чтобы минимизировать нагрузку на сервер.

7. Обратитесь за помощью: если проблемы high error rate по-прежнему возникают, рекомендуется обратиться к экспертам, специализирующимся на Zabbix. Они могут помочь в диагностике и устранении проблем с high error rate.

Следуя данным рекомендациям, вы сможете устранить high error rate в Zabbix и обеспечить стабильную и надежную работу вашей системы мониторинга.

Проверки

Для описания системы мониторинга Zabbix существует два ключевых понятия:

  • Узлы сети — рабочие устройства и их группы (сервера, рабочие станции, коммутаторы), которые необходимо проверять. С создания и настойки узлов сети обычно начинается практическая работа с Zabbix.
  •  Элементы данных — набор самостоятельных метрик, по которым происходит сбор данных с узлов сети. Настройка элементов данных производится на вкладке «Элемент данных» или в автоматическом режиме — через подключение шаблона.

Сам Zabbix-агент способен отражать текущее состояние физического сервера, собирая совокупность данных. У него достаточно много метрик. С их помощью можно проверить загруженность ядра (Processor load), время ожидания ресурсов (CPU iowait time), объем системы подкачки (Total swap space) и многое другое.

В Zabbix существует целых 17 способов, дающих возможность собирать информацию. Указанные ниже, входят в число наиболее часто применяемых.

  • Zabbix agent (Zabbix-агент) — сервер собирает информацию у агента самостоятельно, подключаясь по определенному интервалу.
  • Simple check (Простые проверки) — простые операции, в том числе пинг.
  • Zabbix trapper (Zabbix-траппер) — сбор информации с трапперов, представляющих собой мосты между используемыми сервисами и самой системой.
  • Zabbix aggregate (Zabbix-комплекс) — процесс, предусматривающий сбор совокупной информации из базы данных.
  • SSH agent (SSH-агент) — система подключается по SSH, использует указанные команды.
  • Calculate (Вычисление) — проверки, которые система производит, сопоставляя имеющиеся данные, в том числе после предыдущих сборов.

У проверок есть заданные шаблоны (Templates), которые упрощают создание новых. Кроме обычных операций существует возможность регулярно проверять доступность веб-сервера с помощью имитации запросов браузера.

Проверка через пользовательский параметр

Чтобы выполнить проверку через агент, нужно прописать соответствующую команду в  конфигурационный файл Zabbix-агента в качестве пользовательского параметра (UserParameter). Сделать это можно с помощью выражения следующего вида:

UserParameter=<ключ>,<команда>

Помимо самой команды, приведенный синтаксис содержит уникальный (в пределах узла сети) ключ элемента данных, который надо придумать самостоятельно и сохранить. В дальнейшем, ключ можно использовать для ссылки на команду, внесенную в пользовательский параметр, при создании элемента данных.

Пример

UserParameter=ping,echo 1

С помощью данной команды можно настроить агент на постоянное возвращение значения «1» для элемента данных с ключем «ping».

Разрешение ошибки

Теперь, когда мы изучили некоторые возможные причины, давайте обсудим, как можно устранить ошибку «Не удалось отправить запрос: неправильный элемент zabbix»:

  1. Просмотр конфигурации элемента: Начните с проверки конфигурации элемента, вызывающего ошибку. Проверьте ключ, параметры и все связанные сценарии или команды. Убедитесь, что они точны и соответствуют предполагаемому источнику данных.

  2. Проверка шаблонов: Проверьте шаблоны, связанные с элементом. Убедитесь, что необходимые шаблоны правильно связаны и содержат необходимые настройки для корректной работы элемента. При необходимости назначьте или создайте новые шаблоны, соответствующие вашим потребностям в мониторинге.

  3. Проверьте разрешения и права доступа: Убедитесь, что пользователь или процесс мониторинга имеет соответствующие разрешения и права доступа для взаимодействия с элементом. Сюда входят разрешения как на чтение, так и на запись, если это необходимо.

  4. Проверьте подключение к сети: Устраните любые проблемы с сетью или подключением, которые могут повлиять на связь между сервером Zabbix, агентом и контролируемым устройством. Это может включать проверку брандмауэров, настроек сети и подтверждение того, что необходимые порты открыты.

  5. Обновление версий программного обеспечения: Убедитесь, что все компоненты, включая сервер Zabbix, агент и соответствующее программное обеспечение, используют совместимые версии. Обновление до последних стабильных выпусков иногда может решить проблемы совместимости и предоставить дополнительные исправления ошибок.

Немного опечатались

Иногда бывает так, что порты и все доступы настроены, агент установлен, ошибок в логах нет, но метрики не приходят или приходят не полностью. В самом Zabbix хост “горит зеленым” и непонятно, что вообще происходит.

Можно потратить много времени на разбор ситуации, а причина окажется очень проста — ошибка в файле конфигурации из-за “копипасты”. То есть конфигурацию скопировали, но в файле не поменяли параметр “Hostname”. В итоге сервер Zabbix говорит, что агент доступен, но сам агент присылает данные для другого хоста. Вот так выглядит список дисков для проблемной машины. Нет никакой информации о дисках, но при этом общие показатели агент все же передал.

Как только мы исправим в файле конфигурации параметр “Hostname” на нужный (в нашем случае это “SRV-SQL-01-VM”), то картина сразу же изменится. В списке появятся все диски сервера.

Данные могут появиться не сразу, т.к. правила обнаружения выполняются не так часто, как получение обычных метрик, но Вы можете запустить их вручную в настройках хоста.

Копипаст — зло! Будьте осторожны!

Причины высокого уровня ошибок в Zabbix

Неоптимальное конфигурирование системы

Одной из основных причин высокого уровня ошибок в Zabbix является неправильное или неоптимальное конфигурирование системы мониторинга

Важно убедиться, что все настройки, такие как интервалы проверки, условия срабатывания и уведомления, настроены в соответствии с требованиями и особенностями мониторируемых объектов

Ограниченные ресурсы сервера

Еще одной причиной высокого уровня ошибок является ограничение ресурсов сервера, на котором установлен Zabbix. Если сервер не имеет достаточно оперативной памяти, процессора или пропускной способности сети, это может привести к задержкам и ошибкам в обработке данных.

Сетевые проблемы

Часто причиной высокого уровня ошибок в Zabbix являются сетевые проблемы. Некорректная настройка сетевых устройств, перегрузка сети или проблемы с подключением могут привести к потере данных и неверной обработке мониторируемых метрик.

Проблемы с мониторируемыми объектами

Возможны ситуации, когда сам мониторируемый объект является источником ошибок. Например, неправильная конфигурация мониторируемого устройства, проблемы с возможностью доступа или неполадки в работе объекта мониторинга могут привести к высокому уровню ошибок в Zabbix.

Неактуальная версия Zabbix

Использование устаревшей версии Zabbix также может быть причиной высокого уровня ошибок. В более новых версиях Zabbix регулярно выпускаются исправления и улучшения, которые могут решить известные проблемы и улучшить общую производительность системы.

Недостаточные или неправильные настройки уведомлений

Корректные настройки уведомлений в Zabbix позволяют оперативно получать информацию о срабатывании событий и ошибок. Однако, неправильные или недостаточные настройки уведомлений могут приводить к пропуску или задержке в получении важных уведомлений, что может замедлить реакцию на проблемы и увеличить частоту ошибок.

Отсутствие мониторинга важных метрик

Если в Zabbix отсутствует мониторинг важных метрик, это может привести к неполной или некорректной оценке состояния системы. Отсутствие мониторинга определенных параметров может скрыть существующие проблемы и привести к высокому уровню ошибок.

Недостаточное обучение персонала

Наконец, недостаточное обучение персонала может быть причиной высокого уровня ошибок в Zabbix. Если администраторы или операторы недостаточно знакомы с функциональностью и возможностями системы, они могут допускать ошибки при настройке и управлении мониторингом.

В целом, для снижения уровня ошибок в Zabbix необходимо правильно настроить систему, обеспечить достаточные ресурсы, решить сетевые проблемы, обратить внимание на мониторируемые объекты, использовать актуальную версию Zabbix, настроить уведомления и обеспечить полный мониторинг важных метрик

Также, важно обучить персонал, чтобы они могли эффективно управлять системой и быстро реагировать на проблемы

Zabbix различные сообщения об ошибках и обнаруженные проблемы (постоянное обновление)

1. Zabbix alarm icmp pinger обрабатывает более 75% занятости

2、zabbix unreachable poller processes more than 75 busy Недостижимые процессы опроса были в состоянии занятости. Что это означает? Проверьте внутренние процессы zabbix и недоступный опросчик-опрос на наличие недоступных устройств для опроса недоступных устройств.

Возможная ситуация: 1. Устройство, которое собирает данные через Zabbix-агент, находится в состоянии мониторинга, но происходит сбой машины или другие причины, в результате чего агент zabbix умирает, и сервер не может получить данные, и в это время активируется недоступный опросчик . 2. Устройство, которое собирает данные через Zabbix-агент, находится в состоянии мониторинга, но серверу требуется слишком много времени для получения данных от агента, часто превышающее время ожидания, установленное сервером, и количество недоступных опросчиков увеличится в это время .

3. MySQL, поддерживающий Zabbix, зависает, может зависнуть ввод-вывод Zabbix сервера, и процесс Zabbix может быть выделен для недостаточной памяти.

Простой метод — увеличить количество процессов, инициализируемых при запуске Zabbix Server, что напрямую увеличивает нагрузку на опрос и пропорционально сокращает количество загруженных ситуаций.

3、Zabbix alerter processes more than 75% busy Получены сотни предупреждений zabbix: Zabbix alerter processes more than 75% busy

Возможные причины: проблема с базой данных zabbix IO загрузка сервера zabbix У процесса zabbix недостаточно выделенной памяти Сетевая задержка или сбой

Подходить:

4. Служба zabbix-server зависает, а после запуска автоматически останавливается, а в журнале ниже много ошибок

Zabbix value cache working in low memory mode Less than 25% free in the configuration cache

5. Журнал zabbix-сервера сообщает об ошибке, в которой говорится, что соединение с базой данных ‘zabbix’ не удалось: Ошибка слишком большого количества подключений, mariadb в норме. Я думаю, это должна быть проблема максимального количества подключений MySQL.

Ссылка для изменения максимального количества подключений mysql: http://blog.51cto.com/net881004/2089198

6. Аварийный сигнал запрашивает более 100 элементов с отсутствующими данными более 10 минут, а опросчик Zabbix обрабатывает более 75% ошибок занятости.

Измените файл конфигурации, чтобы увеличить количество потоков и кеш

7. Есть много журналов сервера, первая сетевая ошибка, подождите 15 секунд, ошибка

В файле конфигурации сервера Timeout time был изменен на большее значение, я изменил его на 30s.

8. Zabbix alarms «Zabbix poller обрабатывает более 75% занятости»(Нетизены) Причина предупреждения: 1. Процесс завис, 2. Слишком много сбоев в процессе зомби, что привело к замедлению 3. Сетевая задержка (можно игнорировать) 4. zabbix потребляет больше памяти

Предупреждение об опасности: Общее предупреждение, на данный момент вреда нет (но лучше с ним разобраться)

Метод обработки: Первое: просто и грубо (перезапуск zabbix-сервера может использоваться в сочетании с задачами синхронизации) service zabbix-server restart crontab -e вызывает план в редакторе Cron: @daily service zabbix-server restart > /dev/null 2>&1

2: отредактируйте файл конфигурации Zabbix Server /etc/zabbix/zabbix_server.conf и найдите параграф, который настраивает StartPollers: ### Option: StartPollers # Number of pre-forked instances of pollers. # # Mandatory: no # Range: 0-1000 # Default: # StartPollers=5 Раскомментируйте строку StartPollers = или добавьте ее напрямую: StartPollers=10 Количество измененных StartPollers зависит от производительности сервера и количества наблюдений. После установки StartPollers на 12 аварийных сигналов не обнаружено. Если памяти достаточно, ее можно установить выше.

Поскольку конфигурация zabbix была оптимизирована ранее, я думаю, что это не должно быть проблемой с конфигурацией zabbix. Это может быть вызвано отключением или задержкой сети, в которой в это время находится zabbix (после подтверждения сеть в компьютерном зале была отключена на 2 часа, и эти сообщения тревоги были отправлены после восстановления). Похоже, нам нужно контролировать сам сервер zabbix в удаленном месте, и успеть посмотреть на nagios.

Источник

Понравилась статья? Поделиться с друзьями:
Все на Запад
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: