Система мониторинга ИТ-сервисов

Назначение

Современный бизнес все сильнее и сильнее зависит от информационных технологий. Как результат, качество услуг, предоставляемых ИТ подразделениями, становится жизненно важным. Обеспечение качества невозожно без его постоянного контроля, и для решения этой задачи был создан новый класс систем – системы мониторинга.


Система мониторинга KP3100EX представляет собой автономный программно-аппаратный комплекс, не требующий обслуживания, и обеспечивающий непрерывный контроль качества предоставляемых ИТ-службой сервисов, и, в случае обнаружения проблемы, ее немедленную эскалацию.

 

Особенности

Система построена по зонтичной архитектуре с реализацией как PUSH, так и PULL- механизмов контроля. Основой системы является диспетчерское ядро, дополненное модулями, обеспечивающими непосредственный контроль технических параметров.



Отличительной особенностью системы является отсутствие необходимости в обслуживании – после настройки она функционирует абсолютно автономно и не требует регулярного техобслуживания.



Важным фактором, позволяющим нам предлагать столь эффективное по цене решение, является широкое использование ПО с открытым исходным кодом (Open Source Software), доказавшего свою эффективность и жизнеспособность в крупнейших датацентрах мира.

 

Состав системы

Система построена по модульному принципу, что позволяет создавать комплексы под различные задачи - от контроля серверной комнаты малого предприятия до контроля работоспособности всего ИТ-хозяйства крупного холдинга.

 

 

 

Основные модули:

  • Диспетчерский модуль определяет перечень контролируемых показателей и периодичность их проверки.
  • Модуль отчетности генерирует отчеты о качестве оказанных ИТ услуг (процент доступности сервисов, количество инцидентов за период и т.д.)
  • Модуль уведомления позволяет немедленно уведомлять ответственных сотрудников с помощью SMS и электронной почты.

 

 

 

Дополнительные модули:

  • Модуль контроля прикладных систем позволяет контролировать состояние бизнес процессов с помощью анализа информации, доступной из базы данных приложения.
  • Модуль контроля СУБД контролирует состояние и основные параметры реляционных СУБД, таких как MS SQL и Oracle.
  • Модуль контроля серверов – контролируются наиболее важные параметры серверов, такие как загрузка CPU и RAM, количество свободного места на дисках, запущенные процессы и сервисы
  • Модуль контроля Storage систем контролирует состояние дисковых массивов и дисков, состояние батарей и вентиляторов.
  • Модуль контроля систем резервного копирования контролирует наличие всех запланированных резервных копий, статус оборудования резервного копирования
  • Модуль контроля рабочих станций – контролируются наиболее важные параметры рабочих станций (активный пользователь, запущенные приложения, место на диске и т.п)
  • Модуль контроля СКС и ЛВС – контроль качества кабельных каналов и доступность активного сетевого оборудования
  • Модуль контроля окружающей среды – контроль таких параметров, как влажность, температура, шум, задымление, затопление, контроль датчиков физического доступа
  • Графический модуль позволяет в наглядном виде отражать текущее состояние на географических картах, поэтажных планах, схемах серверных помещений и т.п.

 

Характеристики комплекса мониторинга KP3100EX

 

Общие параметры:

  • централизованный контроль и мониторинг показателей оборудования и программного обеспечения, установленного в локальной сети, в том числе мониторинг загрузки ресурсов и производительности;
  • доступ к средствам мониторинга и управления через WEB интерфейс с рабочей станции администратора;
  • возможность просмотра в хронологическом порядке событий, предшествующих инциденту;
  • анализ корреляции событий на основе топологической информации (RCA - root cause analysis);
  • возможность разграничения прав доступа операторов;
  • передача сообщений о сбоях в центральную систему обработки событий
  • оповещение операторов и ответственных лиц о событиях через электронную почту и SMS
  • возможность интеграции с системами автоматизации Help Desk (Service Desk): для выявляемых программным обеспечением мониторинга аварий возможно автоматически формировать наряды на устранение аварии сервисной службой
  • полная поддержка мониторинга распределенных систем.
  • используя данные, собираемые агентами модуля мониторинга и управления серверами и приложениями, комплекс производит:
    • автоматизированный анализ тенденций и создание отчетов по показателям производительности;
    • выделение назревающих проблем до того, как они негативно повлияют на уровень обслуживания;
    • предупреждение о непредвиденной нехватке ресурсов;
    • ускорение цикла обнаружения проблем;
  • Для всех контролируемых параметров отслеживаемых систем:
    • определяются граничные значения, превышение которых считается критичным;
    • имеется набор готовых ситуаций (пороговых значений мониторинга, правил их сопоставления с данными мониторинга, правил уведомлений);
    • при наличии одновременного наличия нескольких критичных превышений система мониторинга производит автоматический поиск первопричины аварии, и блокирует «ложные срабатывания».

 

Контроль аппаратной части серверов:

  • инвентаризационные данные аппаратуры: серийные номера серверов, жестких дисков, устройств расширения (контроллеров), объем установленной оперативной памяти;
  • состояние сервера (включен/выключен), выходные напряжения блоков питания, температуры, состояния датчиков открытия крышек корпуса, обороты вентиляторов;

 

Контроль операционных систем:

  • контроль параметров операционных систем (IBM AIX, Linux for x86, SUSE Linux, Microsoft Windows) и работающих процессов:
    • доступность сетевых сервисов, предоставляемых данным сервером,
    • активность процессов, которые должны выполняться в системе, включая контроль наличия обязательных процессов и контроль отсутствия запрещенных процессов, список подключенных пользователей,
    • текущие характеристики подсистемы памяти, включая количество страниц pgin/pgout за отчетный период, размер используемой виртуальной и физической памяти,
    • процент загрузки процессоров,
    • контроль внеплановых перезагрузок операционной системы,
    • размер свободного места на дисках,
    • процент загрузки дисковой подсистемы, включая количество IPS и OPS за отчетный интервал;
  • контроль над удаленной системой; выполнение команд и запуск приложений (активный режим монитора);
  • просмотр экранов на удаленных системах и мониторинг деятельности (пассивный режим монитора);
  • возможность перезагрузки удаленной рабочей станции, сервера, операционной системы, виртуальной машины;
  • возможность обмена сообщениями - режим обмена сообщениями с выбранным объектом;
  • возможность обмена файлами - отправка и/или получение файлов/каталогов;
  • возможность и наличие средств записи и воспроизведения сессии;
  • средства регистрации событий в ОС и средства построения отчетов по результатам мониторинга;

 

Контроль состояния систем хранения:

  • (включен/выключен),
  • наличие сбоя или отказа,
  • значения датчиков температуры,
  • исправность вентиляторов, состояние контроллеров,
  • статус исправности отдельных дисков,
  • статус консистентности массивов;

 

Контроль ленточных библиотек:

  • контроль наличия ошибок ввода-вывода,
  • контроль состояния компонент системы.

 

Контроль сетевого оборудования:

  • контроль состояния сбоя или отказа, состояние вентиляторов;
  • для всего доступного по ЛВС оборудования, включая серверы, системы хранения, активное сетевое оборудование, системы архивирования: наличие отклика интерфейса по сети (ICMP), время прохождения пакета, процент потерь пакетов;
  • мониторинг состояния активного сетевого оборудования и критичного к сбою оборудования сетевой инфраструктуры, включая поддерживающие SNMP протокол источники бесперебойного питания;
  • построение и отображение топологических карт сети на рабочей станции администратора или оператора при помощи WEB интерфейса в стандартном браузере Интернет;
  • активный мониторинг состояния активного сетевого оборудования и устройств через активный опрос сетевой инфраструктуры по протоколам ICMP, SNMP v1, SNMP v2, SNMP v3;
  • пассивный мониторинг состояния активного сетевого оборудования и устройств через SNMP прерывания (SNMP traps) и сообщения протокола SYSLOG;

 

Контроль источников бесперебойного питания:

  • контроль процента заряда батареи,
  • наличие сбоя или отказа,
  • температура батареи и окружающей среды,
  • факт работы от батаре.

 

Контроль веб-серверов:

  • контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов)
  • контроль количества одновременно открытых сессий,
  • контроль времени формирования заданного набора страниц,
  • контроль объема виртуальной памяти, занимаемой веб-сервером.

 

Контроль серверов баз данных:

  • контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов)
  • контроль проведения последнего резервного копирования, отклик сервера на команды подключения, выборки и изменения данных, количество невалидных объектов в базах;
  • набор агентов для баз данных Oracle, MS SQL Server, IBM DB2.

 

Контроль почтовых серверов:

  • контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов)
  • мониторинг и управление промышленными системами почты
  • отслеживание прохождения почтовых сообщений (тестовые сообщения)

 

Контроль серверов резервного копирования:

  • контроль активности процессов (включая контроль по заданным признакам с помощью специализированных скриптов);
  • контроль на наличие ошибок;
  • контроль состояния всех пулов хранения, состояние ленточных томов, количество свободного места в пулах хранения;
  • контроль наличия запросов от системы резервного копирования.

 

Диспетчерский модуль:

  • система обработки, реагирования и корреляции событий;
  • централизованная обработка и корреляция аварийных сообщений, поступающих от разнородных источников, включая оборудование и управляющие программы различных производителей;
  • хранение исторических данных модуля с использованием реляционных СУБД или других средств хранения информации;
  • передача информации о сбоях, в том числе поступившей из других подсистем в подсистему диспетчерской службы;
  • возможность организовывать двухсторонний информационный обмен с внешними системами;
  • полнофункциональный графический WEB интерфейс администраторов и операторов;
  • немедленная визуализация в виде графиков или диаграмм текущих значений параметров контролируемой подсистемы по контексту произошедшего события;
  • централизованное конфигурирование и распространение параметров и настроек мониторинга;
  • штатная поддержка агентами мониторинга возможности контроля параметров доступных по протоколам и интерфейсам: SNMP, Microsoft WMI, Perfmon и Eventlog, ODBC (SQL запросы), HTTP (доступность и время отклика);
  • анализ тенденций и создание отчетов о доступности и производительности ресурсов;