IT-servisu monitoringa sistēma

Uzdevums

 

Mūsdienu bizness arvien vairāk ir atkarīgs no informācijas tehnoloģijām. Rezultātā, pakalpojumu kvalitāte, ko sniedz IT apakšvienības, kļūst vitāli svarīga. Kvalitātes nodrošināšana nav iespējama bez tās pastāvīgas kontroles, un šī uzdevuma atrisināšanai tika radīta jauna sistēmas klase – monitoringa sistēma.


Monitoringa sistēma KP3100EX ir autonoms programmu-aparātu komplekss, kam nav nepieciešama apkalpošana, kas nodrošina nepārtrauktu IT-dienestu sniedzamo servisa pakalpojumu kvalitātes kontroli, un gadījumā, ja tiek atklātas problēmas, to nekavējošu eskalāciju.

 

Īpatnības

 

Sistēma veidota pēc jumta arhitektūras, gan ar PUSH, gan ar PULL kontroles mehānismiem. Sistēmas pamatā ir dispečeru kodols, papildināts ar moduļiem, kas nodrošina tiešu tehnisko parametru kontroli.

 
Sistēmas atšķirīgā īpatnība ir tāda, ka nav nepieciešama apkalpošana – pēc iestatīšanas tā funkcionē absolūti autonomi un tai nav vajadzīga regulāra tehniskā apkope.


Svarīgs faktors, kas ļauj mums piedāvāt tik efektīvu risinājumu par saprātīgu cenu, ir plaša PI (programmu iekārtu) izmantošana ar atvērtu izejas kodu (Open Source Software), kas pierādījis savu efektivitāti un dzīvotspēju lielākajos pasaules datu centros.

 

Sistēmas sastāvs

 

Sistēma būvēta pēc moduļu principa, kas ļauj veidot kompleksus dažādiem uzdevumiem – no maza uzņēmuma servera telpas līdz liela holdinga visas IT saimniecības darbspēju kontrolei

 

 

 

Galvenie moduļi:

 

  • Dispečeru modulis nosaka kontrolējamo rādītāju sarakstu un to pārbaudes periodiskumu.
  • Atskaišu modulis ģenerē atskaites par IT sniegto pakalpojumu kvalitāti (serveru pieejamības procents, negadījumu daudzums par laika periodu u.t.t.)
  • Paziņošanas modulis ļauj nekavējoties paziņot atbildīgajiem darbiniekiem ar SMS un elektroniskā pasta palīdzību

 

 

 

 

Papildus moduļi:

 

  • Lietotāju programmu sistēmas kontroles modulis ļauj kontrolēt biznesa procesu stāvokli ar informācijas analīzes palīdzību, kas pieejama no lietojumprogrammu datu bāzes.
  • DBVS kontroles modulis kontrolē relācijas DBVS stāvokli un galvenos parametrus, tādām datubāzēm kā MS SQL un Oracle.
  • Serveru kontroles modulis – kontrolē pašus svarīgākos serveru parametrus, tādus kā CPU un RAM ielādes, brīvu vietu daudzumu diskos, instalētos procesus un servisus.
  • Kontroles modulis Storage sistēma kontrolē disku masīvu un disku stāvokli, bateriju un ventilatoru stāvokli.
  • Rezerves kopēšanas sistēmas kontroles modulis kontrolē visu plānoto rezerves kopiju esamību, rezerves kopēšanas iekārtas statusu.
  • Darba stacijas kontroles modulis – kontrolē pašus svarīgākos darba staciju parametrus (aktīvo lietotāju, instalētās pārlūkprogrammas, vietas uz diska u.t.t.)
  • Kontroles modulis SCS un LAN – kontrolē kabeļu kanālu kvalitāti un aktīvo tīkla iekārtu pieejamību.
  • Apkārtējās vides kontroles modulis – tādu parametru kontrole, kā mitrums, temperatūra, troksnis, piedūmojums, applūšana, fiziskās piekļuves sensoru kontrole.
  • Grafiskais modulis ļauj uzskatāmā veidā atspoguļot pašreizējo stāvokli uz ģeogrāfiskām kartēm, stāvu plānos, servera telpu shēmās u.t.t.

 

Monitoringa kompleksa raksturojums - KP3100EX

 

Vispārējie parametri:

 

  • iekārtu un programmu nodrošinājuma rādītāju centralizēta kontrole un monitorings, kas uzstādīti lokālajā tīklā, tai skaitā resursu ielādes un produktivitātes monitorings;
  • pieeja monitoringa līdzekļiem un vadība caur WEB interfeisu no administratora darba stacijas;
  • notikumu aplūkošanas iespējas hronoloģiskā secībā, kas notikuši pirms incidenta;
  • notikumu korelācijas analīze uz topoloģiskās informācijas pamata (RCA - root cause analysis);
  • iespēja nodalīt operatoru piekļuves tiesības;
  • paziņojumu pārraidīšana par bojājumiem uz centrālo notikumu apstrādes sistēmu;
  • paziņošana operatoriem un atbildīgajām personām par notikumiem, ar SMS un elektroniskā pasta palīdzību;
  • integrācijas iespējas ar automatizācijas sistēmām Help Desk (Service Desk): lai programmu nodrošinājuma monitoringa atklāto avāriju, iespējams automātiski veidot rīkojumus servisa dienestam avāriju likvidēšanai;
  • dalīto sistēmu pilns monitoringa atbalsts.
  • izmantojot datus, ko ievākuši moduļa monitoringa un servera un pārlūkprogrammu vadības aģenti, komplekss veic:
    • tendenču automatizēto analīzi un atskaišu veidošanu pēc produktivitātes rādītājiem;
    • briestošo problēmu atklāšanu pirms tās negatīvi ietekmē apkalpošanas līmeni;
    • brīdinājums par neparedzētu resursu nepietiekamību;
    • problēmu atklāšanas cikla paātrināšana;
  • Visiem apsekojamo sistēmu kontrolējamiem parametriem:
    • nosaka robežlielumus, kuru pārsniegšana tiek uzskatīta par kritisku;
    • ir gatavu situāciju komplekts (monitoringa sliekšņa lielums, to salīdzināšanas noteikumi ar monitoringa datiem, paziņojumu noteikumi);
    • pie vairāku vienlaicīgu kritisku pārsniegumu parādīšanās, monitoringa sistēma veic automātisko avārijas sākuma iemeslu un bloķē „viltus nostrādāšanu”.

 

 

Serveru aparātu daļas kontrole:

  • aparatūras inventarizācijas dati: serveru, cieto disku, paplašināšanas ierīču (kontrolleru) sērijas numuri, uzstādītās operatīvās atmiņas apjoms;
  • servera stāvoklis (ieslēgts/izslēgts), barošanas bloku izejas spriegumi, temperatūra, korpusa vāciņa atvēršanas sensoru stāvoklis, ventilatoru apgriezieni;

 

 

 

Operētājsistēmu kontrole:

  • parametru kontrole operētājsistēmām (IBM AIX, Linux for x86, SUSE Linux, Microsoft Windows) un strādājošiem procesoriem: attālinātas sistēmas kontrole; komandu pildīšana un pārlūkprogrammas palaišana (aktīvs monitoringa režīms); ekrānu pārlūkošana attālinātām sistēmām un darbības monitorings (pasīvs monitora režīms);
    • tīkla servisu pieejamība, ko sniedz dotais serveris,
    • procesu aktivitāte, kas jāpilda sistēmā, ieskaitot obligāto procesu esamības kontroli un aizliegto procesu nepastāvēšanas kontroli, pieslēgto lietotāju saraksts,
    • atmiņas uzskaites pastāvošie parametri, ieskaitot lappušu skaitu pgin/pgout par atskaites periodu, izmantojamās virtuālās un fiziskās atmiņas apjoms,
    • procesoru procentuālā slodze,
    • neplānoto operētājsistēmas pārstartēšanas kontrole,
    • brīvo vietu apjoms diskos,
    • disku apakšsistēmas lejupielādes procents, ieskaitot IPS un OPS daudzumu atskaites intervālā;
  • attālinātas darba stacijas, servera, operētājsistēmas, virtuālās mašīnas pārstartēšanas iespēja;
  • paziņojumu apmaiņas iespējas – paziņojumu apmaiņas režīms ar izvēlēto objektu;

 

 

Glabāšanas sistēmu stāvokļa kontrole:

  • (ieslēgts/izslēgts),
  • kļūdas vai atteikuma esamība,
  • temperatūras sensoru rādītāji,
  • ventilatoru tehniskais stāvoklis, kontrolleru stāvoklis,
  • atsevišķu disku tehniskā stāvokļa statuss,
  • masīvu atbilstības statuss;

 

 

Lenšu bibliotēkas kontrole:

  • ieejas-izejas kļūdu esamības kontrole,
  • sistēmas komponenšu stāvokļa kontrole.

 

 

Tīkla iekārtu kontrole:

  • kļūdas vai atteikuma stāvokļa kontrole, ventilatoru stāvoklis;
  • visām pēc LAN pieejamām iekārtām, ieskaitot serverus, glabāšanas sistēmas, aktīvās tīkla iekārtas, arhivēšanas sistēmas: interfeisa atbildes pa tīklu (ICMP) esamība, paketes iziešanas laiks, pakešu zaudējuma procents;
  • aktīvo un kritisko tīkla iekārtu stāvokļa monitorings uz tīkla infrastruktūras iekārtu kļūdām, ieskaitot SNMP atbalstošo protokolu nepārtrauktās barošanas avotus;
  • tīkla topoloģisko karšu veidošana un attēlošana uz administratora vai operatora darba stacijas ar WEB interfeisa palīdzību Interneta standarta pārlūkprogrammā;
  • aktīvais tīkla iekārtu un ierīču stāvokļa monitorings ar tīkla infrastruktūras aktīvu aptauju pēc protokoliem ICMP, SNMP v1, SNMP v2, SNMP v3;
  • pasīvais tīkla iekārtu un ierīču stāvokļa monitorings caur SNMP pārtraukšanu (SNMP traps) un protokola SYSLOG paziņojumi;

 

 

Nepārtrauktas barošanas avotu kontrole:

  • baterijas uzlādes procenta kontrole,
  • kļūdas vai atteikuma esamība,
  • baterijas un apkārtējās vides temperatūra,
  • darba fakts no baterijas.

 

 

Web-serveru kontrole:

  • procesa aktivitātes kontrole (ieskaitot kontroli pēc uzdotām pazīmēm ar specializētu skriptu palīdzību),
  • vienlaikus atvērtu sesiju daudzuma kontrole,
  • uzdotā lappušu kopuma veidošanas laika kontrole,
  • virtuālās atmiņas, ko aizņem Web-serveris, apjoma kontrole.

 

 

Datu bāzes serveru kontrole:

  • procesu aktivitātes kontrole (ieskaitot kontroli pēc uzdotām pazīmēm ar specializētu skriptu palīdzību);
  • pēdējās rezerves kopēšanas veikšanas pārbaude, servera atsaukšanās uz pieslēgšanas komandām, paraugi un datu izmaiņas, nederīgo objektu daudzums bāzēs;
  • aģentu komplekts datu bāzēm Oracle, MS SQL Server, IBM DB2.


Pasta serveru kontrole:

  • procesu aktivitātes kontrole (ieskaitot kontroli pēc uzdotām pazīmēm ar specializētu skriptu palīdzību);
  • pasta rūpniecisko sistēmu monitorings un vadība;
  • pasta paziņojumu kustības izsekošana (testa paziņojumi).

 

 

Rezerves kopēšanas serveru kontrole:

  • procesu aktivitātes kontrole (ieskaitot kontroli pēc uzdotām pazīmēm ar specializētu skriptu palīdzību);
  • kļūdu esamības kontrole;
  • visu glabāšanas ierīču stāvokļa kontrole, lenšu apjoma stāvoklis, brīvu vietu daudzums uzglabāšanas iekārtās;
  • pieprasījumu kontrole no rezerves kopēšanas sistēmas.

 

 

Dispečeru modulis:

  • apstrādes, reaģēšanas un notikumu korelācijas sistēma;
  • centralizēta avārijas notikumu apstrāde un korelācija, kas ienāk no dažāda veida avotiem, ieskaitot iekārtas un vadības programmas no dažādiem ražotājiem;
  • moduļa vēsturisko datu glabāšana izmantojot DBVS vai citus informācijas glabāšanas līdzekļus;
  • informācijas par kļūdām pārraide, tai skaitā tādu, kas ienākušas no citām apakšsistēmām dispečeru dienesta apakšsistēmā;
  • iespēja organizēt divpusēju informācijas apmaiņu ar ārējām sistēmām;
  • pilnas funkcijas grafiskais administratoru un operatoru WEB interfeiss;
  • tūlītēja vizualizācija grafiku vai pašreizējo parametru rādītāju diagrammu veidā no kontrolējamām apakšsistēmām pēc notikušā notikuma konteksta;
  • centralizētā konfigurācija un monitoringa iestatījumu parametru izplatīšana;
  • aģentu atbalsts monitoringam par parametru kontroles iespējām, kas pieejamas no protokoliem un interfeisiem: SNMP, Microsoft WMI, Perfmon un Eventlog, ODBC (SQL pieprasījumi), HTTP (pieejamība un atsaukšanās laiks);
  • tendenču analīze un atskaišu veidošanu par pieejamību un resursu produktivitāti;