Überwachung eines Wasseranlagenkomplexes

Was die Überwachung von Spezialsystemen angeht, gilt in unserem Monitoring-Team der Grundsatz:  „Hat das System eine Schnittstelle nach außen? – Dann ist es auch überwachbar!“

Hintergrund

Ausgangspunkt der Überwachung. Ein simples Postfach welches per IMAP ansteuerbar ist

So wurde vor kurzem eine Kundenanfrage an unsere Monitoring-Spezialisten gestellt, inwieweit die Monitoring Solution einen hoch kritischen Wasseranlagen-Komplex überwachen kann. Bekannte Schnittstellen wie SNMP, REST oder andere Formen von APIs sind nicht bekannt. Zudem gehören zu diesem Komplex mehrere wichtige Systeme, die unter anderem zur Filtration, Desinfektion, Elektrodeionisation, speziellen Membranverfahren oder auch dem Weichwasser- und Ionentausch des lokalen Wassersystems dienen. Hier ist also höchste Verlässlichkeit und Schnelligkeit seitens Monitoring gefragt.

Nach kurzen Recherchearbeiten und Gesprächen mit dem Kunden wurde festgestellt. dass wohl nur ein simpler Mailversand der Anlage verfügbar ist, der die rohen Maschinen-Status derzeit noch an eine festgesetzte Mailadresse versendet. Der hier hinterlegte Service-Techniker musste bisher die Auswertung von Dringlichkeit, Priorität und das Problem selbst über eine komplexe Liste selbst ermitteln. Bevor er die Situation überhaupt einschätzen und eine dementsprechende Eskalation beginnen konnte, ist hier bereits viel organisatorische Zeit in standardisierten Vorgehensweisen verloren gegangen.

Technischer Aspekt

Da die einzige Schnittstelle zu der Anlage selbst, die bereits beschriebene Mail-Alarmierung war, musste hier eine Lösung integriert werden die an diese andockt. So wurde ein spezielles Postfach eingerichtet, an das die Wasseranlage die Status-Mails sendet und ein Checkskript geschrieben, welches die Verwaltung dieses Postfach eigenständig übernimmt. Über eindeutige IDs und Statuscodes innerhalb des Mailinhalts wird der aktuelle Stand des Problems ermittelt. Hat sich dieses bereits selbst behoben, so wird keine Problemmeldung durch den Check gemeldet, jedoch eine reine Information zum Prozessstatus ausgegeben.

Die zugehörigen Mails werden dann systematisch archiviert und die neuste Mail, zur Ausgabe des letzten bekannten Status, in einem Cache vorgehalten, bis diese durch eine neue Mail der Anlage abgelöst wird.

Integrationsarbeit

In der MoSo führen diese Features zu einer übersichtlichen Anzeige des zuletzt bekannten Status eines Fehlercodes mit zeitlicher Zuordnung, bzw. ob zu diesem Fehlercode überhaupt jemals eine Mail empfangen wurde. Den Inhalt der zuletzt gefunden Mail finden Sie einfach in der erweiterten Ausgabe der Checks:

Die bereits erwähnte Prioritäts- und Zugehörigkeits-Liste wurde komplett über die Features der MoSo integriert. So besitzen die Services – die sich im Übrigen auf die Auswertung von jeweils einem speziellen Problemcode beziehen – die in der Liste dokumentierte Priorität von 1 (hoch kritisch) bis 3 (weniger kritisch). Zusätzlich wurden die Services an virtuelle Hosts gebunden, um die Problemcodes den einzelnen Systemen der Wasseranlage zuzuordnen und schließlich die Service-Beschreibungen um eine Menschen-lesbare Kennung erweitert. So sehen Sie direkt, welcher Problemcode eine hohe Priorität genießt, ganz davon abgesehen das Sie nach diesen Gruppierungen Ihre Alarmierung aufbauen können.

Die Problemcodes des LOOPO Systems. Hier ist direkt ersichtlich, dass Code 405 höchste Beachtung genießt

Unerwartete Probleme

Was jedoch bei zunehmender Anzahl an Checks aufgefallen ist, waren die sporadischen Check-Probleme und dementsprechenden Unknowns in der Oberfläche. Hier musste mit den Exchange-Spezialisten von S&L zusammengearbeitet werden, um die Verbindungsprobleme ausfindig zu machen.  So wurde herausgefunden, dass der verwendete Exchange 2010 maximal 16 parallele IMAP-Verbindungen auf ein Postfach zulässt. Bei den 51 vorhandenen Checks verursachte dies hier den entsprechenden Fehler.

Nach erfolgter Anpassung beruhigte sich die Situation im Monitoring auch wieder. Auch bei solchen speziellen Anforderungen zahlt es sich demnach aus einen Spezialisten für jedes Produkt zu haben. Eine andere Lösung, die hier möglich gewesen wäre, stellte den kompletten Umbau des Checkskripts um ein Handling für die parallelen Verbindungen dar. Dies hätte jedoch den Aufwand um ein vielfaches erhöht.

Die global vorhandenen Services, sortiert nach Priorität

Analyse und Logging

Historische Auswertungen von zeitlichen Verläufen eines Problemstatus können Sie über die Event-Logs der MoSo einfach einsehen und filtern. Im Speziellen können Sie den Zeitpunkt von Problemaufkommen, über die Quittierung, bis zur Behebung des Problems nachschlagen und in gewohnten Formaten, wie CSV oder auch XML zur Archivierung exportieren.

Möchten Sie ebenfalls prüfen, ob die Service- oder Hostbezogene Benachrichtigung/Eskalation die gewünschte Form der Alarmierung ausgelöst hat, ist dies hier natürlich auch möglich. So ergänzt die MoSo die simple Basis einer „Postfach-Überwachung“ um die Möglichkeit der Auswertung von historischen Daten, Statusverläufen, und komplex konfigurierbaren Eskalationsschritten.

Reporting

Ebenfalls haben Sie über die Reporting-Funktionen der MoSo, die Möglichkeit Ausfallzeiten zu ermitteln und dementsprechend Statistiken zu erheben, was dann noch gesteigert werden kann. Die optionalen Erweiterungen Buisness Acitivity Monitoring (BAM) und Monitoring Business Intelligence (MBI) der Firma Centreon bieten Ihnen hier noch erweiterte Funktionen, bspw. zur Erstellung von automatisierten Reports (in frei konfigurierbaren Report-Designs), Ermittlung von Zukunftsprognosen und Tendenzen, wie auch der spezifischen Konfiguration von Business Acitivities mit deren frei konfigurierbaren „Impacts“.

Ansicht des Reporting Dashboards der MoSo

Weiterführende Links

https://documentation.centreon.com/docs/centreon-bi-2/en/latest/about.html → Informationen

https://documentation.centreon.com/docs/centreon-bi-2/en/latest/_downloads/00_Centreon-BI-Samples-of-Reports.pdf → Beispiel Reports

https://www.centreon.com/solution/centreon-bam-business-activity-monitoring/ → Centreon BAM Produktseite

https://www.centreon.com/solution/centreon-mbi-monitoring-business-intelligence/ → Centreon MBI Produktseite