Client-Monitoring beim Maschinenbauer Festo
Anwenderzufriedenheit hängt vom Systemverhalten am Client ab. Der Automatisierungstechnik-Spezialist Festo hat die Konsequenzen gezogen.
Die Server-Kollegen signalisieren Grün. Die Netzwerker melden: Keine Störung. Aber der Anwender auf der anderen Seite der Weltkugel sieht Rot. Diese Erfahrung machte bisweilen auch die Festo AG & Co. KG mit Stammsitz in Esslingen-Berkheim. Vondort stellt die Festo-IT zentral ihre Services für die internationalen Anwender bereit. Und von dort aus wirdein Netz betrieben, das auch die 10.000 Kilometer entfernten Standorte in China und Brasilien einschließt.
Worauf das Projekt abzielte
Zeitverschiebung und Sprachenvielfalt machen den IT-Support nicht einfacher. Hinzu kommen kulturelle Unterschiede: Der deutsche Anwender im Büro nebenan gibt dem Support schnell und direkt Feedback, wenn mal etwas nicht läuft. „Die Hemmschwelle für eine Beschwerde liegt in anderen Kulturen deutlich höher“, weiß Matthias Schmidt, Leiter Information Management Workplace Services bei Festo. Und dann ist da noch das eingangs beschriebene Phänomen: Die Anwender klagen über schlechte Performance, geringe Bandbreiten oder Fehlverhalten der Clients, obschon im Rechenzentrum und Netzbereich alle Dienstleistungen gemäß Service-Level-Agreements erbracht werden. „Wenn ein Service vollständig verfügbar ist, heißt das noch lange nicht, dass er optimal abgerufen werden kann“, erläutert Helmut Claß, Leiter User Services bei Festo.
Während im Backend der Zustand der Systeme quasi lückenlos feststellbar ist, erweist sich ein umfassender Gesundheitscheck der Client-Landschaft als umständlich bis unmöglich. Tools liefern vielfältige Informationen darüber, mit welcher Hard- und Software ein Arbeitsplatz ausgestattet ist. Doch hinsichtlich Verhalten, Performance und Stabilität ist der Client der große Unbekannte. Es galt also, neue Verfahren und Lösungen zu entwickeln, um Performance-Probleme und Verhaltensauffälligkeiten in der Client-Landschaft frühzeitig gemeldet zu bekommen – idealerweise, bevor der Nutzer die Probleme überhaupt bemerkt.

Welche Ansätze nicht funktionieren
Sicher kann man manuell Informationen aus diversen Log- und Konfigurations-Files sammeln oder die Anwender befragen. Aber das ist umständlich und zeitaufwendig – besonders dann, wenn die Störung nicht dauerhaft auftritt; der Anwender spricht dann beispielsweise allgemein von „Performance-Problemen“, Verbindungsabbrüchen oder Bluescreens. „Die Informationen, die nötig wären, um das Problem nachzuvollziehen, sind häufig unzureichend“, weiß Alexander Mack, Mitglied des Projektteams bei Festo: „Eine Ursachenforschung ist damit fast unmöglich.“
Man kann auch ein Data Warehouse aufbauen, das bei einer übergreifenden Analyse der Informationen aus
unterschiedlichen Systemen (Netz-Monitoring, Virenscanner, Software-Management etc.) hilft. Auch das ist
komplex und aufwendig. Eine Programmierung von Robotern für automatisierte Standardprüfungen am Client kam ebenfalls nicht in Betracht. Für solche Routinetests muss es zumindest eine Ursachenvermutung geben. „Ein Perspektivenwechsel war notwendig“, so Mack: Client- und Netzwerkverfügbarkeit sollten aus der Sicht des Anwenders betrachtet werden und dazu brauchte man eine Lösung, die fortlaufend Informationen über Aktivitäten auf Unregelmäßigkeiten analysierte – analog zu den Monitoring-Lösungen im Server-Bereich.
Wie der Lösungsansatz aussah
Eine solche Lösung suchten die Festo-ITler gemeinsam mit dem Beratungshaus Consulting4IT aus Waldbronn. Das brachte die Client-Monitoring-Lösung des Schweizer Softwareanbieters Nexthink ins Spiel: Deren Kollektor, ein passiver Treiber mit 500 KB Speicherbedarf, analysiert die IT-Services direkt beim Anwender, erkennt Verbindungen und Ziele, überwacht live alle wesentlichen Ereignisse, also Ressourcenverbrauch, Crashes, Bandbreiten, Fehler etc. „Wir waren skeptisch“, räumt Workplace-Manager Schmidt ein: „Das Thema Client-Monitoring im Allgemeinen steckte noch in den Kinderschuhen. Zudem war Nexthink im deutschen Markt weitestgehend unbekannt. Ohne einen Ansprechpartner in greifbarer Nähe hätten wir weiteren Schritten nicht zugestimmt.“
Wie das Vorhaben ablief
Im Januar 2013 stellte Consulting4IT die Lösung vor. Festo entschied sich, die Leistungsfähigkeit punktuell zu prüfen – aufgrund der Dringlichkeit zuerst in China. Das Projekt wurde im März angepfiffen. Innerhalb von zwei Tagen ließ sich eine vorkonfigurierte Appliance so implementieren, dass sie 3500 Rechner in den asiatischen Festo-Gesellschaften fortlaufend analysierte. Nachdem der Kollektor über die Softwareverteilung ausgebracht worden war, sammelte er vier Wochen lang Daten. Es wurden Schwellenwerte definiert, bei deren Überschreitung das System Alarm schlug.
Die anschließende Präsentation der Testdaten wartete mit einigen Überraschungen auf: Zum einen war die Zahl der aktiven Geräte pro WLAN-Access-Point höher als geplant; teilweise hingen bis zu 20 Arbeitsplätze an einem Knotenpunkt. Zum anderen stellten die Anwender häufig fachspezifische Anforderungen, für die das jeweilige Gerät ursprünglich gar nicht ausgelegt war. In Summe war die Infrastruktur vor Ort nicht überall ausreichend dimensioniert, was die Analyse eindeutig belegte. Aufgrund dieser Ergebnisse entschied Festo, die Lizenzkosten für Nexthink zu investieren, um jederzeit Ad-hoc-Analysen in Echtzeit und umfassende Auswertungen über längere Zeiträume vornehmen zu können.
Wo es kritisch wurde
Die Transparenz am Client sorgt nicht überall für eitel Freude. Legt sie doch die Vermutung nahe, dass auch über das Anwenderverhalten Informationen gesammelt und ausgewertet werden könnten.
„Die Tragweite dessen war uns bewusst“, berichtet Schmidt, „deshalb wurden Betriebsrat und Datenschutzbeauftragter früh in alle Diskussionen eingebunden.“ Um die Privatsphäre des Anwenders zu schützen, erlaubt Nexthink eine Anonymisierung der Daten.
Die nächsten Schritte
Nach den asiatischen Standorten wird Nexthink nun auch auf etwa 11.500 Clients in Europa und Amerika ausgerollt. Im nächsten Schritt sollen First- und Second-Level-Support im Fokus stehen: Wenn der Support-Mitarbeiter den Zeitpunkt eines Fehlers kennt und alle gleichzeitigen Events in dessen Umfeld abrufen kann, wird er die Ursache sicher schnell identifizieren. Langfristig soll das Client-Monitoring auch im Security-Management zum Einsatz kommen. „Ich muss im Gegensatz zu klassischen Security-Lösungen den Fußabdruck des Angreifers nicht kennen, um diesen zu identifizieren“, führt Schmidt aus. „Ein verdächtiges Verhalten, etwa der Upload von großen Datenmengen in Kombination mit dem Aufruf einer unbekannten EXE, reicht bereits aus für einen Alarm.“