Continuous Deployment, Monitoring, Mustererkennung Automatisierung prägt künftig das Application Management

Autor / Redakteur: Alexander Janthur* / Elke Witmer-Goßner

Jeder Systemausfall ist in der heutigen Wirtschaft ein Albtraum. Denn er ist meist sehr kostspielig und aufwendig zu beheben – ganz gleich, welche Art System betroffen ist. Nicht zuletzt deshalb sollten Ausfälle um jeden Preis vermieden werden.

Wer bereits während der Planung der IT-Infrastruktur auf einen „vorausschauenden“ Plattformbetrieb hinarbeitet, hat später keine Probleme mit der Stabilität.
Wer bereits während der Planung der IT-Infrastruktur auf einen „vorausschauenden“ Plattformbetrieb hinarbeitet, hat später keine Probleme mit der Stabilität.
(Bild: © greenbutterfly - stock.adobe.com)

In der Produktion wird daher immer häufiger auf Predictive Maintenance gesetzt – auf vorausschauende Wartung, bei der intelligente Sensorik einen zu erwartenden Schaden oder Verschleiß meldet, noch bevor er auftritt. Der Vorteil: Maschinen oder einzelne Teile können ausgetauscht werden, bevor es zu einem teuren Schaden oder gar Ausfall kommt.

Auch beim Plattformbetrieb haben Fehler im Betrieb oder gar Downtime weitreichende Konsequenzen. Immerhin tragen digitale Plattformen heute zu einem großen Teil der Wertschöpfung von Unternehmen bei. Dennoch sind die Systeme oftmals nicht optimal abgesichert, obwohl durch den Einsatz intelligenter Algorithmen wie künstlicher Intelligenz und Machine Learning auch beim Plattformbetrieb immer leichter Risiken frühzeitig erkannt und behoben werden können, bevor es zu Funktionsstörungen oder Ausfällen kommt. Automatisierung ist das Schlüsselwort.

Stabil ab Start

Die Stabilität einer Plattform wird bereits maßgeblich während ihrer Entstehung entschieden. Und schon hier können technologische Ansätze wie beispielsweise Continuous Deployment für eine vorausschauende Absicherung sorgen. Denn durch eine kontinuierliche und hohe Testabdeckung bei jedem Deployment wird die Basis für ein stabil laufendes Gesamtsystem geschaffen. Heutzutage wird in der Regel bereits vor der Entwicklung des zu testenden Moduls der dafür passgenaue Test entwickelt. So kann ein Großteil der Fehlerquellen frühzeitig ausgeschlossen werden, weil ausschließlich geprüfte Standards weiterverarbeitet werden. Das erhöht die Fehlerresistenz deutlich.

Andere Fehlerquellen, die weniger mit der Entwicklung der Applikation zu tun haben und beispielsweise eher durch Infrastruktur-seitige Probleme auftreten, brauchen andere Strategien für die Risikominimierung. Echtzeit-Überwachung ist das Stichwort: Hier gilt es, etwa Systemüberlastungen frühzeitig zu erkennen und unmittelbar gegenzusteuern. Mittels Machine Learning lassen sich dann kritische Muster erkennen, bevor sie zu gravierenden Fehlern werden.

Monitoring ist das A und O

Nach der Entwicklung ist ein sauberes Monitoring unumgänglich. Der Grund: Auch während des Betriebes sollten alle Schichten der Plattform stets im Auge behalten werden, um einen Schaden noch vor dem eigentlichen Ausfall entdecken und beheben zu können. Dabei hat sich in der letzten Zeit der Einsatz von Tools, die eine parallele Analyse alle Schichten hinweg anbieten, durchgesetzt. Auf Seiten der Applikation sollte auf eine grundlegende Erreichbarkeit und auf die Anzahl an zu verarbeitenden Requests per Minute geachtet werden. Auf Seiten der Infrastruktur hingegen vor allem auf die Auslastung der persistenten Speichermedien und des Arbeitsspeichers.

Das parallele Monitoring durch alle Schichten hinweg beschleunigt und vereinfacht die Fehlerbehebung massiv. Ein Beispiel: Nehmen wir an, ein Button im Frontend lässt sich nicht mehr anklicken. Der Einsatz von spezieller, KI-basierter Tools sorgt dafür, dass nicht mehr jede Schicht einzeln nacheinander geprüft werden muss. Stattdessen lässt sich das Problem in jeder Schicht parallel überprüfen. Für diese Art von Monitoring gibt es derzeit bereits einige Tools auf dem Markt, wie Dynatrace, New Relic oder AppDynamics. In der Regel beobachten sie während einer anfänglichen Anlernphase ohne Alerts die Systeme und ermitteln den Normalbetrieb. Auf Basis dieses Grundrauschens erkennen sie im Nachgang etwaige Muster und Abweichungen.

Auch in puncto Sicherheit ist Monitoring unabdingbar. Immer mehr Unternehmen nutzen nicht mehr nur On-Premise-Modelle auch für hochsensible Daten, sondern speichern und verarbeiten sie cloudbasiert. Angriffe auf die unternehmerischen Clouds können sich umso fataler auswirken. Anbieter wie beispielsweise Sysdig sind in der Lage, Sicherheitsprobleme beim Plattformbetrieb zu erkennen und Warnungen automatisiert auszusenden.

Im Fehler eine Chance sehen

Doch was passiert, wenn das Fatale dann doch eintritt und die Plattform für einige Zeit ausfällt? Obwohl dies Nerven kostet und teuer sein kann, bietet der Ausfall eine wertvolle Chance zu lernen und den Plattformbetrieb künftig zu optimieren. Immerhin stellen die durch den Ausfall erhobenen Daten eine einmalige Informationsgrundlage für Monitoring- und Logging-Tools dar. Wichtig ist es in solchen Fällen jedoch, die Daten, die während der Störung angefallen sind, gründlich zu analysieren und auszuwerten.

Viele Tools, die Machine Learning in diesem Bereich nutzen, erheben dabei auch ihre Trainingsdaten eigenständig. Denn die künstliche Intelligenz trainiert sich selbst – und das durch alle Plattformschichten hinweg. Und bei Abweichungen vom Standard werden die verschiedenen Komponenten des digitalen Systems systematisch auf Fehler getestet. Schlussendlich sorgen Technologien wie Kubernetes dafür, dass eine zusätzliche Schicht entsteht, um Cloud-Infrastrukturen zu optimieren, zu automatisieren und flexibler zu gestalten.

Vorausschauender Plattformbetrieb ohne Limits

Die Stabilität des Plattformbetriebes wird bereits während der Entwicklung geschaffen. Dabei können kontinuierliche Tests einen Großteil aller Fehler beseitigen – und das noch bevor sie auftreten. Doch auch nach der Inbetriebnahme tragen smarte Monitoring-Tools einen großen Teil zur Sicherstellung der Stabilität bei. Durch künstliche Intelligenz können Abweichungen vom Status quo vorausschauend erkannt und behoben werden. Durch Machine Learning verbessert sich überdies die Mustererkennung selbst kontinuierlich durch Lernfortschritte.

Alexander Janthur, Turbine Kreuzberg GmbH.
Alexander Janthur, Turbine Kreuzberg GmbH.
(Bild: Turbine Kreuzberg)

Die technologische Basis ist also geschaffen. Entscheidend ist es, sie durch den Aufbau entsprechend qualifizierter Teams zum Laufen zu bringen. Nur so kann vorausschauende Wartung einen rund um die Uhr stabilen Plattformbetrieb sicherstellen.

* Der Autor Alexander Janthur ist Gründer und CEO der Technologie-Agentur Turbine Kreuzberg GmbH.

(ID:47498627)