Machine-Learning-Modelle wirtschaftlicher machen Wie MLOps-Plattformen die Automatisierung vorantreiben

Von Dipl. Betriebswirt Otto Geißler 4 min Lesedauer

Anbieter zum Thema

Big Data und Machine Learning (ML) liefern wichtige Erkenntnisse, die ohne Fokus auf geschäftliche Interessen jedoch schnell ins Leere laufen. MLOps geben mit messbaren Benchmarks eine klare Richtung vor und behalten immer die ökonomischen Zielsetzungen im Auge.

MLOps dient dazu, die Machine-Learning-Automatisierung schneller zu bewerkstelligen und die Performance der Modelle zu optimieren.(Bild:  ReisMedia - stock.adobe.com)
MLOps dient dazu, die Machine-Learning-Automatisierung schneller zu bewerkstelligen und die Performance der Modelle zu optimieren.
(Bild: ReisMedia - stock.adobe.com)

Der MLOps-Ansatz umfasst die Automatisierung in Machine-Learning-Pipelines und gewinnt daraus wertvollere Erkenntnisse für Produktionssysteme. Gleichzeitig gewährleistet er Reproduzierbarkeit, Sichtbarkeit, verwaltet Zugriffskontrollen und die Rechenressourcen zum Testen, Trainieren und Bereitstellen von KI-Algorithmen. Entsprechende Technologien ermöglichen es also, eine ML-Automatisierung schneller zu bewerkstelligen und die Performance der Modelle zu optimieren.

Ferner basiert MLOps nicht zuletzt auf DevOps, um das Schreiben, Bereitstellen und Verwalten von Anwendungen effizienter zu gestalten. Wobei DevOps die Möglichkeit bieten, Entwickler (Devs) und IT-Betriebsteams (Ops) synergetisch zu vereinen, Datensilos aufzulösen und engere Kooperationen zu erzeugen.

MLOps erweitert das Team um Data-Scientists und ML-Engineers. Datenwissenschaftlerinnen und -Wissenschaftler kuratieren Datensätze und analysieren sie, indem sie KI-Modelle erstellen. ML-Engineers wiederum nutzen automatisierte Prozesse, um Datensätze durch Modelle laufen zu lassen.

Funktionen von MLOps

Machine-Learning-Modelle basieren auf riesigen Datenmengen, die für eine einzelne Person schwer zu überblicken sind. Im Folgenden sind die wesentlichen MLOps-Funktionen in Produktionsprozessen skizziert:

Vereinfachte Bereitstellung

Data Scientists verwenden meist viele verschiedene Modellierungsframeworks, Sprachen und Tools, was den Bereitstellungsprozess erschweren kann. Mit MLOps können IT-Betriebsteams in Produktionsumgebungen Modelle aus verschiedenen Frameworks und Sprachen schneller bereitstellen.

Orchestrierung mehrerer Pipelines

Die Entwicklung von Machine-Learning-Modellen ist keine Aufgabe für eine einzelne Code-Datei. Stattdessen geht es um die Kombination verschiedener Pipelines. Beispielsweise solche, die für primäre Prozesse wie Vorverarbeitung, Feature-Engineering-Modell-Training und Modell-Inferenz stehen und letztlich in das Gesamtbild der Entwicklung eines ML-Modells eingebunden sind.

Gesamten Lebenszyklus verwalten

Ein ML-Lebenszyklusmodell besteht aus verschiedenen Elementen, die einzeln als Softwareeinheit betrachtet werden. Die jeweils untergeordneten Elemente haben ihren eigenen Verwaltungs- und Wartungsbedarf, der häufig von DevOps übernommen wird. Allerdings ist es problematisch, sie mit herkömmlichen DevOps-Methoden zu verwalten.

ML-Anwendungen skalieren

Die gleichzeitige Verwaltung Tausender Produktionsmodelle vereinfacht sich deutlich mit dem Einsatz von MLOps.

Einhaltung der ML-Funktionen

Die Aufrechterhaltung der Funktionsfähigkeit nach der Bereitstellung von ML-Modellen ist ein kritischer Teil der Nachbearbeitung. Neueste Methoden ermöglichen eine automatisierte Erkennung verschiedener Drifts (Modelldrift, Datendrift). Das heißt, es sollten die neuesten Algorithmen in einem System verwendet werden, um mögliche Abweichungen frühzeitig zu erkennen und zu vermeiden.

Stetige Integration und Bereitstellung

Die kontinuierliche Integration und Bereitstellung gehört zu den DevOps-Grundprinzipien für alle Verfahren der Softwareentwicklung. Aufgrund des Umfangs der Bedienung von ML-Modellen müssen für MLOps erweiterte Methoden zum Einsatz kommen.

Modell-Governance

Für diese Funktion können umfangreiche Daten der Modell-Performance bereitgestellt werden, um sie zur Überwachung der Attribute in großem Maßstab anzuwenden. Ferner helfen sogenannte „Snapshots“ der Pipelines dabei, kritische Momente zu analysieren. Zudem sollten die Protokollierungsfunktionen und Audit-Trails auch für die Berichterstattung und die Kontinuität der Compliance genutzt werden.

Herausforderungen mit ML-Modellen

Nachfolgend sind mögliche Herausforderungen aufgeführt, mit denen Unternehmen bei einer effektiven Kommerzialisierung von ML-Modellen in Produktionsprozessen konfrontiert sein könnten:

Abhängig von Datensätzen

Die Einspeisung der Daten in die Trainings und die Schritte, die während einer Evaluierungsphase in der Sandbox des Data Scientist durchgeführt werden, können in realen Szenarien erheblich variieren. Je nach Use Case ändern sich Daten im Laufe der Zeit und mangelnde Kontinuität führt zu einer schlechten Performance von ML-Modellen.

Einfache bis komplexe Pipelines

Das Trainieren eines einfachen Modells und dessen Umsetzung in Schlussfolgerungen sowie die Generierung von Vorhersagen sind eine einfache Möglichkeit, kommerzielle Erkenntnisse zu gewinnen. Doch meist reicht ein manuelles Offline-Training bei geschäftlichen Aufgabenstellungen nicht aus. In realen Fällen ist Kontinuität erforderlich, um mit der Zeit die Modelle anhand neuer Daten neu zu trainieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Das heißt, eine Retraining-Pipeline muss zum System hinzugefügt werden, die regelmäßig die neuesten Daten aus einem Data Lake erhält. Aus diesem Grunde werden viele Modelle in der Pipeline sein, und menschliches Eingreifen ist erforderlich, um zu entscheiden, welches Modell für die Produktion ausgewählt werden soll. In anderen Fällen, in denen Ensemble-Modelle zur Verbesserung der Genauigkeit im Einsatz sind, werden mehrere Pipelines für Trainings verwendet. Dafür wird jedoch eine Wartung noch komplexer.

Herausforderungen der Skalierbarkeit

Schwierigkeiten mit Skalierungen können auf verschiedenen Entwicklungsebenen auftauchen. Selbst wenn die Datenpipeline skaliert entwickelt wird, ist die Wahrscheinlichkeit gegeben, dass Probleme beim Einspeisen der Daten in ML-Modellen auftreten.

Risiken der Funktionsfähigkeit

Das Risiko, dass ML-Modelle nicht gut funktionieren, besteht zu jeder Zeit. Damit sie allerdings innerhalb der erwarteten Grenzen funktionieren, ist eine kontinuierliche Überwachung und Bewertung notwendig. Um die Qualität von ML-Modellen sicherzustellen, sollten daher verschiedene Methoden wie beispielsweise eine Datenabweichungs- bzw. Drifterkennung, Canary-Pipelines und Produktions-A/B-Tests verwendet werden.

Fazit

Es kann problematisch sein, ein ML-Modell zu erstellen, das zuverlässig, schnell und zugleich genau ist, damit es von einer großen Anzahl von Usern verwendet werden kann. Denn ML-Modelle basieren auf riesigen Datenmengen, die für Menschen nur schwer zu überblicken sind. Kleine Änderungen können schon zu enormen Unterschieden in den Ergebnissen führen.

MLOps unterstützt die Anwender dabei, den Überblick über alle Features zu behalten, mit denen das Modell arbeitet. Feature-Engineering ist eine separate Aufgabe, die maßgeblich zur Modell-Genauigkeit beiträgt. Ferner kann auch das Debuggen eines ML-Modells eine große Herausforderung sein.

(ID:50039616)