Durch Machine Learning dem Virus auf der Spur

AWS unterstützt offene Covid-19-Plattform mit ML-Funktionen

| Autor / Redakteur: Karin Johanna Quack / Elke Witmer-Goßner

ML-basierende Analysefunktionen sollen die sich auf große Datenmengen stützende medizinische Forschung voranbringen.
ML-basierende Analysefunktionen sollen die sich auf große Datenmengen stützende medizinische Forschung voranbringen. (Bild: gemeinfrei© Gerd Altmann / Pixabay)

Viele Maßnahmen zur Bekämpfung des neuartigen Corona-Virus muten wie Trial and Error an, weil Virologen und Politiker wenig über das Virus und seine Ausbreitung wissen.

„Covid-19 Open Research Dataset“ (CORD-19), die vom Allen Institute for AI (AI2) geschaffene offene Datenplattform, soll Abhilfe schaffen. Amazon Web Services (AWS) unterstützt sie mit ML-basierenden Analysefunktionen.

Seine kürzlich online geschaltete Website nennt AWS „CORD-19 Search“. Mit ihrer Hilfe sollen die Virenforscher Zehntausende von Dokumenten sowie andere wissenschaftliche Quellen rasch und einfach, sogar in natürlicher Sprache, auf relevante Informationen durchsuchen können. Vor etwa einem Monat gelauncht, enthält das CORD-19-Dataset des AI2 mittlerweile mehr als 47.000 Dokumente mit Informationen über das Coronavirus in seinen unterschiedlichen Spielarten, beispielsweise SARS-CoV-2 und Covid-19. Rund 30.000 der Quellen sind Volltext-Dokumente.

Eine solche Menge an Informationen lässt sich mit konventionellen Analysemethoden nicht in angemessener Zeit bewältigen. Im Hinblick auf Covid-19 ist Eile angesagt – ohne die gebotene Sorgfalt zu vernachlässigen. Umfangreiches Wissen über Wirkungsweise und Ausbreitungswege des Virus sind die Voraussetzung für die Entwicklung von Medikamenten und Impfstoffen, aber auch für adäquate soziopolitische Maßnahmen, unter denen Wirtschaft und Bevölkerung nicht länger als notwendig leiden sollen.

Gezieltes Fischen im Informationsmeer

CORD-19 liefert fallzahlenbasierte Informationen zur Inkubation und Übermittlung, zu möglichen Therapien und Risikofaktoren, die derzeit vor allem aus den vorangegangenen SARS- und Ebola-Epidemien stammen. Wie CORD-19 Search darauf arbeitet, erläutern Taha Kass-Hout, Director of Machine Learning and Chief Medical Officer bei AWS, sowie sein Kollege, der Data-Science-Spezialist Ben Snively, auf dem Public-Sector-Blog von AWS.

Mit der Website lassen sich Anfragen in natürlicher Sprache beantworten. Zum Beispiel: „In welcher Krankheitsphase erhält der Speichel am meisten Covid-19-Viren?“ Oder: „Kann eine Therapie mit Rekonvaleszentenplasma der Vorläufer für einen Impfstoff sein?“ Laut AWS bekommt der Fragesteller darauf präzise Antworten mitsamt Belegdokumenten. Zum Beispiel: „Die Viruskonzentration im Speichel war in der ersten Woche nach Ausbruch der Symptome am höchsten.“ Oder: „So lange es keinen Impfstoff gibt, empfiehlt sich das Rekonvaleszentenplasma als Lückenbüßer – vorzugsweise für besonders exponierte Personen oder diejenigen, die erste Symptome zeigen.“

Oren Etzioni, CEO des Allen Institute for AI, wird in dem Blogpost mit den Worten zitiert: „Eine der unmittelbarsten und wirkmächtigsten Anwendungen der Künstlichen Intelligenz ist die Fähigkeit, Wissenschaftlern, Akademikern und Technologen beim Herausfischen der richtigen Informationen aus einem Meer von Wissenschaftsliteratur zu helfen, damit sie ihre Forschung schneller vorantreiben können.“

Ständig verbesserte Empfehlungen

Constantin Gonzalez Schmitz, Amazon Web Services.
Constantin Gonzalez Schmitz, Amazon Web Services. (Bild: AWS)

Mit dem Thema Künstliche Intelligenz (KI) beschäftigt sich Amazon bereits seit mehr als zwei Jahrzehnten, erläutert Constantin Gonzalez Schmitz, Principal Solutions Architect bei AWS in München: „Wir haben mittlerweile über 10.000 Kunden, die AWS für das Thema Machine Learning einsetzen.“ Die Anfänge dieser Technik liegen in der „Empfehlungsmaschine“, mit der sich die Einkaufsplattform Amazon anfänglich von all ihren Mitbewerbern unterschied – nach dem Motto: „Kunden, die Produkt X gekauft haben, interessierten sich auch für Produkt Y.“ Mit Hilfe von Machine-Learning-Modellen und -Algorithmen gelang es Amazon seither, die Relevanz der Empfehlungen ständig zu verbessern. Für die Spracherkennung setzt Amazon ebenfalls schon seit Jahren KI-Techniken ein: 2015 brachte das Unternehmen den digitalen Sprachassistenten Amazon Echo auf den Markt – besser bekannt als „Alexa“. Seit kurzem ist das Gerät sogar in der Lage, unterschiedliche Stimmen auseinanderzuhalten.

Über seine Public-Cloud-Plattform bietet AWS auch seinen Kunden eine Vielzahl von Services für die Entwicklung und Integration von KI- und ML-Systemen an. Wie Gonzalez Schmitz ausführt, sollen sich die Entwickler damit eigene ML-Modelle erstellen und sie mit fremden Komponenten anreichern können. Im Idealfall stellen sie die Modelle dann der Community wieder zur Verfügung. „Wir nutzen offene Standards wie TensorFlow und sind völlig neutral“, beteuert der Principal Solutions Architect.

Vorhersagen von Spielverläufen geplant

Im Mittelpunkt des ML-Service-Angebots von AWS steht „SageMaker“. Der Service stellt beispielsweise voroptimierte Algorithmen für die Erstellung von ML-Modellen bereit, aber auch Funktionen für deren Training. Er übernimmt dazu quasi alle Aufgaben, die mit dem Verschieben und Manipulieren von Daten zu tun haben, so Gonzalez Schmitz. Darüber hinaus hat AWS innerhalb der SageMaker-Welt einen ML-Marketplace eingerichtet, auf dem sich von anderen Anwendern erstellte ML-Algorithmen und -Modelle shoppen lassen.

Wie AWS kurz vor dem Ausbruch der Corona-Pandemie meldete, will auch die Deutsche Fußball-Liga (DFL) demnächst den SageMaker-Service nutzen. Informationen aus über 10.000 Bundesligaspielen sollen die Basis für eine Statistikplattform bilden, mit der sich dann in Echtzeit Spielverläufe vorhersagen lassen. Sicher eine hübsche Spielerei, die vielleicht die angepeilten „Geisterspiele“ etwas unterhaltsamer macht. Mit Hilfe eines anderen AI-Service von AWS, „Amazon Personalize“, will die DFL eigenen Angaben zu Folge das Erlebnis des Fans am Bildschirm noch persönlicher gestalten. Wie das konkret aussieht, wird sich zeigen, wenn der Spielbetrieb wieder anrollt.

Ein cloud-basierendes Medienarchiv will der Ligavorstand mit einem dritten AWS-Service aufbauen: „Amazon Rekognition“ soll helfen, ein leicht zugreifbares Verzeichnis der rund 150.000 Stunden Videomaterial zu installieren, die mittlerweile im Speicher der DFL aufgelaufen sind. Die aufwändige Suche nach den Schlüsselszenen eines Spiels sowie deren Verschlagwortung lässt sich damit automatisieren (mehr zum Thema intelligente Analytik und Sport).

Da es sich um Cloud-Services handelt, kann die DFL – wie jeder andere Kunde der AWS-Services – die mit der Infrastruktur zusammenhängenden Fragen getrost dem Provider überlassen. Das ist für ML-Anwendungen besonders sinnvoll, weil das Training der Modelle extrem viel Rechnerkapazität verschlingt, die vor allem kleinere Unternehmen nicht ständig vorhalten können.

Zusammenhänge in unstrukturierten Daten finden

Darüber hinaus hat AWS eine ganze Reihe weiterer Komponenten in petto, mit denen sich Anwendungen „intelligenter“ machen lassen. Laut Gonzalez Schmitz sind Stand heute insgesamt 175 verschiedene KI-Services verfügbar: „AWS hat allein in 2019 über 250 neue ML-Funktionen zur Verfügung gestellt.“ Relevant für das Funktionieren der Website CORD-19 Search ist vor allem „Amazon Comprehend Medical“, eine auf Natural Language Processing (NLP) basierende Spezialanwendung von Amazon Comprehend. Dabei wiederum handelt es sich um einen ML-Service für das maschinelle Textverständnis. Er wurde entwickelt, um Zusammenhänge in verschiedenen unstrukturierten Informationen ausfindig zu machen. Das können E-Mails, Support-Tickets, aber auch Produktrezensionen oder medizinische Fachbeiträge sein. Auf letztere ist Amazon Comprehend Medical zugeschnitten.

Der Service wird auf dem CORD-19-Dataset angewendet, um relevante medizinische Informationen aus den gespeicherten Texten zu extrahieren. Die lassen sich dann auf klinische Modelle mit Covid-19-Bezug übertragen. Mittel zum Zweck ist eine maschinelle Multi-Label-Klassifikation. Im Gegensatz zu einer „binären“ Klassifikation lässt sich der Text hier nicht nur in zwei Töpfe werfen, beispielsweise „in Ordnung“ versus „defekt“ oder „Information“ versus „Spam“. Vielmehr gehört er in den meisten Fällen unterschiedlichen Kategorien an. Er ist also zum Beispiel ein Forschungsbericht, eine Statistik, eine Patientenanamnese oder eine noch zu beweisende These, und er beschäftigt sich mit Themen wie „Diagnose“, „Symptome“, „Therapien“ etc.

Wie diese Klassifizierung funktioniert, umschreibt Gonzalez Schmitz so: „Jede Multi-Label-Klassifizierung kann als Kombination mehrerer binärer Klassifizierungen gesehen werden.“ Oder konkreter: Jeder Text wird im Hinblick auf alle Gegensatzpaare innerhalb der Klassifizierung – „Statistik“ / „keine Statistik“, „Forschungsbericht“ / „kein Forschungsbericht“ – untersucht und jeweils mit einer 0 oder 1 bewertet. Dieses Bündel von binären Klassifizierungen lässt sich dann, wie gehabt, mit Hilfe linearer Regression darstellen und „trainieren“.

Wie diese Klassifizierung funktioniert, umschreibt Gonzalez Schmitz so: „Mit Hilfe von NLP kann man neuronale Netze so trainieren, dass sie nicht nur einzelne Schlagworte erkennen, sondern auch ihre Beziehungen zueinander bewerten können, um etwa Kategorien zu finden, die nur umschrieben sind, ohne explizit genannt zu werden. So lässt sich beispielsweise erkennen, welche Wörter zu einer Diagnose, einem verschriebenen Medikament oder einer Dosierung gehören.“ Dieses Bündel von binären Klassifizierungen ist dann, wie gehabt, mit Hilfe linearer Regression darstell- und trainierbar.

Informationen aus dem Data Lake

Für die Indizierung der Informationen kommt Amazon Kendra zum Einsatz. Unter dieser Bezeichnung hat AWS eine unternehmenstaugliche Suchmaschine im Angebot, die mit Hilfe von ML-Technik natürlichsprachige Abfragen ermöglicht und so das Auffinden und Gewichten von Texten vereinfacht. Sowohl Comprehend Medical als auch Kendra speisen sich aus dem allgemein zugänglichen Amazon Covid-19-Data Lake. Dort finden alle, die Informationen im Covid-19-Umfeld suchen, kuratierte Daten zum Thema. Zugleich können und sollen sie ihre eigenen Ergebnisse dort für Andere zur Verfügung stellen.

Mit Hilfe der Machine-Learning-Technik hofft AWS, die Covid-19-Forschung deutlich beschleunigen zu können. Die langfristige Vision zielt darauf ab, diese Architektur auch für die medizinische Forschung generell nutzbar zu machen. So sollen sich disparate Datenquellen integrieren lassen, wie sie in der klinischen Forschung zumeist vorliegen. Auf diese Weise wäre es theoretisch möglich, patientenspezifische Muster für den Krankheitsverlauf zu erstellen. Die könnten dann die Basis für datenbasierte Entscheidungen bilden.

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46533384 / Big Data)