Definition: Künstliche neuronale Netzwerke als Teilgebiet der KI Was ist ein neuronales Netz?

Von Dipl.-Ing. (FH) Stefan Luber 6 min Lesedauer

(Künstliche) neuronale Netze sind ein Teilgebiet der künstlichen Intelligenz. Sie sind von biologischen neuronalen Netzen inspiriert und bilden deren Funktionsweise bis zu einem gewissen Grad mithilfe mathematischer Modelle ab. Die Netze bestehen aus verschiedenen Schichten miteinander verknüpfter Neuronen.

Wichtiges Teilgebiet der künstlichen Intelligenz: Neuronale Netze können maschinell lernen und Aufgabenstellungen computerbasiert lösen. Große Sprachmodelle (Large Language Models) wie die GPT-Modelle basieren auf neuronalen Netzen.(Bild:  frei lizenziert © Gerd Altmann /  Pixabay)
Wichtiges Teilgebiet der künstlichen Intelligenz: Neuronale Netze können maschinell lernen und Aufgabenstellungen computerbasiert lösen. Große Sprachmodelle (Large Language Models) wie die GPT-Modelle basieren auf neuronalen Netzen.
(Bild: frei lizenziert © Gerd Altmann / Pixabay)

In seiner ursprünglichen biologischen Bedeutung ist ein neuronales Netz ein biologisches Nervensystem bestehend aus untereinander vernetzten, mit elektrischen Signalen kommunizierenden Nervenzellen. Fällt der Begriff neuronales Netz im Umfeld der Informationstechnik, Informatik und künstlichen Intelligenz, ist damit ein künstliches neuronales Netzwerk (KNN) gemeint. Es ist von der Funktionsweise biologischer neuronaler Netze inspiriert und bildet deren Funktionsweise bis zu einem gewissen Grad mithilfe abstrahierter mathematischer Modelle und Algorithmen ab.

Der englische Begriff für KNN lautet „Artificial Neural Network“, abgekürzt ANN. Die mathematischen Modelle eines KNN orientieren sich am Aufbau eines biologischen Gehirns und bestehen aus mehreren Schichten miteinander verknüpfter Neuronenfunktionen. KNN sind ein KI-Teilgebiet und in der Lage, unterschiedliche Aufgabenstellungen computerbasiert zu lösen. Sie lassen sich für bestimmte Aufgaben trainieren und lernen maschinell komplexe Zusammenhänge. Sie extrahieren und abstrahieren beim Lernen Informationen oder finden Muster in Daten und können das erworbene „Wissen“ auf unbekannte Daten anwenden.

Im Rahmen des maschinellen Lernens „programmieren“ sich die neuronalen Netze quasi selbst. Moderne Large Language Models (große Sprachmodelle) wie GPT-3 oder GPT-4 (und der auf diesen Modellen basierende Chatbot ChatGPT) verwenden künstliche neuronale Netze und haben erstaunliche sprachliche Fähigkeiten. Neuronale Netzwerke lassen sich aber nicht nur für die Verarbeitung natürlicher Sprache (Natural Language Processing), sondern auch für andere Aufgaben wie Bilderkennung und Bildverarbeitung, Robotik oder Prognosenerstellung und vieles mehr einsetzen.

Grundlegender Aufbau und prinzipielle Funktionsweise künstlicher neuronaler Netze

Biologische Nervensysteme bestehen aus Nervenzellen (Neuronen) und sind zur Informationsübertragung über Synapsen mit anderen Zellen verknüpft. Diesen grundsätzlichen Aufbau übernehmen die mathematischen Modelle künstlicher neuronaler Netze in abstrahierter Form. Neuronen eines KNN, auch als Knoten oder Units bezeichnet, nehmen externe Informationen oder Informationen anderer Neuronen entgegen und geben sie in modifizierter Form an andere Neuronen oder nach außen weiter. Grundsätzlich wird zwischen der Eingabeschicht mit Input-Neuronen, der verborgenen Schicht (Zwischenschicht) mit Hidden-Neuronen und der Ausgabeschicht mit Output-Neuronen unterschieden. Die Verbindungen der Neuronen werden als Kanten bezeichnet.

Ein KNN nimmt Informationen über die Input-Neuronen auf, verarbeitet diese Informationen, indem die Verbindungen bestimmte Gewichtungen erhalten oder Schwellwerte eingestellt werden, und gibt sie an die nächste Neuronenschicht weiter. In der Zwischenschicht, die je nach KNN und Komplexität des Modells aus unterschiedlich vielen Neuronenschichten bestehen kann, werden die Informationen weiter analysiert, Verbindungen gewichtet, Schwellwerte eingestellt und an weitere verborgene Neuronenschichten weitergegeben. Über Parameter wie die Gewichtungen der Kanten oder Schwellwerte können Neuronen sich gegenseitig unterschiedlich stark beeinflussen.

Positive und negative Gewichtungen üben hemmenden oder erregenden Einfluss aus. Schließlich gelangen die Informationen zur Ausgabeschicht. Sie liefert das Endergebnis der Informationsverarbeitung eines künstlichen neuronalen Netzwerks. Die „Intelligenz“ und das „Wissen“ eines KNN besteht letztendlich aus den vielen unterschiedlich eingestellten Parametern der Neuronen und ihrer Verknüpfungen. Nach außen bleibt die Informationsverarbeitung in den Zwischenschichten verborgen und ist nur bedingt nachvollziehbar. Sie findet quasi eine Art „Blackbox“ statt.

Künstliche neuronale Netze mit vielen Zwischenschichten werden auch als tiefe neuronale Netze bezeichnet und sind zu tiefem Lernen (Deep Learning) fähig. Die Anzahl der Neuronen, Neuronenschichten, Verbindungsmöglichkeiten und Parameter bestimmt die Komplexität eines künstlichen neuronalen Netzes und dessen Fähigkeiten, bestimmte Aufgabenstellungen zu bearbeiten. Mit der Anzahl an Neuronen und Parametern steigen aber auch die benötigten Rechen- und Speicherleistungen zum Trainieren und Betreiben eines neuronalen Netzes.

Die verschiedene Arten neuronaler Netzwerke

Es existieren verschiedene Arten neuronaler Netze und Kombinationen dieser Netze. Ausgehend vom Perzeptron, das in seiner einfachsten Form aus einem einzigen Neuron besteht und die Ausgangsinformation durch die Gewichtung der Eingangsinformationen und durch Schwellwerte bestimmt, ist eine grundsätzliche Unterscheidung zwischen Feedforward-Netzen (vorwärtsgerichteten neuronalen Netzwerken) und rekurrenten Netzen (rückgekoppelten neuronalen Netzen) möglich.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

In Feedworward-Netzen fließen Informationen immer nur vorwärtsgerichtet von den Eingabeneuronen über die Zwischenneuronen zu den Ausgabeneuronen. In rekurrenten Netzen ist auch ein Informationsfluss in umgekehrter Richtung möglich. Dadurch lassen sich Rückkopplungsschleifen für eine erneute Informationsverarbeitung und eine Art von Gedächtnis bilden. Die Ausgabe von Verarbeitungsknoten wird mit zeitlichem Verzug wieder als Eingabe eingespeist. Informationen werden zwischengespeichert und wiederverwendet.

Neben diesen beiden Grundarten der Feedforward-Netze und rekurrenten Netze gibt es weitere Arten künstlicher neuronaler Netze wie:

  • konvolutionale neuronale Netzwerke (Convolutional Neural Networks - CNN),
  • neuronale Netze mit Long Short-Term Memory (LSTM),
  • neuronale Netze mit Transformer-Architektur (Transformer).

Konvolutionale neuronale Netze, auch als faltende neuronale Netze bezeichnet, besitzen eine Schicht, mit der sie Faltungsoperationen auf Eingangsinformationen anwenden können. Typischer Einsatzbereich ist die Bilderkennung. Die Faltungsschicht sorgt dafür, dass benachbarte Bildpixel zueinander in Bezug gebracht und Muster innerhalb eines Bildes leichter identifiziert und extrahiert werden können.

Neuronale Netze mit Long Short-Term Memory (LSTM) besitzen ein „langes Kurzzeitgedächtnis“. Neuronen haben eine Form von Gedächtnisfunktion, mit dem sich das Trainingsverhalten steuern lässt. Long Short-Term Memory verbessert die Leistungs- und Anpassungsfähigkeit neuronaler Netzwerke deutlich. Anwendungsbereich solcher Netze ist beispielsweise die Textverarbeitung. Bei der Verarbeitung von Wörtern lässt sich der Kontext besser mit einbeziehen.

Transformer sind eine Form von neuronalen Netzen, die mit einem Selbstaufmerksamkeitsmechanismus (Self-Attention-Mechanismus) und einer Folge von Encodern und Decodern ausgestattet sind. Dieser Mechanismus setzt einen Teil der Eingangsinformationen (zum Beispiel ein Wort oder ein Pixel) mit weiteren Teilen der Eingangsinformationen in Bezug. Dadurch erhält das neuronale Netzwerk ein besseres Verständnis der Gesamtdaten. Neuronale Netze mit Transformer-Architektur kommen bei der Verarbeitung natürlicher Sprache und der Bildverarbeitung zum Einsatz.

Viele der großen Sprachmodelle (Large Language Models) wie Generative Pretrained Transformer GPT-3, GPT-4 (und der darauf basierende Chatbot ChatGPT), Megatron-Turing Natural Language Generation Model (MT-NLG), LaMDA (Language Model for Dialogue Applications) oder Bidirectional Encoder Representations from Transformers (BERT) basieren auf der Transformer-Architektur.

Training neuronaler Netzwerke und verschiedene Lernverfahren

Damit ein neuronales Netz für eine bestimmte Aufgabe eingesetzt werden kann, wird es zunächst trainiert. Während des Trainings werden Parameter festgelegt und zum Beispiel die Verbindungen zwischen den Neuronen gewichtet oder Schwellwerte eingestellt. Das KNN verarbeitet während des Trainings Wissen und Erfahrungen aus dem Lernmaterial und entwickelt seine „Intelligenz“. Es trainiert sich, um Eingangsinformationen zu den gewünschten Ausgabeinformationen zu verarbeiten.

Beim Lernvorgang unterscheidet man zwischen überwachtem und unüberwachtem (unbeaufsichtigtem) Lernen (Supervised und Unsupervised Learning). Beim überwachten Lernen sind die Ergebnisse für die verschiedenen Eingabemöglichkeiten vorgegeben. Durch ständigen Vergleich zwischen dem vorgegebenen und dem selbst generierten Ergebnis lernt das neuronale Netz, die Neuronenverbindungen richtig zu gewichten und Schwellwerte passend einzustellen. Bei unüberwachtem Lernen ist kein Ergebnis vorgegeben. Das neuronale Netz lernt durch Muster, die es in den Eingabeinformationen identifiziert, und die Anwendung von Lernregeln wie die Hebbsche Lernregel oder die Resonanztheorie . Es verändert die Parameter des neuronalen Netzes entsprechend der erkannten Eingabemuster.

Ein drittes, oft angewandtes Lernverfahren ist das bestärkende Lernen (Reinforced Learning). Bestärkendes Lernen erzielt seine Ergebnisse in einer Art von Trial-and-Error-Verfahren und auf Basis von positiven oder negativen Feedback seiner Umgebung.

Typische Anwendungsbereiche für künstliche neuronale Netzwerke

Für künstliche neuronale Netze gibt es eine Vielzahl an Anwendungsbereiche. Typischer Einsatzbereich ist die Verarbeitung großer, wenig strukturierter oder unstrukturierter Eingabeinformationen, wie beispielsweise die Bild- und Sprachverarbeitung. Mit nur geringem vorhandenem systematischen Probemlösungswissen lassen sich konkrete Ergebnisse erzielen. Neuronale Netze erstellen Vorhersagen, simulieren Abläufe oder finden komplexe Zusammenhänge. Zu den Anwendungsbereichen neuronaler Netze und künstlicher Intelligenz zählen unter anderem:

  • Natural Language Processing (NLP) (Frage-Antwort-Systeme, maschinelle Übersetzungen, Textgenerierung, Textzusammenfassungen, Chatbots)
  • Bildverarbeitung und Bilderkennung
  • Mustererkennung
  • Steuerung komplexer Abläufe
  • Prognosenerstellung (Wettervorhersagen, Vorhersagen von Aktienkursen, Vorhersagen räumlicher Strukturen von Proteinen oder Vorhersagen von Materialeigenschaften)
  • Zeitreihenanalysen
  • Wirtschaftsanalysen
  • medizinische Diagnostik
  • digitale Assistenten
  • Routenplanung und -optimierung
  • biometrische Verfahren wie Gesichtserkennung
  • Deepfakes
  • Robotik
  • autonomes Fahren
  • Empfehlungssysteme
Microservices, Cloud Native, REST API , Kubernetes & Co.: Cloud Computing Wiki

Definitionen rund um Cloud ComputingVon AWS bis XaaS: Alle relevanten Schlagworte aus dem Bereich Cloud Computing finden Sie verständlich erklärt in unseren Definitionen. Ganz im Sinne eines kleinen, aber feinen Glossars lesen Sie hier neutral verfasste und leicht verständliche Erklärungen zu den wichtigsten Begriffen. Als Service für Sie haben wir die hier erklärten Begriffe in unseren Beiträgen auch direkt mit den zugehörigen Lexikoneinträgen verlinkt. So können Sie die wichtigsten Erläuterungen direkt dort nachschlagen.  

Zum Special: Definitionen rund um Cloud Computing

(ID:49331360)