Ein Large Language Model ist ein großes generatives Sprachmodell mit künstlicher Intelligenz. Es basiert auf neuronalen Netzwerken mit Transformer-Architektur und ist in der Lage, natürliche Sprache zu verstehen, zu verarbeiten und zu generieren. Die Modelle werden mit riesigen Textmengen trainiert und haben teils mehrere hundert Milliarden Parameter.
KI-Modell zum Verstehen und Generieren natürlicher Sprache: zu den bekanntesten Vertretern der Large Language Models gehören die GPT-Sprachmodelle von OpenAI, MT-NLG von Microsoft, Google LaMDA oder BERT.
Ein Large Language Model ist ein großes Sprachmodell. Das Akronym lautet LLM. Es handelt sich um ein Machine-Learning-Modell aus dem Bereich der künstlichen Intelligenz zur Verarbeitung natürlicher Sprache (Natural Language Processing - NLP). Large Language Models basieren auf neuronalen Netzwerken mit Transformer-Architektur und verwenden Deep-Learning-Algorithmen. Sie werden mit riesigen Textmengen vortrainiert und für bestimmte Aufgaben feinabgestimmt. In der Regel haben sie viele Milliarden Parameter (teilweise mehrere hundert Milliarden Parameter).
Large Language Modelle verstehen, verarbeiten und generieren natürliche Sprache und sind eine Form von generativer künstlicher Intelligenz für textbasierte Inhalte. Sie sind für viele Aufgaben wie für das Beantworten von Fragen, das Zusammenfassen von Texten, das Vervollständigen von Texten, das Übersetzen von Texten oder das Erzeugen von Texten einsetzbar. LLMs kommen auch mit komplexen Texten, Fragen oder Anweisungen zurecht und generieren grammatikalisch und orthographisch einwandfreie, schlüssige Texte.
Mittlerweile lösen große Sprachmodelle auch Aufgaben, für die sie wenig oder gar nicht trainiert wurden. Die Modelle sind für viele Zwecke einsetzbar und erstellen beispielsweise Programmcode in diversen Programmiersprachen. Teilweise sind sie multimodal und verarbeiten neben Text Bildinformationen. Erste Large Language Models entstanden ab 2017/2018. Zu den bekanntesten LLM-Vertretern gehören die GPT-Sprachmodelle (Generative Pretrained Transformer) von OpenAI wie GPT-2, GPT-3 oder GPT-4 (mit dem auf den GPT-Sprachmodellen aufsetzenden Chatbot ChatGPT), BERT (Bidirectional Encoder Representations from Transformers) und T5 (Text-To-Text-Transfer-Transformer) von Google, MT-NLG (Megatron-Turing Natural Language Generation) von Microsoft und Nvidia oder LaMDA (Language Models for Dialog Applications) von Google.
Prinzipieller Aufbau und Funktionsweise der Large Language Models
Large Language Modelle basieren auf künstlichen neuronalen Netzwerken mit Transformer-Architektur. Die Transformer-Architektur hat sich seit 2017 als eine Art Standard für Deep-Learning-Techniken sequenzieller Daten wie Text etabliert und vorherige neuronale Netzwerkarchitekturen wie LSTM-Netze (Long Short-Term Memory Networks) größtenteils abgelöst. Das neuronale Netz besteht aus mehreren Neuronenschichten und besitzt verschiedene Komponenten für bestimmte Funktionen. Im Gegensatz zu einfachen rekurrenten neuronalen Netzen (rückgekoppelte neuronale Netze) sind neuronale Netze mit Transformer-Architektur mit Encodern und Decodern, die nacheinander durchlaufen werden, und einem sogenannten Selbstaufmerksamkeitsmechanismus (Self-Attention-Mechanismus) ausgestattet.
Der Selbstaufmerksamkeitsmechanismus setzt einen Teil der Eingangsinformationen, im Fall von Sprachmodellen ein Wort beziehungsweise ein Token, unabhängig von seiner Position mit weiteren Teilen der Eingangsinformationen, einem Satz, einem Absatz oder einem größeren Textabschnitt, in Bezug. Dadurch erhält das neuronale Netzwerk, vereinfacht ausgedrückt, ein besseres Gesamtverständnis des Textes. Im Kern arbeiten die großen Sprachmodelle mit Statistik und Wahrscheinlichkeiten. Sie optimieren ihre Vorhersagegenauigkeit und bestimmten jeweils Wort für Wort die wahrscheinlichste Fortsetzung eines Textes.
Training und Finetuning von LLMs
Bevor Large Language Models die gewünschten Ergebnisse generieren können, müssen sie trainiert werden. Hierfür werden sie mit riesigen Textmengen gefüttert. Das Lernen während des Trainings findet unüberwacht (unsupervised) statt. Die Trainingstexte sind nicht gelabelt oder mit speziellen Kommentaren versehen. Für das Training werden beispielsweise hunderte Gigabyte öffentlich zugänglicher Texte in verschiedenen Sprachen wie Wikipedia-Artikel, Bücher, wissenschaftliche Artikel, Nachrichtentexte, Forenbeiträge, Beiträge in sozialen Netzwerken oder Online-Kommentare verwendet.
Anhand der analysierten Textsequenzen lernt das LLM Wörter, Wortbedeutungen, Wortbeziehungen und Wortabhängigkeiten, ermittelt Wahrscheinlichkeiten für Wortfolgen und stellt Parameter des neuronalen Netzwerks wie Gewichtungen von Neuronenverbindungen oder Schwellwerte ein. Das Wissen und die Fähigkeiten des LLM sind quasi in den vielen Milliarden während des Trainings eingestellten Parametern des Sprachmodells gespeichert. Je mehr Parameter, desto komplexere Muster im Text lassen sich erkennen und desto mehr Informationen lassen sich speichern. Das Training eines LLM ist mit großem Rechen- und Speicheraufwand verbunden und nimmt einen längeren Zeitraum in Anspruch. Der Trainingsaufwand und die Trainingszeit steigen mit der Anzahl der Parameter und der Menge der Trainingsdaten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Dem allgemeinen Training mit großen Textkorpora schließt sich in der Regel ein Finetuning (Feinabstimmung) an. Im Rahmen des Finetunings wird das Large Language Model für eine bestimmte Aufgabe oder einen spezifischen Anwendungsfall trainiert. Das Finetuning kann beispielsweise als überwachter Lernvorgang mit gelabelten Trainingsdaten bestehend aus Beispiel-Inputs und -Outputs oder als bestärkendes Lernen mit positivem oder negativem Feedback stattfinden. So werden dem Modell beispielsweise typische Aufgabenstellungen und die zugehörigen Lösungen präsentiert. Daraus abgeleitet werden einige Parameter des bereits vortrainierten LLM für spezifische Aufgaben verändert, angepasst und optimiert.
Fähigkeiten und Einsatzmöglichkeiten von Large Language Models
Large Language Models besitzen viele Fähigkeiten und lassen sich für eine Vielzahl von Anwendungen einsetzen. Obwohl die Modelle prinzipiell betrachtet nur darauf trainiert wurden, die Wahrscheinlichkeiten für bestimmte Wortfolgen vorherzusagen, erfassen LLMs mit ausreichend vielen Parametern und Trainingsdaten einen Großteil der Semantik und Syntax der menschlichen Sprache und das in den Trainingsdaten enthaltenen Wissen. Sie scheinen eine Art „allgemeines Weltwissen“ zu haben.
Während frühere Sprachmodelle lediglich für bestimmte Aufgaben trainiert waren und nur diese erledigen konnten, lösen vortrainierte LLMs mit wenigen oder gar keinen Trainingsbeispielen bestimmte Aufgabenstellungen. Large Language Models entwickeln erstaunliche Fähigkeiten beim Beantworten von Fragen zu unterschiedlichsten Themen. Oft sind die Antworten kaum von menschlichen Antworten zu unterscheiden. Im Natural-Language-Processing-Umfeld lassen sich die Sprachmodelle einsetzen:
zum Zusammenfassen von Texten,
zum Beantworten von Fragen,
zum Fortführen von Texten,
zum Übersetzen von Texten,
zum Umschreiben von Texten,
zum Generieren neuer Texte,
zum Klassifizieren und Kategorisieren von Texten und ihren Inhalten,
zur Stimmungserkennung von Texten (Sentiment Analysis),
zur interaktiven Kommunikation mit Menschen (Chatbots).
Eine weitere erstaunliche Fähigkeit vieler aktueller Large Language Models ist das Erstellen von Programmcode. Da sich Programmiersprachen aus Sicht der Transformer-Modelle ähnlich wie natürliche Sprache verhalten, können die Sprachmodelle nach entsprechendem Training mit Programmcode und Programmbeispielen auch in verschiedenen Programmiersprachen programmieren und den ausgegebenen Code sogar kommentieren.
Prinzipiell einsetzbar sind Large Language Models mit entsprechenden Anpassungen auch in einigen wissenschaftlichen Bereichen, in denen es um die Verarbeitung sequenzieller Daten geht. So sind einige, den großen Sprachmodellen recht ähnliche, KI-Modelle zum Beispiel ausgehend von Aminosäuresequenzen oder aufgrund von chemischen Elementfolgen in der Lage, Eigenschaften von Proteinen oder von Materialien vorherzusagen.
Abhängig von den grundlegenden Fähigkeiten lassen sich LLMs unterteilen in Kategorien wie Zero-Shot-Modelle (für Anwendungsfälle ohne spezielle Trainingsbeispiele), in Finetuned-Modelle oder Domain-Specific-Modelle (mit speziellem Training für spezifische Anwendungsfälle) oder in multimodale Modelle (für multimodale Anwendungsfälle wie die Verarbeitung von Text und Bildern).
Large Language Models müssen mit riesigen Textmengen, großem Hard- und Softwareaufwand und viel Energie über längere Zeiträume, teilweise über Monate, trainiert werden. Erst anschließend sind sie für produktive Aufgaben einsetzbar. Da das Vortraining zu einem gewissen Zeitpunkt abgeschlossen ist, fehlt ihnen das Wissen, das in den Trainingsdaten noch nicht enthalten war. In den Trainingsdaten vorhandene Fehler, Ungenauigkeiten, toxische Sprache, Vorurteile oder Rassismus werden von den Sprachmodellen übernommen.
Während des produktiven Einsatzes verbrauchen die LLMs ebenfalls viel Energie, Speicher und Rechenleistung. Je größer die Sprachmodelle werden, desto größer der Aufwand für das Training und den Betrieb der Modelle. Dazu kommt, dass es immer schwieriger wird, genügend Trainingsdaten bereitzustellen. Weitere Schwächen und Risiken von Large Language Models sind:
fehlende Fähigkeit zu Kreativität - es wird nur vorhandenes Wissen angewandt, kombiniert und neu formuliert,
erfinden unter Umständen plausibel klingende falsche Antworten oder liefern Fehlinformationen,
neigen in bestimmten Situationen zum „Schwafeln“ und „Halluzinieren“,
mangelnde Transparenz bezüglich der Ergebnisse und der dafür verwendeten Informationen,
Aufgrund der riesigen Anzahl von Parametern kaum zu durchschauen und schwer zu entstören,
viele rechtliche Fragestellungen zur Verwendung von Trainingsdaten und des von der KI erstellten Inhalts noch ungeklärt,
mangelndes Verständnis von rhetorischen Stilmitteln,
Bedenken hinsichtlich des Datenschutzes und der Datensicherheit der verwendeten (persönlichen) Daten,
sinnvoller Output wird nur für eine begrenzte Anzahl von Eingabetoken produziert.
Einige Beispiele für Large Language Models
Im Folgenden einige Beispiele für bekannte Large Language Models inklusive ihrer Anzahl an Parametern:
Generative Pretrained Transformer (GPT) von OpenAI: GPT-2 aus dem Jahr 2019 mit 1,5 Milliarden Parametern, GPT-3 aus dem Jahr 2019 mit 175 Milliarden Parametern und GPT-4 (mit mulitmodalen Fähigkeiten für Text und Bilder) aus dem Jahr 2023 mit vermutlich über einer Billion Parametern.
BERT (Bidirectional Encoder Representations from Transformers) von Google aus dem Jahr 2018 mit 340 Millionen Parametern.
T5 (Text-To-Text-Transfer-Transformer) aus dem Jahr 2019 von Google in verschiedenen Größen mit bis zu 11 Milliarden Parametern.
MT-NLG (Megatron-Turing Natural Language Generation) von Microsoft und Nvidia aus dem Jahr 2021 mit 530 Milliarden Parametern.
LaMDA (Language Models for Dialog Applications) von Google aus dem Jahr 2022 mit 137 Milliarden Parametern.
PaLM (Pathways Language Model) von Google aus dem Jahr 2022 mit 540 Milliarden Parametern.
Gopher von DeepMind aus dem Jahr 2021 mit 280 Milliarden Parametern
Das seit Ende 2022 für viel Furore sorgende ChatGPT von OpenAI ist im eigentlichen Sinn kein eigenes großes Sprachmodell. Es handelt sich bei ChatGPT um einen Chatbot, der als Web-Interface auf eine angepasste Version des Large Language Model GPT-3.5 (und inzwischen auch auf GPT-4) zugreift.
Microservices, Cloud Native, REST API , Kubernetes & Co.: Cloud Computing Wiki
Von AWS bis XaaS: Alle relevanten Schlagworte aus dem Bereich Cloud Computing finden Sie verständlich erklärt in unseren Definitionen. Ganz im Sinne eines kleinen, aber feinen Glossars lesen Sie hier neutral verfasste und leicht verständliche Erklärungen zu den wichtigsten Begriffen. Als Service für Sie haben wir die hier erklärten Begriffe in unseren Beiträgen auch direkt mit den zugehörigen Lexikoneinträgen verlinkt. So können Sie die wichtigsten Erläuterungen direkt dort nachschlagen.