Fünf Open-Source-LLMs Freie KI-Hilfe ohne Datenschutzprobleme

Von Mirco Lang 5 min Lesedauer

Anbieter zum Thema

In vielen Firmen dürfte es mittlerweile rumoren: KI-Helferlein haben sich etabliert, bieten in vielen Bereichen wertvolle Hilfe und werden gerade bei Techies bereits unverzichtbarer Standard sein – doch dann kommt die Datenschutzproblematik auf den Tisch.

Was haben Lamas mit Open-Source-Anwendungen und KI zu tun? All das erfahren Sie in diesem Artikel.(Bild:  Dall-E / KI-generiert)
Was haben Lamas mit Open-Source-Anwendungen und KI zu tun? All das erfahren Sie in diesem Artikel.
(Bild: Dall-E / KI-generiert)

Wer ChatGPT oder ähnliches im Unternehmen nutzt, füttert das System mit internen Daten. Das gilt generell für die Arbeit auf dem Prompt. Schlimmer wird es aber, wenn der Wunsch aufkommt, die KI mit dem eigenen Datenschatz zu versorgen, dem Intranet, Verwaltungsvorschriften, Blogs, Kundendatenbanken, Prozessen und so weiter.

Ein KI-Chatbot auf Basis eigener Daten ist kein Problem, wir haben bereits gezeigt, wie sich so ein Vorhaben mit der Low-Code-Plattform Botpress binnen einiger Stunden realisieren lässt. Es gibt auch kommerzielle Angebote, die eine Trennung zwischen eigener und Kunden-Datenbasis anbieten. Aber spätestens, wenn es um sensible Daten geht, sollte es in Richtung Eigenverantwortung gehen – und somit in Richtung Open Source.

Am Beispiel eines ISMS wird deutlich: KI kann eine große Hilfe sein, definierte Risiken auf Control-Sets zu mappen. Aber das eigene Risk-Register in die Cloud hochladen? Keine gute Idee.

Wie sieht es also mit Open-Source-Modellen aus? Das Angebot ist riesig und wächst kontinuierlich, allein dieses GitHub-Projekt listet über 60 Modelle und spezielle Modelle für Code-Generierung auf. Einige Modelle sollten Sie definitiv kennen.

Vorweg: Etwas Vorsicht ist beim Thema Zahlen angebracht. Zum einen sind Anzahl der Parameter und Kontextlänge längst nicht alles, zum anderen ist hier viel Dynamik zu verzeichnen. Llama zum Beispiel kam in Version 3.1 auf bis zu 405 Billionen Parameter, in Version 3.2 auf bis zu 3 Billionen und in 3.2-Vision auf 90 Billionen. Interessante Werte, aber nur bedingt als Benchmarks tauglich.

Im Folgenden werden alle Anbieter vorgestellt und beschrieben – doch mit dieser Tabelle kann schon mal ein erster Eindruck gewonnen werden.

Modell Parameter Kontextlänge Anbieter Lizenz
Llama 3.2-Vision 11, 90 128.000 Meta Meta CLA
Snowflake Arctic 17 4.000 Snowflake Apache
Jamba 0.1 52 256.000 AI21labs Apache
Phi-3 Mini 3,8 4096, 128.000 Microsoft MIT
Falcon2-11B 11 8192 TII Apache
Bloom 176 2948 BigScience Open RAIL-M v1

Llama

Metas Llama ist ein sehr bekanntes Open-Source-Modell, wobei schon diese Einschätzung falsch ist – obwohl auf GitHub verwaltet und ständig als Open Source bezeichnet. Die zugrunde liegende Lizenz dürfte zwar in der Praxis vielen Nutzern „Open-Source-ig“ genug sein, aber die Verwendung ist eingeschränkt und daher wird sie niemals OSI-konform sein.

Interessant ist Llama auch durch Meta als Anbieter, wobei der Facebook-Konzern Skeptikern ein Dorn im Auge ist. Vor allem aber gibt es zu Llama viel Dokumentation, und im Einsatz gilt es als relativ einfach. Zudem läuft Llama 2 zufriedenstellend auf Endnutzer-Rechnern. Sofern monatlich über 700 Millionen aktive Nutzer ein Llama-basiertes Projekt verwenden, muss man Meta explizit um Erlaubnis bitten.

Snowflake Arctic

Die amerikanische Snowflake Inc. ist mit dem Arctic-Modell einer der jüngsten Llama-Konkurrenten. Der Cloud-Spezialist setzt auf ein sehr großes Modell mit insgesamt 480 Billionen Parametern, von denen 17 Billionen aktiv sind. Die Kontextlänge siedelt sich mit 4.000 Tokens eher im unteren Bereich an – das entspricht ungefähr ChatGPT 3.5.

Als Hauptargument für Arctic gilt die Performance. Das führt Snowflake selbst detailliert aus und eine Vielzahl von Fachbeiträgen bestätigen dies. Allzu harten Konkurrenzkampf muss man erwarten, schließlich bietet Snowflake auch Llama über die hauseigene Infrastruktur an.

Ein eindeutiger Vorteil: Eine echte, permissive Open-Source-Lizenz, die den internen Einsatz deutlich vereinfacht.

Jamba

Jamba stammt von den israelischen AI21 Labs und fällt vor allem durch seine enorme Kontextlänge von 256.000 Tokens auf – selbst Microsofts Phi und Metas Llama kommen „nur“ auf die Hälfte, andere Modelle liegen unter 10.000 Tokens. Jamba baut also auf einen Kontext von rund 800 Textseiten auf. Für Arbeiten an größeren zusammenhängenden Werken kann Jamba definitiv in Erwägung gezogen werden.

Nvidia verweist zudem auf, zumindest theoretisch, sehr gute Performance, die vor allem einem Mix aus verschiedenen Architekturen zu verdanken sein soll.

Jamba 0.1 ist die Urversion mit 52 Billionen Token, mittlerweile stehen auch Jamba 1.5 Mini in gleicher Größe sowie Jamba 1.5 Large mit 400 Billionen Token zur Verfügung.

Wie auch Arcitc steht Jamba unter der Apache-Lizenz und ist ebenfalls über Snowflake zu beziehen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Phi-3

Microsoft geht mit den Phi-Modellen einen etwas anderen Weg, insbesondere mit der Mini-Variante. Mit gerade einmal 3,8 Billionen Parametern gehört Phi-3 Mini zu den kleinsten Modellen, kann dabei aber bis zu 128.000 Tokens an Kontext verarbeiten.

Allerdings setzt man bei Phi-3 nicht nur auf Winzlinge, andere Varianten kommen auf fast 42 Billionen Parameter und sind laut Microsoft selbst, akkurat und schnell – und liefert dafür jede Menge Benchmarks.

Übrigens: Eigentlich handelt es sich gar nicht um ein LLM, sondern ein Small Language Model, ein SLM. So ist es zumindest seit einiger Zeit im Sprachgebrauch von Anbietern zu lesen.

Falcon2

Die Falcon-Modelle stammen vom Technology Innovation Institute (TII) aus Abu Dhabi. Das gängige Falcon2-11B fällt zahlenmäßig mit 11 Billionen Parametern und einer Kontextlänge von knapp 8200 Tokens nicht sonderlich auf. In der 180B-Version sieht das schon anders aus, da liegt das TII ganz vorn.

Auch hier kommt wieder die Apache-Lizenz zum Einsatz, allerdings gekoppelt an eine Acceptable Use Policy. Deren Einschränkungen sind derzeit zwar schlank und unproblematisch, allerdings gilt laut Lizenz die jeweils aktuelle Version. Es wird sogar empfohlen, die Policy ständig im Auge zu behalten! Ein etwas unschönes Risiko.

Bei Flacon läuft Ihnen noch ein Kürzel über den Weg: SSLM für State Space Language Model. Damit ist allerdings nur interne Technik gemeint, das soll kein Gegenentwurf zu LLM sein. Einen ausgiebigen Einblick in Modell-Interna bekommen Sie bei Interconnects.

Bloom

Bloom fällt nicht bloß durch seine enorme Größe von 176 Billionen Parametern auf. Viel interessanter ist, wer dahinter steckt: BigScience ist keine fixe Organisation, sondern eine offene Kollaboration von rund 1.000 Wissenschaftlern, die in Form eines einjährigen Workshops durchgeführt wurde.

Das bedeutet auch, dass Bloom derzeit eines der Projekte ist, die am meisten in der Welt freier Software, Daten und Standards verankert ist. Entsprechend gut sieht die Informationslage aus, wenn es zum Beispiel um die Trainingsdaten geht. Wenn Sie mal einen Blick in die Bloom-Praxis werfen wollen, finden Sie einen interessanten Beitrag bei Medium.com.

Wirft man einen Blick auf Hugging Face, dann zeichnet sich auch ein klares Bild darüber ab, welche Projekte und Modelle (dort) beliebt sind: Allein Meta und Microsoft kommen auf Follower-Zahlen jenseits der 200, vor allem aber verzeichnen die Llama- und Phi-Modelle Downloadzahlen in Millionenhöhe. Arctic und Falcon bekommen noch ein paar Hunderttausend Downloads zusammen, Jamba kommt mit allen Varianten zusammen auf rund 80.000.

(ID:50225747)