3 Fragen an... unseren Data Scientist Jan

1. Wie werden Sprachmodelle im Kontext der natürlichen Sprachverarbeitung definiert und welche Unterschiede gibt es zwischen großen und kleinen Sprachmodellen?

Große neuronale Sprachmodelle sind spätestens seit der Veröffentlichung von Chat-GPT in aller Munde. Tatsächlich beschäftigen sich Linguisten schon seit der Pionierzeit der Informatik mit der Frage, ob man Sprache als Wahrscheinlichkeitsverteilung über die Menge aller Wörter betrachten, und diese Verteilung aus großen Sammlungen von Texten lernen kann.

Die historischen Wurzeln der Sprachmodelle kann man bis zu Claude Shannons Artikel „A Mathematical Theory of Communications“ zurückverfolgen, der damit im Jahr 1948 das Feld der Informationstheorie begründete. Das einfachste Sprachmodell, das n-Gramm-Modell, drückt die Wahrscheinlichkeit eines Wortes als bedingte Wahrscheinlichkeit gegeben die vorangegangenen n-1 Worte aus. Ein solches Modell kann bereits lernen, dass auf „die Sonne“ mit höherer Wahrscheinlichkeit „scheint“ als „weht“ folgt. Mit der Erzeugung längerer kohärenter Texte ist ein solches Modell aber überfordert.

Moderne Sprachmodelle ersetzen das primitive statistische Modell der bedingten Wahrscheinlichkeit durch ein großes neuronales Netz, oft mit Milliarden von Parametern. Die Aufgabe bleibt jedoch gleich: in einer Folge von Wörtern ist das nächste Wort vorherzusagen. Große Sprachmodelle werden erfolgreich auf Probleme wie Sentiment-Analyse, automatische Zusammenfassung und maschinelle Übersetzung von Texten angewandt.

Der Unterschied zwischen „kleinen“ und „großen“ Sprachmodellen ist nicht klar definiert. Eine Möglichkeit wäre, die Grenze bei Modellen der Größe von GPT-3 zu ziehen: Erstens sind diese Modelle so groß, dass sie zur Zeit nicht auf einer einzelnen Workstation betrieben werden können, sondern die Rechenleistung eines kleinen bis mittelgroßen Rechenzentrums erfordern. Zweitens hat gerade GPT-3 demonstriert, das Sprachmodelle ab einer gewissen Größe emergentes Verhalten zeigen: Sie können Probleme „auf Zuruf“ korrekt lösen, ohne zuvor speziell dafür trainiert worden zu sein.

2. Wo liegen die Grenzen der Anwendung großer Sprachmodelle, und wie kann man sie umgehen?

Ein kurzes Gespräch mit Chat-GPT genügt, um die Grenzen eines solchen Modells zu erkennen: Von Fakt zu Fiktion ist es für ein Sprachmodell nur ein kleiner Schritt – Hauptsache, der produzierte Text sieht plausibel aus. Erfordert die Lösung einer Rechen- oder Logikaufgabe mehrere Schritte, produziert das Modell oft offensichtlich falsche Lösungen. Neben Fakten lernt das Modell auch gängige Stereotypen und Vorurteile, und gibt diese unter Umständen ungefiltert weiter. Eine Überprüfung der generierten Ausgabe ist entscheidend, um sicherzustellen, dass sie inhaltlich korrekt und ethisch vertretbar ist.

Auf den zweiten Blick treten weitere Probleme zu Tage: Um die erforderliche Rechenleistung zu begrenzen, ist auch die „Aufmerksamkeitsspanne“ eines Sprachmodells begrenzt, zur Zeit auf die Textmenge von ungefähr einer Druckseite. Mit jedem neuen Modell wächst die Länge des Textes, der maximal verarbeitet werden kann, aber Tolstois „Krieg und Frieden“ kann auch GPT-4 nicht als Ganzes verdauen. Und wollte man das bezahlen? Ein Preis von 0.02 US-Dollar für 1000 Token (GPT-3) hört sich zunächst günstig an. Berücksichtigt man aber, dass ein typisches deutsches Wort aus drei bis vier Token besteht, zahlt man OpenAI über den Daumen gepeilt 20 Dollar, um Tolstois Klassiker von GPT-3 lesen zu lassen.

Schließlich ist „Krieg und Frieden“ mittlerweile frei von Urheberrecht und enthält als literarisches Werk keine datenschutzrechtlich relevanten Inhalte. Bei Unternehmensdaten sieht das anders aus.

Oft ist weniger daher mehr: ein kleines Modell, „on premises“ betrieben, kann aus den genannten praktischen Erwägungen der größeren Cloud-Lösung überlegen sein. Verzichtet man auf die emergenten Problemlösungs-Fähigkeiten eines großen Sprachmodells, ist es jedoch notwendig, das Modell für das zu lösende Problem zu trainieren. Im Vergleich zu klassischen statistischen Modellen kommt auch ein kleineres Sprachmodell mit überraschend wenigen Beispielen aus – der Erfolg des Trainings hängt aber zu nicht unwesentlichen Teilen von der Erfahrung des zuständigen Data Scientists ab.

3. Wie kann man die Genauigkeit und Relevanz eines großen Sprachmodells für bestimmte Domänen und Anwendungen verbessern?

Zur Zeit der ersten großen Sprachmodelle war das Nachtrainieren mit problemspezifischen Beispielen („fine tuning“) der einzige Weg, die Leistung eines Sprachmodells gezielt zu verbessern. In den letzten Jahren sind zahlreiche neue, vielversprechende Ansätze vorgestellt worden, um Sprachmodelle leistungsfähiger und flexibler zu machen: Das Adapter-Framework erlaubt es, die erlernten Fähigkeiten vom zugrundeliegenden Sprachmodell zu trennen, und innerhalb gewisser Grenzen austauschbar und kombinierbar zu machen. Modelle wie der „Toolformer“ und das konzeptuell verwandte Plugin-System von OpenAI eröffnen den Zugriff auf externe Informationsquellen. Dialogmodelle wie Chat-GPT haben gezeigt, dass eine Kombination von Training auf Frage-Antwort-Paaren in Verbindung mit gezieltem menschlichem Feedback ein Sprachmodell dazu bewegen kann, bevorzugt hilfreiche und nützliche Antworten auf Anfragen zu generieren.