ChatGPT und die Nachfolgerversion GPT-4 von OpenAI sind aktuell die Headliner sämtlicher Newsseiten dieser Welt und haben KI-Anwendungen zum Mainstream gemacht. Vielleicht auch deshalb, weil diese KI-Tools so einfach zu bedienen sind und man sie für alle möglichen Zwecke nutzen kann. Zum Schreiben von Schulaufsätzen, Marketingtexten oder Blogs, zur Generierung von Code oder zum Interpretieren von Bildern. Doch wenn es um die Darstellung von Fakten geht, kommt ChatGPT nicht aus der Kritik. Es versteht Dinge falsch, lügt, erfindet Fakten und führt Nutzer:innen in die Irre. Grund dafür kann eine “Halluzination” sein, von der alle großen Sprachmodelle betroffen sind. Warum ChatGPT Fehler macht, versuchen wir in diesem Artikel zu erklären.
KI-Tools wie ChatGPT / GPT-4 bauen auf sogenannten Large Language Models (LLM) auf, die mit einer riesigen Menge an Text “vortrainiert” werden (das “P” in GPT steht für “pretrained”). Im Laufe dieses Trainings entwickelt das Sprachmodell ein breites Spektrum an Fähigkeiten und Fertigkeiten, die man im Anschluss für viele Aufgaben nutzen kann. An dieser Stelle räumen wir gleich das erste Missverständnis aus dem Weg: GPT ist KEINE Suchmaschine!
ChatGPT ist KEINE Suchmaschine, sondern ein Sprachmodell
In der Anwendung des vortrainierten Sprachmodells gibt man zunächst eine Aufforderung ein, die aus einer Reihe von Wörtern besteht. Das Modell sagt dann das jeweils nächste Wort voraus, also zum Beispiel:
“Der Hund …”
“Der Hund geht ….” / “Der Hund läuft …”
“Der Hund geht über … die Straße/ den Fluss …” usw.
Es gibt also eine ganze Reihe möglicher Wörter, die auf “Der Hund …” folgen können. Diese Wörter könnte man jetzt zählen und in eine Excel-Tabelle eintragen. Wie man sich vorstellen kann, wäre das allerdings eine ziemlich komplexe Angelegenheit, da diese Tabelle sehr, sehr, sehr, lange würde …
Denn jedes mal, wenn wir ein Wort hinzufügen, würde die Tabelle an Größe exponentiell zunehmen. Und je länger der Text wird, umso größer ist auch die Wahrscheinlichkeit für eine sogenannte “Halluzination”, d.h. einen inkorrekten Output der Maschine, der sich in einer fehlerhaften Antwort der Sprachmodelle wie ChatGPT äußert. Schon 2022 widmeten sich Zeitungen wie die New York Times der Sorge, dass mit der zunehmenden Verbreitung von Bots, die auf großen Sprachmodellen basieren, das ungerechtfertigte Vertrauen der Nutzer in die Bot-Ausgabe zu Problemen führen könnte.
Warum “halluziniert” ein Sprachmodell?
Das Phänomen der “Halluzinationen” in den Sprachmodellen ist noch immer nicht vollständig erforscht. Deshalb arbeiten Experten fieberhaft daran, den Effekt zu verstehen und abzumildern. Auch bei GPT-4, dem Nachfolger von ChatGPT hat man zum Zeitpunkt der Veröffentlichung darauf hingewiesen, sich diesem Phänomen der Halluzinationen besonders gewidmet zu haben.
“We spent six months making GPT-4 safer and more aligned. GPT-4 is 82 percent less likely to respond to requests for disallowed content and 40 percent more likely to produce factual responses,” – OpenAI Blog, 14.3.2023
Es wird davon ausgegangen, dass es viele mögliche Gründe dafür gibt, warum Sprachmodelle halluzinieren. Hier sind 2 davon:
- Halluzination von Daten: Es gibt Divergenzen in den Quellinhalten, was bei großen Trainingsdaten oft vorkommt. Das heißt, wenn die KI zum Beispiel aus 10 verschiedenen Quellen Daten zum gleichen Event bezieht und diese unterschiedlich sind. Systeme wie ChatGPT “nähern” sich der Antwort nämlich nur statistisch an.
- Halluzination im Trainingsprozess: Halluzinationen treten auch dann auf, wenn es wenig Divergenzen im Datensatz gibt. In diesem Fall liegt es an der Art und Weise, wie das Modell trainiert wird. Es gibt hier viele Gründe, die zu dieser Art von Halluzination beitragen können, z. B: eine fehlerhafte Dekodierung durch den Transformer, eine Verzerrung durch die historischen Sequenzen, die das Modell zuvor erstellt hat oder eine Verzerrung durch die Art und Weise, wie das Modell sein Wissen in seinen Parametern kodiert.
Zahlen statt Worte – Was sind Tokens und Parameter?
Die Deutsche Sprache hat gegenwärtig einen Wortumfang bis zu 500.000 Wörtern (Grundformen) und verändert sich kontinuierlich. Im Durchschnitt benutzt laut Duden ein Muttersprachler 12-15.000 Wörter davon, darunter 3500 Fremdwörter. Um dieses Problem bei den Sprachmodellen zu umgehen, verwandelt man Wörter in sogenannte “Tokens”. Denn Systeme wir ChatGPT verstehen keine Worte, sondern nur Zahlen!
Vereinfacht heißt das also, man wandelt Worte in Zahlen um. Um bei unserem Beispiel “Der Hund geht über die Straße” zu bleiben – die Grafik unterhalb zeigt den Satz in Zahlen/ Tokens an. Sie können das auch gerne selbst mit diesem KI-Tool von OpenAI ausprobieren.

Warum ChatGPT Fehler macht – Ungewollte Fake News
Das ChatGPT-Modell (3.5) hat 175 Milliarden Parameter, GPT-4 wird auf 1 Billion Parameter geschätzt. Die Menge an Parametern, die in einem Sprachmodell vorhanden sind, kann als Indikator für dessen Fähigkeit angesehen werden, komplexe Muster und Zusammenhänge in Daten zu erkennen und dabei neue Fähigkeiten zu entwickeln. Trotz dieser enorm hohen Werte gibt es derzeit keine Möglichkeit, alle möglichen Kombinationen von Token im System zu speichern. Das Modell muss also einen Näherungswert errechnen. Natürlich wird diese Annäherung umso besser, je mehr Parameter das Modell hat, aber sie wird nie perfekt sein.
Parameter sind die Teile des KI-Sprachmodells, die aus historischen Trainingsdaten gelernt werden und im Wesentlichen die Fähigkeit des Modells für ein Problem, wie z. B. die Generierung von Text, definieren.
Es findet also eine “verlustbehaftete” Komprimierung statt. Man kann sich das vorstellen wie bei einem Bild, das stark komprimiert wird. Dabei gehen Informationen verloren, es wird nie perfekt sein …
ChatGPT mit sehr selbstsicherer Antwort
Hier ein Beispiel, um den Arbeitsprozess eines LLMs zu demonstrieren:
Sie stellen ChatGPT folgende Frage: “Wann wurde der Österreichische Staatsvertrag unterzeichnet?”
Möglichkeit 1: Die Antwort ist im Datensatz nicht vorhanden
Möglichkeit 2: Es gibt eine Antwort im Datensatz
Möglichkeit 3: Es gibt mehrere Antworten im Datensatz
Mann kann also Glück haben und es kann sein, dass die Fakten, nach denen man sucht, die wahrscheinlichsten Token sind. Ergo: ChatGPT gibt die richtige Antwort, nämlich “Am 15.Mai 1955”.
Man kann aber auch Pech haben und die wahrscheinlichsten Token sehen zwar richtig aus, sind es aber nicht. Und das ist genau der Grund, warum so viele falsche Antworten zustande kommen, die real aussehen und Anwender, Politiker und Medienvertreter irritieren. Weil ChatGPT die mögliche falsche Antwort sehr selbstsicher im Schreibfluss präsentiert! Hier ist es nocheinmal wichtig festzuhalten, dass ChatGPT KEINE Suchmaschine ist!
Der wichtigste Unterschied zwischen ChatGPT und der Google Suche ist ihre Funktion: ChatGPT wurde entwickelt, um auf der Grundlage von Eingaben menschenähnlichen Text zu generieren, während die Hauptfunktion von Google darin besteht, Informationen aus dem Internet zu suchen und bereitzustellen.
Tor zu einer erweiterten Realität?
Eine alternative, umstrittene und skurrile Erklärung zu den “Halluzinationen” der Sprachmodelle liefert der CEO von Stability.ai, Emad Mostaque, in einem Tweet am 7.5.2023. Er meint zu den Halluzinationen der LLMs: “Sie sind nur Fenster zu alternativen Realitäten im latenten Raum”. Und nicht nur eine Metapher für verlustbehaftete Komprimierung zu sehen.
LLMs don’t hallucinate.
They’re just windows into alternate realities in the latent space.
Just broaden your minds.
— Emad (@EMostaque) March 7, 2023
KI-Sprachmodelle als faszinierende Erfindung
Früher musste man jedes KI-Modell in einem mühevollen Prozess für einen bestimmten Anwendungsfall trainieren. Die Erfindung der großen Sprachmodelle ändert das – sie haben riesiges Potenzial und können zur Lösung unterschiedlichster Aufgaben und Problemstellungen eingesetzt werden. Auch das – in der Kreativszene derzeit häufig besprochene – “Prompt Engineering” oder “Prompt Design” ist eine Ausprägung dieser bedeutenden Entwicklung.

Trotz aller Kinderkrankheiten sind Large Language Models wie ChatGPT eine faszinierende Erfindung, da sie vielfältig einsetzbar sind. Die Grundlage für diese Modelle, die sogenannte Transformer Technologie, stammt im Übrigen von Google und wurde in einem Paper schon 2017 beschrieben. Auch Google verfügt mit Systemen wie LaMDA oder dem neuen BARD über Large Language Modelle, die Gerüchten Zufolge selbst GPT-4 an Leistung weit übertreffen. Der Konzern geht allerdings wesentlich vorsichtiger mit diesen Erfindungen um und macht sie derzeit nur für ausgewählte Zielgruppen zugänglich. Es bleibt spannend!