AGI - Haben wir bereits menschenähnliche künstliche Intelligenz erreicht?

Im Jahr 1950 stellte Alan Turing in seinem wegweisenden Aufsatz Computing Machinery and Intelligence eine Frage, die damals rein hypothetisch erschien: Könnten Maschinen jene Art von flexibler, allgemeiner kognitiver Kompetenz entwickeln, die für menschliches Denken charakteristisch ist? Seine Antwort war der berühmte Turing-Test, auch bekannt als Imitation Game – ein Gedankenexperiment, bei dem eine Maschine versucht, sich in einem Gespräch als Mensch auszugeben. Ein aktueller Artikel in Nature 650, 36-40 hat die Diskussion über AGI (Allgemeine Künstliche Intelligenz) erneut entfacht.

Ein paar Jahrzehnte später scheint die Antwort auf Alan Turings Frage ein klares Ja zu sein. Im März 2025 wurde das große Sprachmodell GPT-4.5 von OpenAI in einem Turing-Test von menschlichen Bewertern in 73 Prozent der Fälle als menschlich eingestuft. Leser bevorzugten sogar literarische Texte, die von Large Language Models (LLMs) generiert wurden, gegenüber solchen von menschlichen Experten.

Computing Machinery and Intelligence / Können Maschinen denken?. Englisch/Deutsch. [Great Papers Philosophie]: Turing, Alan M. – 14464 – 2., durchges. … Auflage 2023 (Reclams Universal-Bibliothek)

Dies ist jedoch nur die Spitze des Eisbergs. LLMs haben hervorragende Leistungen bei internationalen Mathematik-Olympiaden erzielt, mit führenden Mathematikern zusammengearbeitet, um Theoreme zu beweisen, wissenschaftliche Hypothesen generiert, die in Experimenten validiert wurden, Probleme aus Doktoratsprüfungen gelöst, professionelle Programmierer beim Schreiben von Code unterstützt und vieles mehr.
Mit anderen Worten: LLMs haben zahlreiche Anzeichen jener Art von breiter, flexibler kognitiver Kompetenz gezeigt, die Turing im Fokus hatte – was wir heute als „allgemeine“ Intelligenz bezeichnen.

Die Debatte um Artificial General Intelligence nimmt fahrt auf

Dennoch zögern viele Experten zu behaupten, dass aktuelle KI-Modelle Artificial General Intelligence (AGI) aufweisen – und einige bezweifeln, dass sie dies jemals tun werden. Eine Umfrage unter führenden Forschern im März 2025 ergab, dass 76 Prozent es für unwahrscheinlich hielten, dass die Skalierung aktueller KI-Ansätze zu AGI führen würde.

Die konzeptuelle Herausforderung: Was ist allgemeine Intelligenz?

Die Diskrepanz zwischen der beeindruckenden Leistung von LLMs und der Zurückhaltung vieler Experten, von AGI zu sprechen, hat laut Chen und Kollegen mehrere Ursachen:

• Konzeptuelle Probleme: Definitionen von AGI sind mehrdeutig und inkonsistent
• Emotionale Faktoren: AGI weckt Ängste vor Verdrängung und Disruption
• Praktische Gründe: Der Begriff ist mit kommerziellen Interessen verflochten, die Beurteilungen verzerren können

Eine gängige informelle Definition von allgemeiner Intelligenz ist ein System, das nahezu alle kognitiven Aufgaben ausführen kann, die ein Mensch ausführen kann. Doch diese Definition verbirgt eine entscheidende Mehrdeutigkeit: Bezieht sich ein Mensch auf einen Top-Experten für jede Aufgabe? Dann würde kein einzelnes Individuum qualifizieren – Marie Curie gewann Nobelpreise in Chemie und Physik, war aber keine Expertin für Zahlentheorie. Meint es einen zusammengesetzten Menschen mit Kompetenz in allen Bereichen? Auch dies scheint eine hohe Messlatte – Albert Einstein revolutionierte die Physik, konnte aber kein Mandarin sprechen.

Marie Curie gewann Nobelpreise in Chemie und Physik, war aber keine Expertin für Zahlentheorie. Ist sie deswegen weniger „allgemein“ intelligent? Quelle: Wikipedia

Eine pragmatische Definition

Eine Definition, die im Wesentlichen alle Menschen ausschließt, ist keine Definition von allgemeiner Intelligenz – sie betrifft etwas anderes, vielleicht ideale Expertise oder kollektive Intelligenz. Vielmehr geht es bei allgemeiner Intelligenz um ausreichende Breite und Tiefe kognitiver Fähigkeiten, wobei ausreichend durch paradigmatische Fälle verankert wird.

Breite bedeutet Fähigkeiten über mehrere Domänen hinweg – Mathematik, Sprache, Naturwissenschaften, praktisches Schlussfolgern, kreative Aufgaben – im Gegensatz zu schmalen Intelligenzen wie einem Taschenrechner oder einem Schachprogramm. Tiefe bedeutet starke Leistung innerhalb dieser Domänen, nicht nur oberflächliches Engagement. Menschliche allgemeine Intelligenz lässt Grade und Variation zu. Kinder, durchschnittliche Erwachsene und ein anerkanntes Genie wie Einstein haben alle allgemeine Intelligenz unterschiedlichen Niveaus und Profils. Dieselbe Flexibilität sollte für künstliche Systeme gelten: Wir sollten fragen, ob sie die Kernfähigkeiten auf Niveaus haben, die mit menschlicher allgemeiner Intelligenz vergleichbar sind.

Was allgemeine Intelligenz nicht ist

Um das Konzept zu schärfen, identifizieren Chen und Kollegen vier Merkmale, die nicht für allgemeine Intelligenz erforderlich sind:

1. Perfektion
Wir erwarten nicht, dass ein Physiker Einsteins Einsichten erreicht oder ein Biologe Darwins Durchbrüche repliziert. Nur wenige Menschen haben selbst in spezialisierten Kompetenzbereichen die perfekte Tiefe erreicht. Menschliche allgemeine Intelligenz erfordert keine Perfektion – AGI auch nicht.

2. Universalität
Kein einzelner Mensch kann jede kognitive Aufgabe ausführen, und andere Spezies haben Fähigkeiten, die unsere eigenen übertreffen: Ein Oktopus kann seine acht Arme unabhängig kontrollieren; viele Insekten können Teile des elektromagnetischen Spektrums sehen, die für Menschen unsichtbar sind. Allgemeine Intelligenz erfordert keine universelle Beherrschung dieser Fähigkeiten.

3. Menschliche Ähnlichkeit
Intelligenz ist eine funktionale Eigenschaft, die in verschiedenen Substraten realisiert werden kann – ein Punkt, den Turing 1950 berücksichtigte, indem er die menschliche Biologie beiseite ließ. Systeme, die allgemeine Intelligenz demonstrieren, müssen nicht die menschliche kognitive Architektur replizieren oder menschliche kulturelle Referenzen verstehen. Wir würden dies ja auch nicht nicht von intelligenten Außerirdischen verlangen – das Gleiche gilt für Maschinen.

4. Superintelligenz
Der Begriff Superintelligenz wird im Allgemeinen verwendet, um jedes System zu bezeichnen, das die kognitive Leistung von Menschen in fast allen Bereichen bei weitem übertrifft. Superintelligenz und AGI werden oft verwechselt, insbesondere in geschäftlichen Kontexten, in denen Superintelligenz oft wirtschaftliche Disruption signalisiert. Kein Mensch erfüllt diesen Standard – es sollte auch keine Anforderung für AGI sein.

Die Beweiskaskade: Evidenz für AGI

Es gibt keine scharfe Trennlinie für die Existenz allgemeiner Intelligenz – jeder exakte Schwellenwert ist unweigerlich willkürlich. Diese Vagheit mag diejenigen frustrieren, die exakte Kriterien wünschen, aber die Unschärfe ist ein Merkmal, kein Fehler. Konzepte wie Leben und Gesundheit widersetzen sich scharfer Definition, bleiben aber nützlich; wir erkennen paradigmatische Fälle, ohne exakte Grenzen zu benötigen.
Wenn wir allgemeine Intelligenz oder Fähigkeit bei anderen Menschen beurteilen, versuchen wir nicht, in ihre Köpfe zu schauen, um Verständnis zu verifizieren – wir schließen daraus aus Verhalten, Konversation und Problemlösung. Kein einzelner Test ist definitiv, aber Evidenz akkumuliert. Das Gleiche gilt für künstliche Systeme.

Die Nature-Autoren schlagen eine Kaskade von zunehmend anspruchsvollen Evidenzebenen vor:

1. Turing-Test-Niveau
Marker vergleichbar mit einer grundlegenden Schulbildung: Bestehen von Standard-Schulprüfungen, Führen angemessener Gespräche und Durchführen einfacher Schlussfolgerungen. Vor einem Jahrzehnt könnte die Erfüllung dieser als ausreichend starke Evidenz für AGI weithin akzeptiert worden sein.

2. Experten-Niveau
Hier steigen die Anforderungen: Goldmedaillen-Leistung bei internationalen Wettbewerben, Lösen von Problemen aus Doktoratsprüfungen über mehrere Fachgebiete hinweg, Schreiben und Debuggen von komplexem Code, Beherrschung von Dutzenden von Sprachen, nützliche Forschungsunterstützung an der Spitze sowie kompetente kreative und praktische Problemlösung, vom Verfassen von Aufsätzen bis zur Reiseplanung.
Diese Leistungen übertreffen viele Darstellungen von AGI in der Science-Fiction. Der empfindungsfähige Supercomputer HAL 9000 aus Stanley Kubricks Film 2001: Odyssee im Weltraum (1968) zeigte weniger Breite als aktuelle LLMs. Und aktuelle LLMs übertreffen sogar, was wir von Menschen verlangen: Wir schreiben einzelnen Personen allgemeine Intelligenz auf der Grundlage von viel schwächerer Evidenz zu.

3. Übermenschliches Niveau
Revolutionäre wissenschaftliche Entdeckungen wie Googles AlphaFold und konsistente Überlegenheit gegenüber führenden menschlichen Experten in einer Reihe von Domänen. Solche Evidenz würde sicherlich keine vernünftige Debatte über das Vorhandensein allgemeiner Intelligenz in einer Maschine zulassen – aber sie ist keine erforderliche Evidenz für deren Anwesenheit, weil kein Mensch dies zeigt.

Turings Vision verwirklicht

Aktuelle LLMs decken bereits die ersten beiden Ebenen ab und kratzen an der dritten Ebene. Während LLMs zunehmend schwierigere Probleme angehen, werden alternative Erklärungen für ihre Fähigkeiten – etwa, dass sie gigantische Nachschlagetabellen seien, die vorberechnete Antworten abrufen, oder stochastische Papageien, die oberflächliche Regelmäßigkeiten ohne Erfassen von Bedeutung oder Struktur wiedergeben – zunehmend widerlegt.

Zehn häufige Einwände gegen LLM-Intelligenz

Chen und Kollegen untersuchen zehn verbreitete Einwände gegen die Idee, dass aktuelle LLMs allgemeine Intelligenz aufweisen. Mehrere davon wiederholen Einwände, die Turing selbst 1950 in Betracht zog. Jeder, so argumentieren sie, verwechselt entweder allgemeine Intelligenz mit nicht-wesentlichen Aspekten von Intelligenz oder wendet Standards an, die einzelne Menschen nicht erfüllen.

1. „Sie sind nur Papageien“
Der Einwand des stochastischen Papageis besagt, dass LLMs lediglich Trainingsdaten interpolieren. Sie können nur Muster rekombinieren, auf die sie gestoßen sind, sodass sie bei wirklich neuen Problemen versagen müssen.
Frühe LLMs machten sicherlich Fehler bei Problemen, die Denken und Generalisierung über oberflächliche Muster in Trainingsdaten hinaus erforderten. Aber aktuelle LLMs können neue, unveröffentlichte Mathematikprobleme lösen, nahezu optimale In-Context-Statistische Inferenz auf wissenschaftlichen Daten durchführen und domänenübergreifenden Transfer aufweisen. Wenn Kritiker revolutionäre Entdeckungen wie Einsteins Relativitätstheorie fordern, setzen sie die Messlatte zu hoch, weil nur sehr wenige Menschen solche Entdeckungen machen.

2. „Es fehlen Weltmodelle“
LLMs fehlen angeblich Repräsentationen ihrer physischen Umgebung, die für echtes Verständnis notwendig sind. Aber ein Weltmodell zu haben erfordert nur die Fähigkeit vorherzusagen, was passieren würde, wenn sich die Umstände unterscheiden – kontrafaktische Fragen zu beantworten. Fragen Sie ein hochmodernes LLM, was sich unterscheidet zwischen dem Fallenlassen eines Glases oder eines Kissens auf einen Fliesenboden, und es wird korrekterweise Zerbrechen in einem Fall und nicht im anderen vorhersagen.

3. „Sie verstehen nur Wörter“
Dieser Einwand konzentriert sich auf die Tatsache, dass LLMs nur mit Text trainiert werden und daher grundsätzlich auf textbasierte Aufgaben beschränkt sein müssen. Frontier-Modelle werden bereits jetzt mit Bildern und anderen multimodalen Daten trainiert, was diesen Einwand etwas veraltet aussehen lässt. Darüber hinaus ist Sprache das mächtigste Werkzeug der Menschheit zum Komprimieren und Erfassen von Wissen über die Realität.

4. „Sie haben keine Körper“
Ohne Verkörperung, argumentieren Kritiker, kann es keine allgemeine Intelligenz geben. Dies spiegelt eine anthropozentrische Verzerrung wider, die nur gegen KI eingesetzt zu werden scheint. Menschen würden Intelligenz einem körperlosen Außerirdischen zuschreiben, der per Radio kommuniziert, oder einem Gehirn, das in einem Tank erhalten wird. Stephen Hawking interagierte mit der Welt fast ausschließlich durch Text und synthetisierte Sprache, doch seine körperlichen Einschränkungen minderten in keiner Weise seine Intelligenz.

5. „Ihnen fehlt Handlungsfähigkeit“
Es stimmt, dass heutige LLMs keine unabhängigen Ziele bilden oder unaufgefordert Handlungen initiieren, wie Menschen es tun. Aber Intelligenz erfordert keine Autonomie. Wie das Orakel von Delphi – verstanden als ein System, das nur auf Anfrage genaue Antworten produziert – müssen aktuelle LLMs keine Ziele initiieren, um als intelligent zu gelten. Menschen haben typischerweise sowohl allgemeine Intelligenz als auch Autonomie, aber wir sollten daraus nicht schließen, dass das eine das andere erfordert.

6-10. Weitere Einwände
Weitere Einwände, die in dem Artikel behandelt werden, umfassen Bedenken bezüglich fehlendem Bewusstsein, mangelnder emotionaler Erfahrung, fehlender sozialer Kognition, und Problemen mit Kausalverständnis und Erklärungsfähigkeit. In jedem Fall argumentieren die Autoren, dass diese Merkmale entweder nicht konstitutiv für Intelligenz sind oder dass die empirischen Behauptungen über LLM-Defizite zunehmend durch Evidenz widerlegt werden.

Implikationen und Schlussfolgerungen

Die zentrale These des Artikels ist, dass die Frage, ob wir bereits AGI haben, durch konzeptuelle Irritationen, emotionale Reaktionen und kommerzielle Interessen verschleiert wird. Wenn man diese Faktoren beiseite lässt und faire Vergleiche anstellt sowie anthropozentrische Verzerrungen vermeidet, ist die Schlussfolgerung nach Ansicht der Autoren klar: Nach vernünftigen Standards, einschließlich Turings eigenen, haben wir künstliche Systeme, die allgemein intelligent sind.

Die Anerkennung dieser Tatsache ist wichtig – für Politik, für Risikobewertung und für das Verständnis der Natur des Geistes und sogar der Welt selbst. Das langfristige Problem der Schaffung von AGI wurde gelöst. Dies zu erkennen bedeutet nicht, die Herausforderungen zu minimieren, die mit der weiteren Entwicklung dieser Technologie verbunden sind, sondern vielmehr einen klaren Blick auf den aktuellen Stand der Technik zu bewahren.

Turings Vision ist Realität

Der Artikel von Chen und Kollegen bietet eine klare und gut begründete Argumentation dafür, dass aktuelle große Sprachmodelle die Schwelle zur allgemeinen Intelligenz überschritten haben. Ihre Analyse zeigt, dass viele der Vorbehalte gegen diese Schlussfolgerung entweder auf begrifflicher Unklarheit, unrealistischen Erwartungen oder der Anwendung von Standards beruhen, die Menschen selbst nicht erfüllen.
Die Vision, die Alan Turing vor über 70 Jahren formulierte, ist nun Realität. Dies zu erkennen ist kein Grund zur Panik, sondern eine Aufforderung zu nüchterner Beurteilung, verantwortungsvoller Entwicklung und durchdachter gesellschaftlicher Anpassung an eine neue technologische Ära. Ein Blick, der weder von Angst noch von Hype getrübt ist, wird uns helfen, uns auf das vorzubereiten, was als Nächstes kommt.

Literatur

Chen, E. K., Belkin, M., Bergen, L., & Danks, D. (2026). Does AI already have human-level intelligence? The evidence is clear. Nature, 650, 36-40. https://doi.org/10.1038/d41586-026-00285-6
Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, LIX(236), 433-460.
https://www.nature.com/articles/d41586-026-00285-6