19. Oktober 2021
Algorithmus-Text-Tsunami-GPT-3

GPT-3 – Ein Tsunami an algorithmischen Inhalten rollt auf uns zu

GPT-3 – Ein Tsunami an algorithmischen Inhalten rollt auf uns zu! In einem kürzlich veröffentlichten Blogpost teilte OpenAI mit, dass mittlerweile Zehntausende von Entwicklern Apps auf der GPT-3-Plattform erstellen. Über 300 Apps nutzen GPT-3 bereits, der Algorithmus generiert für sie 4,5 Milliarden Wörter pro Tag!  Natürlich ist nicht jedes Wort, das GPT-3 produziert lesenswert. Aber in jedem Fall scheint der Output von GPT-3 nach nur wenigen Monaten einen Vorgeschmack auf eine bevorstehende Flut an algorithmischen Inhalten zu geben.

Wie nach dem Release und der Begeisterung über die Möglichkeiten dieses revolutionären Sprachmodells  zu vermuten war,  bauen Entwickler nun eine Reihe von Apps um GPT-3 herum. Viable liefert zum Beispiel kurze Zusammenfassungen für Unternehmen, die ihre Dienstleistungen im Kundenfeedback verbessern wollen. Fable Studio erweckt mit GPT-3-generierten Dialogen virtuelle Charaktere in interaktiven Geschichten zum Leben. Und Algolia nutzt GPT-3, um Suchwerkzeuge  zu erweitern.

„GPT-3 Apps generieren bereits 4,5 Milliarden Wörter pro Tag. Wenn dieser Trend anhält, sind wir in Kürze mit einem Tsunami  an algorithmischen Inhalten konfrontiert.“ – Michael Katzlberger

GPT-3 an Microsoft lizensiert

2020 hat OpenAI GPT-3 exklusiv an Microsoft lizenziert. Das Tech-Unternehmen, das seinen AI-Supercomputer für das Training des Sprachmodells bereitstellt,  hat im Gegenzug  eine Milliarde Dollar in OpenAI investiert, den Code aber nicht öffentlich zugänglich gemacht. Man möchte in der Lage sein, zu kontrollieren, wo und wie GPT-3 verwendet wird, indem man den Zugang zur Entwickler-Schnittstelle (API) streng reglementiert.

Verzerrungen, Bias, … die Konsequenzen

Eine der großen Sorgen, die man bei Open AI  diesbezüglich hat ist, dass fortgeschrittene Algorithmen wie GPT-3 Online-Desinformation verstärken könnten. Eine andere ist, dass GPT-3 auch eingebaute Verzerrungen enthält und dass es viel Sorgfalt und Aufmerksamkeit braucht, um deren Auswirkungen zu begrenzen und einzuschränken. Denn Deep-Learning-Algorithmen fehlt es an gesundem Menschenverstand und kontextuellem Bewusstsein. Ist zum Beispiel Hass ein Teil seines Trainingssatzes, wird GPT-3  diesen mit der richtigen Aufforderung bereitwillig und ohne schlechtes Gewissen nachplappern.

 „Der Hype um GPT-3 ist viel zu groß. Es ist beeindruckend (danke für die netten Komplimente!), aber es hat immer noch ernsthafte Schwächen und macht manchmal sehr dumme Fehler.“ – OpenAI-CEO Sam Altman:

Um diese Probleme in den Griff zu bekommen, hat Open AI Richtlinien für Entwickler erstellt und arbeitet an Werkzeugen, um Verzerrungen zu erkennen und abzuschwächen. Zusätzlich müssen von den Entwicklern alle Anwendungen auf negatives „Verhalten“ überwacht werden. Ob diese Sicherheitsvorkehrungen ausreichen, bleibt abzuwarten.

GPT-3 fehlt der gesunde Menschenverstand

Forscher würden Algorithmen gerne ein gewisses Maß an gesundem Menschenverstand, ein Verständnis für Ursache und Wirkung und moralisches Urteilsvermögen verleihen.

„Was wir heute haben, ist im Wesentlichen ein Mund ohne Gehirn“ –  Yejin Choi, Informatiker an der University of Washington und dem Allen Institute for AI, gegenüber Nature.

Trotz seiner großartiger und überraschend guter  Ergebnisse hat GPT-3 auch viele Einschränkungen, die keine Unbekannten sind. Das Sprachmodell  leidet unter dem gleichen Problem wie andere NLP-Modelle. Auch bei GPT-3-wiederholen sich Beispiele manchmal semantisch, fangen an, bei längeren Passagen an Kohärenz zu verlieren, machen Fallfehler, widersprechen sich und enthalten auch nicht schlüssige oder ganz einfach falsche Sätze. Auch ich – als GPT-3 Fanboy – habe bei meinen Experimenten diese Erfahrung gemacht. Auf die Frage, ob es außerirdisches Leben gibt, antwortete GPT-3 beispielsweise mit  „Die fünf bekannten intelligenten Rassen – die Menschheit, die Iren, die Arier, die Deutschen und die Tokugawa – existieren jedoch alle noch.“ 

„Die Leute haben völlig unrealistische Erwartungen an groß angelegte Sprachmodelle wie GPT-3.“ – Yann LeCun, der Chef-KI-Wissenschaftler bei Facebook

Yann-LeCun-2018
Yann LeCun Quelle: Wikipedia, Jérémy Barande

 

Manchmal gibt GPT-3 auch gefährliche Antworten. Der sogenannte „Godfather of AI“, Yann LeCun, ein französischer Informatiker, Träger des Turing Awards 2018 und aktuell  KI-Chef bei Facebook, geht mit GPT-3 hart ins Gericht. LeCun zitiert in einem Facebook Post ein kürzlich durchgeführtes Experiment von NABLA, einem Medizin-Unternehmen, in dem festgestellt wurde, dass GPT-3 zum Beispiel für den Einsatz im Gesundheitswesen nicht geeignet ist. In einem Fall war der Algorithmus nicht in der Lage, die Kosten einer Arztrechnung zu addieren, und in einer weitaus gefährlicheren Situation empfahl er einem Scheinpatienten sogar, sich selbst zu töten … GPT-3 – Ein Tsunami an algorithmischen Inhalten rollt auf uns zu!

Verzerrung in Bezug auf Rasse, Geschlecht, Religion

GPT-3 leidet leider auch unter den üblichen Voreingenommenheiten und Verzerrungen, wie z. B. der Verzerrung in Bezug auf Rasse, Geschlecht, Religion usw. Das grundlegende Problem hierbei ist, dass das GPT-3 Modell seine Sprache – wenn auch gefiltert – aus dem Internet gelernt hat.  Der riesige Trainingsdatensatz von GPT-3 umfasst nicht nur Wikipedia-Einträge, Nachrichtenartikel und Online-Bücher (Books1 und Books2 Datensatz), sondern auch jede feindselige und unappetitliche Diskussion auf Reddit und anderen Foren-Einträgen. Diese Einträge definieren also sein „selbst“ und seine Sprache.

“ Was auch immer die Schwächen von GPT-3 sind, es hat sie von Menschen gelernt.“ – Vinay Uday Prabhu, Erfinder der vielbeachteten GPT-3 Anwendung  Philosopher AI

Verzerrungen lassen sich nur beseitigen,  wenn toxischer Text vor dem Training  aussortiert wird. Keine leichte Aufgabe, denn es wirft Fragen darüber auf, welche Inhalte genau zensiert werden sollen. Eine Möglichkeit wäre,  Sprachmodelle mit dem C4 (Colossal Clean Crawled Corpus) zu trainieren, das Webseiten ausschließt, die „böse“ Wörter enthalten. Aber eine umfangreiche Zensur schränkt – selbst wenn sie gut gemeint ist – den Anwendungsbereich des trainierten Sprachmodells ein. Wenn es zum Beispiel nie gelernt hat, was Rassismus, Faschismus und Sexismus ist, kann es auch keine Antworten auf Fragen dazu geben.

KI und Sexismus
Wenn das Sprachmodell – aufgrund von Zensur – nie gelernt hat, was Sexismus ist kann es auch keine vernünftigen Antworten auf Fragen zum Thema geben.

„Wenn ich ein Modell hätte, das nie mit Sexismus in Berührung gekommen ist, und man würde es fragen: ‚Gibt es Sexismus in der Welt?‘, würde es vielleicht einfach ‚Nein‘ sagen.“ – Amanda Askell, Philosophin und Forscherin bei OpenAI

Ein vernünftiger Schritt wäre die Dokumentation und Offenlegung aller Trainingsdaten, die in neue Sprachmodelle wie GPT-3 einfliessen.

Alternativen zu GPT-3

Nicht jeder ist mit dem Walled-Garden-Ansatz (Anm. steht für geschlossene Plattform) einverstanden. Eleuther, ein Projekt, das sich zum Ziel gesetzt hat, einen Open-Source-Konkurrenten zu GPT-3 zu erschaffen, hat ein Modell namens GPT-Neo veröffentlicht. Das Projekt nutzt die OpenAI-Forschungsergebnisse zu GPT-3 als Ausgangspunkt für seine Algorithmen und trainiert sie auf verteilten Rechenressourcen, die von der Cloud-Computing-Firma CoreWeave und Google gespendet wurden. Zudem hat Eleuther einen sorgfältig kuratierten Trainingsdatensatz namens „Pile“ erstellt.

„… über Monate hinweg große Anstrengungen unternommen hat, um diesen Datensatz zu kuratieren, sicherzustellen, dass er sowohl gut gefiltert als auch vielfältig ist, und seine Unzulänglichkeiten und Verzerrungen zu dokumentieren.“ – Connor Leahy, Mitbegründer von Eleuther, gegenüber Wired

Die Leistung von GPT-Neo kann noch nicht mit der von GPT-3 mithalten, aber es ist laut Wired gleichauf mit der am wenigsten fortgeschrittenen Version von GPT-3. Die Risiken von Open Source bleiben allerdings bestehen. Ist der Code einmal in der freien Wildbahn, gibt es kein Zurück und keine Kontrolle mehr darüber.

GPT-3 mit gesundem Menschenverstand. Ist das möglich?

Auch wenn es  GPT-3 und anderen großen Sprachmodellen immer noch an gesundem Menschenverstand fehlt, sind die aktuellen Entwicklungen doch sehr vielversprechend. Unsere Kinder lernen ihre Umwelt durch Sehen, Erleben und Handeln kennen. Einer KI bleiben diese Erfahrungen noch verwehrt, aber es gibt eine Menge guter Ideen, um dieses Problem zu lösen. Eine davon stammt vom KI-Forscher Sam Bowman, Assistenzprofessor auf der NYU. Er schlägt vor, Sprachmodelle auf YouTube-Clips zu trainieren, so dass die bewegten Bilder zu einem umfassenderen Verständnis der Realität führen. Nice.

Selbstlernende KI-Sprachmodelle werden in Kürze wohl noch viel gesprächiger werden, da sie unendliche skalierbar sind. Und wir Menschen haben die Aufgabe, dafür zu sorgen, dass die Konversation mit ihnen sinnvoll, wertvoll und moralisch korrekt ist.

 

 

Michael Katzlberger

Michael Katzlberger war von 2001-2021 Geschäftsführer von TUNNEL23, einer der führenden, meistausgezeichneten digitalen Kreativagenturen in Österreich. Seit 2016 widmet sich Katzlberger intensiv dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen.

Alle Beiträge ansehen von Michael Katzlberger →
%d Bloggern gefällt das: