11. Dezember 2023
GPT-3-Datenquellen

Mit diesen Daten wurde GPT-3 trainiert

KI Sprachmodelle wie GPT-3, Megatron, Turing-NLG sind in Entwicklerkreisen in aller Munde. Besonders GPT-3 hat letztes Jahr viel Staub aufgewirbelt, weil der Output des Modells dem menschlichen Wirken schon sehr nahe kommt. GPT-3 schreibt Gedichte, produziert HTML-Code, kann debattieren und sogar Nachrichtenartikel verfassen. Sprachmodelle wie GPT-3 müssen dabei mit großen Mengen an Textdaten gefüttert werden, um zu lernen. Aber woher stammen diese Daten eigentlich, mit dem moderne Künstlichen Intelligenzen trainiert werden?  In diesem Artikel möchte ich Ihnen ein paar davon vorstellen.

Was sind KI Sprachmodelle?

NLP KI Sprachmodell
Eine einfache Anwendung für ein KI-Sprachmodell, das Sie täglich nutzen: Es erkennt das nächste Wort, das Sie auf Ihrem Smartphone tippen wollen.

Ein KI Sprachmodell lernt, die Wahrscheinlichkeit einer Folge von Wörtern vorherzusagen. Dafür werden verschiedene statistische Techniken eingesetzt, um die Wahrscheinlichkeit zu bestimmen, mit der eine bestimmte Folge von Wörtern in einem Satz vorkommt. Sprachmodelle analysieren dabei große Mengen an Textdaten, um eine Grundlage für ihre Wortvorhersagen zu schaffen.

Sie interpretieren diese Daten, indem sie sie durch einen Algorithmus leiten, der Regeln für den Kontext in natürlicher Sprache aufstellt. Dann wendet das KI-Modell diese Regeln in Sprachaufgaben an, um neue Sätze genau vorherzusagen oder zu produzieren. Das Modell lernt im Wesentlichen die Merkmale und Eigenschaften der Grundsprache und verwendet diese Merkmale dann, um neue Sätze zu verstehen und zu schreiben. Sprachmodelle können für eine Vielzahl sinnvoller Anwendungen eingesetzt werden, wie z.B. die Spracherkennung, Texterkennung, Handschrifterkennung, im Falle der großen Sprachmodelle auch zur Erstellung von Nachrichtenartikeln, Poesie, Drehbüchern u.v.m.

Mit zunehmender Rechenleistung sind KI-Sprachmodelle immer besser geworden. Der große Durchbruch gelang den Forschern von Google 2017 mit einer Technik namens “Transformer”. 2018 veröffentlichte Google dann ein Transformer-basiertes Modell namens BERT, was zu einem Hype führte. Auch GPT-3 basiert auf dieser Architektur.

Was sind vortrainierte Sprachmodelle?

Die meisten Sprachmodelle, mit denen wir arbeiten, sind “vortrainiert”. Das heißt, dass sich Firmen wie OpenAI, Microsoft, Google, Facebook und co bereits die Mühe gemacht haben, Maschinen mit großen Datensätzen zu füttern. Ein Normalverbraucher, aber auch ein Kleines- oder Mittleres Unternehmen hätte nicht  die Rechenpower und auch nicht das Budget, dies zu tun. Gerüchteweise hat das Training von GPT-3 13 Mio Dollar verschlungen.

Mensch Maschine Kommunikation
Kann man eine “belesene” Maschine erschaffen, die sinnvoll mit Menschen kommuniziert? Viele KI-Forscher meinen: Ja!

 

Die Idee hinter “vortrainierten” Sprachmodellen besteht darin, ein Machine Learning Modell für Anwender zu erstellen, die die menschliche Sprache versteht und daraufhin bestimmte Aufgaben in dieser Sprache auszuführen kann. Abgekürzt kann man sagen, ist es der Versuch, das maschinelle Äquivalent eines “belesenen” Menschen zu schaffen. Auch GPT-3 ist eines dieser “vortrainierten” Modelle.

Mit welchen Daten wurde GPT-3 trainiert?

Sprachmodelle wie GPT-3 müssen mit großen Mengen an Textdaten gefüttert werden, um zu lernen. Dafür greift man auf bekannte Datensätze zurück, mit denen auch schon seine Vorgänger und Konkurrenten trainiert wurden. Welche das sind, finden Sie untenstehend:

GPT-3 Dataset
Der Common Crawl Datensatz ist mit Abstand die größte Quelle. Das englische Wikipedia macht nur 3% der Trainingsdaten aus. Quelle: https://www.kdnuggets.com/2020/06/gpt-3-deep-learning-nlp.html

 

Common Crawl

60% der Trainingsdaten für das GPT-3 Modell stammen von Common Crawl. Die Common Crawl Foundation ist eine kalifornische Non-Profit-Organisation, die von Gil Elbaz, einem amerikanischen Unternehmer und Philanthropen mit dem Ziel gegründet wurde, den Zugang zu Web-Informationen zu demokratisieren. Die Vision von Common Crawl ist also demnach ein “offenes” Web, welches einen freien, kostenlosen Zugang zu Informationen ermöglichen soll und somit die Grundlage für mehr Innovation in Forschung, Wirtschaft und Bildung schafft. Der Common Crawl-Datenkorpus ist der Versuch, “das Web zu speichern” und enthält Petabytes an Daten, die seit 2008 gesammelt wurden. Das sind rohe Websitedaten, extrahierte Metadaten und Textextraktionen.

OpenWebText2

OpenWebText2 ist eine erweiterte Version des ursprünglichen OpenWebTextCorpus, der alle Reddit-Posts von 2005 bis April 2020 abdeckt. Diese Einträge machen 22% der GPT-3 Trainingsdaten aus. Reddit ist ein Social-News-Website, die in Europa weniger bekannt ist und auf der registrierte Benutzer Inhalte einstellen bzw. anbieten können. Ein Inhalt kann entweder aus einem Link, einem Video, einem Bild, einer Umfrage oder einem Textbeitrag bestehen. Andere Benutzer können die Beiträge als positiv oder negativ beurteilen. Die Bewertungen beeinflussen, welche Position der Beitrag auf der jeweiligen Reddit-Seite sowie der Startseite einnimmt. Reddit hat 330 Mio aktive User/ Monat (Stand April 2021) und gehört damit zu den wichtigsten Websites der USA.

Books1 und Books2

BookCorpus  (Books1 und Books2) ist ein beliebtes, großes Bücher-Textkorpus und macht 16% der GPT-3 Trainingsdaten aus. BooksCorpus wird aktuell nicht mehr vertrieben. Es gibt aber ein sogenanntes Repository (ein “Lager” für alte, digitale Dateien), das einen Crawler enthält, der Daten von smashwords.com sammelt, der ursprünglichen Quelle von BookCorpus. Leider gibt es auch im offiziellen GPT-3 arxiv Dokument von OpenAI keine genaueren Quellangaben über diesen Datensatz.

Wikipedia

GPT-3 greift auch auf Wikipedia zu. Wikipedia ist ein mächtiges Online-Enzyklopädieprojekt, das am 2001 gegründet wurde, mit dem Ziel des Aufbau einer Enzyklopädie durch freiwillige und ehrenamtliche Autoren, die weltweit agieren.

Es mag überraschen, dass Wikpedia, trotz seiner gewaltigen Größe nur 3% des Trainings-Datensatzes von GPT-3 ausmacht.

Wikipedia hat sich zur weltweit größten Referenz-Website entwickelt und verzeichnete im November 2020 monatlich 1,7 Milliarden Unique Visits. Derzeit enthält die Enzyklopädie mehr als 56 Millionen Artikel in mehr als 300 Sprachen, darunter 6.269.278 Artikel auf Englisch.


Infobox – Weitere interessante Datensätze

Weitere Datensätze, die in Sprachmodellen zum Einsatz kommen, sind:

RealNews

RealNews ist ein großer Korpus von Nachrichtenartikeln aus dem oben genannten Common Crawl Dataset, begrenzt auf die 5000 von Google News indizierten Nachrichtendomains.

Grover

Grover ist aus RealNews heraus entstanden und generiert Fake News zu Forschungszwecken, also gezielte Propaganda, die den Stil echter Nachrichten imitiert. Das  Ziel: das perfekte Sprachmodell für die Generierung neuronaler Desinformation zu schaffen, um diese besser und genauer erkennen zu können. Denn moderne Computersicherheit beruht auf einer sorgfältigen Bedrohungsmodellierung: der Identifizierung potenzieller Bedrohungen und Schwachstellen aus der Sicht eines Angreifers und der Erforschung potenzieller Abhilfemaßnahmen für diese Bedrohungen.

CC-Stories

CC-Stories (oder STORIES) ist ein Datensatz für Common Sense Reasoning und Sprachmodellierung. Er wurde durch Aggregation von Dokumenten aus dem CommonCrawl-Datensatz erstellt.


GPT-3 Quo Vadis?

In einem kürzlich veröffentlichten Blogpost teilte OpenAI mit, dass mittlerweile Zehntausende von Entwicklern Apps auf der GPT-3-Plattform erstellen, Tendenz stark steigend. Es bleibt spannend, wo uns diese Reise hinführt. Dem Roboterjournalismus ist der Weg geebnet, die Kreativ- und Medienlandschaft muss sich in jedem Fall auf eine Revolution in der Content-Produktion vorbereiten.

Michael Katzlberger

Michael Katzlberger widmet sich mit Leidenschaft dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen. 2022 gründete er 3LIOT.ai, eine hybride Kreativagentur aus Mensch und KI. Das Ziel: Die Grenzen menschlicher Kreativität zu erweitern.

Alle Beiträge ansehen von Michael Katzlberger →
%d