2. Dezember 2021
WuDao 2.0 NLP Sprachmodell China

China veröffentlicht revolutionäres KI-Sprachmodell WuDao 2.0

Ein von der Regierung finanziertes Institut für künstliche Intelligenz (KI) in Peking hat Anfang Juni 2021 das weltweit fortschrittlichste Modell zur Verarbeitung natürlicher Sprache (NLP), das WuDao 2.0 NLP Modell vorgestellt.  WuDao 2.0 übertrifft dabei die aktuellen Modelle Switch Transformer von Google und GPT-3 von OpenAI. Auch wenn die Grenzen von WuDao 2.0 sind noch nicht vollständig ausgelotet sind, sind die Erwartungen der KI-Community hoch. WuDao 2.0 ist der nächste Schritt in Richtung Allgemeiner Künstlicher Intelligenz (AGI).

WuDao 2.0, das im Chinesischen „Erleuchtung“ bedeutet, ist ein vortrainiertes KI-Modell, das unfassbare 1,75 Trillionen Parameter verwendet und somit das Größte der Welt ist. Das Projekt wurde vom gemeinnützigen Forschungsinstitut der Beijing Academy of Artificial Intelligence (BAAI) durchgeführt.

„WuDao 2.0 zielt darauf ab, Maschinen zu befähigen, wie Menschen zu denken und kognitive Fähigkeiten jenseits des Turing-Tests zu erreichen.“ – Tang Jie, leitender Forscher hinter WuDao 2.0

Was sind Parameter im KI-Kontext?

Parameter sind der Schlüssel zu maschinellen Lernalgorithmen. Es sind Variablen, die von maschinellen Lernmodellen definiert werden. Während sich das Machine Learning Modell weiterentwickelt, werden die Parameter immer mehr verfeinert. So lernt der Algorithmus im Laufe der Zeit immer besser, das passende Ergebnis zu finden. Sobald ein Modell mit einem bestimmten Datensatz (z.B. menschlicher Sprache)  trainiert wurde, kann das Ergebnis dann auf die Lösung ähnlicher Probleme angewendet werden. D.h. je mehr Parameter ein Modell enthält, desto komplexer und „intelligenter“ ist es.

Mit diesen Daten wurde das WuDao 2.0 NLP Modell trainiert

WuDao 2.0 hat sein Wissen  durch das Studium von 4,9 Terabyte an Bildern und Texten erworben wurden, darunter jeweils 1,2 Terabyte an chinesischen und englischen Texten und 2,5 Terrabyte an chinesischen Grafikdaten. Das lässt im direkten  Vergleich den Trainingsdatensatz von GPT-3 (570 GB) von OpenAI alt aussehen. Dennoch darf man hier nicht außer acht lassen,  dass die OpenAI-Forscher zuvor 45 TB an Daten kuratiert haben, um diese 570 GB zu bereinigen.

Multimodalität

WuDao 2.0 ist multimodal und folgt einem Trend, der sich schon in den letzten Jahren abgezeichnet hat. Der Begriff Multimodalität bezeichnet in den Sprachwissenschaften die parallele Nutzung unterschiedlicher Sinneskanäle durch den Menschen zur Übermittlung von Informationen. Es liegt also nahe, KIs zu entwickeln, die diese Eigenschaft nachahmen. Das heißt, WuDao 2.0 kann aus Text und Bildern lernen und Aufgaben lösen, die beide Datentypen beinhalten. Konkurrent GPT-3 ist dazu (noch) nicht in der Lage.

„Diese ausgefeilten Modelle, die mit gigantischen Datensätzen trainiert wurden, benötigen nur eine kleine Menge neuer Daten, wenn sie für ein bestimmtes Feature eingesetzt werden, weil sie bereits gelerntes Wissen auf neue Aufgaben übertragen können, genau wie Menschen“, sagt Blake Yan, KI-Forscher aus Peking.

„Diese Modelle dienen als strategische Infrastruktur für die KI-Entwicklung“, meint Zhang Hongjiang, Vorsitzender des BAAI. „Sie sind wie Kraftwerke, die Daten als Treibstoff nutzen, fügte er hinzu, und erzeugen Intelligenz, um KI-Anwendungen zu unterstützen.“

Ist WuDao 2.0 eine „kreative“ KI?

Engadget Journalist Andrew Tarantola schreibt, dass WoDao „sowohl Alt-Text auf Basis eines statischen Bildes generieren als auch nahezu fotorealistische Bilder auf Basis von Beschreibungen in natürlicher Sprache erzeugen kann. [Es kann auch] die 3D-Strukturen von Proteinen vorhersagen, ähnlich wie DeepMinds AlphaFold.“

Kreative Künstliche Intelligenz WuDao GPT-3 Switch Transformer
Multimodale NLP-Sprachmodelle. KIs auf dem Weg zur Allgemeinen Künstlichen Intelligenz

Der führende Forscher Tang Jie hob die Fähigkeiten von WuDao 2.0 bei der „Erstellung von Gedichten, Couplets, Textzusammenfassungen, Fragen und Antworten in menschlicher Sprache und Malerei“ hervor und räumte sogar ein, dass das System  „nahe daran war, den Turing-Test zu bestehen und mit Menschen zu konkurrieren.“

Wettlauf der KI Supermächte USA und China

China hat in den letzten Jahren viel Geld in Künstliche Intelligenz investiert, um die Lücke zu den USA zu schließen. Die beiden Supermächte befinden sich derzeit in einem Wettlauf um die nächste Generation von hochentwickelten Technologien. Ein im März veröffentlichter Bericht der US National Security Commission on Artificial Intelligence, der neben Vertretern anderer großer Technologiefirmen auch der ehemalige Google-CEO Eric Schmidt als Vorsitzender angehört, bezeichnete China als potenzielle Bedrohung für die amerikanische KI-Vorherrschaft. Auch die Denkfabrik Rand Corporation warnte letztes Jahr, dass Pekings Fokus auf KI dazu beigetragen hat, den Abstand zu den USA deutlich zu verringern.

Groß angelegte, vortrainierte Modelle sind heute eine der besten Abkürzungen zu künstlicher allgemeiner Intelligenz.“
– Blake Yan, KI-Forscher

Auf dem Weg zur Allgemeinen Künstlichen Intelligenz (AGI)?

Auch die chinesischen Forscher setzen also auf GPT-ähnliche multimodale und Multitasking-Modelle, um AGI zu erreichen. Zweifellos ist WuDao 2.0 – wie schon GPT-3 zuvor – ein wichtiger Schritt in diese Richtung. Wu Dao 2.0’s hat nichts, worum es GPT-3 oder irgendein anderes existierendes KI-Modell beneiden müsste. Seine Multitasking-Fähigkeiten und seine multimodale Natur verleihen ihm den Titel der vielseitigsten KI. Und diese Ergebnisse deuten darauf hin, dass multimodale KIs die Zukunft dominieren werden.

 

Michael Katzlberger

Michael Katzlberger war von 2001-2021 Geschäftsführer von TUNNEL23, einer der führenden, meistausgezeichneten digitalen Kreativagenturen in Österreich. Seit 2016 widmet sich Katzlberger intensiv dem Thema Künstliche Intelligenz in der Kreativindustrie, berät Unternehmen und gibt sein Wissen in Seminaren, Lehrveranstaltungen und Gastvorträgen im In- und Ausland weiter. Sein Schwerpunkt liegt hierbei darauf, das Thema KI zu entmystifizieren, um es EPUs, KMUs und der breiteren Öffentlichkeit besser zugänglich zu machen.

Alle Beiträge ansehen von Michael Katzlberger →
%d Bloggern gefällt das: