Word2vec ist ein zweischichtiges neuronales Netz zur Textverarbeitung. Es “vektorisiert” Wörter, und macht dadurch die natürliche Sprache computerlesbar. Besonders nützlich ist es bei der Aufbereitung textbasierter Daten für die Internetsuche, die Sentimentanalyse oder Empfehlungen in Online Stores. Word2vec bildet die mathematische Grundlage für viele Anwendungen die wir täglich nutzen und ist von entscheidender Bedeutung für die jüngsten Fortschritte in der Verarbeitung natürlicher Sprache.
Ziel von Word2vec ist es, Vektoren ähnlicher Wörter im Vektorraum zusammenzufassen, es erkennt also den Kontext, und das ganz ohne menschliche Hilfe. Diese Ähnlichkeiten erkennt es mathematisch. Eingegeben wird ein einfacher Textkorpus, ausgegeben werden eine Reihe von Vektoren. Word2vec ist kein tiefes neuronales Netzwerk, verwandelt aber Text in eine numerische Form, die tiefe Netze verstehen können.
Die Bedeutung eines Wortes “schätzen”
Bei ausreichender Datenmenge kann Word2vec auf der Grundlage vergangener Vorkommen sehr genaue Schätzungen über die Bedeutung eines Wortes vornehmen. Diese Vermutungen können dazu genutzt werden, um Assoziation eines Wortes mit anderen Wörtern herzustellen. Hier ein paar Beispiele:
“Mann” ist für “Junge”, was “Frau” für “Mädchen” ist
“Madrid” ist für “Spanien” was “Rom” für “Italien” ist
“Präsident” – “Macht” = “Premierminister”
“Bibliothek” – “Bücher” = “Saal”
Eine Analogie wäre: “Börse” ≈ “Thermometer”
usw.
Probieren sie es selbst aus – keine Programmierkenntnisse nötig!
Auf dieser Website können sie Word2Vec Beispiele abrufen. Das Modell ist vortrainiert, leider aber nur auf Englisch verfügbar:

Grundlage für Suche, Content Creation, Sentimentanalyse und Empfehlungen
Diese Methode bildet die Grundlage für Suche, Sentimentanalyse und Empfehlungen in so unterschiedlichen Bereichen wie wissenschaftliche Forschung, E-Commerce und Customer Relationship Management oder auch in der Kreation von Content.
Worte werden mit Zahlen dargestellt
Word2Vec stellt ein Wort mit Zahlen dar. Diese Zahlen lokalisieren jedes Wort als Punkt im mehrdimensionalen Vektorraum. Ein gut trainierter Satz von Wortvektoren platziert also ähnliche Wörter in diesem Raum dicht beieinander. Die Worte Eiche, Ulme und Birke könnten sich in einer Ecke zusammenfassen, während Krieg, Konflikt und Streit in einer anderen zusammenfließen.
Googles Word2vec Patent
Word2vec wurde von einem Forscherteam bei Google unter der Leitung von Tomas Mikolov eingeführt. Google hostet eine Open-Source-Version von Word2vec, die unter einer Apache 2.0-Lizenz veröffentlicht wurde. Im Jahr 2014 verließ Mikolov Google um für Facebook zu arbeiten. Im Mai 2015 erhielt Google ein Patent für das Verfahren, das die Apache-Lizenz unter der es veröffentlicht wurde, nicht aufhebt.