In der Computerlinguistik wird untersucht, wie natürliche Sprache in Form von Text- oder Sprachdaten mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist sozusagen die Schnittstelle zwischen Sprachwissenschaft und Informatik.
Das Natural Language Processing, kurz NLP, beschreibt die Fähigkeit von Computern, mit gesprochenem oder geschriebenem Text zu arbeiten. Dabei kommen Machine Learning Techniken zum Einsatz. Das Saarbrücker Pipelinemodell unterteilt dabei in:
- Spracherkennung: die Schallinformation liegt vor und muss in Text umgewandelt werden
- Tokenisierung: Die Bustabenkette wird in Sätze, Wörter etc. segmentiert
- Morphologische Analyse: Grammatische Information wird extrahiert
- Syntaktische Analyse: Die Wörter jedes Satzes werden auf ihre strukturelle Funktion im Satz hin analysiert
- Semantische Analyse: Den Texten wird ihre Bedeutung zugeordnet
- Dialog und Diskursanalyse: Die Beziehungen zwischen aufeinander folgenden Sätzen werden erkannt
NLP kommt in vielen Bereichen zum Einsatz und wie aktuell von allen großen Tech-Konzernen hoch gehandelt. Insbesondere die Sprachassistenten wie Google Assistant und Alexa kommen beim Endkunden gut an. Aber auch in der Textverarbeitung wie die automatische Generierung von Texten, Textzusammenfassungen oder die Transkription von Texten (Speech to Text und Text to Speech) macht NLP rasante Fortschritte.