Mehrsprachige Stimmungsanalyse
Die mehrsprachige Stimmungsanalyse ist ein KI-gestützter Prozess zur Extraktion von Stimmungen aus Daten, die mehrere Sprachen enthalten. Dies wird durch muttersprachliche Modelle für maschinelles Lernen (ML) erreicht, die individuell für verschiedene Sprachen erstellt werden. Für die Entwicklung dieser Modelle wird für jede Sprache ein sehr vielfältiger Korpus von manuell getaggten Daten gesammelt. Zu den wichtigsten Prozessen gehören:
- Part-of-Speech (POS)-Tagger: Für die Identifizierung von Konjunktionen, Nebensätzen, Präpositionen und Substantiven für jede Sprache.
- Lemmatisierung: Regeln für die Konjugation von Substantiven und Verben auf der Grundlage des Geschlechts erkennen und anwenden.
- Grammatische Konstrukte: Zur Definition von Negationen und Verstärkern, um negative und positive Wörter zu identifizieren.
- Polarität: Zur Bestimmung der negativen und positiven Polarität von Wörtern – zwischen -1 und +1 – die aggregiert werden, um die Gesamtstimmung in den Daten zu ermitteln.
Ein muttersprachliches Modell ist wichtig, da jede Sprache ihre eigene Etymologie hat, die sich auf die Grammatikregeln auswirkt. Beispielsweise gibt es im Thailändischen keine Punkte, im Arabischen wird von rechts nach links geschrieben und im Deutschen gibt es geschlechtsneutrale Pronomen. Wenn ein englisches Maschinelles Lernen-Modell zur Analyse mehrsprachiger Daten verwendet wird, verwendet es Regeln, die für diese Sprache gelten, und liefert falsche Erkenntnisse. Dies kann zu fehlgeschlagenen oder ineffektiven Social-Media- und digitalen Marketingkampagnen führen, die Ressourcen belasten und den Ertrag schmälern.