Analyse multilingue des sentiments
Basée sur l'IA, l'analyse multilingue des sentiments est le processus qui consiste à extraire des informations relatives aux sentiments à partir de données en plusieurs langues. Elle est effectuée grâce à des modèles d'apprentissage automatique (ML) conçus individuellement pour différentes langues. Pour développer ces modèles, un corpus très varié de données étiquetées manuellement est recueilli pour chaque langue. Les principaux processus sont les suivants :
- L'étiquetage morpho-syntaxique (POS tagging), qui identifie les conjonctions, les clauses subordonnées, les prépositions et les noms pour chaque langue.
- La lemmatisation, qui reconnaît et applique les règles de conjugaison des noms et des verbes en fonction du genre.
- Les constructions grammaticales, qui ont été conçues pour définir les négations et les amplificateurs dans le but d'identifier les mots négatifs et positifs.
- La polarité : cette technique permet de déterminer la polarité négative et positive des mots (entre - 1 et + 1). Ces derniers sont agrégés pour refléter le sentiment général issu des données.
Il est essentiel de s'appuyer sur un modèle spécifique à une langue, car chaque langue a sa propre étymologie, ce qui influence les règles de grammaire. Par exemple, il n'y a pas de point final en thaï, l'arabe s'écrit de droite à gauche et l'allemand a recours à des pronoms neutres. Si on utilise un modèle d'apprentissage automatique anglais pour analyser des données multilingues, celui-ci utilisera des règles applicables à cette langue et fournira donc des données incorrectes. Ce défaut peut mener à l'échec ou à l'inefficacité des campagnes de marketing digital et sur les réseaux sociaux, qui mobilisent des ressources et réduisent les rendements.