Sémantique des twittosphères engagées

Lors d’une élection, des citoyens mobilisés s’expriment autour de sujets très variés. Comment étudier cette expression ? Un exemple est ici donné de l’utilisation de Youmean pour analyser les discours des soutiens des candidats sur Twitter.

Premier étape : trouver les données. Les militants disposent de hashtags qui expriment leur soutien comme par exemple #avecvous et #macron2022 chez les partisans de M. Macron ou #unionpopulaire et #melenchon2022 chez ceux de M. Mélenchon. Parfois, ces hashtags sont détournés par des opposants, mais dans la masse, ils sont représentatifs des mots et idées les plus souvent associés au candidat sur Twitter. Pour cette mini-étude, nous avons fait un tirage aléatoire de 10% des tweets de chacun de ces 12 écosystèmes.

Deuxième étape : constituer des thématiques. Grâce à Youmean, nous avons identifié 26 champs lexicaux qui s’expriment. Chaque champ couvre plusieurs termes, par exemple le pouvoir d’achat va rassembler des inquiétudes autour du prix de l’essence ou de l’inflation, des promesses de blocage des prix et baisse de taxe. Ces champs ne sont pas tous autant représentés dans l’ensemble du corpus. Le graphique ci-dessous montre cette répartition.

On note l'importance du champ international dans cette campagne, en raison évidemment de la guerre en Ukraine. En temps normal, ce thème est nettement moins discuté par rapport aux sujets de politique intérieure. Il convient aussi d’observer que des thèmes en fin de distribution sont moins représentés dans la masse des tweets. Mais certains peuvent faire la différence si des candidats se positionnent dessus, comme nous le verrons.

Troisième étape : analyser les identités et différences. Une fois que l’on dispose des 12 corpus et du modèle à 26 champs thématiques, on peut mesurer le poids des thèmes dans chaque twittosphère militante. Mais il n’est pas facile d’interpréter 12 histogrammes ou 12 treemaps séparés. Nous avons donc recours à une technique statistique d’analyse multivariée ou factorielle : l’analyse en composante principale (ACP). Cette méthode permet de représenter sur un diagramme les proximités et distances des twittosphères (symbolisées par le nom du candidat) et des thèmes. Voici le résultat.

Un diagramme d’identité et différence issue d’une analyse factorielle se lit de la manière suivante : plus des twittosphères sont proches / éloignées, plus elles préemptent des sujets proches / éloignés. Idem pour les thèmes entre eux, qui sont plus ou moins cités ensemble. Tout est dans la distance : on peut analyser la distance entre un nom (de twittosphère) et un thème, pour voir si le thème y est souvent ou peu représenté. Par exemple ici, on voit d’un coup d’œil que l’écosystème des soutiens de M. Jadot parle beaucoup d’environnement (ce n’est pas une surprise), peu de sécurité et d’identité (idem), mais aussi assez peu d’Europe ou d’institutions (une information pas forcément attendue). Ce type de représentation en analyse factorielle contient en fait beaucoup d’informations pour la comparaison.

A titre d’exemples ici, on observe d’un coup d’oeil:

  • des twittopshères atypiques sur leurs thèmes comme celles autour de M. Lasalle ou M. Dupont-Aignan;
  • des présences dans un même quadrant inférieur gauche de M. Zemmour, Mme Le Pen et Mme Pécresse, mais aussi plus surprenant de Mme Arthaud, ainsi que l’association dans un même quadrant supérieur droit des twittopshères de M. Jadot et de M. Mélenchon, partageant notamment une plus forte expression que les autres autour de l’environnement ;
  • la distance assez semblable entre la twittosphère de M. Macron et celles de candidats de droite ou de gauche (apportant un début de confirmation à un « en même temps » de cette expression ?) ;
  • l’existence de thèmes clivants ou différenciateurs qui sont plutôt en périphérie, comme la sécurité, l’identité, l’environnement ou en haut les institutions.

Un grand nombre d’informations peuvent donc être tirées de ces méthodes, applicables aussi bien à des champs lexicaux formant des thèmes, comme ici, qu’à des mots ou expressions isolés. Au delà des synthèses, l'exploration facile des verbatims sur Youmean permet ensuite des analyses bien plus fines sur des champs ou des candidats.

La politique n’est évidemment pas le seul domaine concerné: on peut analyser et comparer de la même manière avec Youmean des personnalités, des marques, des lieux, des produits, des concepts, des opinions… en fait, tous les sujets où il existe de la donnée textuelle pertinente et où l’on crée des modèles d’interprétation de cette donnée pour un traitement semi-automatique du langage. D’un point de vue opérationnel, l’exercice peut servir de pilotage à une stratégie de contenu en vue d’occuper des territoires sémantiques et lexicaux où l’on est absent, ou simplement distancé par d’autres.

Charles Team Youman
Publié le 24 Mars 2022

Les dernières actualités

10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Read More
4 Avril 2022
La révolution des modèles de fondation et l’avenir de l’IA du langage

Les modèles IA de traitement / compréhension automatique du langage ont connu une révolution depuis 2019. Des chercheurs de l’université Stanford analysent le phénomène.

Read More
24 Mars 2022
Sémantique des twittosphères engagées

Les élections sont des moments d’observation privilégiés pour les analystes du discours. Exemple avec l’étude des écosystèmes d’expression autour des hashtags Twitter des candidats.

Read More
16 Mars 2022
Comment construire une démarche d'intelligence sémantique de la donnée textuelle

Comprendre les méthodes de l’IA et du traitement automatique du langage permet d’optimiser la réponse aux besoins et l’opérationnalité des résultats.

Read More