Les bonnes données font les bonnes analyses

L'ère numérique produit une masse d'écrits, il s'en publie des milliards chaque jour. Mais un corpus d'analyse sémantique n'est pas un agrégat aléatoire de textes : c'est un ensemble dont le contenu recèle les informations que l'on cherche à extraire et mesurer.

Définir ses problématiques

Premier exercice : réfléchir aux questions auxquelles on veut vraiment répondre. Cela peut paraître évident, mais cela ne l'est pas toujours : il faut avoir une vraie "stratégie du sens".

L'analyse du discours, le traitement du langage et l'exploration sémantique ne sont pas des boîtes magiques ayant capacité à définir par eux-mêmes les problématiques : ce sont des outils mobilisées pour trouver des informations pertinentes dans des textes. Ainsi, les problématiques sont innombrables, par exemple :

  • connaître les motifs de satisfaction et insatisfaction du corps social de mon entreprise,
  • classer mes avis clients dans des catégories cohérentes,
  • comprendre les attentes de consommateurs sur mon offre de marché,
  • analyser les représentations de ma marque sur les médias et réseaux sociaux,
  • détecter les critiques et les propositions d'un projet soumis à enquête publique,
  • vérifier si mon expression est cohérente avec les lignes éditoriales de mes canaux de diffusion,
  • identifier des tendances sociétales pour produire du contenu de marque.

Dans chacun de ces cas, la définition de la problématique conditionne l'acquisition des ressources textuelles permettant une réponse intelligente et informée. Soit ces ressources sont déjà disponibles (par exemple, vous avez l'historique des contenus de tous vos avis clients dans votre lac de données), soit il faut organiser leur recueil (par exemple, concevoir un questionnaire cohérent avec la question que l'on se pose).

Collecter les données pertinentes

Parfois, les données sont présentes : vous avez des retours clients déposés sur vos canaux de CRM ou vous avez des réponses ouvertes à un questionnaire en ligne. En ce cas, le corpus d'analyse s'impose de lui-même et il est déjà collecté. Parfois, les choses sont plus complexes : vous souhaitez faire une enquête de réputation sur une marque ou une analyse des représentations d'un sujet, mais il faut alors chercher les données représentatives. Cette représentativité demande notamment de veiller à :

  • la diversité des canaux, car les expressions divergent selon les types de sources;
  • la durée du recueil de données, car des contenus fluctuent chaque semaine, mois, année;
  • la qualité du filtrage de sélection des données, par exemple si vous faites des booléennes de recherche sur les réseaux sociaux ou des requêtes sur base de mots clés;
  • la pertinence des questions, qui va conditionner celle des réponses si vous faites une enquête.

Structurer son jeu de données

Dans le cas le plus simple, les données sont agrégées dans un seul corpus de référence et c'est l'étude de ce corpus qui va permettre de retirer les informations utiles.

Mais parfois, vous désirez aller plus loin : comparer la présence de mots, de thèmes, de valeurs, d'opinions dans différentes catégories. Il faut que votre collecte de données le permette. Par exemple, si vous avez un questionnaire en ligne, peut-être que les répondants donnent des précisions sur leur poste, leur âge, leur genre, leur localisation géographique ou d'autres variables. Si votre problématique implique d'analyser les identités et différences de points de vue, le corpus global sera alors segmenté en sous-corpus catégoriels (réponses des hommes et des femmes, réponses des différentes classes d'âge, etc.).

Autre exemple que nous rencontrons parfois : si vous souhaitez comparer l'image donnée par votre entreprise ou votre institution dans sa communication avec l'image perçue par ses publics. En ce cas, il faut composer un corpus "interne" de l'organisation (son site internet, ses rapports annuels, sa communication sociale, etc.) et un corpus "externe" des mentions de l'organisation, pour ensuite vérifier comment se comparent ces deux contenus. Le résultat est parfois surprenant et riche d'enseignements.

Pour conclure, sachez que l'équipe Youmean ne vous laissera pas tomber si vous avez des problèmes d'acquisition de données! Nous utilisons nous-mêmes divers outils de collecte et nous proposons des prestations pour vous aider à construire vos corpus d'intérêt. Nous pouvons donc concevoir avec vous un set up d'analyse ponctuelle d'un sujet ou un set up de veille d'une thématique. Vous disposerez ensuite de toute la puissance de la plateforme Youmean pour extraire de ces données les informations utiles pour votre métier.

Team Youmean
Publié le 29 Octobre 2021

Les dernières actualités

10 Mai 2023
#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Youmean publie une série d’études de cas éclairant les bénéfices opérationnels des IA du langage pour les entreprises et les collectivités. Aujourd’hui, un aménageur préparant une nouvelle offre de transport doit classer les avis des usagers, et identifier en particulier les plus de 100 lignes citées en verbatims.

Lire la suite
16 Février 2023
Les IA du langage pour les entreprises et les organisations

Au-delà du buzz planétaire ChatGPT, beaucoup de décideurs se demandent: à quoi pourrait me servir une IA du langage? Elements de réponse.

Lire la suite
3 Février 2023
Chat GPT : l’IA devient visible au grand public

Le modèle GPT-3 existe depuis déjà 3 ans, mais il a connu une explosion mondiale de popularité cet hiver, avec le buzz viral autour de l’agent de conversation Chat GPT. Cinq minutes pour comprendre ce qu’il y a sous le capot.

Lire la suite
10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Lire la suite