Comment construire une démarche d'intelligence sémantique de la donnée textuelle

Les étapes d’un travail en IA sémantique / traitement du langage, comme dans les autres sciences & techniques des données, sont :

  • La définition des problématiques (les questions que l’on se pose et où l’information manque)
  • La collecte des données pertinentes pour la problématique (la réponse se trouve dans ces données, il faut les réunir pour l’extraire)
  • La construction de modèles permettant d’interpréter les données
  • La production par le(s) modèle(s) d’insights ou informations intelligentes (capables de répondre efficacement à la problématique et de nourrir l’action / la décision)

Schéma de construction d'une exploration sémantique

Les problématiques

La problématique doit être :

  • raisonnée (difficile de répondre à une question immensément large ou au contraire une question hyper-spécialisée qui demanderait un travail disproportionné de modélisation),
  • informée a priori (on ne se demande pas “ce que disent des données” en toute généralité, on part d’une pré-connaissance du sujet avec pour objectif de combler ce qui manque dans cette connaissance ; on sait ce que l’on ne sait pas et que l’on veut savoir),
  • adossée à des données accessibles (à coût raisonnable), car les données seront la matière première de l’IA pour y trouver les réponses.

Les données

La donnée doit être :

  • sous format texte dans le cas d’une IA du langage,
  • de volume proportionné à la problématique et représentatif (un modèle ne fera pas de miracle : sur des données très pauvres par rapport à la diversité / complexité d’un sujet, il se trompera comme un esprit humain se trompe s’il a trop peu d’informations),
  • de sources pertinentes pour la problématique (un travail sémantique concerne en général des cibles précises, ce sont les données de ces cibles dont on a besoin).

Les modèles

Il s’agit de partir de données x (x1, x2, … xn), de dimension importante, et d’interpréter ces données par une fonction f(x) dont le résultat est un certain sens de la donnée. Ici, les données sont des textes, la problématique demande une ou des fonction(s) de catégorisation de ces textes, parfois catégorisations croisées.

Les catégorisations les plus fréquentes sont :

  • la détection des mots, des n-grammes, des classes de mots (lexique, syntaxe),
  • l’analyse des thèmes ou topiques,
  • l’analyse des sentiments ou polarité,
  • la détection des entités nommées,
  • la mesure de signaux forts / faibles dans les catégories étudiées.

Il est possible, et souvent utile, de construire des modèles ad hoc : détecter des aspirations, des idées, des valeurs, des identités, des quantités, etc.

L'outil Youmean vous permet de disposer de modèles automatiques, de créer vos propres modèles, de corriger et améliorer les résultats des modèles. Et les équipes Youmean peuvent construire pour vous des modèles de langage adaptés à votre secteur et à vos données.

Team Youmean
Publié le 16 Mars 2022

Les dernières actualités

10 Mai 2023
#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Youmean publie une série d’études de cas éclairant les bénéfices opérationnels des IA du langage pour les entreprises et les collectivités. Aujourd’hui, un aménageur préparant une nouvelle offre de transport doit classer les avis des usagers, et identifier en particulier les plus de 100 lignes citées en verbatims.

Lire la suite
16 Février 2023
Les IA du langage pour les entreprises et les organisations

Au-delà du buzz planétaire ChatGPT, beaucoup de décideurs se demandent: à quoi pourrait me servir une IA du langage? Elements de réponse.

Lire la suite
3 Février 2023
Chat GPT : l’IA devient visible au grand public

Le modèle GPT-3 existe depuis déjà 3 ans, mais il a connu une explosion mondiale de popularité cet hiver, avec le buzz viral autour de l’agent de conversation Chat GPT. Cinq minutes pour comprendre ce qu’il y a sous le capot.

Lire la suite
10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Lire la suite