Comment construire une démarche d'intelligence sémantique de la donnée textuelle

Les étapes d’un travail en IA sémantique / traitement du langage, comme dans les autres sciences & techniques des données, sont :

  • La définition des problématiques (les questions que l’on se pose et où l’information manque)
  • La collecte des données pertinentes pour la problématique (la réponse se trouve dans ces données, il faut les réunir pour l’extraire)
  • La construction de modèles permettant d’interpréter les données
  • La production par le(s) modèle(s) d’insights ou informations intelligentes (capables de répondre efficacement à la problématique et de nourrir l’action / la décision)

Schéma de construction d'une exploration sémantique

Les problématiques

La problématique doit être :

  • raisonnée (difficile de répondre à une question immensément large ou au contraire une question hyper-spécialisée qui demanderait un travail disproportionné de modélisation),
  • informée a priori (on ne se demande pas “ce que disent des données” en toute généralité, on part d’une pré-connaissance du sujet avec pour objectif de combler ce qui manque dans cette connaissance ; on sait ce que l’on ne sait pas et que l’on veut savoir),
  • adossée à des données accessibles (à coût raisonnable), car les données seront la matière première de l’IA pour y trouver les réponses.

Les données

La donnée doit être :

  • sous format texte dans le cas d’une IA du langage,
  • de volume proportionné à la problématique et représentatif (un modèle ne fera pas de miracle : sur des données très pauvres par rapport à la diversité / complexité d’un sujet, il se trompera comme un esprit humain se trompe s’il a trop peu d’informations),
  • de sources pertinentes pour la problématique (un travail sémantique concerne en général des cibles précises, ce sont les données de ces cibles dont on a besoin).

Les modèles

Il s’agit de partir de données x (x1, x2, … xn), de dimension importante, et d’interpréter ces données par une fonction f(x) dont le résultat est un certain sens de la donnée. Ici, les données sont des textes, la problématique demande une ou des fonction(s) de catégorisation de ces textes, parfois catégorisations croisées.

Les catégorisations les plus fréquentes sont :

  • la détection des mots, des n-grammes, des classes de mots (lexique, syntaxe),
  • l’analyse des thèmes ou topiques,
  • l’analyse des sentiments ou polarité,
  • la détection des entités nommées,
  • la mesure de signaux forts / faibles dans les catégories étudiées.

Il est possible, et souvent utile, de construire des modèles ad hoc : détecter des aspirations, des idées, des valeurs, des identités, des quantités, etc.

L'outil Youmean vous permet de disposer de modèles automatiques, de créer vos propres modèles, de corriger et améliorer les résultats des modèles. Et les équipes Youmean peuvent construire pour vous des modèles de langage adaptés à votre secteur et à vos données.

Team Youmean
Publié le 16 Mars 2022

Les dernières actualités

10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Read More
4 Avril 2022
La révolution des modèles de fondation et l’avenir de l’IA du langage

Les modèles IA de traitement / compréhension automatique du langage ont connu une révolution depuis 2019. Des chercheurs de l’université Stanford analysent le phénomène.

Read More
24 Mars 2022
Sémantique des twittosphères engagées

Les élections sont des moments d’observation privilégiés pour les analystes du discours. Exemple avec l’étude des écosystèmes d’expression autour des hashtags Twitter des candidats.

Read More
16 Mars 2022
Comment construire une démarche d'intelligence sémantique de la donnée textuelle

Comprendre les méthodes de l’IA et du traitement automatique du langage permet d’optimiser la réponse aux besoins et l’opérationnalité des résultats.

Read More