Créer soi-même des modèles de langage répondant à ses besoins

Un modèle de langage sert notamment à classer des contenus textuels : ce peut être la reconnaissance d'entités nommées (trouver des mots qui expriment des lieux, personnes, organisations, classes d'objets) ou la catégorisation de texte (attribuer une classe de sens à une phrase, un paragraphe, un document).

Cette étape est indispensable à beaucoup de besoins pratiques. Par exemple, vous pourriez avoir envie de :

  • détecter les ingrédients de recettes dans un forum de cuisine,
  • suivre les citations de 25 marques dans une veille,
  • trier des avis clients selon des approbations et critiques,
  • identifier des sports cités par des répondants à une enquête publique...

Et ainsi de suite, la demande est infinie, elle dépend de chaque métier, chaque contexte.

Les modèles IA généralistes du langage naturel ne pourront jamais avoir toutes les clés d'interprétation que vous cherchez. Ces modèles font déjà des prouesses : ils savent lire les textes, distinguer les mots et leurs racines (lemmes), reproduire la grammaire (morphosyntaxe), etc. Ils peuvent être entraînés à répondre à des besoins très généraux de classification comme les entités nommées ou la polarité (jugement positif et négatif). Mais dès lors que vous visez des détections et des mesures passant par une interprétation de votre part, en fonction d'une étude précise, un modèle IA ne pourra pas répondre tout seul, comme par magie.

Le problème n'est pas ici l'ambiguïté, mais l'intentionnalité : même si l'IA comprend bien le mot, elle ne peut pas savoir quelle est votre intention d'interprétation.

Par exemple, un cas classique d'ambiguïté est le mot "orange" qui pourra désigner selon les contextes un fruit, une marque de télécom, une couleur, une maison noble etc. Là dessus, les IA ont progressé et, en fonction du contexte, elles vont calculer le sens le plus probable de l'emploi du mot orange.

Mais la question de l'intentionnalité est différente. Prenons par exemple le mot "randonnée", qui n'est pas tellement ambigu. Bien qu'explicite, ce mot ne sera pas forcément classé de la même manière dans une étude ou une veille.

  • Si vous faites une revue de presse sur la vie d'une collectivité, vous le classez peut-être dans la catégorie "événements" ou "loisirs" lorsque des randonnées locales sont rapportées par les médias,
  • Si vous étudiez les résultats spécifiques d'une enquête sur les loisirs les plus demandés par les citoyens, vous mettrez peut-être randonnée dans la catégorie "outdoor", ou "loisir extérieur" ou "loisir mixte" en comparaison de "loisir individuel" et "loisir collectif",
  • Si vous analysez les verbatims de riverains sur leurs représentations de sites naturels, alors randonnée sera peut-être dans une classe "aspirations" ou "usages" ou "loisirs" ou "bénéfices" selon l'angle de votre étude.

A chaque fois, la classe que vous aurez envie de donner à "randonnée" et les mots qui seront à ses côtés dans cette même classe seront différents. Cela, aucune IA ne peut l'anticiper car le sens dépend de votre intention sur ce que vous voulez mesurer et du contexte particulier de cette mesure.

L'enjeu est donc de rendre très facile la création de ses propres modèles de langage, que ce soit des modèles lexicaux qui permettent de faire rapidement des métriques sur des cas simples ou des modèles sémantiques plus élaborés du langage de son métier.

C'est cet enjeu qui a présidé à la naissance de Youmean et qui guidera l'évolution de l'application.

Charles Team Youman
Publié le 22 Octobre 2021

Les dernières actualités

10 Mai 2023
#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Youmean publie une série d’études de cas éclairant les bénéfices opérationnels des IA du langage pour les entreprises et les collectivités. Aujourd’hui, un aménageur préparant une nouvelle offre de transport doit classer les avis des usagers, et identifier en particulier les plus de 100 lignes citées en verbatims.

Lire la suite
16 Février 2023
Les IA du langage pour les entreprises et les organisations

Au-delà du buzz planétaire ChatGPT, beaucoup de décideurs se demandent: à quoi pourrait me servir une IA du langage? Elements de réponse.

Lire la suite
3 Février 2023
Chat GPT : l’IA devient visible au grand public

Le modèle GPT-3 existe depuis déjà 3 ans, mais il a connu une explosion mondiale de popularité cet hiver, avec le buzz viral autour de l’agent de conversation Chat GPT. Cinq minutes pour comprendre ce qu’il y a sous le capot.

Lire la suite
10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Lire la suite