Un modèle de langage sert notamment à classer des contenus textuels : ce peut être la reconnaissance d'entités nommées (trouver des mots qui expriment des lieux, personnes, organisations, classes d'objets) ou la catégorisation de texte (attribuer une classe de sens à une phrase, un paragraphe, un document).
Cette étape est indispensable à beaucoup de besoins pratiques. Par exemple, vous pourriez avoir envie de :
- détecter les ingrédients de recettes dans un forum de cuisine,
- suivre les citations de 25 marques dans une veille,
- trier des avis clients selon des approbations et critiques,
- identifier des sports cités par des répondants à une enquête publique...
Et ainsi de suite, la demande est infinie, elle dépend de chaque métier, chaque contexte.
Les modèles IA généralistes du langage naturel ne pourront jamais avoir toutes les clés d'interprétation que vous cherchez. Ces modèles font déjà des prouesses : ils savent lire les textes, distinguer les mots et leurs racines (lemmes), reproduire la grammaire (morphosyntaxe), etc. Ils peuvent être entraînés à répondre à des besoins très généraux de classification comme les entités nommées ou la polarité (jugement positif et négatif). Mais dès lors que vous visez des détections et des mesures passant par une interprétation de votre part, en fonction d'une étude précise, un modèle IA ne pourra pas répondre tout seul, comme par magie.
Le problème n'est pas ici l'ambiguïté, mais l'intentionnalité : même si l'IA comprend bien le mot, elle ne peut pas savoir quelle est votre intention d'interprétation.
Par exemple, un cas classique d'ambiguïté est le mot "orange" qui pourra désigner selon les contextes un fruit, une marque de télécom, une couleur, une maison noble etc. Là dessus, les IA ont progressé et, en fonction du contexte, elles vont calculer le sens le plus probable de l'emploi du mot orange.
Mais la question de l'intentionnalité est différente. Prenons par exemple le mot "randonnée", qui n'est pas tellement ambigu. Bien qu'explicite, ce mot ne sera pas forcément classé de la même manière dans une étude ou une veille.
- Si vous faites une revue de presse sur la vie d'une collectivité, vous le classez peut-être dans la catégorie "événements" ou "loisirs" lorsque des randonnées locales sont rapportées par les médias,
- Si vous étudiez les résultats spécifiques d'une enquête sur les loisirs les plus demandés par les citoyens, vous mettrez peut-être randonnée dans la catégorie "outdoor", ou "loisir extérieur" ou "loisir mixte" en comparaison de "loisir individuel" et "loisir collectif",
- Si vous analysez les verbatims de riverains sur leurs représentations de sites naturels, alors randonnée sera peut-être dans une classe "aspirations" ou "usages" ou "loisirs" ou "bénéfices" selon l'angle de votre étude.
A chaque fois, la classe que vous aurez envie de donner à "randonnée" et les mots qui seront à ses côtés dans cette même classe seront différents. Cela, aucune IA ne peut l'anticiper car le sens dépend de votre intention sur ce que vous voulez mesurer et du contexte particulier de cette mesure.
L'enjeu est donc de rendre très facile la création de ses propres modèles de langage, que ce soit des modèles lexicaux qui permettent de faire rapidement des métriques sur des cas simples ou des modèles sémantiques plus élaborés du langage de son métier.
C'est cet enjeu qui a présidé à la naissance de Youmean et qui guidera l'évolution de l'application.