Youmean | Chat GPT : l’IA devient visible au grand public

ChatGPT aura créé la sensation de l’hiver 2022-2023, avec plusieurs millions de personnes ayant déjà testé l’étonnante capacité de cet agent conversationnel à rédiger des textes sur tout sujet suggéré par un utilisateur.

Pour les experts du domaine, il n’y a pas d’effet de surprise : les prouesses des modèles GPT (Generative Pre-trained Transformer), développés par OpenAI depuis plusieurs années, étaient connues. Le modèle GPT-3 (sous-jacent à Chat GPT) a été annoncé en 2020, avec plus de 175 milliards de paramètres pour simuler les langues naturelles (voir Brown et al 2020). Depuis, d’autres modèles IA du langage ont dépassé GPT-3 en nombre de paramètres (voir cet article).

Qu’y a-t-il sous le capot ?

GPT-3 est un modèle de traitement et compréhension automatique du langage (NLP-NLU en anglais), à base de réseaux neuronaux attentionnels (transformers). C’est un modèle à apprentissage large « non tâche spécifique », par opposition à des modèles « tâches spécifiques » qui font l’objet d’un paramétrage par apprentissage à partir d’exemples, afin d’accomplir des opérations circonscrites : indexer, classifier ou générer des textes. GPT-3 est un modèle génératif (par différenciation des modèles discriminatifs), c’est-à-dire capable de générer de la nouvelle donnée similaire à de la donnée existante.

GPT-3 existe en différentes versions. La plus puissante a les caractéristiques suivantes :

175 milliards de paramètres (un paramètre est une valeur interne à des matrices de calcul qu’un modèle IA peut changer en cours d’apprentissage),
6 couches de neurones (le fameux réseau neuronal où se calculent itérativement les probabilités de bonne réponse),
12 888 unités de « bottleneck » (une astuce des réseaux d’apprentissage profond où une couche de neurone produit en cours d’apprentissage des vecteurs de plus petite dimension du problème traité),
2 048 token (les tokens sont des mots en général, parfois partie de mots, ponctuation, etc.) dans la fenêtre d’évaluation (le contexte de prise en compte d’un mot dans une phrase, un paragraphe, un discours),
3,2 millions de token en taille de « batch » (les paquets d’apprentissage)

Une technique simplissime de mot masqué sur une énorme base de référence

Le modèle a été entraîné sur un corpus composé de 410 milliards de mots venus de la base CommonCrawl, 67 milliards venant de livres, 19 milliards de la base WebText2, 3 milliards de Wikipédia.

Enfin, le modèle a été testé en situation d’apprentissage « zero / one / few shot ». Par exemple, sur le prompt d’échange avec GPT-3, on pouvait écrire « capital de la France ? » (zero shot), « Allemagne capitale Berlin, France capitale ? » (one shot), « Allemagne capitale Berlin, Norvège capitale Oslo, Espagne capitale Madrid, France capitale ? » (few shot).

Un point étonnant est que le pré-entraînement du modèle de langage GPT repose pour l’essentiel sur la technique du mot masqué. Tout comme des mots sont suggérés par votre mobile quand vous saisissez un message dans un texto. GPT a ainsi auto-appris à compléter des phrases comme « le chat mange la … » ou « 2 + … = 4 ». Sauf qu’il l’a fait des centaines de milliards de fois, sur tous les mots ou token possibles, dans des contextes très différents trouvés dans la base sous-jacente de textes, créant ainsi pour chaque mot une table de probabilité d’apparition dans une diversité de contextes.

Le « miracle » de GPT-3 faisant que ses textes générés sont écrits correctement et assez crédibles tient à cela : la rédaction semble d’autant plus familière qu’elle calcule des manières usuelles de s’exprimer, sur la base de connaissances « factuelles » brassées partout sur le web et dans les livres. Ce miracle appuie une conjecture des chercheurs en IA : la taille compte. C’est-à-dire qu’un très fort volume d’apprentissage couplé à une très forte puissance de calcul finit par faire émerger des comportements pertinents du modèle. La qualité vient de la quantité, en quelque sorte. GPT-3 (comme les autres modèles d’IA du langage, de l’image ou de tout autre apprentissage) tend à confirmer la conjecture, pour le moment.

L’IA, ni diablesse ni déesse

La popularité soudaine de Chat GPT a soulevé autant d’avis enthousiastes que de remarques critiques. Les secondes ne sont pas nouvelles. En lisant la publication de 2020 par Tom B. Brown et de ses collègues ayant conçu GPT-3, on s’aperçoit que les chercheurs et ingénieurs avaient déjà consacré deux sections de leur texte aux « limites » et aux « mauvais usages » de leur création.

La plupart des critiques ne sont pas tellement convaincantes. Chat GPT a parfois des biais ? Certes, mais il ne fait que « moyenner » des contenus créés par des humains, donc ré-exprimer des biais humains au départ. Chat GPT va faire les dissertations à la place des élèves ? On peut penser qu’à l’inverse, le style très « scolaire » de Chat GPT servira de contre-modèle pour développer un esprit plus critique et original dans la manière de poser les problématiques. Chat GPT va inonder le net de fake news inutiles et nocives ? Ce n’est pas vraiment l’objet par construction de cette IA, qui ne peut restituer que ce qui a été appris (donc en moyenne pas des choses totalement absurdes). Et d’autres IA peuvent être entraînées à détecter des fausses nouvelles. Chat GPT va mettre au chômage des millions de « cols blancs » ? Ou alors, comme pour les cols bleus, la machine va plutôt permettre de réaliser des tâches intellectuellement pénibles, chronovores et répétitives afin de libérer l’esprit pour lui apprendre à faire des choses de plus haut niveau.

A l’opposé de ces critiques, on peut facilement imaginer les avantages d’une IA de plus en plus « universelle » en tâche de restitution de connaissances, en particulier factuelles et opérationnelles, comme Chat GPT en est l’ébauche avancée. Une même console d’interrogation en langage naturel permettra peut-être un jour d’accéder à une recette de cuisine, un manuel d’outil, une explication scientifique ou une référence exacte de citation, cela dans toutes les langues. En fait, c’était déjà l’utopie de l’Internet des années 1980. Elle est en partie réalisée par la création de la plus formidable base de connaissances de l’histoire de l’humanité sous format numérique ; mais l’IA pourrait permettre d’aller bien plus vite en évitant les moteurs de recherche, les barrières de langue, les clics sur des sources hasardeuses, les pollutions publicitaires (on peut rêver), etc.

Youmean héberge-t-il GPT ?

Un petit mot pour conclure… et désespérer les fans de GPT😢 : non, la plateforme Youmean n’utilise pas cette IA. Du moins, pas pour le moment ! D’une part, notre plateforme est davantage spécialisée dans l’indexation, la classification et la qualification des textes, ce qui n’est pas la même chose que la génération de textes (nos modèles sont discriminatifs, cf. ci-dessus). D’autre part, nous travaillons bel et bien en R&D sur des modèles génératifs pour des fonctions utiles à nos utilisateurs comme les résumés. Mais il faut encore attendre un peu pour arriver à des résultats satisfaisants quand on doit résumer non pas des connaissances sous-jacentes à partir d’une vaste base d’apprentissage, mais des objets précis, uniques et complexes comme des rapports et des discours, des réponses multiples et « désordonnées » à des questionnaires, etc. Cela avec assez de fidélité et de qualité pour avoir confiance dans la pertinence du résultat par rapport à l’objet à résumer.

Nous travaillons donc pour le moment à du fine-tuning de modèle de résumé sur certains types de documents, et nous ne manquerons pas de vous informer des progrès !

Team Youmean

Publié le 3 Février 2023

Chat GPT : l’IA devient visible au grand public

Team Youmean

Les dernières actualités

#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Les IA du langage pour les entreprises et les organisations

Chat GPT : l’IA devient visible au grand public

Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?