530 milliards de paramètres, et moi, et moi, et moi...

L'éditeur Microsoft et le constructeur de puces Nvidia viennent d'annoncer un nouveau modèle de langue naturelle, le Megatron-Turing Natural Language Generation (MT-NLG). Celui-ci appartient à la famille des réseaux neuronaux attentionnels de type "transformer", qui a fait beaucoup bouger le monde de l'IA du langage depuis 5 ans – certaines tâches de Youmean utilisent cette génération émergente des transformers.

Le nouveau bébé de Microsoft et Nvidia atteint 530 milliards de paramètres pour décrire la langue, soit un nouveau bond en avant dans la course aux dimensions de l'IA du langage. Comme le montre cette image, la croissance de la taille des modèles (nombre de paramètres) est devenue exponentielle en quelques années.

Sur une tâche commune en test (finir une phrase à mot manquant), MT-NLG obtient un score de 87,2% de réussite, là où le précédent détenteur du record GPT-3 atteignait 86,4%.

Le gain est réel quoique d'apparence modeste pour le non-initié. Le hic, c'est le coût et la puissance requise.

Le Megatron-Turing NLG a demandé un mois d'entraînement sur 560 serveurs DGX A100, en réseau avec HDR InfiniBand dans une configuration d'arbre complet. Chaque DGX A100 dispose de huit GPU NVIDIA A100 80 Go Tensor Core. Au total 4480 cartes graphiques à GPU superpuissant... sachant que chacune d'elles coûte des milliers d'euros à l'achat dans le commerce. Le simple fait de faire tourner le modèle sur une requête demande 40 de ces GPUs, et 1 à 2 secondes pour accomplir la tâche.

Les chercheurs en IA sont très intéressés de savoir si cette course à la "force brute" continuera d'entraîner des gains, jusqu'à atteindre un niveau de maîtrise formelle de la langue comparable à celle d'un humain (très très) informé et cultivé. Certains pensent que oui, d'autres jugent qu'il faut plutôt améliorer les données d'entraînement et les algorithmes.

Quoiqu'il en soit, le gigantisme pose la question des applications commerciales et des capacités d'appropriation de l'IA par les publics qui en ont besoin. Non seulement l'entraînement d'un modèle de ce type coûte des millions de dollars, mais chaque tâche applicative exige une forte quantité de calcul pour tirer pleinement profit des capacités issues du grand nombre de paramètres. Ce sujet devient aussi sociétal, car l'IA consomme beaucoup d'énergie dans un monde où celle-ci pose des questions de soutenabilité face au changement climatique et à la raréfaction de certaines ressources.

Saluons donc la prouesse de la recherche la plus avancée en IA du langage. Mais veillons aussi à donner accès à des outils plus simples, plus opérationnels... et nettement plus abordables !

Charles Team Youman
Publié le 5 Novembre 2021

Les dernières actualités

10 Mai 2023
#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Youmean publie une série d’études de cas éclairant les bénéfices opérationnels des IA du langage pour les entreprises et les collectivités. Aujourd’hui, un aménageur préparant une nouvelle offre de transport doit classer les avis des usagers, et identifier en particulier les plus de 100 lignes citées en verbatims.

Lire la suite
16 Février 2023
Les IA du langage pour les entreprises et les organisations

Au-delà du buzz planétaire ChatGPT, beaucoup de décideurs se demandent: à quoi pourrait me servir une IA du langage? Elements de réponse.

Lire la suite
3 Février 2023
Chat GPT : l’IA devient visible au grand public

Le modèle GPT-3 existe depuis déjà 3 ans, mais il a connu une explosion mondiale de popularité cet hiver, avec le buzz viral autour de l’agent de conversation Chat GPT. Cinq minutes pour comprendre ce qu’il y a sous le capot.

Lire la suite
10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Lire la suite