Le deep learning fête ses 10 ans

En 2012 se tient le ImageNet Large Scale Visual Recognition Challenge (compétition ImageNet de reconnaissance visuelle à drande échelle) . Ce concours est organisé par la base ImageNet qui contient des millions d'images annotées sur leur contenu. Il a pour objectif de tester les performances de solutions logicielles pour classer automatiquement des images.

Le précédent record, détenu par un modèle parallélisé de type SVM (classifieur linéiare), est de 71,8% de réussite dans les 5 meilleures classes. En 2012, le modèle AlexNet arrive à un score de 84,7% et il laisse le second loin derrière, avec plus de 10% d'avance. Le petit monde des experts en modèles d'apprentissage automatique est ébahi par la performance. Et se penche sur son secret : un modèle fondé sur les réseaux neuronaux convolutifs. L'article associé à la performance, signé par Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton devient l'un des plus cités de la recherche informatique.

Le deep learning, ou apprentissage profond, est né. Il va coloniser en une décennie la reconnaissance vocale, la vision par ordinateur, la conception de médicaments, la bio-informatique, l'imagerie médicale et le traitement du langage naturel. La solution Youmean utilise ainsi certains de ces modèles en langage.

La résurrection d'une idée ancienne

Cette naissance est en réalité une résurrection. Car la modélisation du traitement intelligent des données par des neurones formels est déjà une idée ancienne. En 1943, Warren McCulloch et Walter Pitts créent le principe du neurone formel, une représentation mathématique très simplifiée de la manière dont une unité du système nerveux (neurone) traite l'information de l'entrée (les données) vers la sortie (la décision, l'action). En 1957, Frank Rosenblatt met au point le perceptron, un modèle composé d’une couche de neurones en entrée et d’une couche en sortie, premier système capable d’apprendre par expérience à reconnaître des formes – et donc premier réseau de neurones artificiels.

Comme d'autres modèles, un réseau de neurones vise à interpréter des données d'entrée (x) selon une fonction de classification (y).

Ces réseaux sont constitués d'unités connectées de neurones artificiels, chaque connexion transmet des signaux d'un neurone à un autre, l'apprentissage se fait en modifiant les poids des connexions entre les neurones. Au fur et à mesure que les réseaux augmentent en profondeur, les multiples couches peuvent progressivement extraire des caractéristiques de haut niveau à partir d'entrées brutes, ce qu'on appelle l'apprentissage profond (deep learning). Le mot "profond" fait référence à la profondeur des couches elle-même corrélée à la profondeur des paramètres de représentation de l'objet étudié.

Cependant, à la fin des années 1960, la mise en lumière des limites théoriques des modèles à une seule couche va doucher les enthousiasmes. Et si quelques fervents défenseurs des modèles dits "perceptron multicouches" maintiennent le flambeau des années 1970 aux années 2000, ils sont confrontés à des lenteurs de calcul qui rendent peu opérationnels leur architecture et les algorithmes associés.

Modèles plus intelligents, calculs plus puissants

Pourquoi AlexNet a changé les choses? Parce que des chercheurs, notamment rassemblés derrière Yann Le Cun, avaient continué à améliorer les architectures des réseaux neuronaux. AlexNet s’est largement inspiré de LeNet, mis au point 15 ans plus tôt. Et en raison de diverses innovations qui ont convergé dans la conception d’AlexNet : augmentation des couches de convolution (découpage de l’image pour extraire ses caractéristiques), ajout d’une couche de pooling (sélection des caractéristiques ayant du poids pour simplifier le calcul et éviter le surapprentissage), choix des fonctions finales de décision (ReLU), mobilisation des processeurs GPU (unités graphiques) car ils accélèrent énormément le calcul…

Dès l'année suivant la victoire d'AlexNet, Yann Le Cun est chargé par Mark Zuckerberg de créer le Facebook Artificial Intelligence Research (FAIR), organisme regroupant des laboratoires de recherche spécialisés dans l’IA, et en devient le directeur. Le chercheur français obtiendra le prix Turing (2019), équivalent Nobel de l'informatique, et il a raconté ces décennies décisives dans un ouvrage passionnant (Quand la machine apprend, La révolution des neurones artificiels et de l'apprentissage profond, 2019)

L'histoire de l'apprentissage profond continue de s'écrire. Car d'autres enjeux sont apparus, comme par exemple le problème de la "boite noire", c'est-à-dire l'opacité des décisions de l'IA dans ses neurones, ce qui nuit à leur interprétabilité et à leur amélioration. L'IA est très loin d'être une intelligence omnisciente dont certains survendent les capacités – en fait son intelligence reste très limitée, comme le rappelle avec modestie Yann Le Cun. Mais les prouesses qu'elle réalise déjà, le temps qu'elle fait gagner, les possibilités qu'elle ouvre dans l'assimilation des données massives de nos capteurs et interfaces numériques, les usages croissants par la recherche scientifique et technologique justifient amplement les espoirs que l'on place dans son évolution future.

Charles Team Youman
Publié le 15 Janvier 2022

Les dernières actualités

10 Mai 2023
#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Youmean publie une série d’études de cas éclairant les bénéfices opérationnels des IA du langage pour les entreprises et les collectivités. Aujourd’hui, un aménageur préparant une nouvelle offre de transport doit classer les avis des usagers, et identifier en particulier les plus de 100 lignes citées en verbatims.

Lire la suite
16 Février 2023
Les IA du langage pour les entreprises et les organisations

Au-delà du buzz planétaire ChatGPT, beaucoup de décideurs se demandent: à quoi pourrait me servir une IA du langage? Elements de réponse.

Lire la suite
3 Février 2023
Chat GPT : l’IA devient visible au grand public

Le modèle GPT-3 existe depuis déjà 3 ans, mais il a connu une explosion mondiale de popularité cet hiver, avec le buzz viral autour de l’agent de conversation Chat GPT. Cinq minutes pour comprendre ce qu’il y a sous le capot.

Lire la suite
10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Lire la suite