Nos mots vivent en réseaux, et les graphes les révèlent

Les réseaux sont partout : réseaux sociaux, réseaux écosystémiques, réseaux de transport, de neurones, de gènes, de compétences, de communication, d'entreprises... une réalité universelle. Les flux qui relient les éléments d'un réseau peuvent concerner la matière, l'énergie, l'information – information au sens large du terme (un texte, un prix, une connaissance, un code sont des informations).

En conséquence, de nombreuses disciplines s'intéressent à l'analyse des réseaux complexes, depuis la physique et la biologie jusqu'à l'écologie, l'économie, l'histoire ou la sociologie. Et au départ, les mathématiques : elles ont inventé la théorie des graphes pour analyser de façon rigoureuse les noeuds (sommets) et les liens (arêtes) des réseaux. C'est le grand mathématicien Euler qui en a jeté les bases dans les années 1730, lorsqu'il a analysé les parcours possibles et impossibles pour aller d'un point à un autre en empruntant les sept ponts de Königsberg.

Trouver le meilleur chemin en empruntant les 7 ponts de Königsberg, une énigme, qui a poussé Euler à inventer la théorie de graphes.

Au sens le plus général, on appelle ainsi réseau un système d'objets reliés par des chemins variables entre eux. Il faut au moins un lien entre une paire d'objets pour être dans un réseau, le schéma devenant de plus en plus complexe à mesure que les objets sont nombreux et ont des options de liens. Par exemple, voici des noeuds (sommets) et des liens (arêtes) dans un réseau à 2, 3, 7 objets.

Un article de Mathieu Sablik (Université de Toulouse) introduit aux divers types de calcul que l'on peut faire en mathématique et algorithmique selon les questions que l'on se pose sur l'organisation d'un réseau.

Graphes, réseaux... mais quel rapport avec le langage et ses mots?

La linguistique s'est aussi intéressée aux graphes, surtout après la révolution informatique ayant facilité les calculs sur les mots (puis inventé les liens hypertexte et le réseau nommé Internet). La distribution des mots dans une langue (et donc dans un corpus) n'est pas aléatoire : des mots ont tendance à être fréquents et d'autres rares ; des mots ont tendance à être cités plus souvent ensemble (dans la même phrase), d'autres presque jamais. Et comme nous le savons, les associations de mots créent du sens.

Si l'on prend tout les mots d'un corpus , et que l'on vérifie ceux qui sont ou qui ne sont pas cités dans une même phrase, on obtient ainsi une matrice d'adjacence qui est analysable mathématiquement comme un réseau. Les mots sont les noeuds du réseau, leurs co-citations comme des chemins (plus ou moins courts) entre eux.

Outre les compositions linguistiques de corpus, les graphes ont toujours constitué une partie essentielle des applications informatiques de traitement du langage grâce à l'organisation des dépendances et liens entre des objets: traduction automatique basée sur la syntaxe, réponse à des questions basée sur des graphes de connaissances, représentation du sens abstrait pour les tâches de raisonnement naïf, synthèse de contenu, etc. La recherche en IA du langage utilise beaucoup les graphes, en tentant désormais de les relier aux approches différentes du deep learning (voir Wu et al 2021 pour un passage en revue).

Youmean s'intéresse plus particulièrement à la représentation rapide des contenus lexicaux et sémantiques.

Chaque mot est alors analysé comme un noeud du réseau de tous les mots, avec des liens plus ou moins fréquents à d'autres mots selon qu'ils sont employés dans les mêmes phrases ou les mêmes documents. Ces mots ne sont pas répartis par hasard, comme nous l'avons vu, mais avec des relations de grammaire et syntaxe (en langue française, le sujet est plus souvent avant le verbe, par exemple) comme de sémantique (certains mots se trouvent plus souvent associés à d'autres selon les sujets, les métiers, les opinions, etc.). Des algorithmes permettent de mesurer toutes ces distances relatives entre mots, pour faire ressortir des co-occurrences dans un corpus.

Chaque corpus peut ainsi être caractérisé par des graphes, qui en offre une représentation graphique utile pour comprendre la structure du texte, les mots-clés qui le portent, les univers de mots qui dessinent du sens.

Nous proposons par exemple deux types de graphe en mode automatique:

  • un graphe de synthèse qui extrait les mots les plus cités et les plus reliés d'un corpus, ainsi que les communautés (clusters) de mots les plus souvent associés ensemble,
  • un graphe de contexte qui permet de visualiser les mots les plus reliés à un mot.

Notre base de connaissance aide à explorer le sens de ces représentations. (Rassurez-vous si vous désirez utiliser Youmean, tout cela est très simple, sans math ni code !)

Nous travaillons pour l'avenir à une interface semi-automatique qui permettra de choisir les types d'objets et de liens recherchés dans un corpus, tout en restant le plus intuitif possible dans l'exploration.

Ces graphes sont à la fois des moyens élégants de représentation rapide du contenu d'un texte et des moyens efficaces de détection des liens ayant du sens dans ce texte.

Pour finir, voici ce que dit... le graphe du texte que vous venez de lire !

Un... auto-graphe!

Team Youmean
Publié le 6 Octobre 2021

Les dernières actualités

10 Mai 2023
#Usecase : Identifier des lignes de bus et tram dans la parole des usagers

Youmean publie une série d’études de cas éclairant les bénéfices opérationnels des IA du langage pour les entreprises et les collectivités. Aujourd’hui, un aménageur préparant une nouvelle offre de transport doit classer les avis des usagers, et identifier en particulier les plus de 100 lignes citées en verbatims.

Lire la suite
16 Février 2023
Les IA du langage pour les entreprises et les organisations

Au-delà du buzz planétaire ChatGPT, beaucoup de décideurs se demandent: à quoi pourrait me servir une IA du langage? Elements de réponse.

Lire la suite
3 Février 2023
Chat GPT : l’IA devient visible au grand public

Le modèle GPT-3 existe depuis déjà 3 ans, mais il a connu une explosion mondiale de popularité cet hiver, avec le buzz viral autour de l’agent de conversation Chat GPT. Cinq minutes pour comprendre ce qu’il y a sous le capot.

Lire la suite
10 Mai 2022
Quelles bonnes pratiques pour des modèles de classification en traitement automatique du langage?

Détecter et mesurer les thèmes ou les angles d'un contenu textuel exige de catégoriser le sens de phrases ou d'ensembles de mots. Explication et bonnes pratiques.

Lire la suite