La problématique
Une métropole fait évoluer son offre de transport en proposant de nouvelles lignes de bus et tram. Une vaste enquête publique mobilise des milliers de participants qui, en tant qu’usagers des transports, font de nombreuses observations dans leurs réponses à des questions ouvertes ou lors d’ateliers de concertation.
Les données
Certaines questions de l’enquête sont fermées (QCU, QCM, Likert, etc.), d’autres ouvertes avec réponse libre. Les ateliers sont en expression libre. L’aménageur est donc confronté à des données textuelles non structurées, en langage naturel. Plus de 100 lignes de bus et tram sont concernées : il s’agit de les identifier dans l’expression pour ensuite tagger la base de données et pouvoir l’indexer ligne par ligne.
Ce qui est fait
Un modèle IA de détection d’entités nommées (token classification) est entraîné sur quelques centaines d’exemples, afin de repérer et qualifier le nom des lignes. Il est ensuite généralisé aux prises de parole, avec création d’une colonne d’index portant le nom de la / des ligne(s) citée(s) dans chaque verbatim. Un tableau croisé dynamique permet ensuite d’isoler les expressions sur chaque ligne, de croiser les expressions sur ces lignes avec d’autres informations disponibles dans la base.
Les bénéfices de cette approche IA
- Semi-automatiser un traitement chronovore
- Transformer des données non structurées en données structurées par des tags sémantiques
- Croiser la donnée nouvelle avec d’autres données pour faire émerger des insights
- Nourrir et justifier la réflexion de l’aménageur tout au long du projet.
