L'intelligence artificielle doit apprendre comme un enfant

Les algorithmes de l'intelligence artificielle sont impressionnants mais restent encore loin des capacités humaines. Pour Benjamin Grewe, les machines de demain doivent apprendre comme les petits enfants le font.
Un algorithme voit dans un texte uniquement des données. (Visualisation : OpenAI.com)

Le rêve de créer des machines intelligentes traverse l'histoire de l'humanité. Récemment, nous avons entendu parler de GPT3, un nouvel algorithme linguistique développé à San Francisco. Selon ses concepteurs, il est censé pouvoir répondre à des questions générales, corriger et compléter des textes ou même les rédiger soi-même sans avoir été formé à certaines tâches. Ce dernier rend le GPT3 si bon que les lignes générées peuvent difficilement être distinguées des textes humains. Que faut-il en penser ?

Le GPT3 connaît (presque) tout l'Internet

GPT3 s'entraîne sur un ensemble de données textuelles de 500 milliards de chaînes de caractères basées sur l'ensemble d'Internet (filtré), sur Wikipédia et sur plusieurs collections de livres numérisés. Une immense somme de connaissances que les humains ne peuvent pas suivre. Mais qu'en fait exactement GPT3? Dans le training "self-supervised" ("supervisé par lui-même"), le système linguistique apprend à ajouter le mot suivant en fonction d'une section de texte donnée. L'algorithme peut prédire quel mot est le plus susceptible de venir. Ainsi, il écrit itérativement une phrase ou un texte complet.


D'une manière générale, ce qui suit s'applique aux systèmes modernes de reconnaissance linguistique: plus le réseau est grand et plus les connexions entre les neurones artificiels sont nombreuses, mieux ils apprennent. GPT3 est constitué d'un nombre remarquable de 175 milliards de paramètres de connexion de ce type. A titre de comparaison: le célèbre réseau BERT de Google ne compte que 255 millions de connexions. A l'opposé, le cerveau humain compte 1014 connexions synaptiques, soit 10'000 fois plus que GPT3!

Pour moi, les nombreuses lacunes du GPT3 illustrent bien le problème des réseaux neuronaux artificiels modernes à haute performance. Grammaticalement, pratiquement chaque texte généré est parfait. Le contenu est même cohérent sur plusieurs phrases. Cependant, les textes plus longs n'ont souvent que peu de sens en termes de contenu. Il ne suffit pas de prédire le mot suivant. Pour être vraiment intelligente, une machine devrait comprendre les tâches et les objectifs d'un texte en termes de contenu et de concept. Le système linguistique GPT3 n'est en aucun cas capable de répondre à toutes les questions générales. Une intelligence de type humain n'a pas été développée avec GPT3.

Les gens apprennent plus que de simples modèles statistiques

À mon avis, l'exemple du GPT3 montre également un autre problème général dans lequel se trouve la recherche actuelle sur l'IA. Les algorithmes intelligents actuels sont incroyablement efficaces pour traiter de grandes quantités de données, reconnaître des modèles statistiques et les reproduire eux-mêmes. Mais le problème réside dans les algorithmes de formation hautement spécialisés. Il ne suffit pas d'apprendre la signification d'un mot uniquement par le biais d'un texte et de l'utiliser de manière grammaticalement correcte.

Prenons l'exemple du mot "chien". Même si nous apprenons à une machine que le mot "chien" apparaît souvent dans les textes avec "teckel", "Saint-Bernard" ou "carlin", un être humain verra bien plus de significations dans ce mot. Il forme de nombreuses connotations, composées d'une multitude d'expériences et de souvenirs réels et physiques. C'est pourquoi le système du langage humain peut lire entre les lignes, déduire l'intention de l'auteur et interpréter un texte.

Comment les gens apprennent-ils et qu'apprenons-nous d'eux ?

Le psychologue suisse Jean Piaget avait décrit les principales caractéristiques de l'apprentissage humain au cours du développement de l'enfant. Les enfants apprennent en réagissant à leur environnement, en interagissant avec lui et en l'observant. Ce faisant, ils passent par différentes étapes cognitives qui se construisent les unes sur les autres. Il est important que l'intelligence sensorimotrice, qui va du mécanisme de réflexe à l'action ciblée, soit la première à se développer. Ce n'est que beaucoup plus tard qu'un enfant acquiert la capacité de parler, de relier logiquement des faits entre eux ou même de formuler des pensées abstraites et hypothétiques, comme lorsqu'il rejoue des situations vécues.

Je suis convaincu que pour faire des progrès décisifs en termes d'intelligence humaine dans l'apprentissage machine nous devrons nous inspirer bien plus sur la manière dont les enfants apprennent et se développent. L'interaction physique avec l'environnement joue un rôle central. Concrètement, les approches suivantes pourraient être envisagées : nous construisons ou simulons des robots interactifs à vocation humaine qui intègrent diverses expériences sensorielles dans l'apprentissage machine et apprennent de manière autonome dans un environnement réel ou virtuel.

Les informations du système musculo-squelettique ainsi que les technologies des capteurs visuels, auditifs et haptiques sont ensuite mises en réseau de manière à créer des schémas cohérents. Une fois que les schémas simples ont été appris, l'algorithme peut lentement commencer à les compléter avec un système de parole abstrait. De cette façon, les connaissances acquises peuvent être  résumées, adaptées et reliées à d'autres concepts abstraits.

En bref : les enfants apprennent d'une manière fondamentalement différente des machines d'aujourd'hui et - bien qu'ils traitent moins de données quantitatives - ils peuvent faire bien plus que n'importe quelle IA. Selon les développeurs, GPT3 atteint probablement déjà les limites de ce qui est possible avec la quantité de données. Cela montre également que des algorithmes d'apprentissage hautement spécialisés avec encore plus de données n'amélioreront plus de manière significative l'apprentissage machine. D'ailleurs, cet article a été écrit par un être humain et il faudra beaucoup de temps avant qu'une machine puisse ne le faire.

Ce texte est également publié dans la NZZ am Sonntag.