LiftPose3D: convertir des images 2D en modèles 3D

Des scientifiques de l’EPFL ont mis au point une méthode fondée sur l’apprentissage profond appelée LiftPose3D, qui permet de reconstruire en trois dimensions des poses d’animaux en utilisant uniquement des poses 2D d’une seule caméra. Cette méthode aura des répercussions en neurosciences et en robotique bioinspirée.

Nik Papageorgiou 20.08.2021

«Lorsque l’on fait des expériences en neurosciences, il est nécessaire de réaliser des mesures précises du comportement», souligne Pavan Ramdya, professeur à la Faculté des sciences de la vie de l’EPFL et directeur de l’étude. Son équipe a publié dans Nature Methods un article qui présente un nouveau logiciel permettant de simplifier une des tâches les plus cruciales (et les plus laborieuses) en neurosciences: modéliser en trois dimensions des animaux qui se déplacent librement. Cet outil leur permet d’étudier les mécanismes cérébraux qui contrôlent les mouvements du corps. Cet objectif de reconstitution du comportement biologique présente des applications étendues en robotique et en intelligence artificielle.

«Auparavant, nous utilisions un réseau de neurones profond pour effectuer ce type d’estimation de pose chez les animaux», explique Pavan Ramdya, en référence au processus par lequel un ordinateur peut prévoir la position de parties du corps sur des images caméra. «Chaque caméra prenait une image d’un animal, et on pouvait procéder à une triangulation de plusieurs images prises par différentes caméras pour calculer des positions ou des poses en trois dimensions.» Cette triangulation d’images nécessite toutefois de multiples caméras synchronisées et des protocoles d’étalonnage poussés, ce qui rend cette méthode difficile à adopter pour les études neuroscientifiques de petits animaux.

En 2019, l’équipe de Pavan Ramdya avait présenté DeepFly3D, un autre logiciel fondé sur l’apprentissage profond qui utilise plusieurs caméras pour mesurer les mouvements d’une drosophile dans un espace 3D. Les chercheurs ont à présent fait un bond en avant grâce à LiftPose3D, un réseau de neurones qui permet d’éviter de recourir à de multiples caméras en étant entraîné à convertir en un modèle 3D des poses en 2D d’un animal qui bouge librement.

«Nous voulions relever deux défis, explique Pavan Ramdya: premièrement, réduire le nombre de caméras nécessaires pour effectuer l’estimation de poses 3D; deuxièmement, résoudre le problème de l’obstruction, qui se pose lorsqu’une partie du corps de l’animal se trouve devant une autre, ce qui bloque le champ de vision de la caméra et empêche une triangulation complète.»

«Notre objectif est de reconstituer le système nerveux et le comportement afin d’améliorer le design des contrôleurs robotiques.» Pavan Ramdya

En général, les animaux présentent des schémas comportementaux très prévisibles. Si une souris, par exemple, exécute un certain mouvement, il est très probable qu’elle le reproduise de la même manière, ou d’une façon similaire, la fois suivante. Cette reproductibilité a permis aux scientifiques d’entraîner un réseau de neurones à convertir des poses 2D en positions 3D, réduisant ainsi le nombre de caméras nécessaires et surmontant le problème des obstructions. «Nous utilisons des réseaux profonds qui repèrent les poses 2D de chaque vue de la caméra, puis un autre réseau qui convertit ces positions 2D, ou points clés, en une série de positions 3D.»

«Pour entraîner notre réseau, nous pouvons désormais utiliser des données d’expériences précédentes dans lesquelles des gens ont effectué des estimations de poses 3D d’animaux, révèle Pavan Ramdya. Nous avons aussi utilisé quelques astuces pour pouvoir généraliser cette modélisation à des ensembles de données provenant de différents systèmes expérimentaux et de divers laboratoires. D’autres laboratoires placent peut-être leurs caméras dans des positions légèrement différentes. Nous avons donc entraîné notre réseau pour qu’il puisse généraliser au-delà de ces potentielles variations.»

Un autre avantage de LiftPose3D, c’est qu’il fonctionne avec des animaux qui se déplacent librement plutôt que d’être limités à un espace restreint, comme c’est habituellement le cas dans les études d’estimation de poses. «Pour comprendre le système nerveux, il faut aussi prendre en compte la biomécanique impliquée dans les comportements réels. Par exemple, lorsqu’un cafard gravit un monticule, les interactions physiques entre l’animal et son environnement, qui sont cruciales, ne peuvent pas être enregistrées si l’animal est attaché. LiftPose3D nous permet désormais d’enregistrer des poses 3D d’animaux dont le comportement est libre et de saisir les interactions entre leur corps et leur environnement.»

Puisqu’il ne nécessite pas de matériel informatique spécifique, LiftPose3D peut grandement faciliter les études d’estimation de poses et en réduire le coût. «Notre objectif est de reconstituer le système nerveux et le comportement afin d’améliorer le design des contrôleurs robotiques, expose Pavan Ramdya. La façon la plus efficace de le faire, c’est d’utiliser des modèles animaux facilement accessibles pour les expériences. Nous avons conçu LiftPose3D spécifiquement pour tester ces modèles avec moins de caméras, ce qui nous permet de nous rapprocher de notre objectif de reconstituer les mécanismes dont découlent leurs comportements complexes.»