Un pas de plus vers des avatars plus vrais que nature

Bientôt, les internautes pourront se rencontrer dans le cyberespace sous la forme d'avatars animés en 3D. Une équipe de recherche de l'ETH Zurich a mis au point de nouveaux algorithmes permettant de créer des humains virtuels beaucoup plus facilement.
La nouvelle approche fondée sur l'IA permet de créer des humaines virtuelles réalistes capables d'exécuter des mouvements inédits, comme une danse endiablée. (Graphique: Xu Chen/ETH Zürich)

De nos jours, les gens regardent de plus en plus souvent leur écran, surtout depuis le début de la pandémie de coronavirus. Les conférences, les réunions et les discussions avec les collègues de travail se déroulent toutes par appel vidéo. Si les grandes entreprises technologiques parviennent à leurs fins, ces rencontres deviendront dès l'année prochaine une expérience immersive dans le métavers, grâce à des lunettes 3D et des programmes informatiques spécialisés.

La clé pour permettre une expérience naturelle des utilisatrices et utilisateurs dans les applications de RV et de RA est de créer ce que l'on appelle des avatars, qui sont des représentations dynamiques de personnes générées par ordinateur. Plus l'apparence et le comportement des avatars sont réalistes, plus les utilisateurs et utilisatrices ont de chances de ressentir une véritable interaction sociale.

Toutefois, modéliser un être humain en détail et en mouvement est une tâche qui continue de poser des difficultés aux développeuses et développeurs de ces applications. Les programmes graphiques actuels peuvent déjà créer des avatars statiques photoréalistes. Mais pour animer un visage souriant, par exemple, les graphistes doivent modifier manuellement presque chaque image sur l'ordinateur pour corriger des nuances telles que les rides et les ombres.

Une équipe de recherche dirigée par Otmar Hilliges, professeur d'informatique à l'ETH Zurich, a montré comment y parvenir plus facilement lors de la conférence internationale sur la vision par ordinateur d'octobre 2021. Au lieu de modéliser chaque détail, des algorithmes intelligents sont utilisés, qui apprennent à rendre automatiquement des avatars animés dans toutes les poses imaginables en observant des images 3D d'humains et d'humaines en quelques poses seulement.

Le modèle informatique peut même gérer un flic-flac

Les programmes informatiques qui utilisent l'intelligence artificielle pour créer des humaines et humains virtuels réalistes n'existent que depuis quelques années. Ces programmes apprennent à représenter de manière réaliste différentes positions du corps à l'aide de scans 3D d'une personne réelle, qui sont enregistrés au préalable à l'aide d'un système complexe de caméras.

Les algorithmes d'IA traitent les scans en mesurant d'innombrables points à l'intérieur et à l'extérieur du corps de la personne pour en définir les contours sous forme de fonction mathématique. De cette manière, les algorithmes construisent un modèle de forme de la personne. Pour déplacer l'avatar vers de nouvelles poses, les algorithmes apprennent à mémoriser le chemin de la pose mobile vers le modèle.

Cependant, pour les poses extrêmes en dehors du répertoire connu de mouvements, ces algorithmes ne disposent pas des connaissances nécessaires et prédisent des chemins erronés, ce qui entraîne des artefacts clairement visibles: les bras peuvent être détachés du corps ou les articulations situées au mauvais endroit. C'est pourquoi les modèles d'aujourd'hui sont entraînés sur le plus grand nombre de poses différentes possible - ce qui implique un énorme effort de numérisation 3D et nécessite une énorme puissance de calcul.

À ce jour, les avatars d'IA sont difficilement utilisables, notamment pour les applications interactives. «Il n'est pas pratique de capturer tout le répertoire possible de mouvements», explique Xu Chen, doctorant et auteur principal de l'étude.

La nouvelle méthode développée par Xu Chen adopte l'approche inverse: le modèle calcule le chemin entre le modèle et les poses mobiles. Comme cela signifie que les calculs ont toujours le même point de départ, cela permet aux algorithmes intelligents de mieux apprendre à généraliser les mouvements.

En effet, pour la première fois, un tel modèle informatique est en mesure de représenter facilement de nouveaux modèles de mouvements. Il peut même produire des mouvements acrobatiques tels qu'un saut périlleux ou un pont arrière.

Un nombre illimité de nouveaux visages à partir d'une seule image

Les nouveaux avatars corporels ne peuvent pas encore être personnalisés; les représentations se limitent à la personne scannée dans les images 3D originales. Xu Chen et ses collègues aimeraient développer davantage leur modèle informatique afin qu'il puisse créer de nouvelles identités à volonté.

Marcel Bühler, un autre doctorant du groupe d'Otmar Hillige, a déjà trouvé une solution pour personnaliser les visages des avatars et les modifier à volonté. Comme Xu Chen pour ses modèles corporels, Marcel Bühler a utilisé des algorithmes intelligents pour créer de nouveaux visages animés à partir de la combinaison d'un modèle de visage en 3D et d'une grande collection de portraits.

Alors que les programmes informatiques précédents fournissaient déjà de bonnes animations de visages de face, le modèle de Marcel Bühler peut également représenter de manière réaliste des visages de côté, ainsi que de dessus et de dessous.

Un regard attentif peut démasquer les deepfakes

Y a-t-il un risque que la nouvelle technologie permette bientôt de faire circuler des vidéos deepfake encore plus réalistes, par exemple pour simuler le discours d'un personnage politique important ? «Les vidéos deepfake sont encore loin d'être parfaites», affirme Marcel Bühler. La plupart des programmes informatiques, n'obtiennent de bons résultats que dans un cadre particulier, souligne-t-il. Par exemple, le nouveau modèle de visage ne peut pas encore représenter de manière réaliste des détails tels que les cheveux.

«Toute personne qui regarde attentivement reconnaitra toujours des artefacts», affirme Marcel Bühler. Il pense qu'il est plus important de tenir le public informé et de le sensibiliser à l'état actuel des choses. Rendre publiques les recherches sur les techniques de rendu 3D, ainsi que leurs vulnérabilités, pourrait aider les expertes et experts en cybersécurité à détecter plus facilement les vidéos deepfake sur le web, ajoute-t-il.

Pour les applications de réalité virtuelle interactive, le travail du groupe de recherche de l'ETH Zurich représente un énorme progrès. Il est tout à fait possible que des entreprises technologiques comme Facebook et Microsoft mettent en œuvre les techniques nouvellement développées par les deux doctorants dans leurs avatars.