LiftPose3D: Umwandlung von 2D-Bildern in 3D-Modelle

EPFL-Forschende haben eine auf Deep Learning basierende Methode namens LiftPose3D entwickelt, die 3D-Posen von Tieren rekonstruieren kann, indem sie nur 2D-Posen von einer Kamera verwendet. Diese Methode wird Auswirkungen auf die Neurowissenschaften und die bioinspirierte Robotik haben.

Nik Papageorgiou 20.08.2021

«Wenn man in den Neurowissenschaften Experimente durchführt, muss man präzise Messungen des Verhaltens vornehmen», sagt Professor Pavan Ramdya von der EPFL-Fakultät für Life Sciences, der die Studie leitete. Seine Gruppe hat nun ein Paper in der Zeitschrift Nature Methods zu einer neuen Software veröffentlicht, die eine der wichtigsten, aber mühsamsten Aufgaben der Neurowissenschaften vereinfachen kann: das Erfassen von 3D-Modellen von sich frei bewegenden Tieren. Mit diesem Werkzeug können sie die Gehirnmechanismen untersuchen, die Körperbewegungen steuern. Das Ziel, biologisches Verhalten zu rekonstruieren, findet breite Anwendung in der Robotik und der künstlichen Intelligenz.

«In der Vergangenheit haben wir ein tiefes neuronales Netzwerk verwendet, um diese Art von ‹Poseneinschätzung›󠅒 bei Tieren durchzuführen», sagt Ramdya und bezieht sich damit auf den Prozess, mit dem ein Computer die Positionen von Körperteilen in Kamerabildern vorhersagen kann. «Jede Kamera nimmt ein einzelnes Bild eines Tieres auf, und mehrere Bilder von verschiedenen Kameras können dann trianguliert werden, um dreidimensionale Positionen oder Posen zu berechnen», erklärt Ramdya. Diese Triangulation von Bildern erfordert jedoch mehrere synchronisierte Kameras und aufwändige Kalibrierungsprotokolle, was die Anwendung für neurowissenschaftliche Studien an Kleintieren schwierig macht.

Im Jahr 2019 stellte Ramdyas Gruppe DeepFly3D vor, eine weitere auf Deep Learning basierende Software, die mehrere Kameras verwendet, um die Bewegungen einer Fruchtfliege im 3D-Raum zu quantifizieren. Nun haben die Forschenden mit LiftPose3D ein neuronales Netzwerk entwickelt, das mehrere Kameras überflüssig macht, indem es darauf trainiert wird, 2D-Posen eines sich frei bewegenden Tieres in ein 3D-Modell zu übertragen.

«Die Herausforderungen, die wir hier meistern wollten, waren erstens die Verringerung der Anzahl der Kameras, die für die 3D-Positionsbestimmung benötigt werden», sagt Ramdya, «zweitens wollten wir das Problem der Okklusion angehen, bei dem sich ein Körperteil eines Tieres vor einem anderen bewegen kann, was die Sicht der Kamera behindert und eine vollständige Triangulation unmöglich macht.»

«Unsere Vision ist es, das Nervensystem und das Verhalten von Tieren zu erforschen, um Informationen für die Entwicklung von Robotersteuerungen zu erhalten.» Pavan Ramdya

Die Verhaltensmuster von Tieren sind im Allgemeinen sehr vorhersehbar. Wenn ein Tier, z. B. eine Maus, eine bestimmte Bewegung ausführt, ist es sehr wahrscheinlich, dass es diese beim nächsten Mal auf die gleiche oder zumindest eine ähnliche Weise wiederholt. Diese Reproduzierbarkeit ermöglichte es den Forschenden, ein neuronales Netzwerk zu trainieren, um 2D-Posen auf 3D-Positionen abzubilden, wodurch die Anzahl der benötigten Kameras reduziert und das Problem der Verdeckungen überwunden werden konnte: «Wir verwenden tiefe Netzwerke, die 2D-Posen aus jeder Kameraansicht verfolgen, und dann ein weiteres Netzwerk, das diese 2D-Positionen oder Schlüsselpunkte auf eine Bibliothek von 3D-Posen abbildet.»

«Jetzt können wir Daten aus früheren Experimenten verwenden, bei denen man 3D-Positionsschätzungen an Tieren durchgeführt hat, um unser Netzwerk zu trainieren», sagt Ramdya, «Wir haben auch einige Tricks angewandt, um diese Zuordnung über Datensätze aus verschiedenen experimentellen Systemen und verschiedenen Labors hinweg verallgemeinern zu können. In einem anderen Labor könnten die Kameras zum Beispiel in einer etwas anderen Position angebracht sein. Also haben wir unser Netzwerk so trainiert, dass es über diese möglichen Variationen hinweg verallgemeinern kann.»

Ein weiterer Vorteil von LiftPose3D ist, dass es mit Tieren arbeitet, die sich frei bewegen und nicht in einem begrenzten Raum angebunden sind, wie es bei Studien zur Posenschätzung üblich ist: «Um das Nervensystem zu verstehen, muss man auch die Biomechanik berücksichtigen, die bei echten Verhaltensweisen eine Rolle spielt. Wenn beispielsweise eine Kakerlake einen Hügel hinaufläuft, sind die physischen Interaktionen zwischen dem Tier und seiner Umgebung entscheidend, können aber nicht erfasst werden, wenn das Tier angebunden ist. Mit LiftPose3D können wir jetzt 3D-Posen von Tieren aufnehmen, die sich frei bewegen, und so diese Wechselwirkungen zwischen Körper und Umgebung erfassen.»

Da LiftPose3D keine spezielle Hardware benötigt, können Studien zur Bestimmung der Körperhaltung viel einfacher und kostengünstiger durchgeführt werden. «Unsere Vision ist es, das Nervensystem und das Verhalten von Tieren zu erforschen, um Informationen für die Entwicklung von Robotersteuerungen zu erhalten», sagt Ramdya. «Der effektivste Weg, dies zu tun, ist die Verwendung von experimentell zugänglichen Tiermodellen. Wir haben LiftPose3D speziell dafür entwickelt, diese Modelle mit weniger Kameras zu untersuchen, so dass wir dem Ziel des Reverse Engineering der Mechanismen, die zu ihrem komplexen Verhalten führen, näher kommen können.»