Deep Learning: ein Rahmen für die Bildanalyse in den Biowissenschaften

Deep-Learning-Modelle werden in der Bioimage-Analyse immer häufiger eingesetzt. Doch mangelnde Standardisierung und die Verwendung dieser Algorithmen durch Laien sind potenzielle Quellen für Verzerrungen. Wissenschaftlerinnen und Wissenschaftler der EPFL und des Europäischen Instituts für Bioinformatik (EMBL-EBI) geben in einem kürzlich in der Zeitschrift IEEE veröffentlichten Artikel praktische Tipps und Hinweise.
Laurène Donati und Virginie Uhlmann © 2022 Alain Herzog

Wissenschaftler sind ständig auf der Suche nach Bildgebungssystemen, die schneller und leistungsfähiger sind und längere Beobachtungszeiten ermöglichen. Dies gilt vor allem für die Biowissenschaften, wo interessante Objekte selten mit dem blossem Auge zu erkennen sind. Da der technologische Fortschritt es uns ermöglicht, das Leben in immer kleineren Zeit- und Raummassstäben zu studieren, die oft unter der Nanoskala liegen, wenden sich die Forschenden auch immer leistungsfähigeren Programmen der künstlichen Intelligenz zu, um diese riesigen Datensätze zu sortieren und zu analysieren. Deep-Learning-Modelle – eine Art maschineller Lernalgorithmus, der mehrschichtige Netzwerke verwendet, um Erkenntnisse aus rohen Eingaben zu gewinnen – erfreuen sich aufgrund ihrer Schnelligkeit und Präzision zunehmender Beliebtheit bei Forschenden der Biowissenschaften. Die Verwendung dieser Modelle ohne vollständiges Verständnis ihrer Architektur und ihrer Grenzen birgt jedoch das Risiko von Verzerrungen und Fehlern, was schwerwiegende Folgen haben kann. Wissenschaftlerinnen des EPFL Center for Imaging und des EMBL-EBI (Cambridge, UK) gehen in einem in der Zeitschrift IEEE veröffentlichten Artikel auf diese Herausforderungen ein. Das Team skizziert Good Practice-Beispiele für den Einsatz von Deep-Learning-Technologien in den Biowissenschaften und plädiert für eine engere interdisziplinäre Zusammenarbeit zwischen Biowissenschaftlern und Programmentwicklern.

Auf dem Weg zu einem Konsens über die Architekturen neuronaler Netze

Ein effektives Deep Learning-Modell muss in der Lage sein, Muster und Kontraste zu erkennen, die Ausrichtung von Objekten in Bildern zu erkennen und vieles mehr. Mit anderen Worten: Es muss ein Experte auf diesem Gebiet sein. Dieses Niveau erreicht es durch die Schulung von Softwareentwicklern. Das Modell verwendet zunächst unspezifische Algorithmen, um allgemeine Merkmale aus einem Datensatz zu extrahieren, und gewinnt mit jedem Durchgang – oder jeder Schicht – immer detailliertere Erkenntnisse. Dieses Konzept bedeutet, dass für die Anwendung eines Deep-Learning-Systems auf ein bestimmtes Fachgebiet oder einen bestimmten Interessenbereich, z. B. die Biowissenschaften, nur die höheren Schichten angepasst werden müssen, damit das Modell Bilder, die es noch nie gesehen hat, genau analysieren kann.

Das erste Deep-Learning-System, das in den Biowissenschaften in grossem Umfang eingesetzt wurde, erschien im Jahr 2015. Seitdem sind Modelle mit einer Vielzahl von Architekturen aufgetaucht, da die Forschenden versucht haben, gängige Probleme bei der Analyse von Biobildern zu lösen, von der Beseitigung von Rauschen und der Verbesserung der Auflösung bis hin zur Lokalisierung von Molekülen und der Erkennung von Objekten. «Es beginnt sich ein Konsens über die Architekturen neuronaler Netze abzuzeichnen», sagt Laurène Donati, die geschäftsführende Direktorin des EPFL Center for Imaging. Virginie Uhlmann, EPFL-Absolventin und Leiterin einer Forschungsgruppe am EMBL-EBI, stellt unterdessen eine Verschiebung der Prioritäten fest: «Die Eile, neue Modelle zu entwickeln, hat nachgelassen. Jetzt kommt es darauf an, dass die Forschenden in den Biowissenschaften wissen, wie sie die vorhandenen Technologien richtig nutzen können. Ein Teil dieser Verantwortung liegt bei den Entwicklern, die sich zusammenschließen müssen, um ihre Nutzer zu unterstützen.»

Bewährte Praktiken

Für Wissenschaftlerinnen ohne Informatikkenntnisse können Deep-Learning-Modelle undurchschaubar erscheinen, vor allem, weil es keinen standardisierten Rahmen gibt. Um dieses Problem zu umgehen, wurden Plattformen geschaffen, die als «Modell-Zoos» bekannt sind und Sammlungen von vortrainierten Modellen zusammen mit unterstützenden Erklärungen bereitstellen. Während einige dieser Repositories nur begrenzte Informationen liefern, bieten andere vollständig dokumentierte Beispiele für Forschungsanwendungen, so dass die Benutzernden beurteilen können, ob ein Modell für einen bestimmten Zweck angepasst werden kann. Da die wissenschaftliche Forschung jedoch von Natur aus die Erkundung neuer Grenzen beinhaltet, kann es schwierig sein zu wissen, welches Modell für einen bestimmten Datensatz am besten geeignet ist und wie man es entsprechend umfunktionieren kann. Forscher müssen auch die Grenzen des Modells und die Faktoren verstehen, die seine Leistung beeinträchtigen könnten, und wissen, wie sich diese Faktoren abmildern lassen. Und es bedarf eines gut geschulten Auges, um Verzerrungen bei der Interpretation der Ergebnisse zu vermeiden.

In ihrem Beitrag stellen die drei Autoren eine Reihe von bewährten Verfahren für Nichtfachleute vor und erläutern, wie man das richtige vorgefertigte Modell auswählt, wie man es für eine bestimmte Forschungsanwendung anpasst und wie man die Gültigkeit der Ergebnisse überprüft. Auf diese Weise hoffen sie, «Skeptiker zu beruhigen und ihnen eine Strategie an die Hand zu geben, die die Risiken beim Experimentieren mit Deep Learning minimiert, und langjährige Deep-Learning-Enthusiasten mit zusätzlichen Sicherheitsvorkehrungen auszustatten», sagt Daniel Sage, Forscher in der Biomedical Imaging Group der EPFL. Sage fordert «ein stärkeres Gemeinschaftsgefühl, bei dem die Menschen ihre Erfahrungen austauschen und eine Kultur der besten Praktiken schaffen, sowie eine engere Zusammenarbeit zwischen Programmierern und Biologen.»