PeSTo: ein neues KI-Tool zur Vorhersage von Proteininteraktionen

Forschende der EPFL haben PeSTo entwickelt, ein KI-Modell zur Vorhersage von Protein-Bindungsschnittstellen mit Proteinen, Nukleinsäuren, Lipiden, Ionen und kleinen Molekülen mit hoher Zuverlässigkeit. Der geringe Rechenaufwand des Modells ermöglicht die Verarbeitung grosser Mengen von Strukturdaten und eröffnet damit Möglichkeiten für die Entdeckung neuer Biologie.
Die geometrische Deep-Learning-Methode (PeSTo), die zur Vorhersage von Proteinbindungsschnittstellen verwendet wird. Die Aminosäuren, die an der Proteinbindungsschnittstelle beteiligt sind, sind rot hervorgehoben. Credit: Lucien Krapp (EPFL)

Proteine sind für die biologischen Funktionen der meisten lebenden Organismen unerlässlich. Sie haben sich so entwickelt, dass sie mit anderen Proteinen, Nukleinsäuren, Lipiden usw. interagieren, und alle diese Interaktionen bilden grosse, «supramolekulare» Komplexe. Das bedeutet, dass das Verständnis von Proteininteraktionen für das Verständnis vieler zellulärer Prozesse entscheidend ist.

In einem grossen Schritt nach vorne haben Wissenschaftlerinnen und Wissenschaftler der Gruppe von Matteo Dal Peraro an der EPFL ein neues Tool namens PeSTo (kurz für Protein Structure Transformer) entwickelt, das die spezifischen Regionen auf der Oberfläche eines Proteins vorhersagen kann, die mit anderen Proteinen, aber auch mit Nukleinsäuren, Lipiden, Ionen und kleinen Molekülen wechselwirken können. Diese Schnittstellen sind entscheidend für die Bildung supramolekularer Komplexe und die Modulation von Funktionen.

«...diese Methode erfasst effektiv die komplexen Wechselwirkungen innerhalb von Proteinstrukturen und ermöglicht eine genaue Prognose von Schnittstellen zur Proteinbindung.»      Lucien Krapp, Hauptentwickler von PeSTo

PeSTo basiert auf einem neuronalen Netz, das auf der Transformer-Technologie beruht. Im Kontext des maschinellen Lernens ist ein Transformator eine Art neuronales Netz, das für die Verarbeitung sequenzieller Daten, z. B. natürlicher Sprache, konzipiert ist und Mechanismen der Selbstaufmerksamkeit nutzt, um die Bedeutung verschiedener Teile der Eingabesequenz abzuwägen und Vorhersagen zu treffen. Die Technologie wurde 2017 von Google Brain eingeführt und bildet heute den Kern vieler moderner KI-Tools.

Wie funktioniert PeSTo?

«Das Modell bewertet den chemischen und physikalischen Kontext jedes Atoms, indem es alle nahegelegenen Atome untersucht», sagt Lucien Krapp, der Hauptentwickler von PeSTo, «und konzentriert sich mit Hilfe des Selbstaufmerksamkeitsmechanismus auf wichtige Atome und Wechselwirkungen innerhalb der Proteinstruktur. Das bedeutet, dass diese Methode die komplexen Wechselwirkungen innerhalb von Proteinstrukturen effektiv erfasst, um eine genaue Vorhersage von Proteinbindungsschnittstellen zu ermöglichen.»

Da die Vorhersagen von PeSTo ausschliesslich auf der Position im Raum und der Art der Atome beruhen, kann es Vorhersagen machen, ohne die Physik und Chemie der Proteinschnittstelle mit zusätzlichen externen Methoden beschreiben zu müssen. Dadurch entfällt der «Overhead», der durch die Vorberechnung von Moleküloberflächen und zusätzlichen Eigenschaften entsteht, so dass PeSTo viel schneller, robuster und allgemeiner ist als die derzeitigen Methoden.

Das bedeutet auch, dass PeSTo schnell genug laufen kann, um grosse Mengen von Proteinstrukturdaten zu verarbeiten, z. B. Ensembles aus Molekulardynamiksimulationen oder ganze Foldome. Letztendlich ermöglicht dies eine schnellere Entdeckung von Schnittstellen, die in konventionellen statischen Strukturen, die experimentell aufgelöst werden, nicht sichtbar sind.

PeSTo übertrifft andere Methoden zur Vorhersage von Proteininteraktionsschnittstellen und kann Interaktionen mit Nukleinsäuren, Lipiden, Liganden, Ionen und kleinen Molekülen mit hoher Zuverlässigkeit vorhersagen. Die geringen Rechenkosten des Modells machen es zu einem wertvollen Werkzeug für die wissenschaftliche Gemeinschaft.

PeSTo angewendet auf das menschliche Foldom

Die Forschenden liessen PeSTo auf das menschliche Foldom los, eine wachsende Datenbank mit vorhergesagten Proteinstrukturen. Sie analysierten die Wechselwirkungen, die menschliche Proteine mit anderen Molekülen haben, und erstellten detaillierte Informationen über das menschliche «Interfaceom» – die Summe aller Proteinwechselwirkungsschnittstellen im menschlichen Körper. Dazu nutzten die Forschenden die Datenbank AlphaFold des Europäischen Instituts für Bioinformatik (AF-EBI).

Die Forschenden haben PeSTo auf einem benutzerfreundlichen Webserver zur Verfügung gestellt, der kostenlos und ohne vorherige Registrierung genutzt werden kann. Der Server kann jede Proteinstruktur im PDB-Format aufnehmen. Die vorhergesagten Schnittstellen können direkt im Browser visualisiert werden, mit zusätzlichen Informationen über die Zuverlässigkeit der Vorhersage auf einer Pro-Residue-Basis.

In ihrer Veröffentlichung in Nature Communications heben die Wissenschaftler zahlreiche Vorteile von PeSTo gegenüber älteren Methoden hervor, insbesondere die Tatsache, dass es mit allen Arten von Molekülen arbeiten kann, ohne alle Details über deren Chemie und Physik kennen zu müssen. Dies macht PeSTo zu einem flexibleren, leistungsfähigeren und allgemeineren Werkzeug für die Untersuchung molekularer Systeme und ihrer Wechselwirkungen.