Verbesserung der Widerstandsfähigkeit von KI für sicherere und zuverlässigere Systeme

Forschende der EPFL haben einen grundlegenden Fehler beim Training von maschinellen Lernsystemen aufgedeckt und eine neue Formulierung entwickelt, um sie gegen Angriffe zu stärken.

Michael David Mitchell 28.09.2023

Forschende der EPFL-Fakultät für Ingenieurwissenschaft und Technologie (STI) haben die Art und Weise, wie sich die meisten Systeme der künstlichen Intelligenz (KI) gegen Angriffe schützen, völlig neu überdacht und einen neuen Trainingsansatz entwickelt, der sicherstellt, dass Modelle des maschinellen Lernens, insbesondere tiefe neuronale Netze, durchgängig wie vorgesehen funktionieren, was ihre Zuverlässigkeit deutlich erhöht. Das neue Modell ersetzt einen langjährigen Trainingsansatz, der auf einem Nullsummenspiel basiert, und verwendet eine kontinuierlich adaptive Angriffsstrategie, um ein intelligenteres Trainingsszenario zu schaffen. Die Ergebnisse sind auf eine Vielzahl von Aktivitäten anwendbar, die auf künstliche Intelligenz zur Klassifizierung angewiesen sind, wie z. B. die Sicherung von Video-Streaming-Inhalten, selbstfahrende Fahrzeuge und Überwachung. Die bahnbrechende Forschungsarbeit entstand in enger Zusammenarbeit zwischen dem Laboratory for Information and Inference Systems (LIONS) der STI und Forschenden der University of Pennsylvania (UPenn).

In einer digitalen Welt, in der die Datenmenge die menschliche Kapazität für einen vollständigen Überblick übersteigt, verfügen KI-Systeme über eine beträchtliche Macht, um wichtige Entscheidungen zu treffen. Allerdings sind diese Systeme nicht immun gegen subtile, aber wirkungsvolle Angriffe. Jemand, der ein System austricksen möchte, kann winzige Änderungen an den Eingabedaten vornehmen und ein KI-Modell auf raffinierte Weise täuschen. Professor Volkan Cevher und das LIONS-Team, zu dem auch der Doktorand Fabian Latorre gehört, haben einen erfolgreichen Versuch unternommen, die Sicherheit gegen diese Angriffe zu verbessern.

Die Forschungsarbeit wurde auf der 2023 International Conference on Machine Learning's New Frontiers and Adversarial Machine Learning Workshop mit einem angesehenen Best Paper Award für die Erkennung und Korrektur eines Fehlers in einer sehr gut etablierten Trainingsmethode ausgezeichnet, um die KI-Abwehr gegen gegnerische Manipulationen zu verbessern. «Das neue Framework zeigt, dass eine der Kernideen des gegnerischen Trainings als Nullsummenspiel mit zwei Spielern fehlerhaft ist und überarbeitet werden muss, um die Robustheit nachhaltig zu verbessern», sagt Cevher.

Alle KI-Systeme sind für Angriffe anfällig

Denken Sie an Videostreaming-Plattformen wie YouTube, wo es viel zu viele Videos gibt, als dass sie von einem menschlichen Auge geprüft werden könnten. Man verlässt sich auf die KI, um Videos zu klassifizieren, indem man ihren Inhalt analysiert, um sicherzustellen, dass er bestimmten Standards entspricht. Dieser automatische Prozess wird als «Klassifizierung» bezeichnet, doch das Klassifizierungssystem ist angreifbar und kann auf raffinierte Weise unterwandert werden. Ein böswilliger Hacker, in der Spieltheorie «Gegner» genannt, könnte einem Video mit unangemessenem Inhalt Hintergrundrauschen hinzufügen. Während das Hintergrundrauschen für das menschliche Auge nicht wahrnehmbar ist, verwirrt es das KI-System genug, um die Sicherheitsmechanismen von YouTube zu umgehen. Dies könnte dazu führen, dass Kinder gewalttätigen oder sexualisierten Inhalten ausgesetzt werden, selbst wenn die elterliche Kontrolle aktiviert ist.

Das YouTube-Beispiel ist nur eines von vielen möglichen ähnlichen Angriffen und weist auf eine bekannte Schwäche von KI-Klassifizierungssystemen hin. Diese Schwäche ist besorgniserregend, da diese Systeme zunehmend in Bereichen eingesetzt werden, die sich auf unser tägliches Leben auswirken, von der Gewährleistung der Sicherheit selbstfahrender Fahrzeuge über die Verbesserung der Sicherheit an Flughäfen bis hin zur Verbesserung medizinischer Diagnosen im Gesundheitswesen. Um diese Angriffe abzuwehren, verstärken Ingenieure die Systemabwehr durch ein sogenanntes gegnerisches Training – ein Mechanismus, der mit der Impfung von Menschen gegen Viren vergleichbar ist. Traditionell wird das gegnerische Training als ein Nullsummenspiel mit zwei Spielern formuliert. Ein Verteidiger versucht, den Klassifizierungsfehler zu minimieren, während der Gegner versucht, ihn zu maximieren. Wenn einer gewinnt, verliert der andere, daher das Nullsummenspiel.

Über das Paradigma des Nullsummenspiels hinausgehen

Dieser theoretische Ansatz steht jedoch vor Herausforderungen, wenn es darum geht, das Konzept in die reale Welt zu übertragen. Um hier Abhilfe zu schaffen, schlagen die Forschenden eine Lösung vor, die das Paradigma buchstäblich verändert: eine Nicht-Nullsummenspiel-Strategie. In Zusammenarbeit mit UPenn-Forschenden aus dem Fachbereich Elektro- und Systemtechnik, darunter der EPFL-Alumnus Professor Hamed Hassani, sein Doktorand Alex Robey und ihr Mitarbeiter Professor George Pappas, entwickelte LIONS eine neue gegnerische Trainingsformulierung und einen Algorithmus, der im Gegensatz zum traditionellen Nullsummen-Ansatz verlangt, dass der Verteidiger und der Gegner unterschiedliche Ziele optimieren. Dies führt zu einer einzigartigen Formulierung, einer kontinuierlichen zweistufigen Optimierung, der sie den Namen BETA gegeben haben, was für BEst Targeted Attack steht. Technisch ausgedrückt, minimiert der Verteidiger eine Obergrenze für den Klassifizierungsfehler, während der Gegner die Wahrscheinlichkeit des Klassifizierungsfehlers maximiert, indem er ein Ziel für die Fehlerspannen verwendet.

Durch die Erstellung eines gegnerischen Modells mit einem stärkeren Gegner, der realen Situationen näher kommt, können die KI-Klassifizierungssysteme effektiver trainiert werden. Anstatt nur gegen eine direkte Bedrohung zu optimieren, verfolgen die Verteidiger eine umfassende Strategie, die auch die schlimmsten Bedrohungen einbezieht. Wie Cevher betont, «betrachten Fabian und seine Mitarbeitenden das gegnerische maschinelle Lernen nicht isoliert, sondern kontextualisieren es im Rahmen der breiteren Theorie des maschinellen Lernens, der Zuverlässigkeit und der Robustheit. Diese umfassendere Sichtweise des Klassifikationstrainings ermöglichte es ihnen, einen anfänglichen Fehler und eine Schwachstelle in der Formulierung dessen zu erkennen, was bis jetzt die lehrbuchmässige Art und Weise des Trainings von maschinellen Lernmodellen gewesen ist. Indem wir diesen Fehler korrigiert haben, haben wir verbessert, wie wir KI-Systeme robuster machen können.»

Die Anerkennung ihrer Leistungen mit dem Best Paper Award auf dem 2nd AdvML-Frontiers Workshop@ICML'23 unterstreicht die Bedeutung dieser Forschung in der wissenschaftlichen Gemeinschaft. «Die Arbeit hat zweifellos die Grenzen des Fachgebiets erweitert und hat das Potenzial, die Zukunft des adversen maschinellen Lernens zu gestalten», heisst es dort.