Verwendung der Matrix zur Unterstützung von Meta bei der Vorbereitung

Nur 12 Monate nach seiner Gründung, im Dezember 2004, waren bereits 1 Million Menschen auf Facebook aktiv. Im Dezember 2021 hatte es durchschnittlich 1,93 Milliarden täglich aktive Nutzer. Die EPFL arbeitet in einer einzigartigen Kooperation mit ihrer Muttergesellschaft Meta im Bereich der verteilten Deep-Learning-Forschung zusammen.
Telefon mit Social Media Apps © iStock / EPFL 2022

Bei einem Nutzerstamm dieser Grössenordnung müssen automatisierte Systeme in grossem Umfang eingesetzt werden, um das Nutzererlebnis zu verstehen, damit Genauigkeit und Erfolg gewährleistet sind. Das Labor für maschinelles Lernen und Optimierung (MLO) der EPFL unter der Leitung von Professor Martin Jaggi arbeitet aktiv mit Meta Platforms, Inc. zusammen, der Muttergesellschaft von Facebook, um diese einzigartige Herausforderung zu lösen.

Mit finanzieller Unterstützung des EcoCloud-Forschungszentrums der EPFL arbeitet das MLO mit Meta zusammen, indem es MLO-Forschenden Praktika im Unternehmen ermöglicht und Meta eine bahnbrechende Erfindung des MLO zur Verfügung stellt: PowerSGD. MLO hilft Meta dabei, die Erfahrungen von Millionen von Nutzerinnen zu analysieren und besser zu verstehen, während gleichzeitig die Privatsphäre der Nutzer respektiert wird. Dies erfordert kollaboratives Lernen, d. h. die datenschutzfreundliche Analyse von Informationen aus vielen Geräten für das Training eines neuronalen Netzes, das Verhaltensmuster sammelt und sogar vorhersagt.

«Wir müssen die Privatsphäre der Nutzenden sicherstellen, indem wir dafür sorgen, dass unsere Lernalgorithmen Wissen extrahieren können, ohne ihre Daten zu extrahieren, und das können wir durch föderiertes Lernen erreichen.»      Tao Lin, Doktorand am MLO

Eine Schlüsselstrategie besteht darin, die Untersuchung dieser Muster über «den Rand» zu verteilen und sowohl das Gerät der Nutzenden als auch andere Geräte, die sich zwischen ihnen und dem Datenzentrum befinden, als eine Art verteiltes Training zu verwenden. Dies erfordert einen schnellen Informationsfluss und eine effiziente Analyse der Daten. PowerSGD ist ein Algorithmus, der Modellaktualisierungen in Matrixform komprimiert und so eine drastische Reduzierung der für verteiltes Training erforderlichen Kommunikation ermöglicht. Bei der Anwendung auf standardmässige Deep-Learning-Benchmarks, wie Bilderkennung oder Transformatormodelle für Text, spart der Algorithmus bis zu 99 % der Kommunikation ein, während die Modellgenauigkeit erhalten bleibt.

PowerSGD wurde eingesetzt, um das Training des XLM-R-Modells um das Doppelte zu beschleunigen. XLM-R ist ein wichtiges Modell für die Verarbeitung natürlicher Sprache, das die meisten Textverstehensdienste bei Meta unterstützt. Facebook, Instagram, WhatsApp und Workplace verlassen sich alle auf XLM-R für ihre Textverstehensanforderungen. Zu den Anwendungsfällen gehören: 1) Content Integrity: Erkennung von Hassreden, Gewalt, Mobbing und Belästigung; 2) Topic Classification: Klassifizierung von Themen, um das Feed-Ranking von Produkten wie Facebook zu ermöglichen; 3) Business Integrity: Erkennung von Richtlinienverstössen bei Anzeigen in allen Produkten; 4) Shops: besseres Produktverständnis und Empfehlungen für Shops.

«Es gibt drei Aspekte des Prozesses. Der erste besteht in der Entwicklung von Algorithmen zur Gradientenkompression, um das Training zu beschleunigen und die Zeit zu verkürzen, die für die Aufbereitung dieser Informationen für die Übertragung an einen zentralen Knotenpunkt erforderlich ist. Der zweite Aspekt ist ein effizientes Training des neuronalen Netzes innerhalb eines Datenzentrums – normalerweise würde es mehrere Wochen dauern, um alle Informationen zu verarbeiten, aber wir verteilen das Training, wodurch die Berechnungen von Monaten auf Tage reduziert werden», so MLO-Doktorand Tao Lin.

Ein dritter Aspekt ist der Schutz der Privatsphäre: «Wir müssen zwischen Wissen und Daten unterscheiden. Wir müssen die Privatsphäre der Nutzenden sicherstellen, indem wir dafür sorgen, dass unsere Lernalgorithmen Wissen extrahieren können, ohne ihre Daten zu extrahieren, und wir können dies durch föderiertes Lernen erreichen», so Lin weiter.

Der PowerSGD-Algorithmus hat in den letzten Jahren immer mehr an Ansehen gewonnen. Die Entwicklerinnen und Entwickler der Deep-Learning-Software PyTorch haben ihn in ihre Software-Suite aufgenommen (PyTorch 1.10), die von Meta, OpenAI, Tesla und ähnlichen Technologieunternehmen, die auf künstliche Intelligenz setzen, verwendet wird. Die Zusammenarbeit mit Meta soll bis 2023 laufen.