Mit dem KI-Tutor plaudernd eine Sprache lernen

Die neue App des ETH-Spin-offs Quazel ermöglicht es, durch Gespräche mit einer Künstlichen Intelligenz (KI) Fremdsprachen zu lernen. Der KI-Tutor passt sich den Sprachkenntnissen der Nutzenden an und korrigiert ihre Fehler.
Mit der Quazel-​​App können Lernende in 21 Sprachen mit einem KI-​Tutor sprechen und werden dabei in Echtzeit korrigiert. (Illustration: Quazel)

Das Wichtigste in Kürze

  • Mit der Quazel-App können Lernende in 21 Sprachen mit einem KI-Tutor sprechen und werden dabei in Echtzeit korrigiert.
  • Der Sprach-Bot versteht, wie gut jemand spricht und passt entsprechend Ausdruck, Wortwahl und Satzbau an.
  • Eine der grössten Herausforderungen für die drei Gründer war, die öffentlich zugänglichen Sprachmodelle zu bändigen.

Wer eine Fremdsprache lernen will, unterhält sich am besten regelmässig mit einer qualifizierten Sprachlehrerin oder einem Tandempartner. Das kann jedoch schnell teuer oder umständlich werden.

Das ETH Spin-off Quazel hat nun eine App entwickelt, die Abhilfe verspricht: Lernende können sich auf ihrem Smartphone jederzeit und überall mit einem KI-Tutor unterhalten, der nicht nur 21 Sprachen perfekt spricht, sondern auch unendlich geduldig ist.

«Wir wollen das Erlernen einer Fremdsprache so einfach und zugänglich machen, wie nur möglich», sagt Gründer und CEO Philipp Hadjimina, der an der ETH Zürich Informatik studierte. «Möglichst viele Menschen sollen in den Genuss einer persönlichen Sprachlehrerin kommen».

Offene Gespräche mit dem Chatroboter

Bei den meisten bestehenden Sprachlern-Apps stehen eher schriftliche Aufgaben im Vordergrund. Wenn es überhaupt eine Sprach-Funktion gibt, dann antworten die Apps meist nur mit vordefinierten Sätzen. Dies wirkt oft künstlich und erlaubt keine flüssigen Gespräche. Die rasante Entwicklung bei grossen Sprachmodellen wie ChatGTP macht nun erstmals offene und natürlich anmutende Gespräche mit einer KI möglich.  

Diesen technologischen Fortschritt macht sich auch die Quazel-App zu Nutze: «Vom Bestellen im Restaurant, über die Lieblingssportart bis hin zu philosophischen Themen können Lernende über fast alles mit ihrem KI-Tutor sprechen und werden dabei noch in Echtzeit korrigiert, wenn sie grammatikalische Fehler machen oder falsche Wörter verwenden», erklärt Hadjimina.

Das Gespräch beginnt meist mit einer Frage des Chatroboters, woraufhin die Lernenden per Spracheingabe antworten. Vor allem bei Anfängerinnen und Anfängern sind es meist die Fragen des Chatroboters, welche die Konversation vorantreiben. Dabei passt die KI die Komplexität ihrer Antworten ganz von allein dem Niveau der Lernenden an.

Eine Demo von Quazel (Video: ETH Zürich / Quazel)

Grosse Sprachmodelle im Hintergrund

Möglich werden all diese Funktionen durch grosse, öffentlich zugängliche Sprachmodelle, die im Hintergrund der Quazel-App laufen. Diese wurden durch eine grosse Menge an Daten aus online Quellen trainiert. Auf der Grundlage unzähliger Bücher, Artikel, Websites und Social-Media-Posts lernte der KI-Tutor die grammatikalischen Regeln von 21 Sprachen sowie typische Bedeutungszusammenhänge zwischen Wörtern und Sätzen.

Das Prinzip hinter diesen Sprachmodellen ist mit der Texterkennung auf unseren Smartphones zu vergleichen: Auf Basis des bereits Getippten, alter Nachrichten und einer grossen Datenbank von bekannten Wörtern und Sätzen sagt eine KI voraus, welche Wörter als nächstes Sinn ergeben könnten.

So auch bei Quazel: «Obwohl unser Sprachroboter die Aussage einer Nutzerin oder eines Nutzers womöglich noch nie genau so gehört hat, kann er doch aufgrund des thematischen Kontexts, vergangener Gespräche und durch sein Hintergrundwissen abschätzen, welche Antwort angemessen wäre», erklärt ETH-Informatiker und Mitgründer David Niederberger, der bei Quazel für die Technologie verantwortlich ist.

Das Modell anpassungsfähig machen

Eine der grössten Herausforderungen für die drei Gründer war die öffentlich zugänglichen Sprachmodelle zu bändigen. Denn Modelle wie GPT4 von OpenAI sind mittlerweile so gut, dass ihre Antworten für Sprachschüler und Schülerinnen zu kompliziert wären. «Wir mussten unserem KI-Tutor zum Beispiel durch Feedback beibringen, wie sich jemand auf dem Sprachniveau eines Anfängers anhört», sagt Niederberger. Kurz: Der Sprach-Bot versteht, wie gut jemand spricht und passt entsprechend Ausdruck, Wortwahl und Satzbau an.

Auch die Auswahl des passenden Sprachmodells bereitete den Gründern einige schlaflose Nächte: Ist das Modell zu komplex, erfordert es sehr viel Rechenleistung und wird dadurch für den Endnutzer zu teuer. Ist es zu einfach, entstehen keine flüssigen Gespräche. «Bei der Auswahl des Modells galt es eine Balance zwischen der Komplexität und den Kosten zu finden. Ein klassisches Ingenieursproblem, wie wir es aus dem Studium an der ETH kannten», erklärt Niederberger.

Zudem entwickelt sich der Markt für Sprachmodelle so schnell, dass fast wöchentlich neue und bessere Modelle erscheinen. Immer wieder entscheiden zu müssen, welche Neuerung für Quazel Sinn ergeben, verlangt den drei Gründern sehr viel Flexibilität und ein gutes Gespür für zukünftige Entwicklungen ab.

Von Anfang an grosse Nachfrage

Die drei Gründer haben vergangenen Herbst einen Platz im renommierten Start-up-Förderprogramm Y-Combinator gewonnen und arbeiten aktuell in einem Airbnb in San Francisco. Als Teil des Programms können sie auf ein grosses Netzwerk von erfahrenen Gründer:innen und potenziellen Investoren und Investorinnen zurückgreifen.

Wie gut die Sprachlern-App ankommt, wurde bereits in den ersten Tagen, nachdem sie auf den Markt kam, klar: «Quazel ging durch die Decke. Innerhalb von zwei Tagen nutzten 50'000 Menschen den Prototyp», erinnert sich Hadjimina. Diesen Trend wollen die Gründer nun fortsetzen.