EPFL-Student entwickelt neues Programm zur Sprachanalyse

Jonathan Besomi, Masterstudent an der EPFL, hat ein Programm namens Texthero entwickelt, mit dem Benutzerinnen mit wenigen Zeilen Code Darstellungen von Textdaten erzeugen können, was die Analyse natürlicher Sprachen vereinfacht.
© 2021 EPFL

Wir leben heute in einem datenreichen Zeitalter, das seine eigenen Herausforderungen mit sich bringt. Eine der grössten ist, wie man riesige Mengen an Informationen analysieren kann. Als Antwort darauf hat Jonathan Besomi, ein Masterstudent der Datenwissenschaft, Texthero entwickelt, ein Programm, das die Analyse von Textdaten vereinfacht. Es entstand im Frühjahr 2020 unter der Leitung von Kenneth Younge, Lehrstuhl für Technologie- und Innovationsstrategie am EPFL-Institut für Management von Technologie und Unternehmertum. Als Open-Source-Software konzipiert und in der Programmiersprache Python geschrieben, hat Texthero schnell Entwickler auf der ganzen Welt für sich gewonnen.

«Texthero wurde bisher über 23 000 Mal heruntergeladen und hat 2000 Sterne auf der Github-Plattform erhalten», sagt Besomi. «Es bekam eine Menge Aufmerksamkeit, sobald wir es veröffentlicht hatten – die Leute begannen sogar, es in den sozialen Medien zu teilen, vor allem auf Twitter und LinkedIn. Das zeigt, dass es eine starke Nachfrage nach einem solchen Programm in der Python/NLP [Natural Language Processing]-Community gab.»

Schnelle visuelle Darstellungen

Mit Texthero können Entwicklerinnen und Entwickler textbasierte Datensätze schnell visualisieren und verstehen. «Unser Programm nimmt einen aus unstrukturierten Daten bestehenden Text, bereinigt ihn, erzeugt eine Repräsentation davon, indem es ihn in ein digitales Format konvertiert, und visualisiert ihn schliesslich. Mit anderen Worten: Texthero gibt dem Benutzer einen Überblick über die Struktur eines völlig unbekannten Textes», erklärt Besomi.

Auf die Idee zu Texthero kam Besomi, als er zusammen mit Professor Younge an Fastlaw arbeitete, einem Programm zur Analyse von Rechtstexten. «Fastlaw ist ein 'word-embedding' Tool, das auf einem grossen Korpus juristischer Daten trainiert wurde, die vom Caselaw Access Project (CAP) der Harvard University zur Verfügung gestellt wurden – einem Projekt, das alle von US-Gerichten veröffentlichten Urteile frei zugänglich machen soll», sagt Besomi. Er und Younge präsentierten ihr Programm in der Bibliothek der Harvard Law School.

«Während der Entwicklung von Fastlaw wurde mir klar, dass es einen Bedarf an Software gibt, die Textdaten schnell vorverarbeiten, darstellen und visualisieren kann», sagt Besomi. Vor Texthero waren Fachleute, die natürliche Sprache verarbeiten wollten, gezwungen, eine Reihe von Anwendungen wie spaCy, scikit-learn, Gensim und NLTK zu verwenden. Der Prozess war sowohl zeitaufwändig als auch komplex. «Jetzt, mit Texthero, reichen ein paar Zeilen Code, um einen zu verarbeitenden Text grafisch darzustellen.»

Eine neue Version

Bis heute haben 16 Entwicklerinnen und Entwickler über Pull-Requests auf Github zu Texthero beigetragen. Sie haben Bugs behoben, neue Funktionen eingeführt und die Dokumentation verbessert. «Wir stehen kurz vor der Veröffentlichung einer neuen Version (1.1), die die Geschwindigkeit der Textverarbeitung noch weiter erhöhen wird», sagt Besomi.

Besomi will nun die Texthero-Community durch Blogbeiträge und Tutorials binden und erweitern, um die Akzeptanz seines Programms zu erhöhen. «Wenn ich über die Milliarden von Daten um uns herum nachdenke, die wir nicht verarbeiten können, ist die Textanalyse – in all ihren Formen – aus meiner Sicht die Zukunft», sagt Besomi, der derzeit ein firmeninternes Praktikum bei IBM Research Zürich absolviert und eine Doktorarbeit über Textanalyse schreibt. «Ich bin fasziniert von diesen Themen und freue mich, dass ich ein einfaches, unkompliziertes Programm entwickelt habe, das die Verarbeitung natürlicher Sprache erleichtert.»