Sie haben eine Software entwickelt, mit der Schwächen in hochkomplexen Machine-Learning-Algorithmen aufgespürt und dadurch behoben werden können.
Mithilfe von Algorithmen des Maschinellen Lernens können Computer erstaunliche Leistungen vollbringen, auch in Domänen, die man bisher nur dem Menschen zugeschrieben hat – wie zum Beispiel der Sprache und Bildenden Kunst. Die Rechenverfahren basieren auf sogenannten künstlichen neuronalen Netzen. „Dabei handelt es sich um Netzwerke mathematischer Funktionen, die eine Eingabe anhand bestimmter, anpassbarer Parameter gewichten und daraus einen Output generieren“, erklärt Informatiker Michael Hedderich, der an der Universität des Saarlandes und der Cornell University in den USA forscht. Diese Funktionen, Neuronen genannt, werden hintereinandergeschaltet und mithilfe von Daten trainiert, sodass die Computer beispielsweise in der Lage sind, auf Millionen von Fotos die Katzen herauszufiltern oder täuschend echt wirkende Dialoge mit Menschen zu führen.
„Einer der modernsten und aktuell viel zitierten Textsynthese-Algorithmen der Welt, GPT-3 von OpenAI, verarbeitet Eingaben anhand von 175 Milliarden Parametern, bevor ein Ergebnis ausgegeben wird. Für einen Menschen ist es fast unmöglich, dies nachzuvollziehen und zu verstehen, wo Fehler passieren“, sagt Jonas Fischer, der derzeit Postdoktorand an der Harvard University ist. Bisheriger Stand der Technik war es, die Ausgaben eines Machine-Learning-Algorithmus auf Fehler zu analysieren und diese Fehler einzeln aufzulisten. Dann war es Aufgabe von Experten, in den Datensätzen, die problemlos Tausende von Einträgen enthalten können, Muster zu finden. „In unserer neuen Software ‚PyPremise‘ nutzen wir Techniken des Data Mining, um diese Fehlerdatensätze automatisiert nach bestimmten Merkmalskombinationen zu durchsuchen und diese am Ende gebündelt als verständliche ‚Fehlerkategorien‘ auszugeben. Anstatt also jeden Fehler einzeln aufzuzählen, ist unsere Software in der Lage, Fehler auf einer abstrakteren Ebene zusammenzufassen und Aussagen zu treffen wie: ‚Dein ML-Algorithmus hat Probleme mit Formulierungen, welche die Frage ‚Wie viel‘ beinhalten. Das ist ablesbar an den fehlerhaften Ausgaben in den Fällen X, Y und Z‘“, erläutert Michael Hedderich.
Getestet haben die Saarbrücker Informatiker ihre Software sowohl an synthetischen als auch an echten, in der Praxis eingesetzten Datensätzen. Dabei konnten sie zeigen, dass ihr Verfahren auf sehr große Datensätze mit vielen verschiedenen Eigenschaften der einzelnen Datenpunkte skaliert und verlässliche Ergebnisse liefert. „Die damit gewonnenen Informationen über die Schwachpunkte eines Machine-Learning-Algorithmus können die Betreiber dann verwenden, um beispielsweise ihre Trainingsdaten zu überarbeiten und so Fehler im System zu beheben“, erläutert Jonas Fischer. Das von den beiden Informatikern entwickelte Software-Werkzeug bezieht sich zunächst nur auf Algorithmen im Bereich der Sprachverarbeitung. Ihr Ziel ist aber grundsätzlich, das Tool so zu erweitern, dass es auch auf andere Domänen angewendet werden kann.
Michael Hedderich ist Informatiker und arbeitet an der Cornell University sowie in der Forschungsgruppe „Spoken Language Systems“ von Computerlinguistik-Professor Dietrich Klakow an der Universität des Saarlandes. Jonas Fischer promovierte bis letzten Sommer an der Saar-Universität und forschte am Max-Planck-Institut für Informatik, wo er von Professor Jilles Vreeken vom CISPA Helmholtz-Zentrum für Informationssicherheit betreut wurde. Inzwischen ist er Postdoktorand an der Harvard University. Die wissenschaftlichen Grundlagen der Software stellten die Informatiker erstmalig im Juli 2022 auf der „International Conference on Machine Learning (ICML)“ vor, einer der weltweit größten und renommiertesten Fachkonferenzen in diesem Themenfeld. Dort wird nur etwa ein Fünftel der eingereichten wissenschaftlichen Beiträge akzeptiert.
Link auf die frei verfügbare Software PyPremise:
https://github.com/uds-lsv/PyPremise
Originalpublikation vom Juli 2022:
„Label-Descriptive Patterns and Their Application to Characterizing Classification Errors“; Michael A. Hedderich, Jonas Fischer, Dietrich Klakow, Jilles Vreeken; Proceedings of the 39th International Conference on Machine Learning, PMLR 162:8691-8707, 2022. proceedings.mlr.press/v162/hedderich22a.html
Fragen beanworten:
Dr. Michael Hedderich
Universität des Saarlandes
Email: mail(at)michael-hedderich.de
Tel.: +16073272574
Dr. Jonas Fischer
Harvard University
Email: jfischer(at)hsph.harvard.edu
Hintergrund Saarland Informatics Campus:
900 Wissenschaftlerinnen und Wissenschaftler (darunter 400 Promovierende) und rund 2500 Studierende aus mehr als 80 Nationen machen den Saarland Informatics Campus (SIC) zu einem der führenden Standorte für Informatik in Deutschland und Europa. Vier weltweit angesehene Forschungsinstitute, nämlich das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Max-Planck-Institut für Informatik, das Max-Planck-Institut für Softwaresysteme, das Zentrum für Bioinformatik, sowie die Universität des Saarlandes mit drei vernetzten Fachbereichen und 24 Studiengänge decken das gesamte Themenspektrum der Informatik ab.
Redaktion:
Philipp Zapf-Schramm
Saarland Informatics Campus
Telefon: +49 681 302-70741
E-Mail: pzapf(at)cs.uni-saarland.de