Alle großen Sprachmodelle wie ChatGPT & Co. basieren derzeit auf der sogenannten Transformer-Architektur, welche die menschlichen Fähigkeiten, auf relevante Informationen zu achten und nicht so wichtige Details zu ignorieren sowie in Assoziationen zu denken, mathematisch nachahmt. In riesigen Datenmengen sucht die KI nach Mustern und stellt Zusammenhänge zwischen ihnen her.
Doch laut Michael Hahn, Computerlinguistik-Professor an der Universität des Saarlandes, lässt genau diese Architektur die Sprachmodelle an Grenzen stoßen und führt zum Teil zu gravierenden Fehlern, die sich auch durch vermehrtes Training nicht ausmerzen lassen. Der Professor sieht vor allem drei Defizite: „Zum einen sind die Modelle schlecht darin, einen sich ändernden Zustand nachzuvollziehen. Sie machen keine Updates, wenn sich eine Situation verändert hat.“ Insbesondere in der Medizin kann dies für Patient*innen gefährlich werden, wenn die schon genutzten KI-Assistenten beispielsweise Testergebnisse chronologisch nicht richtig zuordnen und auf Basis dessen eine fehlerhafte Medikation erstellen.
Das zweite Defizit von Large Language Models ist ähnlich problematisch und lässt sich ebenfalls am Beispiel der Medizin veranschaulichen: „Will die KI das richtige Medikament für ein bestimmtes Krankheitsbild aus einem großen Datenbestand auswählen, muss sie schlussfolgern können, welche Symptome dazu passen. Gleiches gilt für das Stellen einer Diagnose. Ein solches systematisches, auf logischen Regeln basiertes Vorgehen lässt sich über neuronale Netzwerke bisher allerdings nicht abbilden“, erklärt Michael Hahn.
Noch unzuverlässiger wird es, wenn es um die sinnvolle Bearbeitung komplexer und verschachtelter Eingaben geht. „Dies wird beispielsweise bei juristischen Fragestellungen sichtbar, wenn beurteilt werden muss, auf welcher Gesetzesgrundlage und in welchem zeitlichen Zusammenhang eine Person eine andere Person oder ein Unternehmen geschädigt hat. Diese oft schon für den Menschen schwer nachvollziehbaren Gedankenketten sind mit Hilfe der neuronalen Netzwerke bisher kaum fehlerfrei zu händeln“, unterstreicht Michael Hahn.
Gründe genug also, um die Transformer-Architektur zu verbessern. Um dieses Projekt zu realisieren, erhält Computerlinguist Michael Hahn nun 1,4 Millionen Euro aus dem Emmy-Noether-Programm der Deutschen Forschungsgemeinschaft (DFG). Gemeinsam mit fünf Doktorand*innen wird Hahn im Rahmen des Forschungsthemas „Understanding and Overcoming Architectural Limitations in Neural Language Models“ zunächst die theoretischen Grundlagen der Transfomer-Architektur genauer untersuchen, um zu verstehen, wie neuronale Netzwerke zu ihren Ergebnissen kommen. In einem zweiten Schritt soll es dann um die Erforschung hybrider Systeme oder gar ganz neuer Architekturen gehen, die besser vorhersagbare Fähigkeiten aufweisen und außerdem zuverlässiger und leistungsstärker funktionieren als derzeitige Large Language Models. Michael Hahns Forschungsgruppe ist 2025 bereits die dritte Emmy-Noether-Gruppe, die für die Saarbrücker Informatikforschung am Saarland Informatics Campus (SIC) bewilligt wurde. Zum Vergleich: Im vergangenen Jahr widmeten sich in ganz Deutschland nur drei Emmy-Noether-Gruppen Themen der Informatik.
Die Fachrichtung gratuliert Michael Hahn herzlich zu dieser prestigeträchtigen Auszeichnung!
Den vollständigen Artikel lesen Sie entweder im Campus-Magazin oder auf der Seite des SIC.
Die Saarbrücker Zeitung nahm Michael Hahns Auszeichnung durch die DFG ebenfalls zum Anlass für einem ausführlichen Bericht über seine Forschung.
