11/19/2025

Warum scheitert die KI am logischen Denken? Eine Emmy-Noether-Forschungsgruppe will das ändern

Portraitfoto von Michael Hahn
© UdS/Thorsten MohrComputerlinguistik-Professor Michael Hahn will große Sprachmodelle wie ChatGPT grundlegend verbessern.

KI-Assistenten werden im Alltag vielfach genutzt, sei es über Sprachmodelle wie ChatGPT oder in der Medizin, um komplexe Datenbestände sinnvoll zu nutzen. Doch die KI macht häufig noch simple Fehler, die auch durch Training nicht verschwinden. Sie kann zudem weder logisch denken noch verschachtelte Eingaben wirklich „verstehen“. Für Computerlinguistik-Professor Michael Hahn liegt der Fehler im System: Die grundlegende Architektur der Sprachmodelle muss anders aufgebaut werden.

Dafür ist es notwendig, die aktuelle Struktur noch besser theoretisch zu verstehen, um sie dann zu verändern. Das kann der Forscher nun mit 1,4 Millionen Euro aus dem Emmy-Noether-Programm der DFG angehen.

Alle großen Sprachmodelle basieren derzeit auf der so genannten Transformer-Architektur. Bei dieser hat man sich an der menschlichen Fähigkeit orientiert, auf relevante Informationen zu achten und nicht so wichtige Details zu ignorieren. Dies wird mathematisch berechnet, indem man nur den Daten Aufmerksamkeit schenkt, die für die jeweilige Fragestellung bedeutsam erscheinen. „Dabei ahmen die zugrundeliegenden neuronalen Netzwerke eine weitere menschliche Fähigkeit nach, nämlich in Assoziationen zu denken, also Ideen und Erinnerungen miteinander zu verknüpfen“, sagt Michael Hahn, Professor für Computerlinguistik der Universität des Saarlandes. Die KI sucht dafür in riesigen Datenbeständen nach Mustern und stellt einen Zusammenhang zwischen ihnen her. Durch ständiges Training lernt die Maschine, an der richtigen Stelle den passenden Datensatz zu finden, um ein noch präziseres Ergebnis zu erzielen. 

„Genau hier können jedoch gravierende Fehler entstehen, wenn die Assoziation der KI falsch war. Solche fehlerhaften Verknüpfungen können aber auch dadurch verursacht werden, dass neuronale Netzwerke bisher nur eine feste Anzahl von Schichten haben, in denen die Algorithmen berechnet werden. Dies schränkt die Ergebnisse ein“, erklärt Michael Hahn. Gemeinsam mit seinem Team konnte der Informatikforscher bereits mathematisch nachweisen, dass neuronale Netzwerke systematisch Fehler machen. Diese könne man nicht durch noch mehr Training auf großen Datenbeständen oder bessere Prompts, also genauere Anweisungen an die KI, ausmerzen.

Die aktuellen großen Sprachmodelle stoßen also an Grenzen, für die Michael Hahn vor allem drei Defizite verantwortlich macht. „Zum einen sind die Modelle schlecht darin, einen sich ändernden Zustand nachzuvollziehen. Sie machen keine Updates, wenn sich eine Situation verändert hat. Wir haben dies anhand eines simplen Beispiels getestet: Mehrere Personen reichen sich zwei verschiedene Bücher in ihrer Gruppe herum und die KI muss am Ende sagen, wer welches Buch in der Hand hält. Je mehr Umläufe es gab, desto weniger treffsicher war die KI“, erklärt der Professor. Übertragen auf die schon genutzten KI-Assistenten in der Medizin sei diese Schwäche von Sprachmodellen mehr als bedenklich. „In solchen Systemen werden verschiedene Diagnosen, verabreichte Medikamente und Untersuchungen wie etwa Bluttest miteinander verknüpft. Ordnet die KI dabei nicht den chronologischen Ablauf sowie die Ergebnisse der Tests und daraus resultierende Medikation richtig zu, so kann dies für den Patienten gefährlich werden“, nennt Hahn als Beispiel.

Als ähnlich problematisch sei das zweite Defizit aktueller „Large Language Models“ zu bewerten. „Die KI ist bisher nicht in der Lage, logisch zu denken. Dies lässt sich auch am Beispiel der Medizin veranschaulichen: Will die KI das richtige Medikament für eine bestimmtes Krankheitsbild aus einem großen Datenbestand auswählen, muss sie schlussfolgern können, welche Symptome dazu passen. Auch für eine Diagnose muss eine KI-Assistenz die Regeln kennen, nach denen ein Arzt bestimmte Krankheiten erst einmal ausschließt. Ein solches systematisches, auf logischen Regeln basiertes Vorgehen lässt sich über neuronale Netzwerke bisher nicht abbilden“, erklärt Michael Hahn.

Als noch unzuverlässiger bewertet der Computerlinguistik die Ergebnisse der KI, wenn es um den von ihm definierten dritten Problembereich geht: „Die großen Sprachmodelle scheitern bisher häufig daran, komplexe und verschachtelte Eingaben sinnvoll zu bearbeiten. Dies wird beispielsweise bei juristischen Fragestellungen sichtbar, wenn beurteilt werden muss, auf welcher Gesetzesgrundlage und in welchem zeitlichen Zusammenhang eine Person eine andere Person oder ein Unternehmen geschädigt hat. Diese oft schon für den Menschen schwer nachvollziehbaren Gedankenketten sind mit Hilfe der neuronalen Netzwerke bisher kaum fehlerfrei zu händeln“, unterstreicht Michael Hahn. 

In seinem Forschungsprojekt, das er nun im Rahmen des Emmy-Noether-Programms angehen will, wird er sich zunächst auf die theoretischen Grundlagen der Transformer-Architektur konzentrieren. Dabei soll es darum gehen, noch besser den mathematischen Hintergrund zu verstehen, wie neuronale Netzwerke zu ihren Ergebnissen kommen. Hierfür will er auch untersuchen, wie viele Schichten diese Netzwerke aufweisen müssen, damit sie „intelligenter“ agieren können. In einem zweiten Schritt will er dann an hybriden Systemen forschen oder sogar ganz neue Architekturen entwerfen, die besser vorhersagbare Fähigkeiten aufweisen und außerdem zuverlässiger und leistungsstärker funktionieren als derzeitige „Large Language Models“.

Mit dem Emmy-Noether-Programm fördert die Deutsche Forschungsgemeinschaft (DFG) Nachwuchsforscherinnen und -forscher, deren Promotion maximal vier Jahre zurückliegt und die über internationale Erfahrung verfügen sowie eine Postdoc-Phase durchlaufen haben. Der Saarbrücker Computerlinguist Michael Hahn erhält jetzt 1,4 Millionen Euro für die Gründung einer Emmy-Noether-Forschungsgruppe. Dort wird er sich gemeinsam mit fünf Doktorandinnen und Doktoranden auf das Forschungsthema „Understanding and Overcoming Architectural Limitations in Neural Language Models“ konzentrieren. Für das Jahr 2025 ist das bereits die dritte Emmy-Noether-Gruppe, die für die Saarbrücker Informatikforschung bewilligt wurde. Die beiden anderen Gruppen starteten erst kürzlich am Max-Planck-Institut für Informatik (siehe Pressemitteilung vom 29.10.25). Eine solche Häufung an einem Standort ist ungewöhnlich, im vergangenen Jahr widmeten sich bundesweit nur drei Emmy-Noether-Gruppen Themen der Informatik (siehe Gepris-Datenbank). 

Weitere Informationen:

Emmy-Noether-Programm der Deutschen Forschungsgemeinschaft

Fachrichtung Sprachwissenschaft und Sprachtechnologie der Universität des Saarlandes

Persönliche Webseite von Professor Michael Hahn: https://www.mhahn.info

Fragen beantwortet:

Prof. Dr. Michael Hahn
Lehrstuhl für Language, Computation, and Cognition
Tel. 0681 302-4343
Email: mhahn(at)lst.uni-saarland.de