Darauf aufbauend haben die Forscher eine datengetriebene Methode entwickelt, um solche unklaren Stellen im Code automatisiert aufzuspüren – eine Chance für bessere KI-Assistenten in der Softwareentwicklung.
Das Team um Sven Apel, Professor für Software Engineering der Universität des Saarlandes, und Mariya Toneva vom Max-Planck-Institut für Softwaresysteme untersuchte, wie Menschen und große Sprachmodelle auf verwirrenden Code reagieren. Die Merkmale solcher Code-Stellen, in der Fachsprache „Atoms of Confusion“ genannt, sind in der Informatik gut erforscht. Es handelt sich dabei um kurze, syntaktisch korrekte, aber für Menschen oft irreführende Programmiermuster, die selbst erfahrene Entwicklerinnen und Entwickler aus dem Konzept bringen können.
Um herauszufinden, ob LLMs und Menschen über dieselben Stolperfallen „nachdenken“, verwendete das Forschungsteam einen interdisziplinären Ansatz: Zum einen nutzten sie Daten aus einer früheren Studie von Apel und Kollegen, in der Probanden verwirrende und saubere Code-Varianten lasen und dabei ihre Hirnaktivität und Aufmerksamkeit durch Elektroenzephalografie (EEG) und Eye Tracking gemessen wurden. Zum anderen analysierten sie die „Verwirrung“ von Sprachmodellen und deren Vertrauen in die eigenen Vorhersagen (Modellunsicherheit) anhand sogenannter Perplexity-Werte. Perplexity ist eine etablierte Metrik zur Bewertung von Sprachmodellen. Dabei wird auf der Grundlage von Wahrscheinlichkeiten quantifiziert, inwieweit die Vorhersagen von Textsequenzen unsicher sind.
Das Ergebnis: Dort, wo Menschen an Programmcode hängen bleiben, zeigten auch die LLMs erhöhte Unsicherheit. Die EEG-Signale der Teilnehmer, insbesondere die sogenannte „Late Frontal Positivity“, die in der Sprachforschung mit unerwarteten Satzenden assoziiert ist, stieg genau dort an, wo auch das Sprachmodell einen Unsicherheitssprung zeigte. „Wir waren erstaunt, dass der Ausschlag in Hirnaktivität und der Modellunsicherheit signifikante Korrelationen aufwiesen“, sagt Informatik-Doktorand Youssef Abdelsalam, der von Mariya Toneva und Sven Apel betreut wurde und im Rahmen seines Studiums wesentlich an der Durchführung der Untersuchung beteiligt war.
Auf Grundlage dieser Ähnlichkeit entwickelten die Forscher ein datengetriebenes Verfahren, das unklare Stellen im Code automatisch erkennt und markiert. In mehr als 60 Prozent der Fälle identifizierte der Algorithmus erfolgreich verwirrende Strukturen im Test-Code, die vorab bekannt und von Hand markiert waren, und entdeckte sogar mehr als 150 neue, bislang unerkannte Muster, die ebenfalls mit erhöhter Hirnaktivität einhergingen. „Mit dieser Arbeit gehen wir einen Schritt in Richtung eines besseren Verständnisses der Gemeinsamkeiten von Mensch und Maschine“, sagt die Max-Planck-Forscherin Mariya Toneva. „Wenn wir wissen, wann und warum LLMs und Menschen gleichermaßen ins Stolpern geraten, können wir Werkzeuge entwickeln, die Programmcode verständlicher machen und die Zusammenarbeit zwischen Mensch und KI deutlich verbessern“, sagt Professor Sven Apel.
Mit ihrem Projekt schlagen die Forschenden eine Brücke zwischen Neurowissenschaften, Softwaretechnik und Künstlicher Intelligenz. Die aktuell als Pre-print veröffentlichte Studie wurde bei der „International Conference on Software Engineering (ICSE)“, einer der weltweit führenden Fachkonferenzen im Bereich der Softwareentwicklung, zur Veröffentlichung akzeptiert. Die Konferenz wird im April 2026 in Rio de Janeiro stattfinden. Die Autoren der Studie sind Youssef Abdelsalam, Norman Peitek, Anna-Maria Maurer, Mariya Toneva und Sven Apel.
Preprint:
Y. Abdelsalam, N. Peitek, A.-M. Maurer, M. Toneva, S. Apel (2025): „How do Humans and LLMs Process Confusing Code?“ arXiv:2508.18547v1 [cs.SE], 25. August 2025. https://arxiv.org/abs/2508.18547
Weitere Informationen:
Lehrstuhl für Software Engineering: https://www.se.cs.uni-saarland.de
Max-Planck-Forschungsgruppe „Bridging AI and Neuroscience“: https://mtoneva.com/index.html
Fragen beantworten:
Prof. Dr. Sven Apel
Lehrstuhl für Software Engineering
Universität des Saarlandes
Tel.: +49 681 302 57211
E-Mail: apel(at)cs.uni-saarland.de
Dr. Mariya Toneva
Leiterin der Forschungsgruppe „Bridging AI and Neuroscience“
Max-Planck-Institut für Softwaresysteme
Tel.: +49 681 9303 9801
E-Mail: mtoneva(at)mpi-sws.org
Redaktion:
Philipp Zapf-Schramm
Saarland Informatics Campus
Tel: +49 681 9325 4509
E-Mail: pzs(at)mpi-klsb.mpg.de
Hintergrund Saarland Informatics Campus
1000 Wissenschaftlerinnen und Wissenschaftler (darunter 540 Promovierende) und rund 2800 Studierende aus mehr als 80 Nationen machen den Saarland Informatics Campus (SIC) zu einem der führenden Standorte für Informatik in Deutschland und Europa. Vier weltweit angesehene Forschungsinstitute, nämlich das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Max-Planck-Institut für Informatik, das Max-Planck-Institut für Softwaresysteme, das Zentrum für Bioinformatik, sowie die Universität des Saarlandes mit drei vernetzten Fachbereichen und 24 Studiengängen decken das gesamte Themenspektrum der Informatik ab.



