Grands modèles de langage et humains: des réactions similaires face au code de programmation

Person sitzt am Schreibtisch vor mehreren Bildschirmen — Sven Apel, Informatik-Professor der Universität des Saarlandes

Une équipe composée de chercheurs de l'Université de la Sarre et de l'Institut Max-Planck de recherche en informatique a fait un constat étonnant en démontrant que les humains et les grands modèles de langage (LLM) réagissent de manière similaire face à un code de programmation complexe ou trompeur. L'activité cérébrale des sujets testés a été comparée au degré d'incertitude des modèles de langage dans leurs prédictions.

Forte de ce constat, l'équipe a développé une méthode permettant de détecter automatiquement les passages du code manquant de clarté. Une méthode prometteuse pour optimiser le recours à l'IA dans le cadre du développement de logiciels.

Le texte suivant a été traduit automatiquement de l'allemand et n'a pas été post-édité

L'équipe dirigée par Sven Apel, professeur d'ingénierie logicielle à l'Université de la Sarre, et Mariya Toneva, de l'Institut Max-Planck de recherche en informatique, a étudié la manière dont les humains et les grands modèles linguistiques réagissent à un code déroutant. Les caractéristiques de ces passages de code, appelés « atomes de confusion » dans le jargon technique, ont fait l'objet de nombreuses recherches en informatique. Il s'agit de modèles de programmation courts, syntaxiquement corrects, mais souvent trompeurs pour les humains, qui peuvent dérouter même les développeurs expérimentés.

Afin de déterminer si les LLM et les humains « réfléchissent » aux mêmes pièges, l'équipe de recherche a adopté une approche interdisciplinaire : d'une part, elle a utilisé les données d'une étude antérieure menée par Apel et ses collègues, dans laquelle des sujets ont lu des variantes de code déroutantes et claires, tandis que leur activité cérébrale et leur attention étaient mesurées par électroencéphalographie (EEG) et suivi oculaire. D'autre part, elle a analysé la « confusion » des modèles linguistiques et leur confiance dans leurs propres prédictions (incertitude du modèle) à l'aide de valeurs dites de perplexité d' . La perplexité est une mesure établie pour évaluer les modèles linguistiques. Elle quantifie, sur la base de probabilités, le degré d'incertitude des prédictions de séquences de texte.

Résultat : là où les humains butaient sur le code du programme, les LLM montraient également une incertitude accrue. Les signaux EEG des participants, en particulier la « positivité frontale tardive », associée en linguistique à des fins de phrases inattendues, augmentaient précisément là où le modèle linguistique montrait un saut d'incertitude. « Nous avons été surpris de constater que les fluctuations de l'activité cérébrale et l'incertitude du modèle présentaient des corrélations significatives », explique Youssef Abdelsalam, doctorant en informatique, supervisé par Mariya Toneva et Sven Apel, qui a joué un rôle essentiel dans la réalisation de cette étude dans le cadre de ses études.

Sur la base de cette similitude, les chercheurs ont développé un procédé basé sur les données qui détecte et marque automatiquement les passages peu clairs dans le code. Dans plus de 60 % des cas, l'algorithme a réussi à identifier des structures déroutantes dans le code test, qui étaient connues à l'avance et marquées à la main, et a même découvert plus de 150 nouveaux modèles jusqu'alors inconnus, qui étaient également associés à une activité cérébrale accrue. « Grâce à ces travaux, nous faisons un pas vers une meilleure compréhension des points communs entre l'homme et la machine », déclare Mariya Toneva, chercheuse à l'Institut Max Planck. « Si nous savons quand et pourquoi les LLM et les humains trébuchent de la même manière, nous pouvons développer des outils qui rendent le code de programmation plus compréhensible et améliorent considérablement la collaboration entre l'homme et l'IA », explique le professeur Sven Apel.

Avec leur projet, les chercheurs jettent un pont entre les neurosciences, l'ingénierie logicielle et l'intelligence artificielle. L'étude, actuellement publiée sous forme de prépublication, a été acceptée pour publication lors de la « International Conference on Software Engineering (ICSE) », l'une des principales conférences mondiales dans le domaine du développement logiciel. La conférence se tiendra à Rio de Janeiro en avril 2026. Les auteurs de l'étude sont Youssef Abdelsalam, Norman Peitek, Anna-Maria Maurer, Mariya Toneva et Sven Apel.

Prépublication :

Y. Abdelsalam, N. Peitek, A.-M. Maurer, M. Toneva, S. Apel (2025) : « How do Humans and LLMs Process Confusing Code? » arXiv:2508.18547v1 [cs.SE], 25 août 2025. https://arxiv.org/abs/2508.18547

Informations complémentaires :

Chaire d'ingénierie logicielle : https://www.se.cs.uni-saarland.de

Groupe de recherche Max Planck « Bridging AI and Neuroscience » :

https://mtoneva.com/index.html

Vous trouverez des photos de presse à télécharger et à utiliser gratuitement dans le cadre du présent communiqué de presse au bas de la page suivante.

Réponses aux questions :

Prof. Dr Sven Apel
Chaire d'ingénierie logicielle
Université de la Sarre
Tél. : +49 681 302 57211
E-mail : apel(at)cs.uni-saarland.de

Dr Mariya Toneva
Directrice du groupe de recherche « Bridging AI and Neuroscience »
Institut Max-Planck de recherche en informatique
Tél. : +49 681 9303 9801
E-mail : mtoneva(at)mpi-sws.org

Rédaction :

Philipp Zapf-Schramm
Campus informatique de la Sarre
Tél. : +49 681 9325 4509
E-mail : pzs(at)mpi-klsb.mpg.de

Contexte Campus informatique de la Sarre

Avec 1 000 scientifiques (dont 540 doctorants) et environ 2 800 étudiants issus de plus de 80 pays, le Campus informatique de la Sarre (SIC) est l'un des sites leaders en informatique en Allemagne et en Europe. Quatre instituts de recherche de renommée mondiale, à savoir le Centre de recherche allemand pour l’intelligence artificielle (DFKI), l'Institut Max Planck d'informatique, l'Institut Max-Planck de recherche en informatique, le Centre de bio-informatique, ainsi que l'Université de la Sarre avec trois filières en réseau et 24 programmes d'études couvrent l'ensemble des thèmes liés à l'informatique.

Grands modèles de langage et humains: des réactions similaires face au code de programmation

Cookie Einstellungen