Leurs travaux ont été publiés dans la prestigieuse revue Nature Human Behaviour.
Le texte suivant a été traduit automatiquement de l'allemand et n'a pas été post-édité.
Le langage humain est une affaire complexe. Ou plutôt, les langages humains. Environ 7 000 langues sont parlées à travers le monde, certaines en voie de disparition et parlées seulement par quelques individus, d'autres comme le chinois, l'anglais, l'espagnol et l'hindi par des milliards de personnes. Malgré toutes leurs différences, elles ont un point commun : elles transmettent des informations en regroupant des mots individuels en phrases, c'est-à-dire en groupes de mots cohérents, qui deviennent à leur tour des phrases. Chaque unité a donc sa propre signification, jusqu'à ce qu'il en résulte une phrase compréhensible.
« Il s'agit en fait d'une structure très complexe. Étant donné que dans la nature, tout est axé sur l'efficacité et la préservation des ressources, on peut légitimement se demander pourquoi le cerveau code les informations de manière aussi compliquée dans le langage et ne le fait pas de manière numérique comme un ordinateur », explique Michael Hahn. Le professeur de linguistique informatique à l'université de la Sarre a étudié cette question avec son collègue Richard Futrell de l'université de Californie à Irvine. En effet, un codage de l'information sous forme de code binaire classique, par exemple, dans une séquence de uns et de zéros, serait beaucoup plus efficace, car il compresserait les informations dans une bien plus grande mesure que nos langues. Alors pourquoi ne pas émettre des bips, pour ainsi dire, comme l'adorable robot R2D2 de « Star Wars », mais parler comme nous parlons ? Michael Hahn et Richard Futrell ont une réponse à cette question.
« Le langage humain s'inspire également de la réalité qui nous entoure », explique Michael Hahn. « Par exemple, lorsque je parle d'un demi-chat et d'un demi-chien, cela ne correspond pas à l'expérience de la grande majorité des gens, qui n'ont très probablement jamais vu ni un demi-chien ni un demi-chat. Il est également inutile de mélanger les mots « chat » et « chien » de telle sorte que les lettres soient les mêmes, mais que le sens soit difficile à saisir », poursuit le linguiste. « Khzndatue » serait trop difficile à comprendre pour le cerveau, même si ce mot contient les lettres des mots « chat » et « chien ». En revanche, nous comprenons « chat et chien » comme une unité linguistique, car ces deux termes reflètent les deux animaux que pratiquement tous les êtres humains de la planète connaissent sous leur forme non divisée.
« En termes simples, il est donc plus facile pour notre cerveau de choisir la voie la plus complexe », résume Michael Hahn à propos des résultats de l'étude. Malgré une compression des informations qui n'est pas tout à fait idéale, l'effort de calcul que doit fournir le cerveau est beaucoup moins important, car celui-ci ne fonctionne jamais indépendamment de son environnement naturel habituel. À première vue, un codage numérique purement binaire serait peut-être préférable, car il permet de transmettre plus d'informations en moins de temps. Mais il serait détaché de l'environnement naturel. « C'est très similaire au phénomène qui fait que notre trajet habituel pour aller au travail se déroule pour ainsi dire en mode automatique, tandis qu'un trajet peut-être plus court, mais inhabituel, est malgré tout plus fatigant. Sur le trajet habituel, notre cerveau sait exactement où il doit prêter attention. C'est pourquoi il nous est beaucoup moins difficile de l'emprunter qu'un itinéraire nouveau et inhabituel qui exige beaucoup d'attention, même s'il est plus court », explique Michael Hahn en comparant le mécanisme qui s'applique également au langage. En termes mathématiques : « Le nombre de bits que le cerveau doit calculer est beaucoup plus faible lorsque nous parlons de manière habituelle. »
Le codage et le décodage numériques d'une même information généreraient une charge de calcul nettement plus importante dans le cerveau du locuteur et de l'auditeur. Notre cerveau calcule les probabilités de succession des mots et des phrases, et grâce à un entraînement constant – nous parlons notre langue maternelle quotidiennement pendant des dizaines de milliers de jours au cours de notre vie –, les chemins deviennent familiers et la charge de calcul diminue.
Michael Hahn cite un autre exemple à ce sujet : « Lorsque je dis « Les cinq voitures vertes », contrairement à « Vertes cinq les voitures », cela a très probablement un sens pour notre cerveau », explique le scientifique.
Si l'on imagine le déroulement temporel dans lequel un locuteur prononce la phrase « Les cinq voitures vertes », l'article « Les » se trouve au début. À ce moment-là, l'auditeur sait que « les » peut être l'article féminin au singulier ou l'article pluriel, quel que soit le genre. Il s'ensuit donc qu'après « les », on peut déjà exclure que le mot désigné à la fin par l'article soit un nom masculin ou neutre au singulier. On continue avec « cinq ». Selon le calcul de notre cerveau, ce nombre désigne très probablement quelque chose qui est dénombrable. Il ne s'agit donc pas d'« amour », de « soif » ou d'autres choses qui ne peuvent être dénombrées. « Vert » établit quant à lui une corrélation entre le nom (voitures) qui n'est pas encore mentionné à ce moment-là et l'adjectif (« vert »). La probabilité qu'il existe des voitures vertes est assez élevée, mais il pourrait tout aussi bien s'agir de bananes ou de grenouilles. Le mot « voitures » à la fin résout alors l'énigme pour notre cerveau. Comme dans une sorte d'entonnoir, l'ensemble des significations possibles de ce qui est dit devient de plus en plus restreint et précis vers la fin.
Dans la phrase « Les voitures vertes sont cinq », en revanche, cette chaîne logique d'opérations arithmétiques ne fonctionne pas. Notre cerveau ne sait pas quoi faire de cette phrase, car la chaîne de corrélations ne fonctionne pas.
Michael Hahn et son collègue américain Richard Futrell ont désormais pu prouver mathématiquement ces corrélations. Le fait qu'ils aient pu publier leurs recherches dans la prestigieuse revue spécialisée Nature Human Behaviour souligne l'importance de cette découverte. Ces résultats pourraient par exemple être pris en compte dans le développement futur des modèles linguistiques à grande échelle (LLM), tels que ceux utilisés par les applications d'IA générative comme ChatGPT ou Copilot de Microsoft.
Publication originale :
Futrell, R., Hahn, M. Linguistic structure from a bottleneck on sequential information processing. Nat Hum Behav (2025). https://doi.org/10.1038/s41562-025-02336-w
Informations complémentaires :
Prof. Dr Michael Hahn
E-mail : mhahn(at)lst.uni-saarland.de

