Forschung

Die Fachrichtung Sprachwissenschaft und Sprachtechnologie ist eine der führenden Forschungseinrichtungen in Europa. Das aktuelle Spitzenprojekt ist der Sonderforschungsbereich Information Density and Linguistic Encoding (SFB 1102), der von der Deutschen Forschungsgemeinschaft (DFG) gefördert wird.

Seit 1992 sind unsere Fachrichtung bzw. ihre Vorgänger (“Übersetzen und Dolmetschen” und “Computerlinguistik und Phonetik”) ununterbrochen an großen Verbundprojekten beteiligt

GRK Neuroexplizite Modelle (2023-2028)
SFB 1102 Information Density & Linguistic Encoding (2014 - 2026)
Cluster of Excellence on Multimodal Computing and Interaction (2007-2018)
International SFB 715 Sprachtechnologie & kognitive Systeme (2001-2010)
SFB 378 Ressourcenadaptive kognitive Prozesse (1996 - 2007)
GRK Kognitionswissenschaft (1992 - 2000)

Aktuell sind unsere Forschungsgruppen an einer Vielzahl von europäischen und national geförderten Projekten beteiligt. Alle laufenden und abgeschlossenen Forschungsprojekte sind auf den Webseiten der Lehrstühle zu finden. Die Forschungsgruppen interessieren sich für eine Reihe von spannenden Forschungsthemen.

Zeichen sind die Atome der Information. Wenn sie zu Abfolgen zusammengesetzt werden, dann resultiert aus ihrer Auswahl Vorhersagbarkeit. Die Auswahl an möglichen Zeichen ist das Fundament der Informationscodierung. Natürliche Sprachen sind kommunikative Systeme, die auf diesen Prinzipien basieren. Sie verwenden Laute, Grapheme, oder Gebärden um Bedeutung zu vermitteln. In der sprachwissenschaftlichen Forschung des Lehrstuhls wird untersucht, wie der Raum der möglichen menschlichen Sprachen beschaffen ist. Bewegen sich Sprachen innerhalb dieses Raums rein zufällig oder getrieben von nachweisbaren Sprachwandel-Phänomenen? Welche informations-theoretischen Eckdaten spannen den Raum der möglichen Sprachen auf? Haben menschliche Sprachen und Schriften einen universellen statistischen Fingerabdruck, der sie von anderen Zeichensystemen unterscheidet?

Wie kommt es, dass Menschen Sprache in Echtzeit verstehen, also dass sie ein sprachliches Signal - Wort für Wort - schnell in eine mentale Repräsentation dessen, was kommuniziert wird, umwandeln können? Um dieser Frage nachzugehen, verwenden wir fortschrittliche, hochauflösende experimentelle Methoden wie die Blickbewegungsregistrierung (Eye-Tracking) und Messungen der Hirnaktivität im EEG-Signal, die kleinste Variationen in der kognitiven Leistung zu jedem Wort zeigen und sogar verschiedene Stadien des Sprachverständnisprozesses erfassen können. In unseren Experimenten untersuchen wir zum Beispiel die Wechselwirkung von Bedeutung und Wahrnehmung: Wie Menschen aufgrund des Gehörten, ihrer Kenntnis über die Welt und der Informationen in der visuellen Umgebung vorausahnen, was als Nächstes kommt.

Diese Experimentergebnisse werden dann zusammengeführt, um die Entwicklung von computationalen Theorien des Verständnises der menschlichen Sprache zu entwickeln. Wir entwickeln Modelle künstlicher neuronaler Netze, die nicht nur inkrementell die Bedeutung von Äußerungen bestimmen, sondern diese Bedeutung auch dazu nutzen, die sich entwickelnden Wahrnehmungen des eingehenden Signals zu lenken, ähnlich wie Menschen es tun. Darüber hinaus zielen unsere Berechnungsmodelle darauf ab, die Organisation des Netzwerks des Sprachverstehens im Gehirn widerzuspiegeln, wie sie durch neurophysiologische Belege nachzuvollziehen ist.

Ziel unserer Forschungsgruppe ist es, Forschung zu natürlichen Sprachverarbeitungssystemen, Psycholinguistik und kognitiver Modellierung zusammenzuführen. Aktuelle Forschungsschwerpunkte sind das Verstehen von Phänomenen auf Diskursebene (wie Kohärenzrelationen, pragmatische Inferenzen und die Integration zwischen Wissen und dem sprachlichen Signal) und die Generierung kohärenter Texte, die auf eine Vielzahl unterschiedlicher Nutzer zugeschnitten werden können.

Unsere Gruppe erforscht die Informationsverarbeitung bei Menschen und Maschinen, mit einem Schwerpunkt auf Sprache. Konkret untersuchen wir:

Grundlagen des maschinellen Lernens: Wir analysieren die Fähigkeiten, Grenzen und Funktionsweisen der maschinellen Lernmodelle, die den großen Sprachmodellen (LLMs) und anderen KI-Systemen zugrunde liegen.
Kognition und Neurowissenschaften: Wir erforschen, wie das menschliche Gehirn Informationen in den Bereichen Sprache, Sehen und anderen Domänen verarbeitet.

Maschinelles Lernen ist bereits seit langem das Paradigma hinter vielen Systemen, die natürlicher Sprache verarbeiten. In den letzten Jahren haben sich tiefe neuronale Netze zum dominierenden Paradigma entwickelt. Ein tiefgreifendes Verständnis der Funktionsweise neuronaler Netze ist unerlässlich, um das Thema voranzubringen. Darüber hinaus gibt es viele spezifische Fragen wie

ressourcenarme Sprachverarbeitung: Können neuronale Netze auf winzigen Mengen von Trainingsdaten trainiert werden?
Neuronale Netze & Datensicherheit: Wie speichern neuronale Netze Informationen? Wie kann dies genutzt oder verhindert werden?
Sentiment Analyse und Hassspracherkennung
Computer Vision & Sprache: Wie können Informationen aus der realen Welt die Sprachverarbeitungssysteme verbessern?
Dialogsysteme: multimodaler Dialog, Interaktionsanalyse, Dialogmanagement

An der Schnittstelle zwischen Geistes- und Naturwissenschaft beschäftigt sich die Forschungsgruppe mit allen Bereichen gesprochen-sprachlicher Kommunikation im sozialen Gefüge. Die wissenschaftlichen Schwerpunkte der Gruppe liegen im Bereich Laborphonologie, Lautwandel, Erst- und Zweitspracherwerb, regionale Variation und Prosodie. Insbesondere mithilfe signal- und experimentalphonetischer Methoden, die sowohl auf kontrollierte Labordaten als auch auf große Sprachkorpora angewendet werden, untersuchen wir Laute und ihre Kombinationen von der sprecherseitigen Produktion (Artikulatorische Phonetik) über die Transmission des resultierenden akustischen Signals (Akustische Phonetik) hin zur hörerseitigen Sprachwahrnehmung und kognitiven Verarbeitung. Dabei stehen nicht nur die einzelnen Sprachlaute der Welt und deren sprachsystemrelevante Bedeutung (Phonologie) im Fokus, sondern auch lautübergreifende Sprechmelodien und Sprachrhythmus sowie die synchrone Variation (z.B. koartikulatorisch, sprecheridiosynkratisch, generationenübergreifend) und diachrone Entwicklung von Sprachlauten. Diese Dynamik modellieren wir u.a. mithilfe rechnerbasierter Simulationen.

Speech Science at Saarland University!

Unsere Forschungsgruppe interessiert sich für eine Reihe von Themen der Computerlinguistik, die von syntaktischem und semantischem Parsing über die Generierung natürlicher Sprache bis hin zu Dialogsystemen reichen. Die Gruppe hat sowohl einen schnellen und akkuraten semantischen Parser entwickelt, der über verschiedene Typen von semantischen Repräsentationen arbeitet, als auch Parsing und Generierungsalgorithmen, die über viele verschiedene Grammatikformalismen generalisieren. Die Gruppe hat Erfahrung mit der groß angelegten Evaluierung interaktiver NLG-Systeme und wartet das DialogOS-System für die zügige Entwicklung gesprochener Dialogsysteme. Auf methodologischer Ebene geht es u.a. um die Frage, wie die Arbeit zwischen symbolischen und neuronalen Methoden am besten aufgeteilt werden kann, um genaue, robuste und effiziente Systeme zu entwickeln, die dennoch sprachliche Prinzipien respektieren.

Computational Linguistics at Saarland University!

Sprache variiert gemäß verschiedener Faktoren, wie soziale Gruppe, Geschlecht/Gender, Diskursziel, Medium oder Zeit. So könnte uns z.B. interessieren, wie die Menschen im 19. Jahrhundert im Vergleich zur heutigen Zeit Einstellungen und Meinungen zum Ausdruck brachten; oder die Art und Weise, wie sich in der Spätmoderne ein Kanon an wissenschaftlicher Terminologie ausbildete; oder was distinktive Merkmale im Sprachgebrauch von Männern und Frauen im privaten vs. öffentlichen Umfeld sind. Aus der Sicht der Sprachtheorie werfen Erkenntnisse über Sprachgebrauch ein Licht auf soziale Normen und Identitäten, soweit Unterschiede im Sprachgebrauch diese widerspiegeln, aber auch auf die grundlegenden Prinzipien der Kommunikation. Wir untersuchen synchrone und diachrone sprachliche Variation auf der Grundlage repräsentativer Korpora mit Hilfe von computerlinguistischen Methoden, von n-Gramm-Modellen über Topic-Modelle bis hin zu Word Embeddings, und passen fortlaufend neue computationelle Methoden an unsere Analysebedürfnisse an. Dazu gehört auch die Visualisierung von Sprachmodellen wie z.B. diachrone Word Embeddings oder Surprisal im Text.

Das Studium der menschlichen Übersetzung beinhaltet die Analyse von Übersetzung als Produkt und Prozess. Wir fokussieren Übersetzung als Produkt mit besonderer Berücksichtigung von Variation in der Translation auf der Grundlage von parallelen und multilingual vergleichbaren Corpora. Relevante Dimensionen von Variation sind Translationsmodus (Übersetzen vs. Dolmetschen), Sprachenpaar, Übersetzungsrichtung und Expertise (Lerner vs. Experte). Die Analyse hebt auf die spezifischen sprachlichen Eigenschaften von Übersetzungen ab ("translationese") und impliziert Methoden der Komparation. Wir entwickeln neuartige Methoden der Komparation basierend auf statistischen und neuronalen Sprachmodellen kombiniert mit informationstheoretischen Maßen zur Exploration und Bewertung von Unterschieden und Gemeinsamkeiten entlang der relevanten Dimensionen von Übersetzung. Die Resultate unserer Forschung finden in der Übersetzungswissenschaft sowie in der maschinellen Übersetzung und verwandten Technologien Anwendung.

Der Vergleich von Sprachen ist von zentraler Bedeutung, um sie verstehen zu können. Wie man fundierte Vergleiche anstellt, ist jedoch eine andere Frage. Wir arbeiten an der Schnittmenge von linguistischer Typologie, Korpuslinguistik und Computerlinguistik und nutzen dabei modernste Methodologien, um Themen wie Wortstellung, Negation und Nominalklassifikation zu beleuchten. Zwei Hauptschwerpunkte sind die korpusbasierte Typologie und die Anwendung vergleichender phylogenetischen Methoden für die Typologie. Dies hat uns dazu veranlasst, ein paralleles Korpus (CIEP, Corpus of Indo-European Prose) aufzubauen und informationstheoretische Maße wie Entropie und Surprisal zur Beschreibung der sprachübergreifenden Variabilität zu verwenden. Der Schwerpunkt der Gruppe beschränkt sich nicht nur auf indo-europäische Sprachen; wir arbeiten auch an weltweiten Proben, Austronesisch und Bantu.

Maschinelle Übersetzung ist der automatisierte Prozess, bei dem Eingaben in einer Sprache in eine andere Sprache konvertiert werden. Unsere Forschungsschwerpunkte sind

maschinelle Übersetzung von Text und Gebärdensprache
Übersetzung von Dokumenten und Dialogen
mehrsprachige Embeddings und Übersetzungen
ressourcenarme und ressourcenreiche Szenarien
multimodale Post-Editing-Schnittstellen
automatische Erkennung von Translationese (d.h. charakteristische linguistische Aspekte von Übersetzungen)

A central theme of my research is the integration of phonetic knowledge in speech technology. I have worked extensively on text-to-speech synthesis, a wonderful framework for implementing and testing computational models of linguistic and phonetic processes - until the advent of end-to-end systems, that is. Another recurring topic in my research is the analysis and modeling of speech prosody. My recent work has focused on experimental methods and computational simulations to study aspects of speech production, perception, and acquisition.

Forschung

Cookie Einstellungen