Sprachtechnologie und Multilingualität

E&E: Effiziente und erklärbare NLP-Modelle

Moderne NLP-Modelle und LLMs haben trotz ihrer hohen Leistungsfähigkeit spezifische Schwächen: Erstens sind sie Black Boxes: Parameter proprietärer Modelle sind überhaupt nicht zugänglich; und selbst nicht-proprietäre Modelle sind weitgehend undurchsichtig in dem Sinne, dass es unklar ist, wo genau spezifisches Wissen in potenziell Milliarden von Parametern kodiert ist. Zweitens besteht die Tendenz, die Größe der LLMs und der Trainingsdaten immer weiter zu erhöhen, um die Leistung zu verbessern, was vor allem bei Domänen oder Sprachen mit weniger Ressourcen problematisch ist.

Die E&E-Gruppe des Forschungsbereichs Sprachtechnologie und Multilingualität arbeitet an transparenten und effizienten NLP-Modellen. Unser Ziel ist es, die Parameter und das Verhalten von LLMs sowohl für Endbenutzer als auch für Forscher erklärbar und verständlich zu machen. Wir versuchen, LLMs im Hinblick auf den Datenverbrauch zu verbessern, z. B. für Bereiche oder Sprachen, in denen Daten knapp sind, indem wir strukturierte Daten, neue Lerntechniken oder andere Modalitäten verwenden; und im Hinblick auf die Modellgröße, z. B. für Umgebungen, in denen keine leistungsstarke Hardware verfügbar ist.

Wir sind an Twinning-Projekten beteiligt, bei denen wir einen Wissenstransfer sowohl zu Forschungsthemen als auch zum Projektmanagement an neu gegründete Forschungseinrichtungen in ganz Europa leisten. Wir sind an europäischen Procurement-Projekten beteiligt, die sich auf Sprachressourcen konzentrieren, wie z. B. die European Language Resource Coordination und der Language Data Space.

Auswahl aktueller Projekte

GenSeC – Generative KI im Sicherheitskontext
GenSeC untersucht, wie generative Grundlagenmodelle in sicherheitsrelevanten Betriebskontexten bewertet werden können, in denen Standardannahmen über klare Aufgaben, stabile Grundwahrheiten und harmlose Eingaben nicht gelten. Stattdessen sind solche Umgebungen oft durch unvollständige, mehrsprachige, zeitkritische und potenziell manipulierte Informationen gekennzeichnet. GenSeC basiert auf der Prämisse, dass Bewertungsmethoden diese Bedingungen ausdrücklich widerspiegeln müssen, um aussagekräftig zu sein.

soofi - Sovereign Open Source Foundation Models

Wir entwickeln ein größeres KI-Sprachmodell, das der Wirtschaft und Gesellschaft als Open-Source zur Verfügung gestellt wird. Auf Basis eines Large-Language Models (LLM) wird über spezielle Verfahren auch ein sogenanntes Reasoning-Modell erstellt, um die Qualität des Gesamtsystems zu erhöhen und den Ressourcenverbrauch zu optimieren. Daneben sollen über KI-Agententechnologien erste Anwendungsfälle umgesetzt werden.

lorAI - Low Resource Artificial Intelligence

Das Hauptziel des lorAI-Projekts ist es, das Kempelen Institute of Intelligent Technologies (KInIT) zu einer führenden F&I-Einrichtung im Bereich der ressourcenarmen künstlichen Intelligenz (LRAI) in der Slowakei und in Europa auszubauen.

TRAILS - Vertrauenswürdige und integrative Maschinen

Laufzeit: 01.08.2024 - 31.07.2027
TRAILS hat drei Forschungsschwerpunkte: (i) Einbeziehung unterrepräsentierter Sprachen und Kulturen durch mehrsprachiges und kultursensibles NLP, (ii) Robustheit und Fairness in Bezug auf Long-Tail-Phänomene und -Klassen sowie "vertrauenswürdige Inhalte" und (iii) robuste und effiziente NLP-Modelle, die das Training und den Einsatz von Modellen für (i) und (ii) ermöglichen. Wir gehen auch teilweise auf die wirtschaftliche Ungleichheit ein, indem wir effizientere Modelle anstreben (Ziel (iii)), was sich direkt in einem geringeren Ressourcen-/Kosten-Fußabdruck niederschlägt.

Ausgewählte neuere Veröffentlichungen

From Weights to Activations: Is Steering the Next Frontier of Adaptation?
Simon Ostermann, Daniil Gurgurov, Tanja Baeumel, Michael A. Hedderich, Sebastian Lapuschkin, Wojciech Samek, Vera Schmitt
Accepted to the 64th Annual Meeting of the Association for Computational Linguistics (Main)
CLaS-Bench: A Cross-Lingual Alignment and Steering Benchmark
Daniil Gurgurov, Yusser Al Ghussin, Tanja Baeumel, Cheng-Ting Chou, Patrick Schramowski, Marius Mosbach, Josef van Genabith, Simon Ostermann
Accepted to Findings of the 64th Annual Meeting of the Association for Computational Linguistics
Language Arithmetics: Towards Systematic Language Neuron Identification and Manipulation
Daniil Gurgurov, Katharina Trinley, Yusser Al Ghussin, Tanja Baeumel, Josef van Genabith, Simon Ostermann
Accepted at the International Joint Conference on Natural Language Processing \& Asia-Pacific Chapter of the Association for Computational Linguistics, 2025 (Main)
Modular Arithmetic: Language Models Solve Math Digit by Digit
Tanja Baeumel, Daniil Gurgurov, Yusser al Ghussin, Josef van Genabith, Simon Ostermann
Accepted at the International Joint Conference on Natural Language Processing \& Asia-Pacific Chapter of the Association for Computational Linguistics, 2025 (Findings)
The Lookahead Limitation: Why Multi-Operand Addition is Hard for LLMs
Tanja Baeumel, Josef van Genabith, Simon Ostermann
Accepted at the 6th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP
A Rigorous Evaluation of LLM Data Generation Strategies for Low-Resource Languages
Tatiana Anikina, Jan Cegin, Jakub Simko, Simon Ostermann
Accepted for EMNLP 2025 (Main Conference)
Task Prompt Vectors: Effective Initialization through Multi-Task Soft-Prompt Transfer
Robert Belanec, Simon Ostermann, Ivan Srba, Maria Bielikova
Accepted at European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD).
Soft Language Prompts for Language Transfer
Ivan Vykopal, Simon Ostermann, Marián Šimko
In: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies. (Volume 1: Long Papers), pages 10294–10313. 2025.

Links

E&E Mitglieder

Teamleitung:
Dr. Simon Ostermann
simon.ostermann@dfki.de

Gruppenmitglieder:
Yusser al Ghussin
Tatiana Anikina
Tanja Bäumel
Daniil Gurgurov
Cennet Oguz
Stefania Racioppa

Masteranden und Hilfswissenschaftler:
Khondoker Ittehadul Islam
Hyun Gu Kang
Eva Gavaller
Kaviya Ravichandran
Amelie Seyfried
Arushi Singhal