Emonymous

Projekt

Emonymous - Sprecheranonymisierung für die Privatsphäre und Erschießung von Sprachdaten

Laufzeit:
01.08.2021 - 31.07.2023

Forschungsthemen
Sprache & Textverstehen

Anwendungsfelder
Gesundheit & Medizin Smart Home & Assisted Living Sonstige

Interaktive intelligente Sprachtechnologien erobern den Heimbereich. Im Projekt Emonymous verfolgen wir das Ziel, die Sprecheridentität eines Sprechers vollständig zu anonymisieren ohne emotionalen und sprachinhaltliche Informationen zu verlieren. Auch aus der Sicht des Datenschutzes ergeben sich mit dieser Erschließung von Sprachdaten enorme Anwendungspotentiale.

Das SLT trägt dabei maßgeblich Kompetenzen in den Bereichen:

Sprachsynthese, bspw. Voice Conversion (VC), Speech-to-Text (STT), Diffenrential Digital Signal Processing (DDSP)
Spracherkennung, bspw. Automatic Speech Recognition (ASR), Multi-Lingual Speech Recognition
Sprechererkennung, bspw. Automatic Speaker Recognition and Verification (ASV), Multi-Lingual Speaker Recognition
Emotionserkennung aus Sprache, Text, Video/Images, Multimodal, bspw. Transformer-basierte Modelle, akustische- , linguistische- (Sprachmodelle / Language Models), und visuelle Modelle (Facial Expression, Landmarks)
Crowd-basiertes KI-Unterstützung, bspw. automated online orchestrated crowd- and expert sourcing hybrid AI+Human workflows for high quality data acquisition.
KI im Bereich pre-trained language models, transfer-learning, cross-lingual learning, continuous learning, frugal AI

Im Fokus: Durch die immer fortschreitende KI erobern interaktive und intelligente Sprachassistenten mehr und mehr Alltag. Einer Nutzung über den Heimbereich hinaus wird diesen jedoch durch Datenschutzbedenken verwehrt. Insbesondere die Identifikation des Sprechers aufgrund der Vielzahl an erhobenen Daten verhindert einen effektiven Einsatz dieser Technologien in sensible Aufgabenfeldern (Gesundheitssektor, Lernunterstützung). Für viele Anwendungen ist es jedoch nur erforderlich zu wissen, was gesagt wurde und nicht wer es gesagt hat. Hier kann eine Anonymisierung des Sprechers eine Identifikation in der (cloud-basierten) Weiterverarbeitung verhindern. Allerdings vermittelt Sprache, aufgrund dessen wie etwas gesagt wurde, weitere Indikatoren (bspw. Emotionen, Persönlichkeit, Proficiency), die notwendig sind um adäquat auf die individuellen Bedürfnisse des Nutzers reagieren zu können und damit die Interaktion zu verbessern.

Mit dem durchgeführten Verbundprojekt wird das Ziel verfolgt, die Sprecheridentität vollständig zu anonymisieren und die emotionalen und sprachinhaltlichen Informationen weitestgehend zu erhalten. Hierfür setzen wir mit Voice Conversion oder Differential Digital Signal Processing auf aktuellste KI-Entwicklungen.

In Zusammenspiel mit einem neu entwickelten differenzierbaren Ähnlichkeitsmaß ist es möglich, Indikatoren für den Erfolg der Anonymisierung abzuleiten. Die entwickelten Techniken erlauben es vielfältige innovative Anwendungen unter Wahrung der Sprecheranonymität voranzutreiben und stärken sowohl Anwendungen der Wissenschaft als auch des Wirtschaftsstandorts Deutschland.

Leitung: Dr. Tim Polzehl Herr Dr. Tim Polzehl leitet die KI-basierten Entwicklungen im Bereich sprachbasierte Anwendungen des Fachbereichs Speech and Language Technology. Zudem leitet der den Bereich "Next Generation Crowdsourcing and Open Data" und ist aktives Mitglied der "Speech Technolgy" Gruppe des Quality and Usability Labs (QU-Labs) der Technischen Universität Berlin

Profil DFKI: https://www-live.dfki.de/web/ueber-uns/mitarbeiter/person/tipo02

Profil QU-Labs TU-Berlin: https://www.tu.berlin/index.php?id=29499/

Kontakt: tim.polzehl@dfki.de

Partner

Technische Universität Berlin, Quality and Usability Lab Otto-von-Guericke-Universität Magdeburg, Fachgebiet Mobile Dialogsysteme

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

Kontakt

Dr.-Ing. Tim Polzehl

Tim.Polzehl@dfki.de

Keyfacts

Beteiligte Forschungsbereiche
Speech and Language Technology
Leitung
Dr.-Ing. Tim Polzehl

Publikationen zum Projekt

Tim Polzehl; Vera Schmitt; Nils Feldhus; Joachim Meyer; Sebastian Möller

In: Proceedings of the 18th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - HUCAPP,. International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP-2022), Pages 267-278, ISBN 978-989-758-634-7, SciTePress, 2023.

Razieh Khamsehashari; Fengying Miao; Tim Polzehl; Sebastian Möller

In: The Eighth International Conference on Advances in Signal, Image and Video Processing - SIGNAL 2023. International Conference on Advances in Signal, Image and Video Processing (SIGNAL-2023), March 13-17, Barcelona, Spain, ISBN 978-1-68558-057-5, IARIA, 2023.

Suhita Ghosh; Arnab Das; Yamini Sinha; Ingo Siegert; Tim Polzehl; Sebastian Stober

In: Proc. INTERSPEECH 2023. Conference in the Annual Series of Interspeech Events (INTERSPEECH-2023), Pages 2093-2097, ISCA-speech, 2023.

Alle Publikationen

Emonymous - Sprecheranonymisierung für die Privatsphäre und Erschießung von Sprachdaten

Partner

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

Dr.-Ing. Tim Polzehl

Keyfacts

Fighting Disinformation: Overview of Recent AI-Based Collaborative Human-Computer Interaction for Intelligent Decision Support Systems

RCT-Net: TDNN based Speaker Verification with 2D Res2Nets on Frame Level Feature Extractor

Emo-StarGAN: A Semi-Supervised Any-to-Many Non-Parallel Emotion-Preserving Voice Conversion