Skip to main content Skip to main navigation

Projekt

Emonymous

Emonymous - Sprecheranonymisierung für die Privatsphäre und Erschießung von Sprachdaten

Emonymous - Sprecheranonymisierung für die Privatsphäre und Erschießung von Sprachdaten

  • Laufzeit:

Interaktive intelligente Sprachtechnologien erobern den Heimbereich. Im Projekt Emonymous verfolgen wir das Ziel, die Sprecheridentität eines Sprechers vollständig zu anonymisieren ohne emotionalen und sprachinhaltliche Informationen zu verlieren. Auch aus der Sicht des Datenschutzes ergeben sich mit dieser Erschließung von Sprachdaten enorme Anwendungspotentiale.

Das SLT trägt dabei maßgeblich Kompetenzen in den Bereichen:

  • Sprachsynthese, bspw. Voice Conversion (VC), Speech-to-Text (STT), Diffenrential Digital Signal Processing (DDSP)
  • Spracherkennung, bspw. Automatic Speech Recognition (ASR), Multi-Lingual Speech Recognition
  • Sprechererkennung, bspw. Automatic Speaker Recognition and Verification (ASV), Multi-Lingual Speaker Recognition
  • Emotionserkennung aus Sprache, Text, Video/Images, Multimodal, bspw. Transformer-basierte Modelle, akustische- , linguistische- (Sprachmodelle / Language Models), und visuelle Modelle (Facial Expression, Landmarks)
  • Crowd-basiertes KI-Unterstützung, bspw. automated online orchestrated crowd- and expert sourcing hybrid AI+Human workflows for high quality data acquisition.
  • KI im Bereich pre-trained language models, transfer-learning, cross-lingual learning, continuous learning, frugal AI

Im Fokus: Durch die immer fortschreitende KI erobern interaktive und intelligente Sprachassistenten mehr und mehr Alltag. Einer Nutzung über den Heimbereich hinaus wird diesen jedoch durch Datenschutzbedenken verwehrt. Insbesondere die Identifikation des Sprechers aufgrund der Vielzahl an erhobenen Daten verhindert einen effektiven Einsatz dieser Technologien in sensible Aufgabenfeldern (Gesundheitssektor, Lernunterstützung). Für viele Anwendungen ist es jedoch nur erforderlich zu wissen, was gesagt wurde und nicht wer es gesagt hat. Hier kann eine Anonymisierung des Sprechers eine Identifikation in der (cloud-basierten) Weiterverarbeitung verhindern. Allerdings vermittelt Sprache, aufgrund dessen wie etwas gesagt wurde, weitere Indikatoren (bspw. Emotionen, Persönlichkeit, Proficiency), die notwendig sind um adäquat auf die individuellen Bedürfnisse des Nutzers reagieren zu können und damit die Interaktion zu verbessern.

Mit dem durchgeführten Verbundprojekt wird das Ziel verfolgt, die Sprecheridentität vollständig zu anonymisieren und die emotionalen und sprachinhaltlichen Informationen weitestgehend zu erhalten. Hierfür setzen wir mit Voice Conversion oder Differential Digital Signal Processing auf aktuellste KI-Entwicklungen.

In Zusammenspiel mit einem neu entwickelten differenzierbaren Ähnlichkeitsmaß ist es möglich, Indikatoren für den Erfolg der Anonymisierung abzuleiten. Die entwickelten Techniken erlauben es vielfältige innovative Anwendungen unter Wahrung der Sprecheranonymität voranzutreiben und stärken sowohl Anwendungen der Wissenschaft als auch des Wirtschaftsstandorts Deutschland.

Leitung: Dr. Tim Polzehl Herr Dr. Tim Polzehl leitet die KI-basierten Entwicklungen im Bereich sprachbasierte Anwendungen des Fachbereichs Speech and Language Technology. Zudem leitet der den Bereich "Next Generation Crowdsourcing and Open Data" und ist aktives Mitglied der "Speech Technolgy" Gruppe des Quality and Usability Labs (QU-Labs) der Technischen Universität Berlin

Profil DFKI: https://www-live.dfki.de/web/ueber-uns/mitarbeiter/person/tipo02

Profil QU-Labs TU-Berlin: https://www.tu.berlin/index.php?id=29499/

Kontakt: tim.polzehl@dfki.de

Partner

Technische Universität Berlin, Quality and Usability Lab Otto-von-Guericke-Universität Magdeburg, Fachgebiet Mobile Dialogsysteme

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

BMBF - Bundesministerium für Bildung und Forschung

Publikationen zum Projekt

Tim Polzehl; Vera Schmitt; Nils Feldhus; Joachim Meyer; Sebastian Möller

In: Proceedings of the 18th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - HUCAPP,. International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP-2022), Pages 267-278, ISBN 978-989-758-634-7, SciTePress, 2023.

Zur Publikation

Razieh Khamsehashari; Fengying Miao; Tim Polzehl; Sebastian Möller

In: The Eighth International Conference on Advances in Signal, Image and Video Processing - SIGNAL 2023. International Conference on Advances in Signal, Image and Video Processing (SIGNAL-2023), March 13-17, Barcelona, Spain, ISBN 978-1-68558-057-5, IARIA, 2023.

Zur Publikation

Suhita Ghosh; Arnab Das; Yamini Sinha; Ingo Siegert; Tim Polzehl; Sebastian Stober

In: Proc. INTERSPEECH 2023. Conference in the Annual Series of Interspeech Events (INTERSPEECH-2023), Pages 2093-2097, ISCA-speech, 2023.

Zur Publikation