Smarte Daten & Wissensdienste

Themenfeld: Multimedia Analysis and Data Mining (MADM)

Im Themenbereich MADM entwickeln wir maschinelle Lern- und Data-Mining-Techniken zur Analyse und Kombination von Informationen aus multimodalen Eingaben (z.B. Kombinationen aus Bild, Audio, Video, Text, Wissen). Die Schwerpunkte unseres Teams lassen sich in die überlappenden Bereiche Deep Learning, Multimodalität, Effizienz und Erklärbarkeit gliedern.

Deep Learning

Der Großteil unserer aktuellen Forschung lässt sich dem Bereich Deep Learning zuordnen, wobei wir uns vor allem für die Fusion von mehreren Modalitäten interessieren (weiter unten). Da viele Fortschritte des Deep Learning in der visuellen Domäne gemacht werden, beginnt unsere Forschung oft mit wissenschaftlichen Herausforderungen und Ansätzen der Computer Vision Domäne (z.B. Bildklassifikation, Captioning, Video Objekt Segmentierung) und konzentriert sich später auf die Übertragung der Erkenntnisse auf und Kombination mit anderen Domänen. Ein Großteil dieser Forschung umfasst auch das Verständnis und die Analyse verschiedener gängiger Architekturen und Komponenten (z.B. CNNs, RNNs), aber auch generative Ansätze, wie GANs und Variational Autoencoders (VAEs), sowie Reinforcement Learning (RL) Ansätze.

Multimodalität

Auch heute noch ist die Mehrzahl der Modelle nur auf eine Aufgabe (z.B. Segmentierung) einer Modalität (z.B. Bilder) ausgerichtet. Als eines der übergreifenden Themen unserer Forschung kann der Wunsch beschrieben werden, Erkenntnisse von einer Modalität auf eine andere zu übertragen und Informationen und Signale aus verschiedenen Modalitäten zu kombinieren. Beispiele für die von unserem Team bearbeiteten Modalitäten sind Bilder, Audio, Video, Text und Wissen. In diesem Sinne haben wir zum Beispiel erfolgreich Erkenntnisse aus dem visuellen in den auditiven Bereich übertragen (z.B. unser jüngstes ESResNet), visuell motivierte Deep-Learning-Techniken auf Finanztransaktionsdaten zur Ausreißererkennung angewandt oder Satellitenbilder mit Social-Media-Posts kombiniert, um überflutete Gebiete zu analysieren. Wir konzentrieren uns auch auf Aufgaben und Herausforderungen, die von Architekturen profitieren können, die mehrere Modalitäten gleichzeitig nutzen. Ein Beispiel für eine solche Multimodalität ist der Bereich Visual Question Answering (VQA), bei dem Systeme relevante Informationen aus einem Bild auf Basis einer natürlichsprachlichen Frage extrahieren müssen. Wir untersuchen derzeit auch die umgekehrte Richtung (Text-to-Image (T2I) basierend auf GANs und VAEs), Methoden zur Einbeziehung besserer NLP-Modelle (z.B. basierend auf (hybriden) Transformer-Architekturen), aber auch die Einbeziehung von Grapheninformationen z.B. aus Wissensbasen.

Effizienz

Die Kombination moderner Deep-Learning-Ansätze mit multimodalen Datensätzen führt zu zahlreichen Herausforderungen aufgrund der Struktur und schieren Größe der beteiligten Datensätze oder der Trainingsmethoden. Dies veranlasste uns zu frühen und kontinuierlichen Arbeiten an der Verbesserung der Effizienz von Deep Learning-Trainingsverfahren, die bereits zur Veröffentlichung mehrerer hochperformanter Open-Source-Bibliotheken wie datadings, crumpets, simplejpeg und augpy. geführt haben. Basierend auf diesen Erfahrungen ist unser Team auch stark in die Aktivitäten des DFKI zur Zentralisierung von Deep Learning orientierten Rechenkapazitäten (GPU HPC) eingebunden. Im Rahmen dieser Aktivitäten sind wir besonders daran interessiert, eine flexible und einfach zu nutzende Cluster-Compute-Umgebung zu entwickeln und bereitzustellen, die die große Bandbreite unserer Forschungsszenarien von Single-GPU bis hin zu skalierbaren Multi-GPU- und Multi-Node-Trainings unterstützt und gleichzeitig eine effiziente Wiederverwendung und gemeinsame Nutzung von Ressourcen unter den DFKI-Forschern ermöglicht.

Erklärbarkeit (XAI)

Trotz des anhaltenden Erfolges von DL-Methoden in den letzten Jahren, ist es oft eine Herausforderung zu erklären, warum bestimmte Entscheidungen von solchen Ansätzen getroffen wurden. Dies erschwert die Anwendung solcher Ansätze in vielen Bereichen. Daher konzentrieren wir uns in unserem Team auch darauf, Modelle zu erklären und zu interpretieren und etwas Licht in die Black Boxes der DL-Modelle zu bringen. Wir interessieren uns in diesem Bereich insbesondere auch für die Robustheit der Ansätze, den Schutz vor adversariellen Angriffen, sowie die Zurechenbarkeit von Entscheidungen zu bestimmten Aspekten der Trainingsdatensätze.

Topics:

Multimedia Analysis
Image Analysis & Captioning
Video Object Segmentation
Audio Classification
Fusion Strategies
Remote Sensing / Satellite Imagery
Deep Learning models (in general)
Interpretability, Explainability, XAI, Robustness
Efficiency, GPU Computing, GPU HPC
Meta-Learning, Self-supervision and Unsupervised Learning
Anomaly detection
Embeddings

Ausgewählte Projekte:

Mitarbeiter & Publikationen:

Ehemalige Mitarbeiter:

Adrian Ulges
Armin Stahl
Christian Schulze
Damian Borth
Joost van Beusekom
Markus Goldstein
Matthias Reif
Philipp Blandfort
Thomas Breuel

Links

Übersicht

Kontakt

Dr. rer. nat. Nicolas Großmann
Tel: +49 631 20575 5304
nicolas.grossmann@dfki.de

Deutsches Forschungszentrum für
Künstliche Intelligenz GmbH (DFKI)
Smarte Daten & Wissensdienste
Trippstadter Str. 122
67663 Kaiserslautern
Deutschland

Weitere Themenfelder

Angewandte Semantische Technologien

Earth and Space Applications

Generative AI - Foundation and Large Language Models

Immersives Quantifiziertes Lernen

Mustererkennung

Wissensarbeit