Reisebericht aus New York: mit der Bachelorarbeit für das DFKI bei der 18. MLDM Konferenz

Melle Mendikowski ist studentisch-wissenschaftliche Hilfskraft im Forschungsbereich Stochastische Relationale KI (StarAI) der DFKI-Außenstelle Lübeck. Auf der 18. International Conference on Machine Learning and Data Mining (MLDM) in New York City, 16. - 21.7.2022, vertrat Melle das DFKI mit einem Vortrag über das Paper „Creating Customers That Never Existed”. Das Paper basiert auf Melles Bachelorarbeit, die mit Mattis Hartwig (DFKI & singular-it.de) als externem Betreuer Ende letzten Jahres entstand. Melle berichtet vom eigenen Weg zum DFKI und den Eindrücken der allerersten Konferenz in New York.

Melle Mendikowski beim Vortrag über Verbesserungen an der CTGAN Architektur, die genutzt wird, um künstliche E-Commerce-Tabellendaten zu erschaffen.

Was ist CTGAN?
CTGAN (Conditional Tabular Generative Adversial Network) ist eine Architektur zur Synthese von Einzeltabellendaten, die auf der GAN-Architektur (Generative Adversial Network) basiert, diese wird im Gegensatz zur CTGAN größtenteils zur Synthese von Bildern genutzt. Die CTGAN Architektur besteht aus zwei neuronalen Netzen und ist speziell an die Anforderungen der Einzeltabellendaten-Synthese angepasst. Durch ein Training mit einem realen Tabellendatensatz lassen sich mit der CTGAN neue synthetische Datensätze erschaffen, die gleiche Eigenschaften wie der reale Datensatz besitzen, dabei aber keine Kopien desselben sind.

„Wir benötigen immer mehr personenbezogene Tabellendaten: im elektronischen Handel, in der Medizin und natürlich in der Forschung. Wie können wir KI für den Schutz dieser sensiblen Daten nutzen? Ein vielversprechender Ansatz ist die Erschaffung von synthetischen Daten: künstlichen Daten, mit den gleichen Eigenschaften der Ursprungsdaten, aber ohne direkt von diesen zu kopieren. Diese synthetischen Daten werden mit neuronalen Netzen generiert und können einfacher geteilt werden, da sie keine Verbindungen zu realen Personen besitzen.“

Am Anfang meiner Bachelorarbeit, im Sommer 2021, hätte ich niemals gedacht, dass ich diese Sätze ca. ein Jahr später vor Wissenschaftler*innen aus aller Welt in den USA vortragen würde. Nach sechs Monaten intensiver Recherche, den Höhen und Tiefen des Programmierens und dank der Ermutigung durch meinen Betreuer Mattis Hartwig hatte ich Ende des Jahres meine Abschlussarbeit mit Bestnote in der Tasche, war überglücklich und erleichtert. Interessierte können übrigens auf der Webseite meiner Bachelorarbeit live synthetische Daten generieren:

https://synthetic-data-generator.singular-it-test.de

Durch die Abschlussarbeit ergab sich die Möglichkeit, als studentisch-wissenschaftliche Hilfskraft beim DFKI in Lübeck anzufangen und ich freute mich sehr darüber, weiter an dem Thema meiner Arbeit forschen zu können. Schon während meiner Bachelorarbeit kamen viele Ideen und Fragen auf, denen ich nun nachgehen konnte.

In den ersten zwei Monaten beim DFKI erarbeitete ich mein erstes Paper und bewarb mich damit bei der MLDM-Konferenz. Nach ein paar Monaten konnten wir uns dann im April über eine Zusage aus New York freuen. Mir war bis zu diesem Zeitpunkt - und nach zwei Jahren Pandemie - noch gar nicht bewusst, dass damit auch eine persönliche Teilnahme an der MLDM in New York verbunden sein würde. Nachdem die erste Freude über diese Möglichkeit nachgelassen hatte, begann der Vorbereitungsstress: Wie hält man eigentlich einen wissenschaftlichen Vortrag? Wie ist der Ablauf auf einer Konferenz? Zum ersten Ausprobieren hielt ich die Präsentation vor Teamkolleg*innen von StarAI, konnte so etwas Lampenfieber loswerden und freute mich über Verbesserungsvorschläge.

Die Zeit bis zur Konferenz verging schneller als gedacht. Mitte Juli saß ich im Flugzeug nach New York, wo die MLDM-Konferenz seit 2016 jährlich stattfindet und sich internationale Forschende zum Thema maschinelles Lernen und Mustererkennung austauschen. Die Themen der präsentierten Papers waren vielfältig und reichten von Modellen zur Vorhersage von Ernteerträgen bis zu automatischen Mustererkennungen in Football-Videos. Trotz anfänglicher Aufregung kam mein eigener Vortrag gut an und ich konnte alle Fragen beantworten. Konferenzen dieser Art beinhalten auch ein gemeinsames Dinner, das Gelegenheit zum Austausch über positive und negative Erfahrungen in der Forschungsarbeit bietet. Das und die Anekdoten und Eigenheiten der unterschiedlichen Länder fand ich sehr bereichernd.

Ich möchte mich bei allen Menschen, die mir diese tolle Erfahrung ermöglicht haben, bedanken. Ich bin sehr gespannt auf meine weitere Zeit beim DFKI. Aktuell arbeite ich an meinem zweiten Paper und mache nebenbei meinen Master in Informatik.

Wo arbeitet das DFKI mit Synthetischen Daten?
Synthetische Daten sind Datensätze, die künstlich generiert werden und nicht auf echten Messungen oder Datenerhebungen beruhen. Sie kommen z.B. dort zum Einsatz, wo nicht genügend Realdaten anfallen oder wo die Nutzung personenbezogener Daten aus Datenschutzgründen nicht möglich ist. Außer wie hier im Bereich von e-commerce oder Medizin forscht das DFKI in den Bereichen automatisiertes Fahren, industrielle Fertigung oder Agrarwirtschaft an synthetischen Daten.

Insbesondere kritische Verkehrsszenarien kommen nicht oft genug vor, um ausreichend Trainingsmaterial zu Verfügung zu haben. In seinem Kompetenzzentrum Autonomes Fahren (CC AD) arbeitet das DFKI mit synthetischen Daten für die Modellierung von Fußgängerverhalten.
https://www.dfki.de/web/news/tuev-fuers-autonome-fahren-tuev-sued-und-dfki-entwickeln-plattform-fuer-ki-module-im-autonomen-fahrz

Auch in der industriellen Fertigung können synthetische Daten eingesetzt werden, nämlich dann, wenn die Lebensdauer neuartiger Maschinenteile, die noch keine oder erst sehr wenige Daten geliefert haben, prognostiziert werden soll.
https://www.dfki.de/web/news/schneller-zum-neuen-neuronalen-netz-deutsch-franzoesisches-forschungsprojekt-engage-gestartet

Synthetische Daten werden auch herangezogen, um Realdaten zu vervollständigen. Im Projekt SIMLEARN kombinieren die Forschenden des DFKI vorhandenes, in Simulationsmodellen kodifiziertes und operatives Wissen mit synthetischen Trainingsdatensätzen. Damit sollen Auswirkungen von Dünge- und Anbauentscheidungen hinsichtlich des Pflanzenwachstums und des realisierbaren Gewinns simuliert werden.
https://www.dfki.de/web/forschung/projekte-publikationen/projekte-uebersicht/projekt/simlearn
 

Konferenzpause im Central Park in New York.

German Research Center for Artificial Intelligence
Deutsches Forschungszentrum für Künstliche Intelligenz