Im Rahmen der 20. BTW’23 wurde das Paper „WannaDB: Ad-hoc SQL Queries over Text Collections“ von Benjamin Hättasch, Jan-Micha Bodensohn, Liane Vogel, Matthias Urban und Carsten Binnig, als Best Long Paper ausgezeichnet. Das interaktive System WannaDB ermöglicht schnelles Suchen in großen, unstrukturierten Datenmengen. Die BTW ist eine der wichtigsten Konferenzen im Bereich Datenbanken und Informationssysteme im deutschsprachigen Raum.

Das System WannaDB: Einbeziehung der Benutzerinteraktion

In der Publikation wird WannaDB vorgestellt, ein neues Tool zur Durchführung von SQL-ähnlichen Abfragen auf unstrukturierten Textsammlungen. Das neuartige System WannaDB nutzt sogenannte Embeddings und eine neuartige interaktive Abfrageausführungsstrategie, um Informationen direkt aus dem Text zu extrahieren und zu organisieren. WannaDB bietet zwei verschiedene Abfragemöglichkeiten: Ad-hoc-Faktenabfragen, bei denen Fakten aus Textdokumenten gefiltert werden, um Tabellenzeilen zu konstruieren und Ad-hoc-Aggregatsabfragen, die zusätzlich Operationen zum Filtern, für Aggregationen (wie Durchschnittsberechnungen) und Gruppierungen über mehrere Dokumente beinhalten können. Das Tool kann daher direkt Tabellen mit Informations-Inhalten erzeugen, selbst wenn diese nicht explizit in den Dokumenten erwähnt werden. So wird eine schnelle und benutzerfreundliche Möglichkeit zur Durchsuchung von Texten und zum Gewinn relevanter Informationen geboten.

Die Extraktion strukturierter Daten aus umfangreichen Texten ist in dem Forschungsfeld Systemische KI für Entscheidungsunterstützung bereits ein bekanntes Problem. Eine Vielzahl von Ansätzen und industrietauglichen Systemen wurden entwickelt – allerdings erfordern sie großen Aufwand für jede neue zu verarbeitende Textsammlung und können daher nicht zur Ad-hoc-Exploration von Texten mittels strukturierter Abfragen (EN: „Queries“) eingesetzt werden.

Worin unterscheidet sich das Tool WannaDB von anderen Systemen?

Die Hauptidee von WannaDB ist es, die Benutzerinteraktion zur Unterstützung von Ad-hoc-SQL-Abfragen über Textsammlungen einzubeziehen, indem ein neuer zweiphasiger Ansatz verwendet wird. In der ersten Phase wird eine Obermenge von Informationsnuggets aus den Texten extrahiert, die mithilfe bestehender Extraktoren (z. B. mit Systemen zum automatischen Finden von Namen oder Zeit- und Ortsangaben) gewonnen werden. In der zweiten Phase werden hochdimensionale Repräsentationen dieser Informationsschnipsel genutzt, um die vom Benutzer benötigte Tabelle zu füllen. Dazu wird gezielt Feedback angefordert und dieses verallgemeinert. Dadurch ist das Tool WannaDB in der Lage, strukturierte Daten aus einem breiten Spektrum von Text-Kollektionen in hoher Qualität zu filtern.

Kontakt:

Dr. Benjamin Hättasch

Researcher, DFKI

Benjamin.Haettasch@dfki.de
Tel.: +49 6151 96270 2900

Pressekontakt:

Referentin Communications & Media, DFKI

Schnelle Suche in unstrukturierten Daten – Best Long Paper für DFKI-Forschende bei der BTW’23

Das System WannaDB: Einbeziehung der Benutzerinteraktion

Worin unterscheidet sich das Tool WannaDB von anderen Systemen?

Dr. Benjamin Hättasch