Projekt

Data4Transparency

Data Science and NLP for transparency

Nach Angaben der Weltbank und der UNO werden jedes Jahr rund 1 Milliarde US-Dollar an Bestechungsgeldern gezahlt. Durch korrupte Finanztransaktionen werden Mittel von legitimen öffentlichen Diensten abgezogen, freie Märkte verzerrt - was die wirtschaftliche Entwicklung behindern kann - und das Vertrauen in Institutionen geschwächt. Das Organized Crime and Corruption Reporting Project (OCCRP) ist eine globale Plattform für investigative Berichterstattung, die Journalisten und Medienzentren Ressourcen zur Verfügung stellt, eine kosteneffiziente Zusammenarbeit zwischen Redakteuren ermöglicht und Instrumente anbietet, um sich gegen Bedrohungen unabhängiger Medien zu schützen. Die Aufdeckung bisher unbekannter Verbindungen zwischen Unternehmen ermöglicht es Bürgern, politischen Entscheidungsträgern, Aktivisten und Strafverfolgungsbehörden, zu handeln. Mit der zunehmenden Zahl solcher Leaks und Veröffentlichungen steigt der Bedarf an wirksamen, skalierbaren und reproduzierbaren Methoden, um Anomalien und Hinweise auf Missstände in diesen Veröffentlichungen zu entdecken.

Es gibt drei Forschungs- und Entwicklungskomponenten, die wir im Rahmen dieses Projekts durchführen wollen: 1) Verarbeitung natürlicher Sprache, 2) Netzwerke und Graphen und 3) Mensch-Computer-Interaktion. 1) Derzeit werden die OCCRP-Datensätze nur auf benannte Entitäten hin verarbeitet, und zwar mit handelsüblichen Tools wie Spacy, die Standardentitätstypen wie Personen, Organisationen, Orte, Daten, URLs und Zahlen erkennen, aber auf akademischen Standarddatensätzen trainiert sind und daher bei den in diesen Datensätzen enthaltenen Dokumenttypen nur eine sehr geringe Leistung erbringen. Darüber hinaus werden wir gemeinsam mit den Nutzern der Plattform das Potenzial anderer IE-Aufgaben, wie die Kategorisierung von Dokumenten und die Extraktion von Beziehungen, untersuchen. 2) Netzwerkeinbettungen ermöglichen niedrigdimensionale latente Repräsentationen von Netzwerken, die ansonsten aus Milliarden von Links und Knoten bestehen könnten. Dies erleichtert das Clustering und die Klassifizierung von Entitäten im Netzwerk und ermöglicht eine Visualisierung der Daten zur besseren Kommunikation. Ein erster explorativer Vergleich verschiedener Netzwerkeinbettungen für die OCCRP-Datensätze wird daher zeigen, wie dieser Ansatz den Akteuren effizientere Möglichkeiten für die direkte Interaktion mit den großen Datensätzen eröffnen kann, sowie die Verwendung niedrigdimensionaler Darstellungen als Vorverarbeitungsschritt für weitere Algorithmen. 3) Es ist uns ein Anliegen, dass die im Rahmen dieses Projekts geleistete Arbeit nicht nur wissenschaftliche und forschungsbezogene Ziele erreicht, sondern auch zu einer nützlichen und brauchbaren Lösung für unsere Endnutzer (Journalisten und Anwälte) führt, die ihnen hilft, das Ziel der Enthüllung und Aufdeckung von Korruption in der breiten Gesellschaft zu erreichen. Daher wollen wir der HCI-Komponente dieses Projekts während der gesamten Projektlaufzeit besondere Aufmerksamkeit widmen - von der Scoping-Phase bis zur Bereitstellung. Dazu gehört die Beobachtung, wie die Benutzer bereits mit der OCCRP-Aleph-Plattform interagieren, und die Beurteilung, ob sich dies ändert oder beschleunigt (mit weniger redundanten Abfragen), wenn die Schnittstelle mit Netzwerkstatistiken erweitert wird.

Übersetzt mit www.DeepL.com/Translator (kostenlose Version)

Fördergeber

DFKI

Deutsches Forschungszentrum für Künstliche Intelligenz
German Research Center for Artificial Intelligence