Deependance

Projekt

Deep Dependency-Oriented Analysis with Non-Discrete Constraints

Laufzeit:
01.01.2012 - 31.12.2014

Ziel dieses Projektes ist es, die bestehenden Methoden für die generische tiefe linguistische Analyse zu verbessern, insbesondere die für viele Sprachtechnologie-Anwendungen benötigte syntaktische und semantische Analyse. Wir werden ein Modell für eine Dependenzgrammatik entwickeln, das die Darstellung erfolgreicher, datengesteuerter Dependenzanalyse-Schemata durch zusätzliche, linguistische und kognitive Elemente erweitert, wie ein getyptes Merkmalssystem, explizite „weiche“ Constraints, die Verwendung sowohl semantischer als auch syntaktischer Dependenzen sowie Methoden für inkrementell produzierte Teilergebnisse.

Wir werden das Wissen, das in der bestehenden deutschen HPSG-Grammatik des Labs und in der frei verfügbaren English Resource Grammar (ERG) der Universität Stanford integriert ist, in die geplante, voll lexikalisierte Dependenz¬grammatik importieren. Dies ist durch die konsequente und konsistente Verwendung einer mehrfach¬vererbenden Typ-Hierarchie als alleinige Grundlage für das gesamte kodierte linguistische Wissen möglich. Durch die Neudefinition aller lexikalischen Kategorien werden die bestehenden Lexika automatisch in das neue Format konvertiert. Die bestehenden HPSG-Grammatiken für Deutsch und Englisch werden auch als Vergleichsgrundlage dienen.

Die Abdeckung der Grammatiken wird durch Lernen von nativen oder aus geeigneten Baum-banken konvertierten Dependenzbanken erweitert. Das Lexikon wird durch eine daten-gesteuerte Vorhersage der lexikalischen Kategorien erweitert.

Die Analyse wird inkrementell und lokal sein (innerhalb eines Fensters von 3-5 Wörtern). Die lokale Entscheidungsfindung wird auf den aus der Dependenzbank erlernten Präferenzen beruhen. Es werden mehrere alternative Analysemodelle implementiert und getestet, welche im Sinne von übergangsbasierten Ansätzen der Dependenzanalyse beeinflusst werden.

Die Grammatikentwicklung wird zwischen einer eher strengen und eng reglementierten Kern-grammatik, die als Ausgangspunkt für viele Anwendungen eingesetzt werden kann, und robusten, anwendungsspezifischen Erweiterungen dieser Kerngrammatik unterscheiden.

Der neue Ansatz wird in zwei Anwendungen getestet: (i) diagnostische Grammatik¬prüfung für Übungen und Prüfungen in Computergestütztem Sprachenlernen (CALL) und (ii) Informationsextraktion aus komplexen Relationen, einschließlich Ereignissen und Meinungen.

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

Keyfacts

Beteiligte Forschungsbereiche
Speech and Language Technology,
Sprachtechnologie und Multilingualität
Leitung
Prof. Dr. Hans Uszkoreit

Publikationen zum Projekt

Sebastian Krause; Leonhard Hennig; Andrea Moro; Dirk Weißenborn; Feiyu Xu; Hans Uszkoreit; Roberto Navigli

In: Journal of Web Semantics: Science, Services and Agents on the World Wide Web, Vol. Special Issue on Knowledge Graphs, Elsevier, 2016.

Hong Li; Sebastian Krause; Feiyu Xu; Andrea Moro; Hans Uszkoreit; Roberto Navigli

In: ICAART 2015 - Proceedings of the 7th International Conference on Agents and Artificial Intelligence. International Conference on Agents and Artificial Intelligence (ICAART-15), 7th, January 10-12, Lisbon, Portugal, SciTePress, 2015.

Dirk Weißenborn; Leonhard Hennig; Feiyu Xu; Hans Uszkoreit

In: 53nd Annual Meeting of the Association for Computational Linguistics, July. Annual Meeting of the Association for Computational Linguistics (ACL-15), July 27-30, Beijing, China, ACL, 2015.

Alle Publikationen

Deep Dependency-Oriented Analysis with Non-Discrete Constraints

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

Keyfacts

Sar-graphs: A Language Resource Connecting Linguistic Knowledge with Semantic Relations from Knowledge Graphs

Improvement of n-ary Relation Extraction by Adding Lexical Semantics to Distant-Supervision Rule Learning

Multi-objective Optimization for the Joint Disambiguation of Nouns and Named Entities