VOICE Awards Korpus

Die folgenden Tools wurden für die Verarbeitungsschritte nach den Annotationen entwickelt, wie das Extrahieren systemspezifischer Lexika und verschiedener n-Gramme, der Berechnung von chi-quadrat-Werten, der Generierung von Templates und vieles mehr. Die wichtigsten Tools sind unten aufgeführt und kurz erläutert.

xml_parser.pl

Dieses Skript parst die NXT-Dateien und erstellt in mehreren Schritten eine Korpusdatei.

Extrahieren aller Informationen, die durch die *.xml-Dateien gegeben sind
Zusammensetzen auseinandergerissener Systemäußerungen
Einfügen von leeren Benutzerstrings, wenn der Benutzer keine Eingabe gemacht hat
Setzen von Turn-IDs für Benutzer und System
Zusammensetzen auseinandergerissener Benutzeräußerungen
Extrahieren von Slots aus alternative_questions und Einfügen von self_correct Tags für Füllwörter
?
Extrahieren des Inhalts von Benutzer- und Systemäußerungen durch Schlüsselwörter und Regeln
Generierung von Templates

Jeder Schritt produziert eine Ausgabedatei, die als Input für den nächsten Schritt dient.

chi_square.prl

Skript zur Extraktion von Schlüsselwörtern aus den Transkriptionen.

a) sds2chi-all all SDS gegen Tiger
b) sds2chi-domains chi-Werte für jede Klasse beider Domänen

Folgende Dateien werden erzeugt (oder geupdated):

corpus-info	Länge der Korpora
residue-file	Namen der jeweiligen Vergleichskorpora
chisquare.log	Logdatei
parsefile	Vom nxt_parser erzeugte Datei
alle .lex und .lex.html Dateien

da_ngrams.pl

Dieses Skript extrahiert Bigramme, Trigramme und 4-Gramme von Dialogakten (extract-das.pl) und zählt die Übergangshäufigkeiten von SDS-Prompts zu Benutzerantworten für Bigramme (get-probabilities.pl).

system-lexica.pl

Skirpt zum Extrahieren systemspezifischer Lexika aus dem Korpus.

annotate-domains.pl

Dieses Skript erzeugt eine Annotationsdatei mit allgemeinen Dialoginformationen.

Benutzertyp (Laie/Experte)
SDS-Information (Name, Jahr)
Domäneninformationen (Inhalt, Ziel)

Das VOICE Awards Korpus

Ein Mensch-Maschine Dialogkorpus