• DFKI

Die folgenden Tools wurden für die Verarbeitungsschritte nach den Annotationen entwickelt, wie das Extrahieren systemspezifischer Lexika und verschiedener n-Gramme, der Berechnung von chi-quadrat-Werten, der Generierung von Templates und vieles mehr. Die wichtigsten Tools sind unten aufgeführt und kurz erläutert.

xml_parser.pl

Dieses Skript parst die NXT-Dateien und erstellt in mehreren Schritten eine Korpusdatei.

  1. Extrahieren aller Informationen, die durch die *.xml-Dateien gegeben sind
  2. Zusammensetzen auseinandergerissener Systemäußerungen
  3. Einfügen von leeren Benutzerstrings, wenn der Benutzer keine Eingabe gemacht hat
  4. Setzen von Turn-IDs für Benutzer und System
  5. Zusammensetzen auseinandergerissener Benutzeräußerungen
  6. Extrahieren von Slots aus alternative_questions und Einfügen von self_correct Tags für Füllwörter
  7. ?
  8. Extrahieren des Inhalts von Benutzer- und Systemäußerungen durch Schlüsselwörter und Regeln
  9. Generierung von Templates
Jeder Schritt produziert eine Ausgabedatei, die als Input für den nächsten Schritt dient.

chi_square.prl

Skript zur Extraktion von Schlüsselwörtern aus den Transkriptionen.

a) sds2chi-all all SDS gegen Tiger
b) sds2chi-domains chi-Werte für jede Klasse beider Domänen

Folgende Dateien werden erzeugt (oder geupdated):

corpus-info Länge der Korpora
residue-file Namen der jeweiligen Vergleichskorpora
chisquare.log Logdatei
parsefile Vom nxt_parser erzeugte Datei
alle .lex und .lex.html Dateien

da_ngrams.pl

Dieses Skript extrahiert Bigramme, Trigramme und 4-Gramme von Dialogakten (extract-das.pl) und zählt die Übergangshäufigkeiten von SDS-Prompts zu Benutzerantworten für Bigramme (get-probabilities.pl).

system-lexica.pl

Skirpt zum Extrahieren systemspezifischer Lexika aus dem Korpus.

annotate-domains.pl

Dieses Skript erzeugt eine Annotationsdatei mit allgemeinen Dialoginformationen.

  1. Benutzertyp (Laie/Experte)
  2. SDS-Information (Name, Jahr)
  3. Domäneninformationen (Inhalt, Ziel)