Die folgenden Tools wurden für die Verarbeitungsschritte nach den Annotationen entwickelt, wie das Extrahieren systemspezifischer Lexika und verschiedener n-Gramme, der Berechnung von chi-quadrat-Werten, der Generierung von Templates und vieles mehr. Die wichtigsten Tools sind unten aufgeführt und kurz erläutert.
xml_parser.pl
Dieses Skript parst die NXT-Dateien und erstellt in mehreren Schritten eine Korpusdatei.
- Extrahieren aller Informationen, die durch die *.xml-Dateien gegeben sind
- Zusammensetzen auseinandergerissener Systemäußerungen
- Einfügen von leeren Benutzerstrings, wenn der Benutzer keine Eingabe gemacht hat
- Setzen von Turn-IDs für Benutzer und System
- Zusammensetzen auseinandergerissener Benutzeräußerungen
- Extrahieren von Slots aus alternative_questions und Einfügen von self_correct Tags für Füllwörter
- ?
- Extrahieren des Inhalts von Benutzer- und Systemäußerungen durch Schlüsselwörter und Regeln
- Generierung von Templates
chi_square.prl
Skript zur Extraktion von Schlüsselwörtern aus den Transkriptionen.
a) sds2chi-all all SDS gegen Tiger
b) sds2chi-domains chi-Werte für jede Klasse beider Domänen
Folgende Dateien werden erzeugt (oder geupdated):
corpus-info | Länge der Korpora |
residue-file | Namen der jeweiligen Vergleichskorpora |
chisquare.log | Logdatei |
parsefile | Vom nxt_parser erzeugte Datei |
alle .lex und .lex.html Dateien |
da_ngrams.pl
Dieses Skript extrahiert Bigramme, Trigramme und 4-Gramme von Dialogakten (extract-das.pl) und zählt die Übergangshäufigkeiten von SDS-Prompts zu Benutzerantworten für Bigramme (get-probabilities.pl).
system-lexica.pl
Skirpt zum Extrahieren systemspezifischer Lexika aus dem Korpus.
annotate-domains.pl
Dieses Skript erzeugt eine Annotationsdatei mit allgemeinen Dialoginformationen.
- Benutzertyp (Laie/Experte)
- SDS-Information (Name, Jahr)
- Domäneninformationen (Inhalt, Ziel)