COOC -- Thesaurus-Basierte Desambiguierung von W"ortern
Beschreibung
F\"ur die Verarbeitung von Sprache ist es ein immer noch schwieriges Problem,
die korrekten Lesarten von Lexeme zu bestimmen. In
seligman et.al. 99 ist ein Ansatz beschrieben, der mit Hilfe eines
Thesaurus Zusammenh\"ange unterschiedlicher Stufen berechnen kann. Dabei wird
davon ausgegangen, da"s die Eingabenmit POS Tags annotiert sind.
Um diese Arbeiten f\"ur die am DFKI laufenden Projekten nutzen zu
k\"onnen, wird im Praktikum folgende Aufgaben gel"ost:
- Portierung Das Programm COOC ist nur auf japanische
Daten trainiert und evaluiert. Um das System in jetzigen und
zuk\"unftigen Projekten benutzen zu k"onnen, ist eine Adaption
f"ur Deutsch notwendig.
- Korpus In dem Verbmobil-Projekt gibt es erhebliche Mengen von POS
annotierten Dialogen, die sowohl als Trainings- und Evaluationsdaten benutzt
werden k\"onnen. Alternativ kann auch das NEGRA-Korpus Negra Korpus benutzt werden.
- Anpassung/Reimplementation Problem dabei ist, da\ss\ kein
deutsches Thesaurus vorliegt, der ann"ahernd dem japanischen Entspricht. Als
attraktive Alternative soll WordNet| benutzt werden. Das
japanische Thesaurus hat eine fixe 4-stufige Struktur. WordNet hat bis zu 20
Stufen.
Damit m"ussen zwei Aufgaben gel"ost werden:
- Analyse des bestehenden Programms und dessen Verarbeitung des
Thesaurus
- Analyse der WordNet-Strukturen und Anpassung des bestehenden
Programms an die WordNet-Strukturen
Es steht den Bearbeitern frei, das COOC-programm, das in CommonLisp
geschrieben ist, z.B. in JAVA zu reimplementieren, falls dies die
Anpassung erleichtert.
Literatur/Links
More links...
Teilnehmer:
Associates:
Jan Alexandersson