COOC -- Thesaurus-Basierte Desambiguierung von W"ortern

Beschreibung

F\"ur die Verarbeitung von Sprache ist es ein immer noch schwieriges Problem, die korrekten Lesarten von Lexeme zu bestimmen. In seligman et.al. 99 ist ein Ansatz beschrieben, der mit Hilfe eines Thesaurus Zusammenh\"ange unterschiedlicher Stufen berechnen kann. Dabei wird davon ausgegangen, da"s die Eingabenmit POS Tags annotiert sind.

Um diese Arbeiten f\"ur die am DFKI laufenden Projekten nutzen zu k\"onnen, wird im Praktikum folgende Aufgaben gel"ost:

Portierung Das Programm COOC ist nur auf japanische Daten trainiert und evaluiert. Um das System in jetzigen und zuk\"unftigen Projekten benutzen zu k"onnen, ist eine Adaption f"ur Deutsch notwendig.
Korpus In dem Verbmobil-Projekt gibt es erhebliche Mengen von POS annotierten Dialogen, die sowohl als Trainings- und Evaluationsdaten benutzt werden k\"onnen. Alternativ kann auch das NEGRA-Korpus Negra Korpus benutzt werden.
Anpassung/Reimplementation Problem dabei ist, da\ss\ kein deutsches Thesaurus vorliegt, der ann"ahernd dem japanischen Entspricht. Als attraktive Alternative soll WordNet| benutzt werden. Das japanische Thesaurus hat eine fixe 4-stufige Struktur. WordNet hat bis zu 20 Stufen.

Damit m"ussen zwei Aufgaben gel"ost werden:

Analyse des bestehenden Programms und dessen Verarbeitung des Thesaurus
Analyse der WordNet-Strukturen und Anpassung des bestehenden Programms an die WordNet-Strukturen

Es steht den Bearbeitern frei, das COOC-programm, das in CommonLisp geschrieben ist, z.B. in JAVA zu reimplementieren, falls dies die Anpassung erleichtert.

Literatur/Links

English slides
WordNet
Seligman et. al ,,Tracking Morphological and Semantic Co-occurrences in Spontaneous Dialogues''
Als Link: CoOc etc
5 papers on WordNet
Ein paar Papiere von dem ,,COLING-ACL-98 WS on Workshop on the Usage of WordNet in NLP Systems''
- Wiebe Bruce: ,,Constructing Bayesian Networks from WordNet for Word-Sense Disambiguation: Representational and Processing Issues''
- Stetina, Kurohashi, Nagao: ,,General Word Sense Disambiguation Method Based on a Full Sentential Context''
The senseval home page

COOC -- Thesaurus-Basierte Desambiguierung von W"ortern

Beschreibung

Literatur/Links

More links...