Automatische Erfassung von Sense-Tagged Korpora

Der Engpass beim Wissenserwerb ist vielleicht das Haupthindernis bei der Lösung des Problems der Wortsinn-Begriffsklärung (WSD). Unüberwachte Lernmethoden basieren auf Wissen über Wortsinne, das in Wörterbüchern und lexikalischen Datenbanken kaum formuliert ist. Beaufsichtigte Lernmethoden hängen stark von der Existenz manuell kommentierter Beispiele für jeden Wortsinn ab, eine Voraussetzung, die bisher möglich ist[update] nur für eine Handvoll Wörter zu Testzwecken getroffen werden, wie es in den Senseval-Übungen gemacht wird.

Bestehende Methoden[edit]

Daher besteht einer der vielversprechendsten Trends in der WSD-Forschung darin, den größten jemals zugänglichen Korpus, das World Wide Web, zur automatischen Erfassung lexikalischer Informationen zu verwenden.[1] WSD wurde traditionell als eine Zwischentechnologie zur Sprachentwicklung verstanden, die Anwendungen wie das Informationsabruf (IR) verbessern könnte. In diesem Fall ist jedoch auch das Gegenteil der Fall: Websuchmaschinen implementieren einfache und robuste IR-Techniken, die erfolgreich beim Mining des Webs nach Informationen verwendet werden können, die in WSD verwendet werden sollen. Der direkteste Weg, das Web (und andere Korpora) zu verwenden, um die WSD-Leistung zu verbessern, ist die automatische Erfassung von Sense-Tagged-Korpora, der grundlegenden Ressource, um überwachte WSD-Algorithmen zu füttern. Obwohl dies in der WSD-Literatur alles andere als alltäglich ist, wurden bereits eine Reihe verschiedener und effektiver Strategien vorgeschlagen, um dieses Ziel zu erreichen. Einige dieser Strategien sind:

Zusammenfassung[edit]

Optimistische Ergebnisse[edit]

Die automatische Extraktion von Beispielen, um überwachte Lernalgorithmen zu trainieren, war bei weitem der am besten erforschte Ansatz, um das Web nach der Begriffsklärung des Wortsinns zu durchsuchen. Einige Ergebnisse sind sicherlich ermutigend:

  • In einigen Experimenten entspricht die Qualität der Webdaten für WSD der von mit Menschen markierten Beispielen. Dies ist der Fall bei den monosem Verwandten plus Bootstrapping mit der Semcor-Samentechnik[2] und die Beispiele aus den ODP-Webverzeichnissen.[3] Im ersten Fall sind jedoch Beispiel-Seeds in Semcor-Größe erforderlich (und nur für Englisch verfügbar), und es wurde nur mit einer sehr begrenzten Anzahl von Nomen getestet; im zweiten Fall ist die Abdeckung ziemlich begrenzt, und es ist noch nicht klar, ob sie angebaut werden kann, ohne die Qualität der abgerufenen Beispiele zu beeinträchtigen.
  • Es wurde gezeigt[4] dass eine ausschließlich mit Webdaten trainierte Mainstream-Technik des überwachten Lernens bessere Ergebnisse erzielen kann als alle unüberwachten WSD-Systeme, die an Senseval-2 teilgenommen haben.
  • Web-Beispiele trugen maßgeblich zum besten englischen Senseval-2 All-Words-System bei.[5]

Schwierigkeiten[edit]

Es gibt jedoch mehrere offene Forschungsfragen im Zusammenhang mit der Verwendung von Webbeispielen in WSD:

  • Eine hohe Präzision in den abgerufenen Beispielen (dh korrekte Sinnzuweisungen für die Beispiele) führt nicht unbedingt zu guten überwachten WSD-Ergebnissen (dh die Beispiele sind möglicherweise für das Training nicht nützlich).[6]
  • Die umfassendste Auswertung von Webbeispielen für betreute WSD[7] weist darauf hin, dass sich das Lernen mit Webdaten gegenüber unbeaufsichtigten Techniken verbessert, aber die Ergebnisse sind dennoch weit von denen entfernt, die mit handgetaggten Daten erzielt wurden, und übertreffen nicht einmal die häufigste Basis.
  • Ergebnisse sind nicht immer reproduzierbar; gleiche oder ähnliche Techniken können in verschiedenen Experimenten zu unterschiedlichen Ergebnissen führen. Vergleichen Sie zum Beispiel Mihalcea (2002[8]) mit Agirre und Martínez (2004[9]) oder Agirre und Martínez (2000[10]) mit Mihalcea und Moldovan (1999[11]). Ergebnisse mit Webdaten scheinen sehr empfindlich auf kleine Unterschiede im Lernalgorithmus zu reagieren, wann das Korpus extrahiert wurde (Suchmaschinen ändern sich ständig) und auf kleine heuristische Probleme (zB Unterschiede in Filtern, um einen Teil der abgerufenen Beispiele zu verwerfen).
  • Die Ergebnisse hängen stark von Verzerrungen (dh von der relativen Häufigkeit der Beispiele pro Wortsinn) ab.[12] Es ist unklar, ob dies einfach ein Problem von Webdaten oder ein intrinsisches Problem von überwachten Lerntechniken ist oder nur ein Problem der Bewertung von WSD-Systemen (tatsächlich kann das Testen mit eher kleinen Senseval-Daten Sense-Verteilungen im Vergleich zu erhaltenen Sense-Verteilungen überbetonen.) aus dem gesamten Web als Korpus).
  • In jedem Fall weisen Webdaten einen intrinsischen Bias auf, da Abfragen an Suchmaschinen den Kontext der abgerufenen Beispiele direkt einschränken. Es gibt Ansätze, die dieses Problem lindern, z. B. die Verwendung mehrerer verschiedener Seeds/Queries pro Sinn[13] oder das Zuweisen von Sinnen zu Webverzeichnissen und dann das Durchsuchen von Verzeichnissen nach Beispielen;[14] aber dieses Problem ist noch lange nicht gelöst.
  • Sobald ein Web-Korpus von Beispielen aufgebaut ist, ist nicht ganz klar, ob seine Verbreitung aus rechtlicher Sicht sicher ist.

Zukunft[edit]

Neben der automatischen Übernahme von Beispielen aus dem Web gibt es noch einige andere WSD-Experimente, die vom Web profitiert haben:

  • Das Web als soziales Netzwerk wird erfolgreich zur kooperativen Annotation eines Korpus eingesetzt (OMWE, Open Mind Word Expert Projekt),[15] die bereits in drei Senseval-3-Aufgaben (Englisch, Rumänisch und Mehrsprachig) verwendet wurde.
  • Das Web wurde verwendet, um die Sinne von WordNet mit Domäneninformationen zu bereichern: Themensignaturen[16] und Webverzeichnisse,[17] die wiederum erfolgreich für WSD eingesetzt wurden.
  • Einige Forschungen profitierten auch von den semantischen Informationen, die die Wikipedia auf ihren Begriffsklärungsseiten pflegt.[18][19]

Alles klar,[according to whom?] jedoch, dass die meisten Forschungsmöglichkeiten noch weitgehend unerforscht sind. Zum Beispiel ist wenig darüber bekannt, wie aus dem Web extrahierte lexikalische Informationen in wissensbasierten WSD-Systemen verwendet werden; und es ist auch schwer, Systeme zu finden, die webbasierte parallele Korpora für WSD verwenden, obwohl es bereits effiziente Algorithmen gibt, die parallele Korpora in WSD verwenden.

Verweise[edit]

  1. ^ Kilgarriff, A.; G. Grefenstette. 2003. Einführung in das Sonderheft im Web als Korpus. Computerlinguistik 29(3)
  2. ^ Mihalcea, Rada. 2002. Bootstrapping von großen, mit Sinn versehenen Korpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spanien.
  3. ^ Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatische Zuordnung von Webverzeichnissen zu Wortsinnen. Computerlinguistik, 29(3): 485–502.
  4. ^ Agirre, Eneko & David Martínez. 2004. Unüberwachte WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Voreingenommenheit. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​Spanien, 25–33.
  5. ^ Mihalcea, Rada. 2002a. Wortsinn-Begriffsklärung mit Musterlernen und automatischer Merkmalsauswahl. Natural Language Engineering, 8(4): 348–358.
  6. ^ Agirre, Eneko & David Martínez. 2000. Erforschung der automatischen Begriffsklärung mit Entscheidungslisten und dem Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxemburg, 11–19.
  7. ^ Agirre, Eneko & David Martínez. 2004. Unüberwachte WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Voreingenommenheit. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​Spanien, 25–33.
  8. ^ Mihalcea, Rada. 2002b. Bootstrapping großer Korpora mit Sense-Tags. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spanien.
  9. ^ Agirre, Eneko & David Martínez. 2004. Unüberwachte WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Voreingenommenheit. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​Spanien, 25–33.
  10. ^ Agirre, Eneko & David Martínez. 2000. Erforschung der automatischen Begriffsklärung mit Entscheidungslisten und dem Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxemburg, 11–19.
  11. ^ Mihalcea, Rada & Dan Moldovan. 1999. Ein automatisches Verfahren zum Erzeugen von Sense-Tagged Corpora. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, USA, 461–466.
  12. ^ Agirre, Eneko & David Martínez. 2004. Unsupervised WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, ​​Spanien, 25–33.
  13. ^ Mihalcea, Rada. 2002b. Bootstrapping großer Korpora mit Sense-Tags. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spanien.
  14. ^ Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatische Zuordnung von Webverzeichnissen zu Wortsinnen. Computerlinguistik, 29(3): 485–502.
  15. ^ Chklovski, Tim & Rada Mihalcea. 2002. Aufbau eines Sense-Tagged Korpus mit Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Philadelphia, USA, 116–122.
  16. ^ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Anreicherung sehr großer Ontologien mit dem WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Deutschland.
  17. ^ Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatische Zuordnung von Webverzeichnissen zu Wortsinnen. Computerlinguistik, 29(3): 485–502.
  18. ^ Denis Turdakov, Pavel Velikhov. Semantische Verwandtschaftsmetrik für Wikipedia-Konzepte basierend auf der Linkanalyse und ihrer Anwendung auf die Wortsinn-Begriffsklärung // SYRCoDIS.— 2008.
  19. ^ урдаков енис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» .- 2009. pdf (russisch)