[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki26\/2021\/12\/09\/automatische-erfassung-von-sense-tagged-korpora\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki26\/2021\/12\/09\/automatische-erfassung-von-sense-tagged-korpora\/","headline":"Automatische Erfassung von Sense-Tagged Korpora","name":"Automatische Erfassung von Sense-Tagged Korpora","description":"Dieser Beitrag braucht die Aufmerksamkeit eines Linguistik-Experten. Das konkrete Problem ist: braucht eine enzyklop\u00e4dische Struktur und einen enzyklop\u00e4dischen Ton –","datePublished":"2021-12-09","dateModified":"2021-12-09","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki26\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki26\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/en\/thumb\/b\/b4\/Ambox_important.svg\/40px-Ambox_important.svg.png","url":"https:\/\/upload.wikimedia.org\/wikipedia\/en\/thumb\/b\/b4\/Ambox_important.svg\/40px-Ambox_important.svg.png","height":"40","width":"40"},"url":"https:\/\/wiki.edu.vn\/wiki26\/2021\/12\/09\/automatische-erfassung-von-sense-tagged-korpora\/","wordCount":2272,"articleBody":"Dieser Beitrag braucht die Aufmerksamkeit eines Linguistik-Experten. Das konkrete Problem ist: braucht eine enzyklop\u00e4dische Struktur und einen enzyklop\u00e4dischen Ton – siehe enzyklop\u00e4discher Stil – am besten von einem Experten. WikiProject Linguistics kann bei der Rekrutierung eines Experten helfen. (Februar 2010)Der Engpass beim Wissenserwerb ist vielleicht das Haupthindernis bei der L\u00f6sung des Problems der Wortsinn-Begriffskl\u00e4rung (WSD). Un\u00fcberwachte Lernmethoden basieren auf Wissen \u00fcber Wortsinne, das in W\u00f6rterb\u00fcchern und lexikalischen Datenbanken kaum formuliert ist. Beaufsichtigte Lernmethoden h\u00e4ngen stark von der Existenz manuell kommentierter Beispiele f\u00fcr jeden Wortsinn ab, eine Voraussetzung, die bisher m\u00f6glich ist[update] nur f\u00fcr eine Handvoll W\u00f6rter zu Testzwecken getroffen werden, wie es in den Senseval-\u00dcbungen gemacht wird.Bestehende Methoden[edit]Daher besteht einer der vielversprechendsten Trends in der WSD-Forschung darin, den gr\u00f6\u00dften jemals zug\u00e4nglichen Korpus, das World Wide Web, zur automatischen Erfassung lexikalischer Informationen zu verwenden.[1] WSD wurde traditionell als eine Zwischentechnologie zur Sprachentwicklung verstanden, die Anwendungen wie das Informationsabruf (IR) verbessern k\u00f6nnte. In diesem Fall ist jedoch auch das Gegenteil der Fall: Websuchmaschinen implementieren einfache und robuste IR-Techniken, die erfolgreich beim Mining des Webs nach Informationen verwendet werden k\u00f6nnen, die in WSD verwendet werden sollen. Der direkteste Weg, das Web (und andere Korpora) zu verwenden, um die WSD-Leistung zu verbessern, ist die automatische Erfassung von Sense-Tagged-Korpora, der grundlegenden Ressource, um \u00fcberwachte WSD-Algorithmen zu f\u00fcttern. Obwohl dies in der WSD-Literatur alles andere als allt\u00e4glich ist, wurden bereits eine Reihe verschiedener und effektiver Strategien vorgeschlagen, um dieses Ziel zu erreichen. Einige dieser Strategien sind:Zusammenfassung[edit]Optimistische Ergebnisse[edit]Die automatische Extraktion von Beispielen, um \u00fcberwachte Lernalgorithmen zu trainieren, war bei weitem der am besten erforschte Ansatz, um das Web nach der Begriffskl\u00e4rung des Wortsinns zu durchsuchen. Einige Ergebnisse sind sicherlich ermutigend:In einigen Experimenten entspricht die Qualit\u00e4t der Webdaten f\u00fcr WSD der von mit Menschen markierten Beispielen. Dies ist der Fall bei den monosem Verwandten plus Bootstrapping mit der Semcor-Samentechnik[2] und die Beispiele aus den ODP-Webverzeichnissen.[3] Im ersten Fall sind jedoch Beispiel-Seeds in Semcor-Gr\u00f6\u00dfe erforderlich (und nur f\u00fcr Englisch verf\u00fcgbar), und es wurde nur mit einer sehr begrenzten Anzahl von Nomen getestet; im zweiten Fall ist die Abdeckung ziemlich begrenzt, und es ist noch nicht klar, ob sie angebaut werden kann, ohne die Qualit\u00e4t der abgerufenen Beispiele zu beeintr\u00e4chtigen.Es wurde gezeigt[4] dass eine ausschlie\u00dflich mit Webdaten trainierte Mainstream-Technik des \u00fcberwachten Lernens bessere Ergebnisse erzielen kann als alle un\u00fcberwachten WSD-Systeme, die an Senseval-2 teilgenommen haben.Web-Beispiele trugen ma\u00dfgeblich zum besten englischen Senseval-2 All-Words-System bei.[5]Schwierigkeiten[edit]Es gibt jedoch mehrere offene Forschungsfragen im Zusammenhang mit der Verwendung von Webbeispielen in WSD:Eine hohe Pr\u00e4zision in den abgerufenen Beispielen (dh korrekte Sinnzuweisungen f\u00fcr die Beispiele) f\u00fchrt nicht unbedingt zu guten \u00fcberwachten WSD-Ergebnissen (dh die Beispiele sind m\u00f6glicherweise f\u00fcr das Training nicht n\u00fctzlich).[6]Die umfassendste Auswertung von Webbeispielen f\u00fcr betreute WSD[7] weist darauf hin, dass sich das Lernen mit Webdaten gegen\u00fcber unbeaufsichtigten Techniken verbessert, aber die Ergebnisse sind dennoch weit von denen entfernt, die mit handgetaggten Daten erzielt wurden, und \u00fcbertreffen nicht einmal die h\u00e4ufigste Basis.Ergebnisse sind nicht immer reproduzierbar; gleiche oder \u00e4hnliche Techniken k\u00f6nnen in verschiedenen Experimenten zu unterschiedlichen Ergebnissen f\u00fchren. Vergleichen Sie zum Beispiel Mihalcea (2002[8]) mit Agirre und Mart\u00ednez (2004[9]) oder Agirre und Mart\u00ednez (2000[10]) mit Mihalcea und Moldovan (1999[11]). Ergebnisse mit Webdaten scheinen sehr empfindlich auf kleine Unterschiede im Lernalgorithmus zu reagieren, wann das Korpus extrahiert wurde (Suchmaschinen \u00e4ndern sich st\u00e4ndig) und auf kleine heuristische Probleme (zB Unterschiede in Filtern, um einen Teil der abgerufenen Beispiele zu verwerfen).Die Ergebnisse h\u00e4ngen stark von Verzerrungen (dh von der relativen H\u00e4ufigkeit der Beispiele pro Wortsinn) ab.[12] Es ist unklar, ob dies einfach ein Problem von Webdaten oder ein intrinsisches Problem von \u00fcberwachten Lerntechniken ist oder nur ein Problem der Bewertung von WSD-Systemen (tats\u00e4chlich kann das Testen mit eher kleinen Senseval-Daten Sense-Verteilungen im Vergleich zu erhaltenen Sense-Verteilungen \u00fcberbetonen.) aus dem gesamten Web als Korpus).In jedem Fall weisen Webdaten einen intrinsischen Bias auf, da Abfragen an Suchmaschinen den Kontext der abgerufenen Beispiele direkt einschr\u00e4nken. Es gibt Ans\u00e4tze, die dieses Problem lindern, z. B. die Verwendung mehrerer verschiedener Seeds\/Queries pro Sinn[13] oder das Zuweisen von Sinnen zu Webverzeichnissen und dann das Durchsuchen von Verzeichnissen nach Beispielen;[14] aber dieses Problem ist noch lange nicht gel\u00f6st.Sobald ein Web-Korpus von Beispielen aufgebaut ist, ist nicht ganz klar, ob seine Verbreitung aus rechtlicher Sicht sicher ist.Zukunft[edit]Neben der automatischen \u00dcbernahme von Beispielen aus dem Web gibt es noch einige andere WSD-Experimente, die vom Web profitiert haben:Das Web als soziales Netzwerk wird erfolgreich zur kooperativen Annotation eines Korpus eingesetzt (OMWE, Open Mind Word Expert Projekt),[15] die bereits in drei Senseval-3-Aufgaben (Englisch, Rum\u00e4nisch und Mehrsprachig) verwendet wurde.Das Web wurde verwendet, um die Sinne von WordNet mit Dom\u00e4neninformationen zu bereichern: Themensignaturen[16] und Webverzeichnisse,[17] die wiederum erfolgreich f\u00fcr WSD eingesetzt wurden.Einige Forschungen profitierten auch von den semantischen Informationen, die die Wikipedia auf ihren Begriffskl\u00e4rungsseiten pflegt.[18][19]Alles klar,[according to whom?] jedoch, dass die meisten Forschungsm\u00f6glichkeiten noch weitgehend unerforscht sind. Zum Beispiel ist wenig dar\u00fcber bekannt, wie aus dem Web extrahierte lexikalische Informationen in wissensbasierten WSD-Systemen verwendet werden; und es ist auch schwer, Systeme zu finden, die webbasierte parallele Korpora f\u00fcr WSD verwenden, obwohl es bereits effiziente Algorithmen gibt, die parallele Korpora in WSD verwenden.Verweise[edit]^ Kilgarriff, A.; G. Grefenstette. 2003. Einf\u00fchrung in das Sonderheft im Web als Korpus. Computerlinguistik 29(3)^ Mihalcea, Rada. 2002. Bootstrapping von gro\u00dfen, mit Sinn versehenen Korpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spanien.^ Santamar\u00eda, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatische Zuordnung von Webverzeichnissen zu Wortsinnen. Computerlinguistik, 29(3): 485\u2013502.^ Agirre, Eneko & David Mart\u00ednez. 2004. Un\u00fcberwachte WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Voreingenommenheit. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, \u200b\u200bSpanien, 25\u201333.^ Mihalcea, Rada. 2002a. Wortsinn-Begriffskl\u00e4rung mit Musterlernen und automatischer Merkmalsauswahl. Natural Language Engineering, 8(4): 348\u2013358.^ Agirre, Eneko & David Mart\u00ednez. 2000. Erforschung der automatischen Begriffskl\u00e4rung mit Entscheidungslisten und dem Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxemburg, 11\u201319.^ Agirre, Eneko & David Mart\u00ednez. 2004. Un\u00fcberwachte WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Voreingenommenheit. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, \u200b\u200bSpanien, 25\u201333.^ Mihalcea, Rada. 2002b. Bootstrapping gro\u00dfer Korpora mit Sense-Tags. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spanien.^ Agirre, Eneko & David Mart\u00ednez. 2004. Un\u00fcberwachte WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Voreingenommenheit. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, \u200b\u200bSpanien, 25\u201333.^ Agirre, Eneko & David Mart\u00ednez. 2000. Erforschung der automatischen Begriffskl\u00e4rung mit Entscheidungslisten und dem Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxemburg, 11\u201319.^ Mihalcea, Rada & Dan Moldovan. 1999. Ein automatisches Verfahren zum Erzeugen von Sense-Tagged Corpora. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, USA, 461\u2013466.^ Agirre, Eneko & David Mart\u00ednez. 2004. Unsupervised WSD basierend auf automatisch abgerufenen Beispielen: Die Bedeutung von Bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, \u200b\u200bSpanien, 25\u201333.^ Mihalcea, Rada. 2002b. Bootstrapping gro\u00dfer Korpora mit Sense-Tags. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spanien.^ Santamar\u00eda, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatische Zuordnung von Webverzeichnissen zu Wortsinnen. Computerlinguistik, 29(3): 485\u2013502.^ Chklovski, Tim & Rada Mihalcea. 2002. Aufbau eines Sense-Tagged Korpus mit Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Philadelphia, USA, 116\u2013122.^ Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Mart\u00ednez. 2000. Anreicherung sehr gro\u00dfer Ontologien mit dem WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Deutschland.^ Santamar\u00eda, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatische Zuordnung von Webverzeichnissen zu Wortsinnen. Computerlinguistik, 29(3): 485\u2013502.^ Denis Turdakov, Pavel Velikhov. Semantische Verwandtschaftsmetrik f\u00fcr Wikipedia-Konzepte basierend auf der Linkanalyse und ihrer Anwendung auf die Wortsinn-Begriffskl\u00e4rung \/\/ SYRCoDIS.\u2014 2008.^ \u0443\u0440\u0434\u0430\u043a\u043e\u0432 \u0435\u043d\u0438\u0441. \u0423\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u0438\u0435 \u043b\u0435\u043a\u0441\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043c\u043d\u043e\u0433\u043e\u0437\u043d\u0430\u0447\u043d\u043e\u0441\u0442\u0438 \u0442\u0435\u0440\u043c\u0438\u043d\u043e\u0432 \u0412\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u0438 \u043d\u0430 \u043e\u0441\u043d\u043e\u0432\u0435 \u0441\u043a\u0440\u044b\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u041c\u0430\u0440\u043a\u043e\u0432\u0430 \/\/ XI \u0412\u0441\u0435\u0440\u043e\u0441\u0441\u0438\u0439\u0441\u043a\u0430\u044f \u043d\u0430\u0443\u0447\u043d\u0430\u044f \u043a\u043e\u043d\u0444\u0435\u0440\u0435\u043d\u0446\u0438\u044f \u00ab\u042d\u043b\u0435\u043a\u0442\u0440\u043e\u043d\u043d\u044b\u0435 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0438: \u043f\u0435\u0440\u0441\u043f\u0435\u043a\u0442\u0438\u0432\u043d\u044b\u0435 \u043c\u0435\u0442\u043e\u0434\u044b \u0438 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0438, \u044d\u043b\u0435\u043a\u0442\u0440\u043e\u043d\u043d\u044b\u0435 \u043a\u043e\u043b\u043b\u0435\u043a\u0446\u0438\u0438\u00bb .- 2009. pdf (russisch)"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki26\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki26\/2021\/12\/09\/automatische-erfassung-von-sense-tagged-korpora\/#breadcrumbitem","name":"Automatische Erfassung von Sense-Tagged Korpora"}}]}]