WordNet – Wikipedia

Computerlexikon der englischen Sprache

WordNet ist eine lexikalische Datenbank mit semantischen Beziehungen zwischen Wörtern in mehr als 200 Sprachen.[2] WordNet verknüpft Wörter zu semantischen Beziehungen, einschließlich Synonymen, Hyponymen und Meronymen. Die Synonyme sind gruppiert in synsets mit kurzen Definitionen und Anwendungsbeispielen. WordNet kann somit als Kombination und Erweiterung von Wörterbuch und Thesaurus verstanden werden. Während es für menschliche Benutzer über einen Webbrowser zugänglich ist,[3] seine Hauptanwendung liegt in der automatischen Textanalyse und in Anwendungen der künstlichen Intelligenz. WordNet wurde zuerst in englischer Sprache erstellt[4] und die englische WordNet-Datenbank und die Softwaretools wurden unter einer BSD-Lizenz veröffentlicht und können von dieser WordNet-Website kostenlos heruntergeladen werden.

Geschichte und Teammitglieder[edit]

WordNet wurde erstmals in englischer Sprache im Cognitive Science Laboratory der Princeton University unter der Leitung des Psychologieprofessors George Armitage Miller ab 1985 erstellt und wurde in den letzten Jahren geleitet[when?] von Christiane Fellbaum. Das Projekt wurde zunächst vom US Office of Naval Research und später auch von anderen US-Regierungsbehörden wie der DARPA, der National Science Foundation, dem Disruptive Technology Office (ehemals Advanced Research and Development Activity) und REFLEX finanziert. Für ihre Arbeit mit WordNet wurden George Miller und Christiane Fellbaum 2006 mit dem Antonio-Zampolli-Preis ausgezeichnet.

Die Global WordNet Association ist eine nicht-kommerzielle Organisation, die eine Plattform für die Diskussion, den Austausch und die Verbindung von WordNets für alle Sprachen der Welt bietet und Christiane Fellbaum und Piek Th.JM Vossen als Co-Präsidenten hat.[5]

Datenbankinhalte[edit]

Beispieleintrag “Hamburger” in WordNet

Die Datenbank enthält 155 327 Wörter, die in 175 979 Synsets für insgesamt 207 016 Wort-Sinn-Paare organisiert sind; in komprimierter Form ist es etwa 12 Megabyte groß.[6]

WordNet umfasst die lexikalischen Kategorien Nomen, Verben, Adjektive und Adverbien, ignoriert jedoch Präpositionen, Determinatoren und andere Funktionswörter.

Wörter aus derselben lexikalischen Kategorie, die ungefähr synonym sind, werden in Synsets gruppiert. Synsets umfassen Simplex-Wörter sowie Kollokationen wie “Essen” und “Fahrgemeinschaft”. Die verschiedenen Bedeutungen einer polysemen Wortform werden verschiedenen Synsets zugeordnet. Die Bedeutung eines Synsets wird mit einer kurzen Definition weiter verdeutlicht Glanz und ein oder mehrere Verwendungsbeispiele. Ein Beispiel für ein Adjektivsynset ist:

gut, richtig, reif – (am besten geeignet oder richtig für einen bestimmten Zweck; „ein guter Zeitpunkt, um Tomaten zu pflanzen“; „der richtige Zeitpunkt zum Handeln“; „die Zeit ist reif für große soziologische Veränderungen“)

Alle Synsets sind durch semantische Beziehungen mit anderen Synsets verbunden. Diese Beziehungen, die nicht alle von allen lexikalischen Kategorien geteilt werden, umfassen:

  • Substantive
    • Hypernyme: Ja ist ein Hypernym von X wenn alle X ist eine Art von) Ja (Eckzahn ist ein Hypernym von Hund)
    • Hyponyme: Ja ist ein Hyponym von X wenn alle Ja ist eine Art von) X (Hund ist ein Hyponym von Eckzahn)
    • Koordinatenbegriffe: Ja ist ein Koordinatenterm von X wenn X und Ja ein Hypernym teilen (Wolf ist ein Koordinatenterm von Hund, und Hund ist ein Koordinatenterm von Wolf)
    • meronym: Ja ist ein Meronym von X wenn Ja ist ein Teil von X (Fenster ist ein Meronym von Gebäude)
    • Holonym: Ja ist ein Holonym von X wenn X ist ein Teil von Ja (Gebäude ist ein Holonym von Fenster)
  • Verben
    • hypernym: das Verb Ja ist ein Hypernym des Verbs X wenn die Aktivität X ist eine Art von) Ja (wahrnehmen ist ein Hypernym von zuhören)
    • Troponym: das Verb Ja ist ein Troponym des Verbs X wenn die Aktivität Ja macht gerade X irgendwie (lispeln ist ein Troponym von sprechen)
    • Verpflichtung: das Verb Ja ist verbunden mit X wenn durch tun X du musst tun Ja (schlafen ist verbunden mit Schnarchen)
    • Koordinatenbegriffe: die Verben mit einem gemeinsamen Hypernym (lispeln und schreien)

Diese semantischen Beziehungen gelten für alle Mitglieder der verknüpften Synsets. Auch einzelne Synset-Mitglieder (Wörter) können mit lexikalischen Relationen verbunden werden. Zum Beispiel ist (ein Sinn von) das Substantiv “director” mit (einem Sinn von) dem Verb “direct” verbunden, von dem es über eine “morphosemantische” Verbindung abgeleitet wird.

Die Morphologiefunktionen der mit der Datenbank verteilten Software versuchen, die Lemma- oder Stammform eines Wortes aus der Eingabe des Benutzers abzuleiten. Unregelmäßige Formulare werden in einer Liste gespeichert, und das Nachschlagen von “ate” gibt beispielsweise “eat” zurück.

Wissensstruktur[edit]

Sowohl Substantive als auch Verben sind in Hierarchien organisiert, die durch Hypernym oder . definiert sind IST EIN Beziehungen. Zum Beispiel eine Bedeutung des Wortes Hund wird nach Hypernym-Hierarchie gefunden; die Wörter auf derselben Ebene repräsentieren Synset-Mitglieder. Jeder Satz von Synonymen hat einen eindeutigen Index.

  • Hund, Haushund, Canis Familiaris
    • hund, canid
      • Fleischfresser
        • plazenta, plazentares säugetier, eutherian, eutherisches säugetier
          • Säugetier
            • Wirbeltier, Kraniat
              • chordate
                • tier, beseeltes wesen, tier, brute, kreatur, Fauna

Auf der obersten Ebene sind diese Hierarchien in 25 Anfänger-„Bäume“ für Substantive und 15 für Verben (genannt lexikografische Dateien auf Wartungsebene). Alle sind mit einem einzigartigen Anfänger-Synset, “Entität”, verknüpft. Substantivhierarchien sind viel tiefer als Verbhierarchien

Adjektive sind nicht in hierarchischen Bäumen organisiert. Stattdessen bilden zwei “zentrale” Antonyme wie “heiß” und “kalt” binäre Pole, während “Satelliten”-Synonyme wie “dampfend” und “kühl” über eine “Ähnlichkeits”-Beziehung mit ihren jeweiligen Polen verbunden sind. Die Adjektive können auf diese Weise eher als “Hanteln” denn als “Bäume” visualisiert werden.

Psycholinguistische Aspekte[edit]

Das ursprüngliche Ziel des WordNet-Projekts war es, eine lexikalische Datenbank aufzubauen, die mit den in den späten 1960er Jahren entwickelten Theorien des menschlichen semantischen Gedächtnisses übereinstimmt. Psychologische Experimente zeigten, dass die Sprecher ihr Wissen über Konzepte in einer ökonomischen, hierarchischen Weise organisierten. Die für den Zugriff auf konzeptionelles Wissen erforderliche Abrufzeit schien in direktem Zusammenhang mit der Anzahl der Hierarchien zu stehen, die der Sprecher zum “Durchqueren” des Wissens benötigte. Somit könnten die Redner das schneller überprüfen Kanarienvögel können singen weil ein Kanarienvogel ein Singvogel ist, aber etwas mehr Zeit benötigt, um dies zu überprüfen Kanarienvögel können fliegen (wo sie auf der übergeordneten Ebene auf das Konzept “Vogel” zugreifen mussten) und noch mehr Zeit zum Verifizieren Kanarienvögel haben Haut (erfordert das Nachschlagen über mehrere Ebenen der Hyponymie bis hin zu “Tier”).[7]

Während solche psycholinguistischen Experimente und die zugrunde liegenden Theorien kritisiert wurden, stimmt ein Teil der Organisation von WordNet mit experimentellen Beweisen überein. Beispielsweise beeinflusst eine anomische Aphasie selektiv die Fähigkeit der Sprecher, Wörter aus einer bestimmten semantischen Kategorie, einer WordNet-Hierarchie, zu produzieren. Antonyme Adjektive (die zentralen Adjektive von WordNet in der Hantelstruktur) treten weitaus häufiger auf als zufällig, eine Tatsache, die für viele Sprachen gilt.

Als lexikalische Ontologie[edit]

WordNet wird manchmal als Ontologie bezeichnet, eine hartnäckige Behauptung, die seine Schöpfer nicht stellen. Die Hypernym/Hyponym-Beziehungen zwischen den Nomensynsets können als Spezialisierungsbeziehungen zwischen begrifflichen Kategorien interpretiert werden. Mit anderen Worten, WordNet kann als lexikalische Ontologie im Sinne der Informatik interpretiert und verwendet werden. Eine solche Ontologie sollte jedoch vor der Verwendung korrigiert werden, da sie Hunderte von grundlegenden semantischen Inkonsistenzen enthält; zum Beispiel gibt es (i) gemeinsame Spezialisierungen für exklusive Kategorien und (ii) Redundanzen in der Spezialisierungshierarchie. Darüber hinaus sollte die Transformation von WordNet in eine für die Wissensrepräsentation verwendbare lexikalische Ontologie normalerweise auch beinhalten (i) die Unterscheidung der Spezialisierungsrelationen in UntertypOf und InstanzOf Beziehungen, und (ii) Zuordnen von intuitiven eindeutigen Identifikatoren zu jeder Kategorie. Obwohl solche Korrekturen und Transformationen im Rahmen der Integration von WordNet 1.7 in die kooperativ aktualisierbare Wissensdatenbank von WebKB-2 durchgeführt und dokumentiert wurden,[8] die meisten Projekte, die behaupten, WordNet für wissensbasierte Anwendungen (normalerweise wissensorientierte Informationsabfrage) wiederzuverwenden, verwenden es einfach direkt wieder.

WordNet wurde auch mit Hilfe einer hybriden Bottom-Up-Top-Down-Methodik in eine formale Spezifikation umgewandelt, um automatisch Assoziationsbeziehungen aus WordNet zu extrahieren und diese Assoziationen in Bezug auf eine Reihe von konzeptionellen Beziehungen zu interpretieren, die formal in der DOLCE-Grundontologie definiert sind .[9]

In den meisten Werken, die behaupten, WordNet in Ontologien integriert zu haben, wurde der Inhalt von WordNet nicht einfach korrigiert, wenn es notwendig erschien; Stattdessen wurde WordNet bei Bedarf stark neu interpretiert und aktualisiert. Dies war beispielsweise der Fall, als die Top-Level-Ontologie von WordNet neu strukturiert wurde[10] nach dem OntoClean-basierten Ansatz oder wenn WordNet als primäre Quelle für die Konstruktion der unteren Klassen der SENSUS-Ontologie verwendet wurde.

Einschränkungen[edit]

Die am häufigsten diskutierte Einschränkung von WordNet (und verwandten Ressourcen wie ImageNet) besteht darin, dass einige der semantischen Beziehungen eher für konkrete Konzepte als für abstrakte Konzepte geeignet sind.[11] Zum Beispiel ist es einfach, Hyponyme/Hypernyme-Beziehungen zu erstellen, um zu erfassen, dass ein „Nadelbaum“ eine Art „Baum“, ein „Baum“ eine Art „Pflanze“ und eine „Pflanze“ eine Art „Organismus“ ist “, aber es ist schwierig, Emotionen wie „Angst“ oder „Glück“ in gleich tiefe und genau definierte Hyponyme/Hypernyme-Beziehungen einzuordnen.

Viele der Konzepte in WordNet sind spezifisch für bestimmte Sprachen und die genaueste gemeldete Zuordnung zwischen den Sprachen beträgt 94 %.[12] Synonyme, Hyponyme, Meronyme und Antonyme kommen bisher in allen Sprachen mit einem WordNet vor, andere semantische Beziehungen sind jedoch sprachspezifisch.[13] Dies schränkt die Interoperabilität zwischen Sprachen ein. Es macht WordNet jedoch auch zu einer Ressource, um die Unterschiede zwischen Sprachen hervorzuheben und zu untersuchen, sodass es nicht unbedingt eine Einschränkung für alle Anwendungsfälle darstellt.

WordNet enthält keine Informationen über die Etymologie oder die Aussprache von Wörtern und es enthält nur begrenzte Informationen über die Verwendung. WordNet zielt darauf ab, die meisten alltäglichen Wörter abzudecken und enthält nicht viel domänenspezifische Terminologie.

WordNet ist das am häufigsten verwendete Computerlexikon des Englischen für die Wortsinn-Disambiguierung (WSD), eine Aufgabe, die darauf abzielt, Wörtern in einem Text die kontextangemessene Bedeutung (dh Synset-Mitglieder) zuzuordnen.[14] Es wurde jedoch argumentiert, dass WordNet zu feinkörnige Sinnesunterscheidungen kodiert. Dieses Problem verhindert, dass WSD-Systeme ein Leistungsniveau erreichen, das mit dem von Menschen vergleichbar ist, die nicht immer einer Meinung sind, wenn es darum geht, einen Sinn aus einem Wörterbuch auszuwählen, der einem Wort in einem Kontext entspricht. Das Granularitätsproblem wurde angegangen, indem Clustering-Methoden vorgeschlagen wurden, die automatisch ähnliche Bedeutungen desselben Wortes zusammenfassen.[15][16][17]

Offensiver Inhalt[edit]

WordNet enthält Wörter, die als abwertend oder beleidigend wahrgenommen werden können.[18] Die Interpretation eines Wortes kann sich im Laufe der Zeit und zwischen sozialen Gruppen ändern, daher ist es WordNet nicht immer möglich, ein Wort isoliert als “pejorativ” oder “anstößig” zu definieren. Daher müssen Benutzer von WordNet ihre eigenen Methoden anwenden, um beleidigende oder abwertende Wörter zu identifizieren.

Diese Einschränkung gilt jedoch für andere lexikalische Ressourcen wie Wörterbücher und Thesauren, die ebenfalls abwertende und beleidigende Wörter enthalten. Einige Wörterbücher weisen auf abwertende Wörter hin, enthalten jedoch nicht alle Kontexte, in denen Wörter für verschiedene soziale Gruppen akzeptabel oder beleidigend sein könnten. Daher müssen Benutzer von Wörterbüchern ihre eigenen Methoden anwenden, um alle anstößigen Wörter zu identifizieren.

Lizenzierte vs. offene WordNets[edit]

Einige Wortnetze wurden anschließend für andere Sprachen erstellt. Eine Umfrage aus dem Jahr 2012 listet die Wortnetze und ihre Verfügbarkeit auf.[19] In dem Bemühen, die Verwendung von WordNets zu verbreiten, hat die globale WordNet-Community ihre WordNets langsam für eine offene Domäne neu lizenziert, in der Forscher und Entwickler leicht auf WordNets zugreifen und sie als Sprachressourcen verwenden können, um ontologisches und lexikalisches Wissen in Natural Language Processing-Aufgaben bereitzustellen .

Das offene mehrsprachige WordNet[20] bietet Zugang zu offenen lizenzierten Wortnetzen in einer Vielzahl von Sprachen, die alle mit dem Princeton Wordnet of English (PWN) verknüpft sind. Ziel ist es, die Verwendung von Wortnetzen in mehreren Sprachen zu vereinfachen.

Anwendungen[edit]

WordNet wurde für eine Reihe von Zwecken in Informationssystemen verwendet, darunter die Begriffsklärung im Wortsinn, das Abrufen von Informationen, die automatische Textklassifizierung, die automatische Textzusammenfassung, die maschinelle Übersetzung und sogar die automatische Kreuzworträtselerstellung.

WordNet wird häufig verwendet, um die Ähnlichkeit zwischen Wörtern zu bestimmen. Es wurden verschiedene Algorithmen vorgeschlagen, einschließlich der Messung des Abstands zwischen Wörtern und Synsets in der Graphenstruktur von WordNet, beispielsweise durch Zählen der Anzahl von Kanten zwischen Synsets. Die Intuition ist, dass je näher zwei Wörter oder Synsets sind, desto näher ihre Bedeutung. Eine Reihe von WordNet-basierten Wortähnlichkeitsalgorithmen sind in einem Perl-Paket namens WordNet::Similarity implementiert.[21] und in einem Python-Paket namens NLTK.[22] Andere anspruchsvollere WordNet-basierte Ähnlichkeitstechniken umfassen ADW,[23] deren Implementierung in Java verfügbar ist. WordNet kann auch verwendet werden, um andere Vokabulare zu verknüpfen.[24]

Schnittstellen[edit]

Princeton führt eine Liste verwandter Projekte[25] die Links zu einigen der weit verbreiteten Anwendungsprogrammierschnittstellen enthält, die für den Zugriff auf WordNet unter Verwendung verschiedener Programmiersprachen und Umgebungen verfügbar sind.

Verwandte Projekte und Erweiterungen[edit]

WordNet ist mit mehreren Datenbanken des Semantic Web verbunden. WordNet wird auch häufig über Zuordnungen zwischen den WordNet-Synsets und den Kategorien aus Ontologien wiederverwendet. Meistens werden nur die Kategorien der obersten Ebene von WordNet zugeordnet.

Globale WordNet-Vereinigung[edit]

Die Global WordNet Association (GWA)[26] ist eine öffentliche und nicht-kommerzielle Organisation, die eine Plattform für die Diskussion, den Austausch und die Verbindung von Wortnetzen für alle Sprachen der Welt bietet. Die GWA fördert auch die sprachübergreifende Standardisierung von Wortnetzen, um ihre Einheitlichkeit bei der Aufzählung der Synsets in menschlichen Sprachen zu gewährleisten. Die GWA führt eine Liste der weltweit entwickelten Wortnetze.[27]

Andere Sprachen[edit]

  • Arabisches WordNet:[28][29] WordNet für arabische Sprache.
  • Arabische Ontologie, eine linguistische Ontologie, die die gleiche Struktur wie das Wortnetz hat und diesem zugeordnet ist.
  • Das BalkaNet-Projekt[30] hat WordNets für sechs europäische Sprachen (Bulgarisch, Tschechisch, Griechisch, Rumänisch, Türkisch und Serbisch) erstellt. Für dieses Projekt wurde ein frei verfügbarer XML-basierter WordNet-Editor entwickelt. Dieser Editor – VisDic – befindet sich nicht mehr in der aktiven Entwicklung, wird aber immer noch für die Erstellung verschiedener WordNets verwendet. Der Nachfolger DEBVisDic ist eine Client-Server-Anwendung und wird derzeit für die Bearbeitung mehrerer WordNets verwendet (Niederländisch in Cornetto-Projekt, Polnisch, Ungarisch, mehrere afrikanische Sprachen, Chinesisch).
  • BulNet ist eine bulgarische Version des WordNet, die am Institut für Computerlinguistik des Instituts für Bulgarische Sprache der Bulgarischen Akademie der Wissenschaften entwickelt wurde.[31]
  • CWN (Chinesisches Wordnet oder 中文詞彙網路) unterstützt von der National Taiwan University.[32]
  • Das EuroWordNet-Projekt[33] hat WordNets für mehrere europäische Sprachen erstellt und miteinander verknüpft; diese sind jedoch nicht frei verfügbar. Das Projekt Global Wordnet versucht, die Produktion und Verknüpfung von “Wortnetzen” für alle Sprachen zu koordinieren.[34]Oxford University Press, der Herausgeber des Oxford English Dictionary, hat Pläne geäußert, einen eigenen Online-Konkurrenten zu WordNet zu produzieren.[citation needed]
  • FinnWordNet ist eine finnische Version des WordNet, in der alle Einträge des ursprünglichen englischen WordNet übersetzt wurden.[35]
  • GermaNet ist eine deutsche Version des von der Universität Tübingen entwickelten WordNet.[36]
  • Das IndoWordNet[37] ist eine verknüpfte lexikalische Wissensdatenbank von Wortnetzen von 18 geplanten Sprachen Indiens, nämlich Assamesisch, Bangla, Bodo, Gujarati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Meitei (Manipuri), Marathi, Nepali, Odia, Punjabi, Sanskrit, Tamil, Telugu und Urdu.
  • JAWS (Just Another WordNet Subset), eine weitere französische Version von WordNet[38] gebaut mit dem Wiktionary und semantischen Räumen
  • WordNet Bahasa: WordNet für die malaiische und indonesische Sprache, entwickelt von der Nanyang University of Technology.
  • Malayalam WordNet, entwickelt von der Cochin University of Science and Technology.[39]
  • Multilingual Central Repository (MCR) integriert in das gleiche EuroWordNet-Framework Wortnetze aus dem Spanischen, Katalanischen, Baskischen, Galizischen und Portugiesischen ins Englische.[40]
  • Das MultiWordNet-Projekt,[41] ein mehrsprachiges WordNet, das darauf abzielt, ein italienisches WordNet zu erstellen, das stark an das Princeton WordNet angelehnt ist.
  • OpenDutchWordNet,[42] ist eine niederländische lexikalische semantische Datenbank.
  • OpenWN-PT ist eine brasilianisch-portugiesische Version des ursprünglichen WordNet, die unter der CC-BY-SA-Lizenz kostenlos zum Download verfügbar ist.[43]
  • plWordNet[44] ist eine polnischsprachige Version von WordNet, die von der Technischen Universität Wrocław entwickelt wurde.
  • PolNet[45] ist eine polnischsprachige Version von WordNet, die von der Adam-Mickiewicz-Universität in Posen entwickelt wurde (vertrieb unter der Lizenz CC BY-NC-ND 3.0).

Projekte wie BalkaNet und EuroWordNet machten es möglich, eigenständige Wortnetze zu erstellen, die mit dem ursprünglichen verknüpft sind. Eines dieser Projekte war das russische WordNet, das von der Petersburger Staatlichen Universität für Kommunikationsmittel gefördert wurde[46] geführt von SA Yablonsky[47] oder Russnet[48] von der Staatlichen Universität Sankt Petersburg

  • UWN ist eine automatisch erstellte mehrsprachige lexikalische Wissensdatenbank, die WordNet auf über eine Million Wörter in vielen verschiedenen Sprachen erweitert.[49]
  • WOLF (WordNet Libre du Français), eine französische Version von WordNet.[50]

Verknüpfte Daten[edit]

  • BabelNet,[51] ein sehr großes mehrsprachiges semantisches Netzwerk mit Millionen von Konzepten, das durch die Integration von WordNet und Wikipedia mit einem automatischen Mapping-Algorithmus erhalten wurde.
  • Die SUMO-Ontologie[52] hat eine Zuordnung zwischen allen WordNet-Synsets (einschließlich Nomen, Verben, Adjektiven und Adverbien) und SUMO-Klassen erstellt. Die neueste Ergänzung der Zuordnungen bietet Links zu allen spezifischeren Begriffen in der MId-Level-Ontologie (MILO), die SUMO erweitert.
  • OpenCyc,[53] eine offene Ontologie und Wissensdatenbank des alltäglichen Wissens des gesunden Menschenverstands, hat 12.000 Begriffe, die mit WordNet-Synonymsätzen verknüpft sind.
  • DOLCE,[54] ist das erste Modul der WonderWeb Foundational Ontologies Library (WFOL). Diese Oberontologie wurde im Lichte strenger ontologischer Prinzipien entwickelt, die von der philosophischen Tradition inspiriert sind, mit einer klaren Ausrichtung auf Sprache und Kognition. OntoWordNet[55] ist das Ergebnis eines experimentellen Abgleichs der oberen Ebene von WordNet mit DOLCE. Es wird vorgeschlagen, dass eine solche Ausrichtung zu einem “ontologisch gesüßten” WordNet führen könnte, das konzeptionell strenger, kognitiv transparenter und in mehreren Anwendungen effizient nutzbar sein soll.
  • DBpedia,[56] eine Datenbank mit strukturierten Informationen, ist mit WordNet verbunden.
  • Das erweiterte WordNet[57] ist ein Projekt an der University of Texas in Dallas, das darauf abzielt, WordNet durch semantisches Parsen der Glossen zu verbessern und so die in diesen Definitionen enthaltenen Informationen für automatische Wissensverarbeitungssysteme verfügbar zu machen. Es ist unter einer ähnlichen Lizenz wie WordNet frei verfügbar.
  • Das GCIDE-Projekt produzierte ein Wörterbuch durch die Kombination einer öffentlichen Domain Websters Wörterbuch von 1913 mit einigen WordNet-Definitionen und von Freiwilligen zur Verfügung gestelltem Material. Es wurde unter der Copyleft-Lizenz GPL veröffentlicht.
  • ImageNet ist eine nach der WordNet-Hierarchie (derzeit nur die Nomen) organisierte Bilddatenbank, in der jeder Knoten der Hierarchie durch Hunderte und Tausende von Bildern dargestellt wird.[58] Derzeit hat es durchschnittlich über 500 Bilder pro Knoten.
  • BioWordnet, eine biomedizinische Erweiterung von Wordnet, wurde aufgrund von Stabilitätsproblemen bei Versionen aufgegeben.[59]
  • WikiTax2WordNet, eine Zuordnung zwischen WordNet-Synsets und Wikipedia-Kategorien.[60]
  • WordNet++, eine Ressource, die über Millionen semantischer Kanten aus Wikipedia enthält und Paare von WordNet-Synsets verbindet.[61]
  • SentiWordNet, eine Ressource zur Unterstützung von Opinion-Mining-Anwendungen, die durch das Markieren aller WordNet 3.0-Synsets nach ihrem geschätzten Grad an Positivität, Negativität und Neutralität erhalten wird.[62]
  • ColorDict ist eine Android-Anwendung für Mobiltelefone, die die Wordnet-Datenbank und andere wie Wikipedia verwenden.
  • UBY-LMF eine Datenbank mit 10 Ressourcen, einschließlich WordNet.

Ähnliche Projekte[edit]

  • FrameNet ist eine lexikalische Datenbank, die einige Ähnlichkeiten mit WordNet aufweist und darauf verweist.
  • Lexical Markup Framework (LMF) ist ein in ISO/TC37 spezifizierter ISO-Standard, um einen gemeinsamen standardisierten Rahmen für den Aufbau von Lexika, einschließlich WordNet, zu definieren. Die Untermenge von LMF für Wordnet heißt Wordnet-LMF. Innerhalb des KYOTO-Projekts wurde eine Instanziierung vorgenommen.[63]
  • Das UNL-Programm ist ein Projekt unter der Schirmherrschaft der UNO, das darauf abzielt, lexikosemantische Daten vieler Sprachen zu konsolidieren, die in maschinellen Übersetzungs- und Informationsextraktionssystemen verwendet werden sollen.

Ausschüttungen[edit]

WordNet Database wird als Wörterbuchpaket (normalerweise eine einzelne Datei) für die folgende Software vertrieben:

Siehe auch[edit]

Verweise[edit]

  1. ^ “WordNet-Nachrichten”.
  2. ^ “Wortnetze in der Welt”. Globale WordNet-Vereinigung. Abgerufen 19. Januar 2020.
  3. ^ “WordNet-Suche – 3.1”.
  4. ^ GA Miller, R. Beckwith, CD Fellbaum, D. Gross, K. Miller. 1990. WordNet: Eine lexikalische Online-Datenbank. Int. J. Lexikograph. 3, 4, S. 235–244.
  5. ^ “Über die globale WordNet Association”. Globales WordNet. Abgerufen 19. Januar 2020.
  6. ^ “WordNet-Statistiken”. Wordnet.princeton.edu. Abgerufen 2018-06-22.
  7. ^ Collins A., Quillian MR 1972. Experimente zum semantischen Gedächtnis und zum Sprachverständnis. Im Kognition in Lernen und Gedächtnis. Wiley, New York.
  8. ^ http://www.phmartin.info. “Integration von WordNet 1.7 in WebKB-2”. Webkb.org. Abgerufen 2014-03-11.
  9. ^ Gangemi, A.; Navigli, R.; Velardi, P. (2003). Das OntoWordNet-Projekt: Erweiterung und Axiomatisierung von Begriffsbeziehungen in WordNet (PDF). Proz. of International Conference on Ontologies, Databases and Applications of SEmantics (ODBASE 2003). Catania, Sizilien (Italien). S. 820–838.
  10. ^ Oltramari, A.; Gangemi, A.; Guarino, N.; Masolo, C. (2002). Restrukturierung der obersten Ebene von WordNet: Der OntoClean-Ansatz. OntoLex’2 Workshop, Ontologien und lexikalische Wissensdatenbanken (LREC 2002). Las Palmas, Spanien. S. 17–26. CiteSeerX 10.1.1.19.6574.
  11. ^ Rudnicka, Ewa; Bond, Franziskus; Grabowski, ukasz; Piasecki, Maciej; Piotrowski, Tadeusz (2018). „Lexikalische Perspektive auf Wordnet-Wordnet-Mapping“. Tagungsband der 9. Global WordNet Conference (GWC 2018): 210.
  12. ^ Bond, Franziskus; Foster, Ryan (2013). “Verknüpfen und Erweitern eines offenen mehrsprachigen Wortnetzes” (PDF). Tagungsband der 51. Jahrestagung der Gesellschaft für Computerlinguistik: 1352–1362. Abgerufen 20. Januar 2020.
  13. ^ Fellbaum, Christiane; Vossen, Piek (2012). „Herausforderungen für ein mehrsprachiges Wortnetz“. Sprachressourcen und Evaluation. 46 (2): 313–326. mach:10.1007/s10579-012-9186-z. S2CID 10117946.
  14. ^ R. Navigli. Begriffsklärung im Wortsinn: Eine Umfrage, ACM-Computing-Umfragen, 41(2), 2009, S. 1–69
  15. ^ E. Agirre, O. Lopez. 2003. Clustering WordNet Wortsinne. Im Proz. der Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgarien, S. 121–130.
  16. ^ R. Navigli. Sinnvolles Clustering von Sinnen hilft, die Leistung der Wortsinn-Begriffsklärung zu steigern, Im Proz. der 44. Jahrestagung der Association for Computational Linguistics gemeinsam mit der 21st International Conference on Computational Linguistics (COLING-ACL 2006), Sydney, Australien, 17.-21. Juli 2006, S. 105–112.
  17. ^ R. Snow, S. Prakash, D. Jurafsky, AY Ng. 2007. Wortsinne zusammenführen lernen, In Proz. der 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prag, Tschechien, S. 1005–1014.
  18. ^ Julia Carrie Wong. 2019. Die virale Selfie-App ImageNet Roulette schien Spaß zu machen, bis sie mich als rassistische Beleidigung bezeichnete. Der Wächter
  19. ^ Francis Bond und Kyonghee Paik 2012a. Eine Übersicht über Wordnets und ihre Lizenzen. In Proceedings of the 6th Global WordNet Conference (GWC 2012). Matse. 64–71
  20. ^ “Offenes mehrsprachiges Wordnet”. compling.hss.ntu.edu.sg. Abgerufen 10. April 2018.
  21. ^ “Ted Pedersen – WordNet::Ähnlichkeit”. D.umn.edu. 2008-06-16. Abgerufen 2014-03-11.
  22. ^ NLP mit Python NLTK/
  23. ^ MT Pilehvar, D. Jürgens und R. Navigli. Align, Disambiguate and Walk: Ein einheitlicher Ansatz zur Messung semantischer Ähnlichkeit.. Proz. der 51. Jahrestagung der Association for Computational Linguistics (ACL 2013), Sofia, Bulgarien, 4.–9. August 2013, S. 1341-1351.
  24. ^ Ballatore A, et al. (2014). „Verknüpfen von geografischen Vokabulare durch WordNet“. Annalen der GIS. 20 (2): 73–84. arXiv:1404.5372. Bibcode:2014arXiv1404.5372B. mach:10.1080/19475683.2014.904440. S2CID 9246582.
  25. ^ “Verwandte Projekte – WordNet – Verwandte Projekte”. Wordnet.princeton.edu. 2014-01-06. Abgerufen 2018-06-22.
  26. ^ Die Global WordNet Association (2010-02-04). “globalwordnet.org”. globalwordnet.org. Abgerufen 2014-03-11.
  27. ^ “Wordnets der Welt”. Archiviert von das Original am 21.10.2011.
  28. ^ Black W., Elkateb S., Rodriguez H., Alkhalifa M., Vossen P., Pease A., Bertran M., Fellbaum C., (2006) The Arabic WordNet Project, Proceedings of LREC 2006
  29. ^ Lahsen Abouenour, Karim Bouzoubaa, Paolo Rosso (2013) Zur Evaluierung und Verbesserung der Abdeckung und Benutzerfreundlichkeit des arabischen WordNet, Language Resources and Evaluation 47(3), S. 891–917
  30. ^ D. Tufis, D. Cristea, S. Stamou. 2004. Balkanet: Ziele, Methoden, Ergebnisse und Perspektiven. Ein allgemeiner Überblick. Rumänisch J. Sci. Technik. Informieren. (Sonderheft zum Balkanet), 7(1-2), S. 9–43.
  31. ^ “BulNet”. dcl.bas.bg. Abgerufen 2015-05-07.
  32. ^ Offizielle Seite des chinesischen Wordnet (中文詞彙網路) an der National Taiwan University
  33. ^ P. Vossen, Ed. 1998. EuroWordNet: Eine mehrsprachige Datenbank mit lexikalischen semantischen Netzwerken. Kluwer, Dordrecht, Niederlande.
  34. ^ “Die globale WordNet-Vereinigung”. Globalwordnet.org. 2010-02-04. Abgerufen 2014-01-05.
  35. ^ “FinnWordNet – Das finnische WordNet – Institut für Allgemeine Sprachwissenschaft”. Ling.helsinki.fi. Abgerufen 2014-01-05.
  36. ^ “GermanNet”. Sfs.uni-tuebingen.de. Abgerufen 2014-03-11.
  37. ^ Pushpak Bhattacharyya, IndoWordNet, Lexical Resources Engineering Conference 2010 (LREC 2010), Malta, Mai 2010.
  38. ^ C. Mouton, G. de Chalendar. 2010.JAWS: Nur eine weitere WordNet-Untermenge. Im Proz. von TALN 2010.
  39. ^ Webseite
  40. ^ http://adimen.si.ehu.es/web/mcr/
  41. ^ E. Pianta, L. Bentivogli, C. Girardi. 2002. MultiWordNet: Entwicklung einer abgestimmten mehrsprachigen Datenbank. Im Proz. der 1. Internationalen Konferenz zu Global WordNet, Mysore, Indien, S. 21–25.
  42. ^ http://wordpress.let.vupr.nl/odwn/
  43. ^ “arademaker/openWordnet-PT — GitHub”. Github.com. Abgerufen 2014-01-05.
  44. ^ http://plwordnet.pwr.wroc.pl/wordnet/ offizielle Webseite
  45. ^ http://www.ltc.amu.edu.pl/polnet/ offizielle Webseite
  46. ^ “Русский WordNet”. Pgups.ru. Abgerufen 2014-01-05.
  47. ^ Balkova, Valentina; Suchonogov, Andrey; Jablonski, Sergej (2003). “Russisches WordNet von der UML-Notation zur Internet-/Intranet-Datenbankimplementierung” (PDF). GWC 2004 Verfahren: 31–38. Abgerufen 12. März 2017.
  48. ^ “RussNet: лавная страница”. Projekt.phil.spbu.ru. Abgerufen 2014-03-11.
  49. ^ “UWN: Towards a Universal Multilingual Wordnet – D5: Databases and Information Systems (Max-Planck-Institut für Informatik)”. Mpi-inf.mpg.de. 2011-08-14. Abgerufen 2014-01-05.
  50. ^ S. Benoît, F. Darja. 2008. Aufbau eines kostenlosen französischen Wortnetzes aus mehrsprachigen Ressourcen. Im Proz. von Ontolex 2008, Marrakesch, Marokko.
  51. ^ R. Navigli, SP Ponzetto. BabelNet: Aufbau eines sehr großen mehrsprachigen semantischen Netzwerks. Proz. der 48. Jahrestagung der Association for Computational Linguistics (ACL 2010), Uppsala, Schweden, 11.–16. Juli 2010, S. 216–225.
  52. ^ A. Pease, I. Niles, J. Li. 2002. Die vorgeschlagene obere zusammengeführte Ontologie: Eine große Ontologie für das Semantic Web und seine Anwendungen. Im Proz. des AAAI-2002 Workshops on Ontologies and the Semantic Web, Edmonton, Kanada.
  53. ^ S. Reed und D. Lenat. 2002. Ontologien in Cyc . zuordnen. Im Proz. des AAAI-Konferenzworkshops 2002 zu Ontologien für das Semantische Web, Edmonton, Kanada, 2002
  54. ^ Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, LS 2002. WonderWeb Lieferbar D17. Die WonderWeb Library of Foundational Ontologies und die DOLCE-Ontologie. Bericht (Version 2.0, 15.08.2002)
  55. ^ Gangemi, A., Guarino, N., Masolo, C., Oltramari, A. 2003 WordNet versüßen mit DOLCE. In AI Magazine 24(3): Herbst 2003, S. 13–24
  56. ^ C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – Ein Kristallisationspunkt für das Web of Data. Web-Semantik, 7(3), 2009, S. 154–165
  57. ^ SM Harabagiu, GA Miller, DI Moldawien. 1999. WordNet 2 – Eine morphologisch und semantisch erweiterte Ressource. Im Proz. des ACL SILEX-Workshops: Standardisierung lexikalischer Ressourcen, S. 1–8.
  58. ^ J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: Eine groß angelegte hierarchische Bilddatenbank. Im Proz. von 2009 IEEE Conference on Computer Vision and Pattern Recognition
  59. ^ M. Poprat, E. Beisswanger, U. Hahn. 2008. Aufbau eines BIOWORDNET unter Verwendung der Datenformate von WORDNET und der Software-Infrastruktur von WORDNET – Eine Fehlergeschichte. Im Proz. des Workshops Software Engineering, Testing and Quality Assurance for Natural Language Processing, S. 31–39.
  60. ^ S. Ponzetto, R. Navigli. Large-Scale Taxonomy Mapping zur Restrukturierung und Integration von Wikipedia, Im Proz. der 21st International Joint Conference on Artificial Intelligence (IJCAI 2009), Pasadena, Kalifornien, 14.-17. Juli 2009, S. 2083–2088.
  61. ^ SP Ponzetto, R. Navigli. Wissensreiche Wortsinn-Begriffsklärung konkurriert mit überwachten Systemen. In Proz. der 48. Jahrestagung der Association for Computational Linguistics (ACL), 2010, S. 1522–1531.
  62. ^ S. Baccianella, A. Esuli und F. Sebastiani. SentiWordNet 3.0: Eine erweiterte lexikalische Ressource für die Sentiment-Analyse und das Mining von Meinungen. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC’10), Valletta, MT, 2010, S. 2200–2204.
  63. ^ Piek Vossen, Claudia Soria, Monica Monachini: Wordnet-LMF: eine Standarddarstellung für mehrsprachige Wortnetze, in Lexikalisches Markup-Framework von LMF, herausgegeben von Gil Francopoulo ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
  64. ^ “Babylon WordNet”. Babylon.com. Abgerufen 2014-03-11.
  65. ^ “GoldenDict – Durchsuchen / Wörterbücher auf Sourceforge.net”. Sourceforge.net. 2010-12-01. Abgerufen 2014-01-05.
  66. ^ “Lingos WordNet”. Lingoes.net. 2007-11-16. Abgerufen 2014-03-11.

Externe Links[edit]