Wissensextraktion – Wikipedia

before-content-x4

Wissensextraktion ist die Schaffung von Wissen aus strukturierten (relationale Datenbanken, XML) und unstrukturierten (Text, Dokumente, Bilder) Quellen. Das resultierende Wissen muss in einem maschinenlesbaren und maschineninterpretierbaren Format vorliegen und Wissen auf eine Weise darstellen, die das Ableiten erleichtert. Obwohl es methodisch der Informationsextraktion (NLP) und ETL (Data Warehouse) ähnlich ist, besteht das Hauptkriterium darin, dass das Extraktionsergebnis über die Erstellung strukturierter Informationen oder die Umwandlung in ein relationales Schema hinausgeht. Es erfordert entweder die Wiederverwendung vorhandenen formalen Wissens (Wiederverwendung von Kennungen oder Ontologien) oder die Generierung eines Schemas basierend auf den Quelldaten.

Die RDB2RDF W3C-Gruppe [1] standardisiert derzeit eine Sprache zum Extrahieren von Ressourcenbeschreibungs-Frameworks (RDF) aus relationalen Datenbanken. Ein weiteres beliebtes Beispiel für die Extraktion von Wissen ist die Umwandlung von Wikipedia in strukturierte Daten sowie die Zuordnung zu vorhandenem Wissen (siehe DBpedia und Freebase).

Überblick[edit]

Nach der Standardisierung von Wissensrepräsentationssprachen wie RDF und OWL wurden in diesem Bereich zahlreiche Forschungsarbeiten durchgeführt, insbesondere in Bezug auf die Umwandlung relationaler Datenbanken in RDF, Identitätsauflösung, Wissensentdeckung und Ontologielernen. Der allgemeine Prozess verwendet traditionelle Methoden aus der Informationsextraktion und dem Extrahieren, Transformieren und Laden (ETL), die die Daten aus den Quellen in strukturierte Formate transformieren.

Die folgenden Kriterien können verwendet werden, um Ansätze in diesem Thema zu kategorisieren (einige von ihnen berücksichtigen nur die Extraktion aus relationalen Datenbanken):[2]

Quelle Welche Datenquellen werden behandelt: Text, relationale Datenbanken, XML, CSV
Exposition Wie wird das extrahierte Wissen explizit gemacht (Ontologiedatei, semantische Datenbank)? Wie können Sie es abfragen?
Synchronisation Wird der Wissensextraktionsprozess einmal ausgeführt, um einen Speicherauszug zu erstellen, oder wird das Ergebnis mit der Quelle synchronisiert? Statisch oder dynamisch. Werden Änderungen am Ergebnis zurückgeschrieben (bidirektional)
Wiederverwendung von Vokabeln Das Tool kann vorhandene Vokabulare in der Extraktion wiederverwenden. Beispielsweise kann die Tabellenspalte ‘firstName’ auf foaf: firstName abgebildet werden. Einige automatische Ansätze sind nicht in der Lage, Vokabeln abzubilden.
Automatisierung Der Grad, in dem die Extraktion unterstützt / automatisiert wird. Manuell, GUI, halbautomatisch, automatisch.
Benötigt eine Domain-Ontologie Für die Zuordnung ist eine bereits vorhandene Ontologie erforderlich. Es wird also entweder ein Mapping erstellt oder ein Schema aus der Quelle gelernt (Ontologielernen).

Beispiele[edit]

Entitätsverknüpfung[edit]

  1. DBpedia Spotlight, OpenCalais, Löwenzahn dataTXT, die Zemanta API, Extractiv und PoolParty Extractor Analysieren Sie freien Text über die Erkennung benannter Entitäten und unterscheiden Sie die Kandidaten dann über die Namensauflösung und verknüpfen Sie die gefundenen Entitäten mit dem DBpedia-Wissensrepository[3] ((Löwenzahn dataTXT Demo oder DBpedia Spotlight Web-Demo oder PoolParty Extractor Demo).

Präsident Obama am Mittwoch angerufen Kongress Verlängerung einer Steuervergünstigung für Studenten, die im Konjunkturpaket des letzten Jahres enthalten waren, mit der Begründung, dass die Politik großzügigere Unterstützung bietet.

Da Präsident Obama mit einer DBpedia LinkedData-Ressource verknüpft ist, können weitere Informationen automatisch abgerufen werden, und ein Semantic Reasoner kann beispielsweise schließen, dass die erwähnte Entität vom Typ ist Person (mit FOAF (Software)) und vom Typ Präsidenten der Vereinigten Staaten (mit YAGO). Gegenbeispiele: Methoden, die nur Entitäten erkennen oder auf Wikipedia-Artikel und andere Ziele verlinken, die keinen weiteren Abruf strukturierter Daten und formalen Wissens ermöglichen.

Relationale Datenbanken zu RDF[edit]

  1. Triplify, D2R Server, Ultrawrapund Virtuoso RDF-Ansichten sind Tools, die relationale Datenbanken in RDF umwandeln. Während dieses Prozesses können vorhandene Vokabulare und Ontologien während des Konvertierungsprozesses wiederverwendet werden. Bei der Transformation einer typischen relationalen Tabelle mit dem Namen Benutzereine Spalte (zName) oder eine Aggregation von Spalten (zVorname und Familienname, Nachname) muss den URI der erstellten Entität angeben. Normalerweise wird der Primärschlüssel verwendet. Jede zweite Spalte kann als Beziehung zu dieser Entität extrahiert werden.[4] Dann werden Eigenschaften mit formal definierter Semantik verwendet (und wiederverwendet), um die Informationen zu interpretieren. Beispiel: Eine Spalte in einer Benutzertabelle wird aufgerufen verheiratet mit kann als symmetrische Beziehung und eine Spalte definiert werden Startseite kann in eine Eigenschaft aus dem FOAF-Wortschatz umgewandelt werden foaf: homepageund qualifiziert es somit als inverse funktionale Eigenschaft. Dann jeder Eintrag der Nutzer Tabelle kann zu einer Instanz der Klasse gemacht werden Foaf: Person (Ontologie Bevölkerung). Zusätzlich könnte Domänenwissen (in Form einer Ontologie) aus dem erstellt werden status_id, entweder durch manuell erstellte Regeln (wenn status_id ist 2, der Eintrag gehört zur Klasse Lehrer) oder nach (halb) automatisierten Methoden (Ontologielernen). Hier ist eine Beispieltransformation:
 :Peter :marriedTo :Mary .  
 :marriedTo a owl:SymmetricProperty .  
 :Peter foaf:homepage   .  
 :Peter a foaf:Person .   
 :Peter a :Student .  
 :Claus a :Teacher .

1: 1-Zuordnung von RDB-Tabellen / -Ansichten zu RDF-Entitäten / -Attributen / -Werten[edit]

Beim Erstellen einer RDB-Darstellung einer Problemdomäne ist der Ausgangspunkt häufig ein Entity-Relationship-Diagramm (ERD). In der Regel wird jede Entität als Datenbanktabelle dargestellt, jedes Attribut der Entität wird zu einer Spalte in dieser Tabelle, und Beziehungen zwischen Entitäten werden durch Fremdschlüssel angegeben. Jede Tabelle definiert normalerweise eine bestimmte Entitätsklasse, jede Spalte eines ihrer Attribute. Jede Zeile in der Tabelle beschreibt eine Entitätsinstanz, die durch einen Primärschlüssel eindeutig identifiziert wird. Die Tabellenzeilen beschreiben zusammen einen Entitätssatz. In einer äquivalenten RDF-Darstellung desselben Entitätssatzes:

  • Jede Spalte in der Tabelle ist ein Attribut (dh ein Prädikat).
  • Jeder Spaltenwert ist ein Attributwert (dh Objekt).
  • Jeder Zeilenschlüssel repräsentiert eine Entitäts-ID (dh einen Betreff).
  • Jede Zeile repräsentiert eine Entitätsinstanz
  • Jede Zeile (Entitätsinstanz) wird in RDF durch eine Sammlung von Tripeln mit einem gemeinsamen Betreff (Entitäts-ID) dargestellt.

Um eine äquivalente Ansicht basierend auf der RDF-Semantik zu rendern, wäre der grundlegende Zuordnungsalgorithmus wie folgt:

  1. Erstellen Sie für jede Tabelle eine RDFS-Klasse
  2. Konvertieren Sie alle Primärschlüssel und Fremdschlüssel in IRIs
  3. Weisen Sie jeder Spalte ein Prädikat-IRI zu
  4. Weisen Sie jeder Zeile ein Prädikat vom Typ rdf: zu und verknüpfen Sie es mit einer der Tabelle entsprechenden IRI der RDFS-Klasse
  5. Erstellen Sie für jede Spalte, die weder Teil eines Primär- noch eines Fremdschlüssels ist, ein Tripel, das den Primärschlüssel-IRI als Subjekt, den Spalten-IRI als Prädikat und den Spaltenwert als Objekt enthält.

Eine frühe Erwähnung dieser grundlegenden oder direkten Abbildung findet sich in Tim Berners-Lees Vergleich des ER-Modells mit dem RDF-Modell.[4]

Komplexe Zuordnungen relationaler Datenbanken zu RDF[edit]

Die oben erwähnte 1: 1-Zuordnung macht die Altdaten auf einfache Weise als RDF verfügbar. Zusätzliche Verfeinerungen können eingesetzt werden, um die Nützlichkeit der RDF-Ausgabe in Bezug auf die angegebenen Anwendungsfälle zu verbessern. Normalerweise gehen Informationen während der Transformation eines Entity-Relationship-Diagramms (ERD) in relationale Tabellen verloren (Details finden Sie in der nicht übereinstimmenden objektrelationalen Impedanz) und müssen rückentwickelt werden. Aus konzeptioneller Sicht können Extraktionsansätze aus zwei Richtungen kommen. Die erste Richtung versucht, ein OWL-Schema aus dem angegebenen Datenbankschema zu extrahieren oder zu lernen. Frühe Ansätze verwendeten eine feste Anzahl manuell erstellter Zuordnungsregeln, um die 1: 1-Zuordnung zu verfeinern.[5][6][7] Ausgefeiltere Methoden verwenden Heuristiken oder Lernalgorithmen, um schematische Informationen zu induzieren (Methoden überschneiden sich mit dem Lernen in der Ontologie). Während einige Ansätze versuchen, die Informationen aus der Struktur zu extrahieren, die dem SQL-Schema inhärent ist[8] (zB Fremdschlüssel analysieren), andere analysieren den Inhalt und die Werte in den Tabellen, um konzeptionelle Hierarchien zu erstellen[9] (zB Spalten mit wenigen Werten sind Kandidaten, um Kategorien zu werden). Die zweite Richtung versucht, das Schema und seinen Inhalt einer bereits vorhandenen Domänenontologie zuzuordnen (siehe auch: Ausrichtung der Ontologie). Oft existiert jedoch keine geeignete Domain-Ontologie und muss zuerst erstellt werden.

XML[edit]

Da XML als Baum strukturiert ist, können alle Daten einfach in RDF dargestellt werden, das als Diagramm strukturiert ist. XML2RDF ist ein Beispiel für einen Ansatz, der leere RDF-Knoten verwendet und XML-Elemente und -Attribute in RDF-Eigenschaften umwandelt. Das Thema ist jedoch komplexer als bei relationalen Datenbanken. In einer relationalen Tabelle ist der Primärschlüssel ein idealer Kandidat, um Gegenstand der extrahierten Tripel zu werden. Ein XML-Element kann jedoch – je nach Kontext – als Subjekt, Prädikat oder Objekt eines Tripels transformiert werden. XSLT kann als Standardtransformationssprache verwendet werden, um XML manuell in RDF zu konvertieren.

Übersicht über Methoden / Werkzeuge[edit]

Name Datenquelle Datenausstellung Datensynchronisation Mapping-Sprache Wiederverwendung des Wortschatzes Mapping-Automat. Anf. Domain-Ontologie Verwendet GUI
Eine direkte Zuordnung relationaler Daten zu RDF Relationale Daten SPARQL / ETL dynamisch N / A falsch automatisch falsch falsch
CSV2RDF4LOD CSV ETL statisch RDF wahr Handbuch falsch falsch
CoNLL-RDF TSV, CoNLL SPARQL / RDF-Stream statisch keiner wahr automatisch (domänenspezifisch, für Anwendungsfälle in der Sprachtechnologie, behält die Beziehungen zwischen Zeilen bei) falsch falsch
Convert2RDF Begrenzte Textdatei ETL statisch RDF / DAML wahr Handbuch falsch wahr
D2R Server RDB SPARQL bidirektional D2R Karte wahr Handbuch falsch falsch
DartGrid RDB eigene Abfragesprache dynamisch Visuelles Werkzeug wahr Handbuch falsch wahr
DataMaster RDB ETL statisch proprietär wahr Handbuch wahr wahr
RDF-Erweiterung von Google Refine CSV, XML ETL statisch keiner halbautomatisch falsch wahr
Krextor XML ETL statisch xslt wahr Handbuch wahr falsch
MAPONTO RDB ETL statisch proprietär wahr Handbuch wahr falsch
METAmorphosen RDB ETL statisch proprietäre XML-basierte Mapping-Sprache wahr Handbuch falsch wahr
MappingMaster CSV ETL statisch MappingMaster wahr GUI falsch wahr
ODEMapster RDB ETL statisch proprietär wahr Handbuch wahr wahr
OntoWiki CSV Importer Plug-In – DataCube & Tabular CSV ETL statisch Der RDF Data Cube Vocaublary wahr halbautomatisch falsch wahr
Poolparty Extraktor (PPX) XML, Text LinkedData dynamisch RDF (SKOS) wahr halbautomatisch wahr falsch
RDBToOnto RDB ETL statisch keiner falsch Automatisch hat der Benutzer außerdem die Möglichkeit, die Ergebnisse zu optimieren falsch wahr
RDF 123 CSV ETL statisch falsch falsch Handbuch falsch wahr
RDOTE RDB ETL statisch SQL wahr Handbuch wahr wahr
Relational.OWL RDB ETL statisch keiner falsch automatisch falsch falsch
T2LD CSV ETL statisch falsch falsch automatisch falsch falsch
Das RDF Data Cube-Vokabular Mehrdimensionale statistische Daten in Tabellenkalkulationen Datenwürfel-Wortschatz wahr Handbuch falsch
TopBraid Komponist CSV ETL statisch SKOS falsch halbautomatisch falsch wahr
Verdreifachen RDB LinkedData dynamisch SQL wahr Handbuch falsch falsch
Ultrawrap RDB SPARQL / ETL dynamisch R2RML wahr halbautomatisch falsch wahr
Virtuose RDF-Ansichten RDB SPARQL dynamisch Meta-Schema-Sprache wahr halbautomatisch falsch wahr
Virtuoser Schwamm strukturierte und halbstrukturierte Datenquellen SPARQL dynamisch Virtuose PL & XSLT wahr halbautomatisch falsch falsch
Vis-a-Vis RDB RDQL dynamisch SQL wahr Handbuch wahr wahr
XLWrap: Tabellenkalkulation zu RDF CSV ETL statisch TriG-Syntax wahr Handbuch falsch falsch
XML zu RDF XML ETL statisch falsch falsch automatisch falsch falsch

Der größte Teil der Informationen ist in Geschäftsdokumenten enthalten (ca. 80%)[10]) ist in natürlicher Sprache codiert und daher unstrukturiert. Da unstrukturierte Daten eher eine Herausforderung für die Wissensextraktion darstellen, sind komplexere Methoden erforderlich, die im Vergleich zu strukturierten Daten im Allgemeinen schlechtere Ergebnisse liefern. Das Potenzial für einen massiven Erwerb von extrahiertem Wissen sollte jedoch die erhöhte Komplexität und die verringerte Qualität der Extraktion kompensieren. Unter natürlichen Sprachquellen werden im Folgenden Informationsquellen verstanden, bei denen die Daten unstrukturiert als Klartext angegeben werden. Wenn der angegebene Text zusätzlich in ein Markup-Dokument (z. B. ein HTML-Dokument) eingebettet ist, entfernen die genannten Systeme die Markup-Elemente normalerweise automatisch.

Sprachliche Annotation / Verarbeitung natürlicher Sprache (NLP)[edit]

Als Vorverarbeitungsschritt zur Wissensextraktion kann es erforderlich sein, sprachliche Anmerkungen mit einem oder mehreren NLP-Tools durchzuführen. Einzelne Module in einem NLP-Workflow bauen normalerweise auf werkzeugspezifischen Formaten für die Eingabe und Ausgabe auf. Im Rahmen der Wissensextraktion wurden jedoch strukturierte Formate für die Darstellung sprachlicher Anmerkungen angewendet.

Typische NLP-Aufgaben, die für die Wissensextraktion relevant sind, umfassen:

  • POS-Tagging (Part-of-Speech)
  • Lemmatisierung (LEMMA) oder Stemming (STEM)
  • Wortsinn-Disambiguierung (WSD, im Zusammenhang mit der semantischen Annotation unten)
  • Erkennung benannter Entitäten (NER, siehe auch IE unten)
  • syntaktisches Parsen, wobei häufig syntaktische Abhängigkeiten (DEP) verwendet werden
  • Flaches syntaktisches Parsing (CHUNK): Wenn die Leistung ein Problem darstellt, führt das Chunking zu einer schnellen Extraktion von nominalen und anderen Phrasen
  • Anapherauflösung (siehe Koreferenzauflösung im IE unten, aber hier als Aufgabe gesehen, Verknüpfungen zwischen textuellen Erwähnungen und nicht zwischen der Erwähnung einer Entität und einer abstrakten Darstellung der Entität herzustellen)
  • semantische Rollenbeschriftung (SRL, bezogen auf die Beziehungsextraktion; nicht zu verwechseln mit semantischer Annotation wie unten beschrieben)
  • Diskursanalyse (Beziehungen zwischen verschiedenen Sätzen, die in realen Anwendungen selten verwendet werden)

In NLP werden solche Daten typischerweise in TSV-Formaten (CSV-Formate mit TAB als Trennzeichen) dargestellt, die häufig als CoNLL-Formate bezeichnet werden. Für Workflows zur Wissensextraktion wurden RDF-Ansichten zu solchen Daten gemäß den folgenden Community-Standards erstellt:

  • NLP Interchange Format (NIF, für viele häufige Arten von Anmerkungen)[11][12]
  • Web Annotation (WA, häufig für die Verknüpfung von Entitäten verwendet)[13]
  • CoNLL-RDF (für Anmerkungen, die ursprünglich in TSV-Formaten dargestellt wurden)[14][15]

Andere plattformspezifische Formate umfassen

  • LAPPS Interchange Format (LIF, verwendet im LAPPS Grid)[16][17]
  • NLP Annotation Format (NAF, verwendet im NewsReader-Workflow-Management-System)[18][19]

[edit]

Traditionelle Informationsextraktion [20] ist eine Technologie der Verarbeitung natürlicher Sprache, die Informationen aus typischen Texten natürlicher Sprache extrahiert und diese in geeigneter Weise strukturiert. Die Arten der zu identifizierenden Informationen müssen vor Beginn des Prozesses in einem Modell angegeben werden, weshalb der gesamte Prozess der traditionellen Informationsextraktion domänenabhängig ist. Der IE ist in die folgenden fünf Unteraufgaben unterteilt.

Die Aufgabe der Erkennung benannter Entitäten besteht darin, alle in einem Text enthaltenen benannten Entitäten zu erkennen und zu kategorisieren (Zuordnung einer benannten Entität zu einer vordefinierten Kategorie). Dies funktioniert durch Anwendung grammatikalischer Methoden oder statistischer Modelle.

Die Koreferenzauflösung identifiziert äquivalente Entitäten, die von NER innerhalb eines Textes erkannt wurden. Es gibt zwei relevante Arten von Äquivalenzbeziehungen. Die erste bezieht sich auf die Beziehung zwischen zwei verschiedenen vertretenen Entitäten (z. B. IBM Europe und IBM) und die zweite auf die Beziehung zwischen einer Entität und ihren anaphorischen Referenzen (z. B. it und IBM). Beide Arten können durch Koreferenzauflösung erkannt werden.

Während der Erstellung von Vorlagenelementen identifiziert das IE-System beschreibende Eigenschaften von Entitäten, die von NER und CO erkannt werden. Diese Eigenschaften entsprechen gewöhnlichen Eigenschaften wie Rot oder Groß.

Die Erstellung von Vorlagenbeziehungen identifiziert Beziehungen, die zwischen den Vorlagenelementen bestehen. Es kann verschiedene Arten von Beziehungen geben, z. B. “Works-for” oder “Location-In”, mit der Einschränkung, dass sowohl Domäne als auch Bereich Entitäten entsprechen.

In dem Vorlagenszenario werden Produktionsereignisse, die im Text beschrieben werden, in Bezug auf die von NER und CO erkannten Entitäten und die von TR identifizierten Beziehungen identifiziert und strukturiert.

[edit]

Ontologiebasierte Informationsextraktion [10] ist ein Teilfeld der Informationsextraktion, mit dem mindestens eine Ontologie verwendet wird, um den Prozess der Informationsextraktion aus Text in natürlicher Sprache zu steuern. Das OBIE-System verwendet Methoden der traditionellen Informationsextraktion, um Konzepte, Instanzen und Beziehungen der verwendeten Ontologien im Text zu identifizieren, die nach dem Prozess zu einer Ontologie strukturiert werden. Somit bilden die Eingabe-Ontologien das Modell der zu extrahierenden Informationen.

Ontologielernen (OL)[edit]

Das Lernen von Ontologien ist die automatische oder halbautomatische Erstellung von Ontologien, einschließlich des Extrahierens der Begriffe der entsprechenden Domäne aus Text in natürlicher Sprache. Da das manuelle Erstellen von Ontologien äußerst arbeitsintensiv und zeitaufwändig ist, besteht eine große Motivation, den Prozess zu automatisieren.

Semantische Annotation (SA)[edit]

Während der semantischen Annotation[21] Text in natürlicher Sprache wird durch Metadaten (häufig in RDFa dargestellt) ergänzt, die die Semantik der enthaltenen Begriffe maschinenverständlich machen sollen. Bei diesem im Allgemeinen halbautomatischen Prozess wird Wissen in dem Sinne extrahiert, dass eine Verbindung zwischen lexikalischen Begriffen und beispielsweise Konzepten aus Ontologien hergestellt wird. Auf diese Weise wird Wissen gewonnen, welche Bedeutung eines Begriffs im verarbeiteten Kontext beabsichtigt war, und daher basiert die Bedeutung des Textes auf maschinenlesbaren Daten mit der Fähigkeit, Schlussfolgerungen zu ziehen. Die semantische Annotation ist normalerweise in die folgenden zwei Unteraufgaben unterteilt.

  1. Terminologieextraktion
  2. Entitätsverknüpfung

Auf der Ebene der Terminologieextraktion werden lexikalische Begriffe aus dem Text extrahiert. Zu diesem Zweck bestimmt ein Tokenizer zunächst die Wortgrenzen und löst Abkürzungen. Anschließend werden Begriffe aus dem Text, die einem Konzept entsprechen, mit Hilfe eines domänenspezifischen Lexikons extrahiert, um diese bei der Entitätsverknüpfung zu verknüpfen.

In der Entitätsverknüpfung [22] Es wird eine Verbindung zwischen den aus dem Quelltext extrahierten lexikalischen Begriffen und den Konzepten aus einer Ontologie oder Wissensbasis wie DBpedia hergestellt. Dazu werden Kandidatenkonzepte mit Hilfe eines Lexikons entsprechend den verschiedenen Bedeutungen eines Begriffs erkannt. Schließlich wird der Kontext der Begriffe analysiert, um die am besten geeignete Begriffsklärung zu ermitteln und den Begriff dem richtigen Konzept zuzuordnen.

Beachten Sie, dass “semantische Annotation” im Kontext der Wissensextraktion nicht mit semantischem Parsing im Sinne der Verarbeitung natürlicher Sprache (auch als “semantische Annotation” bezeichnet) zu verwechseln ist: Semantisches Parsing zielt auf eine vollständige, maschinenlesbare Darstellung der natürlichen Sprache ab Während semantische Annotationen im Sinne der Wissensextraktion nur einen sehr elementaren Aspekt davon ansprechen.

Werkzeuge[edit]

Die folgenden Kriterien können verwendet werden, um Werkzeuge zu kategorisieren, die Wissen aus Text in natürlicher Sprache extrahieren.

Quelle Welche Eingabeformate können vom Tool verarbeitet werden (zB Klartext, HTML oder PDF)?
Zugriffsparadigma Kann das Tool die Datenquelle abfragen oder benötigt es einen vollständigen Speicherauszug für den Extraktionsprozess?
Datensynchronisation Ist das Ergebnis des Extraktionsprozesses mit der Quelle synchronisiert?
Verwendet die Ausgabe-Ontologie Verknüpft das Tool das Ergebnis mit einer Ontologie?
Mapping-Automatisierung Wie automatisiert ist der Extraktionsprozess (manuell, halbautomatisch oder automatisch)?
Benötigt Ontologie Benötigt das Tool eine Ontologie für die Extraktion?
Verwendet GUI Bietet das Tool eine grafische Benutzeroberfläche?
Ansatz Welcher Ansatz (IE, OBIE, OL oder SA) wird vom Tool verwendet?
Extrahierte Entitäten Welche Arten von Entitäten (z. B. benannte Entitäten, Konzepte oder Beziehungen) können vom Tool extrahiert werden?
Angewandte Techniken Welche Techniken werden angewendet (zB NLP, statistische Methoden, Clustering oder maschinelles Lernen)?
Ausgabemodell Welches Modell wird verwendet, um das Ergebnis des Tools darzustellen (z. B. RDF oder OWL)?
Unterstützte Domains Welche Bereiche werden unterstützt (zB Wirtschaft oder Biologie)?
Unterstützte Sprachen Welche Sprachen können verarbeitet werden (zB Englisch oder Deutsch)?

In der folgenden Tabelle sind einige Tools für die Wissensextraktion aus natürlichen Sprachquellen aufgeführt.

Name Quelle Zugriffsparadigma Datensynchronisation Verwendet die Ausgabe-Ontologie Mapping-Automatisierung Benötigt Ontologie Verwendet GUI Ansatz Extrahierte Entitäten Angewandte Techniken Ausgabemodell Unterstützte Domains Unterstützte Sprachen
[1] [23] Klartext, HTML, XML, SGML Dump Nein Ja automatisch Ja Ja IE benannte Entitäten, Beziehungen, Ereignisse Sprachregeln proprietär domänenunabhängig Englisch, Spanisch, Arabisch, Chinesisch, Indonesisch
AlchemyAPI [24] Klartext, HTML automatisch Ja SA mehrsprachig
ANNIE [25] Klartext Dump Ja Ja IE Finite-State-Algorithmen mehrsprachig
ASIUM [26] Klartext Dump halbautomatisch Ja OL Konzepte, Konzepthierarchie NLP, Clustering
Erschöpfende erschöpfende Extraktion [27] automatisch IE benannte Entitäten, Beziehungen, Ereignisse NLP
Löwenzahn API Klartext, HTML, URL SICH AUSRUHEN Nein Nein automatisch Nein Ja SA benannte Entitäten, Konzepte statistische Methoden JSON domänenunabhängig mehrsprachig
DBpedia Spotlight [28] Klartext, HTML Dump, SPARQL Ja Ja automatisch Nein Ja SA Anmerkung zu jedem Wort, Anmerkung zu Nicht-Stoppwörtern NLP, statistische Methoden, maschinelles Lernen RDFa domänenunabhängig Englisch
EntityClassifier.eu Klartext, HTML Dump Ja Ja automatisch Nein Ja IE, OL, SA Anmerkung zu jedem Wort, Anmerkung zu Nicht-Stoppwörtern regelbasierte Grammatik XML domänenunabhängig Englisch, Deutsch, Niederländisch
Fred [29] Klartext Dump, REST-API Ja Ja automatisch Nein Ja IE, OL, SA, Ontologie-Entwurfsmuster, Rahmensemantik (Mehr-) Wort-NIF- oder EarMark-Annotation, Prädikate, Instanzen, Kompositionssemantik, Konzepttaxonomien, Rahmen, semantische Rollen, periphrastische Beziehungen, Ereignisse, Modalität, Zeitform, Entitätsverknüpfung, Ereignisverknüpfung, Stimmung NLP, maschinelles Lernen, heuristische Regeln RDF / OWL domänenunabhängig Englisch, andere Sprachen per Übersetzung
iDocument [30] HTML, PDF, DOC SPARQL Ja Ja OBIE Instanzen, Eigenschaftswerte NLP persönliche Angelegenheit
NetOwl Extractor [31] Klartext, HTML, XML, SGML, PDF, MS Office Dump Nein Ja Automatisch Ja Ja IE benannte Entitäten, Beziehungen, Ereignisse NLP XML, JSON, RDF-OWL, andere mehrere Domänen Englisch, Arabisch Chinesisch (vereinfacht und traditionell), Französisch, Koreanisch, Persisch (Persisch und Dari), Russisch, Spanisch
OntoGen [32] halbautomatisch Ja OL Konzepte, Konzepthierarchie, nicht taxonomische Beziehungen, Instanzen NLP, maschinelles Lernen, Clustering
OntoLearn [33] Klartext, HTML Dump Nein Ja automatisch Ja Nein OL Konzepte, Konzepthierarchie, Instanzen NLP, statistische Methoden proprietär domänenunabhängig Englisch
OntoLearn neu geladen Klartext, HTML Dump Nein Ja automatisch Ja Nein OL Konzepte, Konzepthierarchie, Instanzen NLP, statistische Methoden proprietär domänenunabhängig Englisch
OntoSyphon [34] HTML, PDF, DOC Dump, Suchmaschinenabfragen Nein Ja automatisch Ja Nein OBIE Konzepte, Beziehungen, Instanzen NLP, statistische Methoden RDF domänenunabhängig Englisch
aufX [35] Klartext Dump Nein Ja halbautomatisch Ja Nein OBIE Instanzen, Datentyp-Eigenschaftswerte heuristische Methoden proprietär domänenunabhängig sprachunabhängig
OpenCalais Klartext, HTML, XML Dump Nein Ja automatisch Ja Nein SA Anmerkung zu Entitäten, Anmerkung zu Ereignissen, Anmerkung zu Fakten NLP, maschinelles Lernen RDF domänenunabhängig Englisch, Französisch, Spanisch
PoolParty Extractor [36] Klartext, HTML, DOC, ODT Dump Nein Ja automatisch Ja Ja OBIE benannte Entitäten, Konzepte, Beziehungen, Konzepte, die den Text kategorisieren, Anreicherungen NLP, maschinelles Lernen, statistische Methoden RDF, OWL domänenunabhängig Englisch, Deutsch, Spanisch, Französisch
Rosoka Klartext, HTML, XML, SGML, PDF, MS Office Dump Ja Ja Automatisch Nein Ja IE Extraktion benannter Entitäten, Entitätsauflösung, Beziehungsextraktion, Attribute, Konzepte, Multi-Vektor-Stimmungsanalyse, Geotagging, Sprachidentifikation NLP, maschinelles Lernen XML, JSON, POJO, RDF mehrere Domänen Mehrsprachige 200+ Sprachen
SCOOBIE Klartext, HTML Dump Nein Ja automatisch Nein Nein OBIE Instanzen, Eigenschaftswerte, RDFS-Typen NLP, maschinelles Lernen RDF, RDFa domänenunabhängig Englisch Deutsch
SemTag [37][38] HTML Dump Nein Ja automatisch Ja Nein SA maschinelles Lernen Datenbankeintrag domänenunabhängig sprachunabhängig
Smart FIX Klartext, HTML, PDF, DOC, E-Mail Dump Ja Nein automatisch Nein Ja OBIE benannte Entitäten NLP, maschinelles Lernen proprietär domänenunabhängig Englisch, Deutsch, Französisch, Niederländisch, Polnisch
Text2Onto [39] Klartext, HTML, PDF Dump Ja Nein halbautomatisch Ja Ja OL Konzepte, Konzepthierarchie, nicht taxonomische Beziehungen, Instanzen, Axiome NLP, statistische Methoden, maschinelles Lernen, regelbasierte Methoden EULE deomain-unabhängig Englisch, Deutsch, Spanisch
Text-To-Onto [40] Klartext, HTML, PDF, PostScript Dump halbautomatisch Ja Ja OL Konzepte, Konzepthierarchie, nicht taxonomische Beziehungen, lexikalische Entitäten, die sich auf Konzepte beziehen, lexikalische Entitäten, die sich auf Beziehungen beziehen NLP, maschinelles Lernen, Clustering, statistische Methoden Deutsche
ThatNeedle Klartext Dump automatisch Nein Konzepte, Beziehungen, Hierarchie NLP, proprietär JSON mehrere Domänen Englisch
Die Wiki-Maschine [41] Klartext, HTML, PDF, DOC Dump Nein Ja automatisch Ja Ja SA Anmerkung zu Eigennamen, Anmerkung zu allgemeinen Substantiven maschinelles Lernen RDFa domänenunabhängig Englisch, Deutsch, Spanisch, Französisch, Portugiesisch, Italienisch, Russisch
ThingFinder [42] IE benannte Entitäten, Beziehungen, Ereignisse mehrsprachig

Wissensentdeckung[edit]

Knowledge Discovery beschreibt den Prozess der automatischen Suche großer Datenmengen nach Mustern, die als Wissen betrachtet werden können Über die Daten.[43] Es wird oft beschrieben als ableiten Wissen aus den Eingabedaten. Die Wissensentdeckung wurde aus dem Bereich Data Mining heraus entwickelt und ist sowohl methodisch als auch terminologisch eng damit verbunden.[44]

Der bekannteste Zweig des Data Mining ist die Wissenserkennung, auch als Wissenserkennung in Datenbanken (KDD) bekannt. Ebenso wie bei vielen anderen Formen der Wissensentdeckung werden Abstraktionen der Eingabedaten erstellt. Das Wissen durch den Prozess erhalten kann zusätzlich werden Daten das kann für die weitere Verwendung und Entdeckung verwendet werden. Oft sind die Ergebnisse der Wissensentdeckung nicht umsetzbar, umsetzbare Wissensentdeckung, auch als domänengesteuertes Data Mining bekannt.[45] zielt darauf ab, umsetzbares Wissen und Erkenntnisse zu entdecken und zu liefern.

Eine weitere vielversprechende Anwendung der Wissensentdeckung liegt im Bereich der Softwaremodernisierung, Schwachstellenerkennung und Compliance, bei der vorhandene Software-Artefakte verstanden werden. Dieser Prozess steht im Zusammenhang mit einem Konzept des Reverse Engineering. In der Regel wird das aus vorhandener Software gewonnene Wissen in Form von Modellen dargestellt, an die bei Bedarf spezifische Abfragen gestellt werden können. Eine Entitätsbeziehung ist ein häufiges Format zur Darstellung von Wissen, das aus vorhandener Software gewonnen wurde. Die Object Management Group (OMG) hat die Spezifikation Knowledge Discovery Metamodel (KDM) entwickelt, die eine Ontologie für die Software-Assets und ihre Beziehungen definiert, um die Wissensermittlung in vorhandenem Code durchzuführen. Die Entdeckung von Wissen aus vorhandenen Softwaresystemen, auch als Software Mining bezeichnet, ist eng mit dem Data Mining verbunden, da vorhandene Software-Artefakte einen enormen Wert für das Risikomanagement und den Geschäftswert enthalten, der für die Bewertung und Entwicklung von Softwaresystemen von entscheidender Bedeutung ist. Anstatt einzelne Datensätze abzubauen, konzentriert sich das Software-Mining auf Metadaten wie Prozessabläufe (z. B. Datenflüsse, Kontrollflüsse und Anrufzuordnungen), Architektur, Datenbankschemata und Geschäftsregeln / -begriffe / -prozesse.

Eingabedaten[edit]

Ausgabeformate[edit]

Siehe auch[edit]

Verweise[edit]

  1. ^ RDB2RDF-Arbeitsgruppe, Website: http://www.w3.org/2001/sw/rdb2rdf/, Charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: Zuordnungssprache von RDB zu RDF: http://www.w3.org/TR/r2rml/
  2. ^ LOD2 EU Deliverable 3.1.1 Wissensextraktion aus strukturierten Quellen http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archiviert 2011-08-27 an der Wayback-Maschine
  3. ^ “Leben in der verknüpften Datenwolke”. www.opencalais.com. Archiviert von das Original am 24.11.2009. Abgerufen 2009-11-10. Wikipedia hat einen Linked Data-Zwilling namens DBpedia. DBpedia hat die gleichen strukturierten Informationen wie Wikipedia – jedoch in ein maschinenlesbares Format übersetzt.
  4. ^ ein b Tim Berners-Lee (1998), “Relationale Datenbanken im Semantic Web”. Abgerufen: 20. Februar 2011.
  5. ^ Hu et al. (2007), “Discovering Simple Mappings zwischen relationalen Datenbankschemata und Ontologien”, In Proc. der 6. Internationalen Semantic Web Konferenz (ISWC 2007), 2. Asian Semantic Web Konferenz (ASWC 2007), LNCS 4825, Seiten 225-238, Busan, Korea, 11.-15. November 2007. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
  6. ^ R. Ghawi und N. Cullot (2007), “Database-to-Ontology Mapping Generation for Semantic Interoperability”. Im dritten internationalen Workshop zur Datenbankinteroperabilität (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
  7. ^ Li et al. (2005) “Eine halbautomatische Ontologieerfassungsmethode für das Semantic Web”, WAIM, Band 3739, Lecture Notes in Computer Science, Seite 209-220. Springer. doi:10.1007 / 11563952_19
  8. ^ Tirmizi et al. (2008), “Übersetzen von SQL-Anwendungen in das Semantic Web”, Lecture Notes in Computer Science, Band 5181/2008 (Datenbank- und Expertensystemanwendungen). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
  9. ^ Farid Cerbah (2008). “Lernen hochstrukturierter semantischer Repositories aus relationalen Datenbanken”, The Semantic Web: Research and Applications, Band 5021, Lecture Notes in Computer Science, Springer, Berlin / Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf Archiviert 2011-07-20 an der Wayback-Maschine
  10. ^ ein b Wimalasuriya, Daya C.; Dou, Dejing (2010). “Ontologiebasierte Informationsextraktion: Eine Einführung und ein Überblick über aktuelle Ansätze”, Zeitschrift für Informationswissenschaft36 (3), p. 306 – 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (abgerufen: 18.06.2012).
  11. ^ “NLP Interchange Format (NIF) 2.0 – Übersicht und Dokumentation”. persistence.uni-leipzig.org. Abgerufen 2020-06-05.
  12. ^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (Hrsg.). “Integration von NLP mithilfe verknüpfter Daten”. Das Semantic Web – ISWC 2013. Vorlesungsunterlagen in Informatik. Berlin, Heidelberg: Springer. 7908: 98–113. doi:10.1007 / 978-3-642-41338-4_7. ISBN 978-3-642-41338-4.
  13. ^ Verspoor, Karin; Livingston, Kevin (Juli 2012). “Auf dem Weg zur Anpassung sprachlicher Annotationen an wissenschaftliche Annotationsformalismen im Semantic Web”. Proceedings of the Sixth Linguistic Annotation Workshop. Jeju, Republik Korea: Vereinigung für Computerlinguistik: 75–84.
  14. ^ acoli-repo / conll-rdf, ACoLi, 2020-05-27abgerufen 2020-06-05
  15. ^ Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P.; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (Hrsg.). “CoNLL-RDF: Verknüpfte Korpora NLP-freundlich gemacht”. Sprache, Daten und Wissen. Vorlesungsunterlagen in Informatik. Cham: Springer International Publishing. 10318: 74–88. doi:10.1007 / 978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
  16. ^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (Hrsg.). “Das LAPPS-Austauschformat”. Weltweite Sprachdienstinfrastruktur. Vorlesungsunterlagen in Informatik. Cham: Springer International Publishing. 9442: 33–47. doi:10.1007 / 978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
  17. ^ “The Language Application Grid | Eine Webdienstplattform für die Entwicklung und Forschung der Verarbeitung natürlicher Sprache”. Abgerufen 2020-06-05.
  18. ^ Newsreader / NAF, NewsReader, 2020-05-25abgerufen 2020-06-05
  19. ^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, deutsch; Rospocher, Marco (15.10.2016). “NewsReader: Verwenden von Wissensressourcen in einer mehrsprachigen Lesemaschine, um mehr Wissen aus massiven Nachrichtenströmen zu generieren”. Wissensbasierte Systeme. 110: 60–85. doi:10.1016 / j.knosys.2016.07.013. ISSN 0950-7051.
  20. ^ Cunningham, Hamish (2005). “Informationsextraktion, automatisch”, Enzyklopädie der Sprache und Linguistik, 2, p. 665 – 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (abgerufen: 18.06.2012).
  21. ^ Erdmann, M.; Maedche, Alexander; Schnurr, H.-P.; Staab, Steffen (2000). “Von der manuellen zur halbautomatischen semantischen Annotation: Informationen zu Ontologie-basierten Text Annotation Tools”, Verfahren der COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (abgerufen: 18.06.2012).
  22. ^ Rao, Delip; McNamee, Paul; Dredze, Mark (2011). “Entity Linking: Extrahierte Entitäten in einer Wissensdatenbank finden”, Extraktion und Zusammenfassung von Informationen aus mehreren Quellen und mehreren Sprachen, http://www.cs.jhu.edu/~delip/entity-linking.pdf[permanent dead link] (abgerufen: 18.06.2012).
  23. ^ Rocket Software, Inc. (2012). “Technologie zum Extrahieren von Intelligenz aus Text”, http://www.rocketsoftware.com/products/aerotext Archiviert 2013-06-21 an der Wayback-Maschine (abgerufen: 18.06.2012).
  24. ^ Orchestr8 (2012): “AlchemyAPI Overview”, http://www.alchemyapi.com/api Archiviert 2016-05-13 an der Wayback-Maschine (abgerufen: 18.06.2012).
  25. ^ Die Universität von Sheffield (2011). “ANNIE: ein fast neues Informationsextraktionssystem”, http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (abgerufen: 18.06.2012).
  26. ^ ILP-Exzellenznetzwerk. “ASIUM (LRI)”, http://www-ai.ijs.si/~ilpnet2/systems/asium.html (abgerufen: 18.06.2012).
  27. ^ Attensity (2012). “Vollständige Extraktion”, http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archiviert 2012-07-11 an der Wayback-Maschine (abgerufen: 18.06.2012).
  28. ^ Mendes, Pablo N.; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian (2011). “DBpedia Spotlight: Licht ins Netz der Dokumente bringen”, Vorträge der 7. Internationalen Konferenz über semantische Systeme, p. 1 – 8, http://www.wiwiss.fu-berlin.de/de/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archiviert 2012-04-05 an der Wayback-Maschine (abgerufen: 18.06.2012).
  29. ^ Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). “Semantic Web Machine Reading mit FRED”, Semantic Web Journal, doi: 10.3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
  30. ^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas (2009). “iDocument: Verwenden von Ontologien zum Extrahieren von Informationen aus Text”, http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (abgerufen: 18.06.2012).
  31. ^ SRA International, Inc. (2012). “NetOwl Extractor”, http://www.sra.com/netowl/entity-extraction/ Archiviert 2012-09-24 an der Wayback-Maschine (abgerufen: 18.06.2012).
  32. ^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). “OntoGen: Halbautomatischer Ontologie-Editor”, Tagungsband der Konferenz 2007 über Human Interface, Teil 2, p. 309 – 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (abgerufen: 18.06.2012).
  33. ^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). “Integrierter Ansatz für das Lernen und Engineering von Web-Ontologie”, Computer35 (11), p. 60 – 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (abgerufen: 18.06.2012).
  34. ^ McDowell, Luke K.; Cafarella, Michael (2006). “Ontologie-gesteuerte Informationsextraktion mit OntoSyphon”, Vorträge der 5. internationalen Konferenz über das Semantic Web, p. 428 – 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (abgerufen: 18.06.2012).
  35. ^ Yildiz, Burcu; Miksch, Silvia (2007). “onX – Eine Methode zur Ontologie-gesteuerten Informationsextraktion”, Vorträge der internationalen Konferenz 2007 über Computerwissenschaften und ihre Anwendungen, 3, p. 660 – 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (abgerufen: 18.06.2012).
  36. ^ semanticweb.org (2011). “PoolParty Extractor”, http://semanticweb.org/wiki/PoolParty_Extractor Archiviert 2016-03-04 an der Wayback-Maschine (abgerufen: 18.06.2012).
  37. ^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R.; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A.; Zien, Jason Y. (2003). “SemTag und Sucher: Bootstraping des Semantic Web über automatisierte semantische Annotation”, Vorträge der 12. internationalen Konferenz über das World Wide Web, p. 178 – 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (abgerufen: 18.06.2012).
  38. ^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio (2006). “Semantische Annotation für das Wissensmanagement: Anforderungen und Überblick über den Stand der Technik”, Web-Semantik: Wissenschaft, Dienste und Agenten im World Wide Web4 (1), p. 14 – 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf[permanent dead link], (abgerufen: 18.06.2012).
  39. ^ Cimiano, Philipp; Völker, Johanna (2005). “Text2Onto – Ein Framework für Ontologie-Lernen und datengesteuerte Änderungserkennung”, Vorträge der 10. Internationalen Konferenz über Anwendungen natürlicher Sprache auf Informationssysteme3513, p. 227 – 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (abgerufen: 18.06.2012).
  40. ^ Maedche, Alexander; Volz, Raphael (2001). “Das Ontologie-Extraktions- und Wartungs-Framework Text-To-Onto”, Tagungsband der IEEE International Conference on Data Mining, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (abgerufen: 18.06.2012).
  41. ^ Maschinenverbindung. “Wir verbinden uns mit der Linked Open Data Cloud”, http://thewikimachine.fbk.eu/html/index.html Archiviert 2012-07-19 an der Wayback-Maschine (abgerufen: 18.06.2012).
  42. ^ Inxight Federal Systems (2008). “Inxight ThingFinder und ThingFinder Professional”, http://inxightfedsys.com/products/sdks/tf/ Archiviert 2012-06-29 an der Wayback-Maschine (abgerufen: 18.06.2012).
  43. ^ Frawley William. F. et al. (1992), “Knowledge Discovery in Databases: Ein Überblick”, AI Magazine (Band 13, Nr. 3), 57-70 (Online-Vollversion: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Archiviert 2016-03-04 an der Wayback-Maschine)
  44. ^ Fayyad U. et al. (1996), “Vom Data Mining zur Wissensermittlung in Datenbanken”, AI Magazine (Band 17, Nr. 3), 37-54 (Online-Vollversion: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Archiviert 2016-05-04 an der Wayback-Maschine
  45. ^ Cao, L. (2010). “Domaingesteuertes Data Mining: Herausforderungen und Perspektiven”. IEEE-Transaktionen zu Knowledge and Data Engineering. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. doi:10.1109 / tkde.2010.32. S2CID 17904603.


after-content-x4