Wissensextraktion – Wikipedia

Posted on December 25, 2020 by lordneo

Wissensextraktion ist die Schaffung von Wissen aus strukturierten (relationale Datenbanken, XML) und unstrukturierten (Text, Dokumente, Bilder) Quellen. Das resultierende Wissen muss in einem maschinenlesbaren und maschineninterpretierbaren Format vorliegen und Wissen auf eine Weise darstellen, die das Ableiten erleichtert. Obwohl es methodisch der Informationsextraktion (NLP) und ETL (Data Warehouse) ähnlich ist, besteht das Hauptkriterium darin, dass das Extraktionsergebnis über die Erstellung strukturierter Informationen oder die Umwandlung in ein relationales Schema hinausgeht. Es erfordert entweder die Wiederverwendung vorhandenen formalen Wissens (Wiederverwendung von Kennungen oder Ontologien) oder die Generierung eines Schemas basierend auf den Quelldaten.

Die RDB2RDF W3C-Gruppe ^[1] standardisiert derzeit eine Sprache zum Extrahieren von Ressourcenbeschreibungs-Frameworks (RDF) aus relationalen Datenbanken. Ein weiteres beliebtes Beispiel für die Extraktion von Wissen ist die Umwandlung von Wikipedia in strukturierte Daten sowie die Zuordnung zu vorhandenem Wissen (siehe DBpedia und Freebase).

Überblick[edit]

Nach der Standardisierung von Wissensrepräsentationssprachen wie RDF und OWL wurden in diesem Bereich zahlreiche Forschungsarbeiten durchgeführt, insbesondere in Bezug auf die Umwandlung relationaler Datenbanken in RDF, Identitätsauflösung, Wissensentdeckung und Ontologielernen. Der allgemeine Prozess verwendet traditionelle Methoden aus der Informationsextraktion und dem Extrahieren, Transformieren und Laden (ETL), die die Daten aus den Quellen in strukturierte Formate transformieren.

Die folgenden Kriterien können verwendet werden, um Ansätze in diesem Thema zu kategorisieren (einige von ihnen berücksichtigen nur die Extraktion aus relationalen Datenbanken):^[2]

Quelle	Welche Datenquellen werden behandelt: Text, relationale Datenbanken, XML, CSV
Exposition	Wie wird das extrahierte Wissen explizit gemacht (Ontologiedatei, semantische Datenbank)? Wie können Sie es abfragen?
Synchronisation	Wird der Wissensextraktionsprozess einmal ausgeführt, um einen Speicherauszug zu erstellen, oder wird das Ergebnis mit der Quelle synchronisiert? Statisch oder dynamisch. Werden Änderungen am Ergebnis zurückgeschrieben (bidirektional)
Wiederverwendung von Vokabeln	Das Tool kann vorhandene Vokabulare in der Extraktion wiederverwenden. Beispielsweise kann die Tabellenspalte ‘firstName’ auf foaf: firstName abgebildet werden. Einige automatische Ansätze sind nicht in der Lage, Vokabeln abzubilden.
Automatisierung	Der Grad, in dem die Extraktion unterstützt / automatisiert wird. Manuell, GUI, halbautomatisch, automatisch.
Benötigt eine Domain-Ontologie	Für die Zuordnung ist eine bereits vorhandene Ontologie erforderlich. Es wird also entweder ein Mapping erstellt oder ein Schema aus der Quelle gelernt (Ontologielernen).

Beispiele[edit]

Entitätsverknüpfung[edit]

DBpedia Spotlight, OpenCalais, Löwenzahn dataTXT, die Zemanta API, Extractiv und PoolParty Extractor Analysieren Sie freien Text über die Erkennung benannter Entitäten und unterscheiden Sie die Kandidaten dann über die Namensauflösung und verknüpfen Sie die gefundenen Entitäten mit dem DBpedia-Wissensrepository^[3] ((Löwenzahn dataTXT Demo oder DBpedia Spotlight Web-Demo oder PoolParty Extractor Demo).

Präsident Obama am Mittwoch angerufen Kongress Verlängerung einer Steuervergünstigung für Studenten, die im Konjunkturpaket des letzten Jahres enthalten waren, mit der Begründung, dass die Politik großzügigere Unterstützung bietet.

Da Präsident Obama mit einer DBpedia LinkedData-Ressource verknüpft ist, können weitere Informationen automatisch abgerufen werden, und ein Semantic Reasoner kann beispielsweise schließen, dass die erwähnte Entität vom Typ ist Person (mit FOAF (Software)) und vom Typ Präsidenten der Vereinigten Staaten (mit YAGO). Gegenbeispiele: Methoden, die nur Entitäten erkennen oder auf Wikipedia-Artikel und andere Ziele verlinken, die keinen weiteren Abruf strukturierter Daten und formalen Wissens ermöglichen.

Relationale Datenbanken zu RDF[edit]

Triplify, D2R Server, Ultrawrapund Virtuoso RDF-Ansichten sind Tools, die relationale Datenbanken in RDF umwandeln. Während dieses Prozesses können vorhandene Vokabulare und Ontologien während des Konvertierungsprozesses wiederverwendet werden. Bei der Transformation einer typischen relationalen Tabelle mit dem Namen Benutzereine Spalte (zName) oder eine Aggregation von Spalten (zVorname und Familienname, Nachname) muss den URI der erstellten Entität angeben. Normalerweise wird der Primärschlüssel verwendet. Jede zweite Spalte kann als Beziehung zu dieser Entität extrahiert werden.^[4] Dann werden Eigenschaften mit formal definierter Semantik verwendet (und wiederverwendet), um die Informationen zu interpretieren. Beispiel: Eine Spalte in einer Benutzertabelle wird aufgerufen verheiratet mit kann als symmetrische Beziehung und eine Spalte definiert werden Startseite kann in eine Eigenschaft aus dem FOAF-Wortschatz umgewandelt werden foaf: homepageund qualifiziert es somit als inverse funktionale Eigenschaft. Dann jeder Eintrag der Nutzer Tabelle kann zu einer Instanz der Klasse gemacht werden Foaf: Person (Ontologie Bevölkerung). Zusätzlich könnte Domänenwissen (in Form einer Ontologie) aus dem erstellt werden status_id, entweder durch manuell erstellte Regeln (wenn status_id ist 2, der Eintrag gehört zur Klasse Lehrer) oder nach (halb) automatisierten Methoden (Ontologielernen). Hier ist eine Beispieltransformation:

 :Peter :marriedTo :Mary .  
 :marriedTo a owl:SymmetricProperty .  
 :Peter foaf:homepage   .  
 :Peter a foaf:Person .   
 :Peter a :Student .  
 :Claus a :Teacher .

1: 1-Zuordnung von RDB-Tabellen / -Ansichten zu RDF-Entitäten / -Attributen / -Werten[edit]

Beim Erstellen einer RDB-Darstellung einer Problemdomäne ist der Ausgangspunkt häufig ein Entity-Relationship-Diagramm (ERD). In der Regel wird jede Entität als Datenbanktabelle dargestellt, jedes Attribut der Entität wird zu einer Spalte in dieser Tabelle, und Beziehungen zwischen Entitäten werden durch Fremdschlüssel angegeben. Jede Tabelle definiert normalerweise eine bestimmte Entitätsklasse, jede Spalte eines ihrer Attribute. Jede Zeile in der Tabelle beschreibt eine Entitätsinstanz, die durch einen Primärschlüssel eindeutig identifiziert wird. Die Tabellenzeilen beschreiben zusammen einen Entitätssatz. In einer äquivalenten RDF-Darstellung desselben Entitätssatzes:

Jede Spalte in der Tabelle ist ein Attribut (dh ein Prädikat).
Jeder Spaltenwert ist ein Attributwert (dh Objekt).
Jeder Zeilenschlüssel repräsentiert eine Entitäts-ID (dh einen Betreff).
Jede Zeile repräsentiert eine Entitätsinstanz
Jede Zeile (Entitätsinstanz) wird in RDF durch eine Sammlung von Tripeln mit einem gemeinsamen Betreff (Entitäts-ID) dargestellt.

Um eine äquivalente Ansicht basierend auf der RDF-Semantik zu rendern, wäre der grundlegende Zuordnungsalgorithmus wie folgt:

Erstellen Sie für jede Tabelle eine RDFS-Klasse
Konvertieren Sie alle Primärschlüssel und Fremdschlüssel in IRIs
Weisen Sie jeder Spalte ein Prädikat-IRI zu
Weisen Sie jeder Zeile ein Prädikat vom Typ rdf: zu und verknüpfen Sie es mit einer der Tabelle entsprechenden IRI der RDFS-Klasse
Erstellen Sie für jede Spalte, die weder Teil eines Primär- noch eines Fremdschlüssels ist, ein Tripel, das den Primärschlüssel-IRI als Subjekt, den Spalten-IRI als Prädikat und den Spaltenwert als Objekt enthält.

Eine frühe Erwähnung dieser grundlegenden oder direkten Abbildung findet sich in Tim Berners-Lees Vergleich des ER-Modells mit dem RDF-Modell.^[4]

Komplexe Zuordnungen relationaler Datenbanken zu RDF[edit]

Die oben erwähnte 1: 1-Zuordnung macht die Altdaten auf einfache Weise als RDF verfügbar. Zusätzliche Verfeinerungen können eingesetzt werden, um die Nützlichkeit der RDF-Ausgabe in Bezug auf die angegebenen Anwendungsfälle zu verbessern. Normalerweise gehen Informationen während der Transformation eines Entity-Relationship-Diagramms (ERD) in relationale Tabellen verloren (Details finden Sie in der nicht übereinstimmenden objektrelationalen Impedanz) und müssen rückentwickelt werden. Aus konzeptioneller Sicht können Extraktionsansätze aus zwei Richtungen kommen. Die erste Richtung versucht, ein OWL-Schema aus dem angegebenen Datenbankschema zu extrahieren oder zu lernen. Frühe Ansätze verwendeten eine feste Anzahl manuell erstellter Zuordnungsregeln, um die 1: 1-Zuordnung zu verfeinern.^[5]^[6]^[7] Ausgefeiltere Methoden verwenden Heuristiken oder Lernalgorithmen, um schematische Informationen zu induzieren (Methoden überschneiden sich mit dem Lernen in der Ontologie). Während einige Ansätze versuchen, die Informationen aus der Struktur zu extrahieren, die dem SQL-Schema inhärent ist^[8] (zB Fremdschlüssel analysieren), andere analysieren den Inhalt und die Werte in den Tabellen, um konzeptionelle Hierarchien zu erstellen^[9] (zB Spalten mit wenigen Werten sind Kandidaten, um Kategorien zu werden). Die zweite Richtung versucht, das Schema und seinen Inhalt einer bereits vorhandenen Domänenontologie zuzuordnen (siehe auch: Ausrichtung der Ontologie). Oft existiert jedoch keine geeignete Domain-Ontologie und muss zuerst erstellt werden.

XML[edit]

Da XML als Baum strukturiert ist, können alle Daten einfach in RDF dargestellt werden, das als Diagramm strukturiert ist. XML2RDF ist ein Beispiel für einen Ansatz, der leere RDF-Knoten verwendet und XML-Elemente und -Attribute in RDF-Eigenschaften umwandelt. Das Thema ist jedoch komplexer als bei relationalen Datenbanken. In einer relationalen Tabelle ist der Primärschlüssel ein idealer Kandidat, um Gegenstand der extrahierten Tripel zu werden. Ein XML-Element kann jedoch – je nach Kontext – als Subjekt, Prädikat oder Objekt eines Tripels transformiert werden. XSLT kann als Standardtransformationssprache verwendet werden, um XML manuell in RDF zu konvertieren.

Übersicht über Methoden / Werkzeuge[edit]

Name	Datenquelle	Datenausstellung	Datensynchronisation	Mapping-Sprache	Wiederverwendung des Wortschatzes	Mapping-Automat.	Anf. Domain-Ontologie	Verwendet GUI
Eine direkte Zuordnung relationaler Daten zu RDF	Relationale Daten	SPARQL / ETL	dynamisch	N / A	falsch	automatisch	falsch	falsch
CSV2RDF4LOD	CSV	ETL	statisch	RDF	wahr	Handbuch	falsch	falsch
CoNLL-RDF	TSV, CoNLL	SPARQL / RDF-Stream	statisch	keiner	wahr	automatisch (domänenspezifisch, für Anwendungsfälle in der Sprachtechnologie, behält die Beziehungen zwischen Zeilen bei)	falsch	falsch
Convert2RDF	Begrenzte Textdatei	ETL	statisch	RDF / DAML	wahr	Handbuch	falsch	wahr
D2R Server	RDB	SPARQL	bidirektional	D2R Karte	wahr	Handbuch	falsch	falsch
DartGrid	RDB	eigene Abfragesprache	dynamisch	Visuelles Werkzeug	wahr	Handbuch	falsch	wahr
DataMaster	RDB	ETL	statisch	proprietär	wahr	Handbuch	wahr	wahr
RDF-Erweiterung von Google Refine	CSV, XML	ETL	statisch	keiner		halbautomatisch	falsch	wahr
Krextor	XML	ETL	statisch	xslt	wahr	Handbuch	wahr	falsch
MAPONTO	RDB	ETL	statisch	proprietär	wahr	Handbuch	wahr	falsch
METAmorphosen	RDB	ETL	statisch	proprietäre XML-basierte Mapping-Sprache	wahr	Handbuch	falsch	wahr
MappingMaster	CSV	ETL	statisch	MappingMaster	wahr	GUI	falsch	wahr
ODEMapster	RDB	ETL	statisch	proprietär	wahr	Handbuch	wahr	wahr
OntoWiki CSV Importer Plug-In – DataCube & Tabular	CSV	ETL	statisch	Der RDF Data Cube Vocaublary	wahr	halbautomatisch	falsch	wahr
Poolparty Extraktor (PPX)	XML, Text	LinkedData	dynamisch	RDF (SKOS)	wahr	halbautomatisch	wahr	falsch
RDBToOnto	RDB	ETL	statisch	keiner	falsch	Automatisch hat der Benutzer außerdem die Möglichkeit, die Ergebnisse zu optimieren	falsch	wahr
RDF 123	CSV	ETL	statisch	falsch	falsch	Handbuch	falsch	wahr
RDOTE	RDB	ETL	statisch	SQL	wahr	Handbuch	wahr	wahr
Relational.OWL	RDB	ETL	statisch	keiner	falsch	automatisch	falsch	falsch
T2LD	CSV	ETL	statisch	falsch	falsch	automatisch	falsch	falsch
Das RDF Data Cube-Vokabular	Mehrdimensionale statistische Daten in Tabellenkalkulationen			Datenwürfel-Wortschatz	wahr	Handbuch	falsch
TopBraid Komponist	CSV	ETL	statisch	SKOS	falsch	halbautomatisch	falsch	wahr
Verdreifachen	RDB	LinkedData	dynamisch	SQL	wahr	Handbuch	falsch	falsch
Ultrawrap	RDB	SPARQL / ETL	dynamisch	R2RML	wahr	halbautomatisch	falsch	wahr
Virtuose RDF-Ansichten	RDB	SPARQL	dynamisch	Meta-Schema-Sprache	wahr	halbautomatisch	falsch	wahr
Virtuoser Schwamm	strukturierte und halbstrukturierte Datenquellen	SPARQL	dynamisch	Virtuose PL & XSLT	wahr	halbautomatisch	falsch	falsch
Vis-a-Vis	RDB	RDQL	dynamisch	SQL	wahr	Handbuch	wahr	wahr
XLWrap: Tabellenkalkulation zu RDF	CSV	ETL	statisch	TriG-Syntax	wahr	Handbuch	falsch	falsch
XML zu RDF	XML	ETL	statisch	falsch	falsch	automatisch	falsch	falsch

Der größte Teil der Informationen ist in Geschäftsdokumenten enthalten (ca. 80%)^[10]) ist in natürlicher Sprache codiert und daher unstrukturiert. Da unstrukturierte Daten eher eine Herausforderung für die Wissensextraktion darstellen, sind komplexere Methoden erforderlich, die im Vergleich zu strukturierten Daten im Allgemeinen schlechtere Ergebnisse liefern. Das Potenzial für einen massiven Erwerb von extrahiertem Wissen sollte jedoch die erhöhte Komplexität und die verringerte Qualität der Extraktion kompensieren. Unter natürlichen Sprachquellen werden im Folgenden Informationsquellen verstanden, bei denen die Daten unstrukturiert als Klartext angegeben werden. Wenn der angegebene Text zusätzlich in ein Markup-Dokument (z. B. ein HTML-Dokument) eingebettet ist, entfernen die genannten Systeme die Markup-Elemente normalerweise automatisch.

Sprachliche Annotation / Verarbeitung natürlicher Sprache (NLP)[edit]

Als Vorverarbeitungsschritt zur Wissensextraktion kann es erforderlich sein, sprachliche Anmerkungen mit einem oder mehreren NLP-Tools durchzuführen. Einzelne Module in einem NLP-Workflow bauen normalerweise auf werkzeugspezifischen Formaten für die Eingabe und Ausgabe auf. Im Rahmen der Wissensextraktion wurden jedoch strukturierte Formate für die Darstellung sprachlicher Anmerkungen angewendet.

Typische NLP-Aufgaben, die für die Wissensextraktion relevant sind, umfassen:

POS-Tagging (Part-of-Speech)
Lemmatisierung (LEMMA) oder Stemming (STEM)
Wortsinn-Disambiguierung (WSD, im Zusammenhang mit der semantischen Annotation unten)
Erkennung benannter Entitäten (NER, siehe auch IE unten)
syntaktisches Parsen, wobei häufig syntaktische Abhängigkeiten (DEP) verwendet werden
Flaches syntaktisches Parsing (CHUNK): Wenn die Leistung ein Problem darstellt, führt das Chunking zu einer schnellen Extraktion von nominalen und anderen Phrasen
Anapherauflösung (siehe Koreferenzauflösung im IE unten, aber hier als Aufgabe gesehen, Verknüpfungen zwischen textuellen Erwähnungen und nicht zwischen der Erwähnung einer Entität und einer abstrakten Darstellung der Entität herzustellen)
semantische Rollenbeschriftung (SRL, bezogen auf die Beziehungsextraktion; nicht zu verwechseln mit semantischer Annotation wie unten beschrieben)
Diskursanalyse (Beziehungen zwischen verschiedenen Sätzen, die in realen Anwendungen selten verwendet werden)

In NLP werden solche Daten typischerweise in TSV-Formaten (CSV-Formate mit TAB als Trennzeichen) dargestellt, die häufig als CoNLL-Formate bezeichnet werden. Für Workflows zur Wissensextraktion wurden RDF-Ansichten zu solchen Daten gemäß den folgenden Community-Standards erstellt:

NLP Interchange Format (NIF, für viele häufige Arten von Anmerkungen)^[11]^[12]
Web Annotation (WA, häufig für die Verknüpfung von Entitäten verwendet)^[13]
CoNLL-RDF (für Anmerkungen, die ursprünglich in TSV-Formaten dargestellt wurden)^[14]^[15]

Andere plattformspezifische Formate umfassen

LAPPS Interchange Format (LIF, verwendet im LAPPS Grid)^[16]^[17]
NLP Annotation Format (NAF, verwendet im NewsReader-Workflow-Management-System)^[18]^[19]

[edit]

Traditionelle Informationsextraktion ^[20] ist eine Technologie der Verarbeitung natürlicher Sprache, die Informationen aus typischen Texten natürlicher Sprache extrahiert und diese in geeigneter Weise strukturiert. Die Arten der zu identifizierenden Informationen müssen vor Beginn des Prozesses in einem Modell angegeben werden, weshalb der gesamte Prozess der traditionellen Informationsextraktion domänenabhängig ist. Der IE ist in die folgenden fünf Unteraufgaben unterteilt.

Die Aufgabe der Erkennung benannter Entitäten besteht darin, alle in einem Text enthaltenen benannten Entitäten zu erkennen und zu kategorisieren (Zuordnung einer benannten Entität zu einer vordefinierten Kategorie). Dies funktioniert durch Anwendung grammatikalischer Methoden oder statistischer Modelle.

Die Koreferenzauflösung identifiziert äquivalente Entitäten, die von NER innerhalb eines Textes erkannt wurden. Es gibt zwei relevante Arten von Äquivalenzbeziehungen. Die erste bezieht sich auf die Beziehung zwischen zwei verschiedenen vertretenen Entitäten (z. B. IBM Europe und IBM) und die zweite auf die Beziehung zwischen einer Entität und ihren anaphorischen Referenzen (z. B. it und IBM). Beide Arten können durch Koreferenzauflösung erkannt werden.

Während der Erstellung von Vorlagenelementen identifiziert das IE-System beschreibende Eigenschaften von Entitäten, die von NER und CO erkannt werden. Diese Eigenschaften entsprechen gewöhnlichen Eigenschaften wie Rot oder Groß.

Die Erstellung von Vorlagenbeziehungen identifiziert Beziehungen, die zwischen den Vorlagenelementen bestehen. Es kann verschiedene Arten von Beziehungen geben, z. B. “Works-for” oder “Location-In”, mit der Einschränkung, dass sowohl Domäne als auch Bereich Entitäten entsprechen.

In dem Vorlagenszenario werden Produktionsereignisse, die im Text beschrieben werden, in Bezug auf die von NER und CO erkannten Entitäten und die von TR identifizierten Beziehungen identifiziert und strukturiert.

[edit]

Ontologiebasierte Informationsextraktion ^[10] ist ein Teilfeld der Informationsextraktion, mit dem mindestens eine Ontologie verwendet wird, um den Prozess der Informationsextraktion aus Text in natürlicher Sprache zu steuern. Das OBIE-System verwendet Methoden der traditionellen Informationsextraktion, um Konzepte, Instanzen und Beziehungen der verwendeten Ontologien im Text zu identifizieren, die nach dem Prozess zu einer Ontologie strukturiert werden. Somit bilden die Eingabe-Ontologien das Modell der zu extrahierenden Informationen.

Ontologielernen (OL)[edit]

Das Lernen von Ontologien ist die automatische oder halbautomatische Erstellung von Ontologien, einschließlich des Extrahierens der Begriffe der entsprechenden Domäne aus Text in natürlicher Sprache. Da das manuelle Erstellen von Ontologien äußerst arbeitsintensiv und zeitaufwändig ist, besteht eine große Motivation, den Prozess zu automatisieren.

Semantische Annotation (SA)[edit]

Während der semantischen Annotation^[21] Text in natürlicher Sprache wird durch Metadaten (häufig in RDFa dargestellt) ergänzt, die die Semantik der enthaltenen Begriffe maschinenverständlich machen sollen. Bei diesem im Allgemeinen halbautomatischen Prozess wird Wissen in dem Sinne extrahiert, dass eine Verbindung zwischen lexikalischen Begriffen und beispielsweise Konzepten aus Ontologien hergestellt wird. Auf diese Weise wird Wissen gewonnen, welche Bedeutung eines Begriffs im verarbeiteten Kontext beabsichtigt war, und daher basiert die Bedeutung des Textes auf maschinenlesbaren Daten mit der Fähigkeit, Schlussfolgerungen zu ziehen. Die semantische Annotation ist normalerweise in die folgenden zwei Unteraufgaben unterteilt.

Terminologieextraktion
Entitätsverknüpfung

Auf der Ebene der Terminologieextraktion werden lexikalische Begriffe aus dem Text extrahiert. Zu diesem Zweck bestimmt ein Tokenizer zunächst die Wortgrenzen und löst Abkürzungen. Anschließend werden Begriffe aus dem Text, die einem Konzept entsprechen, mit Hilfe eines domänenspezifischen Lexikons extrahiert, um diese bei der Entitätsverknüpfung zu verknüpfen.

In der Entitätsverknüpfung ^[22] Es wird eine Verbindung zwischen den aus dem Quelltext extrahierten lexikalischen Begriffen und den Konzepten aus einer Ontologie oder Wissensbasis wie DBpedia hergestellt. Dazu werden Kandidatenkonzepte mit Hilfe eines Lexikons entsprechend den verschiedenen Bedeutungen eines Begriffs erkannt. Schließlich wird der Kontext der Begriffe analysiert, um die am besten geeignete Begriffsklärung zu ermitteln und den Begriff dem richtigen Konzept zuzuordnen.

Beachten Sie, dass “semantische Annotation” im Kontext der Wissensextraktion nicht mit semantischem Parsing im Sinne der Verarbeitung natürlicher Sprache (auch als “semantische Annotation” bezeichnet) zu verwechseln ist: Semantisches Parsing zielt auf eine vollständige, maschinenlesbare Darstellung der natürlichen Sprache ab Während semantische Annotationen im Sinne der Wissensextraktion nur einen sehr elementaren Aspekt davon ansprechen.

Werkzeuge[edit]

Die folgenden Kriterien können verwendet werden, um Werkzeuge zu kategorisieren, die Wissen aus Text in natürlicher Sprache extrahieren.

Quelle	Welche Eingabeformate können vom Tool verarbeitet werden (zB Klartext, HTML oder PDF)?
Zugriffsparadigma	Kann das Tool die Datenquelle abfragen oder benötigt es einen vollständigen Speicherauszug für den Extraktionsprozess?
Datensynchronisation	Ist das Ergebnis des Extraktionsprozesses mit der Quelle synchronisiert?
Verwendet die Ausgabe-Ontologie	Verknüpft das Tool das Ergebnis mit einer Ontologie?
Mapping-Automatisierung	Wie automatisiert ist der Extraktionsprozess (manuell, halbautomatisch oder automatisch)?
Benötigt Ontologie	Benötigt das Tool eine Ontologie für die Extraktion?
Verwendet GUI	Bietet das Tool eine grafische Benutzeroberfläche?
Ansatz	Welcher Ansatz (IE, OBIE, OL oder SA) wird vom Tool verwendet?
Extrahierte Entitäten	Welche Arten von Entitäten (z. B. benannte Entitäten, Konzepte oder Beziehungen) können vom Tool extrahiert werden?
Angewandte Techniken	Welche Techniken werden angewendet (zB NLP, statistische Methoden, Clustering oder maschinelles Lernen)?
Ausgabemodell	Welches Modell wird verwendet, um das Ergebnis des Tools darzustellen (z. B. RDF oder OWL)?
Unterstützte Domains	Welche Bereiche werden unterstützt (zB Wirtschaft oder Biologie)?
Unterstützte Sprachen	Welche Sprachen können verarbeitet werden (zB Englisch oder Deutsch)?

In der folgenden Tabelle sind einige Tools für die Wissensextraktion aus natürlichen Sprachquellen aufgeführt.

Name	Quelle	Zugriffsparadigma	Datensynchronisation	Verwendet die Ausgabe-Ontologie	Mapping-Automatisierung	Benötigt Ontologie	Verwendet GUI	Ansatz	Extrahierte Entitäten	Angewandte Techniken	Ausgabemodell	Unterstützte Domains	Unterstützte Sprachen
[1] ^[23]	Klartext, HTML, XML, SGML	Dump	Nein	Ja	automatisch	Ja	Ja	IE	benannte Entitäten, Beziehungen, Ereignisse	Sprachregeln	proprietär	domänenunabhängig	Englisch, Spanisch, Arabisch, Chinesisch, Indonesisch
AlchemyAPI ^[24]	Klartext, HTML				automatisch		Ja	SA					mehrsprachig
ANNIE ^[25]	Klartext	Dump				Ja	Ja	IE		Finite-State-Algorithmen			mehrsprachig
ASIUM ^[26]	Klartext	Dump			halbautomatisch		Ja	OL	Konzepte, Konzepthierarchie	NLP, Clustering
Erschöpfende erschöpfende Extraktion ^[27]					automatisch			IE	benannte Entitäten, Beziehungen, Ereignisse	NLP
Löwenzahn API	Klartext, HTML, URL	SICH AUSRUHEN	Nein	Nein	automatisch	Nein	Ja	SA	benannte Entitäten, Konzepte	statistische Methoden	JSON	domänenunabhängig	mehrsprachig
DBpedia Spotlight ^[28]	Klartext, HTML	Dump, SPARQL	Ja	Ja	automatisch	Nein	Ja	SA	Anmerkung zu jedem Wort, Anmerkung zu Nicht-Stoppwörtern	NLP, statistische Methoden, maschinelles Lernen	RDFa	domänenunabhängig	Englisch
EntityClassifier.eu	Klartext, HTML	Dump	Ja	Ja	automatisch	Nein	Ja	IE, OL, SA	Anmerkung zu jedem Wort, Anmerkung zu Nicht-Stoppwörtern	regelbasierte Grammatik	XML	domänenunabhängig	Englisch, Deutsch, Niederländisch
Fred ^[29]	Klartext	Dump, REST-API	Ja	Ja	automatisch	Nein	Ja	IE, OL, SA, Ontologie-Entwurfsmuster, Rahmensemantik	(Mehr-) Wort-NIF- oder EarMark-Annotation, Prädikate, Instanzen, Kompositionssemantik, Konzepttaxonomien, Rahmen, semantische Rollen, periphrastische Beziehungen, Ereignisse, Modalität, Zeitform, Entitätsverknüpfung, Ereignisverknüpfung, Stimmung	NLP, maschinelles Lernen, heuristische Regeln	RDF / OWL	domänenunabhängig	Englisch, andere Sprachen per Übersetzung
iDocument ^[30]	HTML, PDF, DOC	SPARQL		Ja			Ja	OBIE	Instanzen, Eigenschaftswerte	NLP		persönliche Angelegenheit
NetOwl Extractor ^[31]	Klartext, HTML, XML, SGML, PDF, MS Office	Dump	Nein	Ja	Automatisch	Ja	Ja	IE	benannte Entitäten, Beziehungen, Ereignisse	NLP	XML, JSON, RDF-OWL, andere	mehrere Domänen	Englisch, Arabisch Chinesisch (vereinfacht und traditionell), Französisch, Koreanisch, Persisch (Persisch und Dari), Russisch, Spanisch
OntoGen ^[32]					halbautomatisch		Ja	OL	Konzepte, Konzepthierarchie, nicht taxonomische Beziehungen, Instanzen	NLP, maschinelles Lernen, Clustering
OntoLearn ^[33]	Klartext, HTML	Dump	Nein	Ja	automatisch	Ja	Nein	OL	Konzepte, Konzepthierarchie, Instanzen	NLP, statistische Methoden	proprietär	domänenunabhängig	Englisch
OntoLearn neu geladen	Klartext, HTML	Dump	Nein	Ja	automatisch	Ja	Nein	OL	Konzepte, Konzepthierarchie, Instanzen	NLP, statistische Methoden	proprietär	domänenunabhängig	Englisch
OntoSyphon ^[34]	HTML, PDF, DOC	Dump, Suchmaschinenabfragen	Nein	Ja	automatisch	Ja	Nein	OBIE	Konzepte, Beziehungen, Instanzen	NLP, statistische Methoden	RDF	domänenunabhängig	Englisch
aufX ^[35]	Klartext	Dump	Nein	Ja	halbautomatisch	Ja	Nein	OBIE	Instanzen, Datentyp-Eigenschaftswerte	heuristische Methoden	proprietär	domänenunabhängig	sprachunabhängig
OpenCalais	Klartext, HTML, XML	Dump	Nein	Ja	automatisch	Ja	Nein	SA	Anmerkung zu Entitäten, Anmerkung zu Ereignissen, Anmerkung zu Fakten	NLP, maschinelles Lernen	RDF	domänenunabhängig	Englisch, Französisch, Spanisch
PoolParty Extractor ^[36]	Klartext, HTML, DOC, ODT	Dump	Nein	Ja	automatisch	Ja	Ja	OBIE	benannte Entitäten, Konzepte, Beziehungen, Konzepte, die den Text kategorisieren, Anreicherungen	NLP, maschinelles Lernen, statistische Methoden	RDF, OWL	domänenunabhängig	Englisch, Deutsch, Spanisch, Französisch
Rosoka	Klartext, HTML, XML, SGML, PDF, MS Office	Dump	Ja	Ja	Automatisch	Nein	Ja	IE	Extraktion benannter Entitäten, Entitätsauflösung, Beziehungsextraktion, Attribute, Konzepte, Multi-Vektor-Stimmungsanalyse, Geotagging, Sprachidentifikation	NLP, maschinelles Lernen	XML, JSON, POJO, RDF	mehrere Domänen	Mehrsprachige 200+ Sprachen
SCOOBIE	Klartext, HTML	Dump	Nein	Ja	automatisch	Nein	Nein	OBIE	Instanzen, Eigenschaftswerte, RDFS-Typen	NLP, maschinelles Lernen	RDF, RDFa	domänenunabhängig	Englisch Deutsch
SemTag ^[37]^[38]	HTML	Dump	Nein	Ja	automatisch	Ja	Nein	SA		maschinelles Lernen	Datenbankeintrag	domänenunabhängig	sprachunabhängig
Smart FIX	Klartext, HTML, PDF, DOC, E-Mail	Dump	Ja	Nein	automatisch	Nein	Ja	OBIE	benannte Entitäten	NLP, maschinelles Lernen	proprietär	domänenunabhängig	Englisch, Deutsch, Französisch, Niederländisch, Polnisch
Text2Onto ^[39]	Klartext, HTML, PDF	Dump	Ja	Nein	halbautomatisch	Ja	Ja	OL	Konzepte, Konzepthierarchie, nicht taxonomische Beziehungen, Instanzen, Axiome	NLP, statistische Methoden, maschinelles Lernen, regelbasierte Methoden	EULE	deomain-unabhängig	Englisch, Deutsch, Spanisch
Text-To-Onto ^[40]	Klartext, HTML, PDF, PostScript	Dump			halbautomatisch	Ja	Ja	OL	Konzepte, Konzepthierarchie, nicht taxonomische Beziehungen, lexikalische Entitäten, die sich auf Konzepte beziehen, lexikalische Entitäten, die sich auf Beziehungen beziehen	NLP, maschinelles Lernen, Clustering, statistische Methoden			Deutsche
ThatNeedle	Klartext	Dump			automatisch		Nein		Konzepte, Beziehungen, Hierarchie	NLP, proprietär	JSON	mehrere Domänen	Englisch
Die Wiki-Maschine ^[41]	Klartext, HTML, PDF, DOC	Dump	Nein	Ja	automatisch	Ja	Ja	SA	Anmerkung zu Eigennamen, Anmerkung zu allgemeinen Substantiven	maschinelles Lernen	RDFa	domänenunabhängig	Englisch, Deutsch, Spanisch, Französisch, Portugiesisch, Italienisch, Russisch
ThingFinder ^[42]								IE	benannte Entitäten, Beziehungen, Ereignisse				mehrsprachig

Wissensentdeckung[edit]

Knowledge Discovery beschreibt den Prozess der automatischen Suche großer Datenmengen nach Mustern, die als Wissen betrachtet werden können Über die Daten.^[43] Es wird oft beschrieben als ableiten Wissen aus den Eingabedaten. Die Wissensentdeckung wurde aus dem Bereich Data Mining heraus entwickelt und ist sowohl methodisch als auch terminologisch eng damit verbunden.^[44]

Der bekannteste Zweig des Data Mining ist die Wissenserkennung, auch als Wissenserkennung in Datenbanken (KDD) bekannt. Ebenso wie bei vielen anderen Formen der Wissensentdeckung werden Abstraktionen der Eingabedaten erstellt. Das Wissen durch den Prozess erhalten kann zusätzlich werden Daten das kann für die weitere Verwendung und Entdeckung verwendet werden. Oft sind die Ergebnisse der Wissensentdeckung nicht umsetzbar, umsetzbare Wissensentdeckung, auch als domänengesteuertes Data Mining bekannt.^[45] zielt darauf ab, umsetzbares Wissen und Erkenntnisse zu entdecken und zu liefern.

Eine weitere vielversprechende Anwendung der Wissensentdeckung liegt im Bereich der Softwaremodernisierung, Schwachstellenerkennung und Compliance, bei der vorhandene Software-Artefakte verstanden werden. Dieser Prozess steht im Zusammenhang mit einem Konzept des Reverse Engineering. In der Regel wird das aus vorhandener Software gewonnene Wissen in Form von Modellen dargestellt, an die bei Bedarf spezifische Abfragen gestellt werden können. Eine Entitätsbeziehung ist ein häufiges Format zur Darstellung von Wissen, das aus vorhandener Software gewonnen wurde. Die Object Management Group (OMG) hat die Spezifikation Knowledge Discovery Metamodel (KDM) entwickelt, die eine Ontologie für die Software-Assets und ihre Beziehungen definiert, um die Wissensermittlung in vorhandenem Code durchzuführen. Die Entdeckung von Wissen aus vorhandenen Softwaresystemen, auch als Software Mining bezeichnet, ist eng mit dem Data Mining verbunden, da vorhandene Software-Artefakte einen enormen Wert für das Risikomanagement und den Geschäftswert enthalten, der für die Bewertung und Entwicklung von Softwaresystemen von entscheidender Bedeutung ist. Anstatt einzelne Datensätze abzubauen, konzentriert sich das Software-Mining auf Metadaten wie Prozessabläufe (z. B. Datenflüsse, Kontrollflüsse und Anrufzuordnungen), Architektur, Datenbankschemata und Geschäftsregeln / -begriffe / -prozesse.

Eingabedaten[edit]

Ausgabeformate[edit]

Siehe auch[edit]

Verweise[edit]

^ RDB2RDF-Arbeitsgruppe, Website: http://www.w3.org/2001/sw/rdb2rdf/, Charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: Zuordnungssprache von RDB zu RDF: http://www.w3.org/TR/r2rml/
^ LOD2 EU Deliverable 3.1.1 Wissensextraktion aus strukturierten Quellen http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archiviert 2011-08-27 an der Wayback-Maschine
^ “Leben in der verknüpften Datenwolke”. www.opencalais.com. Archiviert von das Original am 24.11.2009. Abgerufen 2009-11-10. Wikipedia hat einen Linked Data-Zwilling namens DBpedia. DBpedia hat die gleichen strukturierten Informationen wie Wikipedia – jedoch in ein maschinenlesbares Format übersetzt.
^ ^ein ^b Tim Berners-Lee (1998), “Relationale Datenbanken im Semantic Web”. Abgerufen: 20. Februar 2011.
^ Hu et al. (2007), “Discovering Simple Mappings zwischen relationalen Datenbankschemata und Ontologien”, In Proc. der 6. Internationalen Semantic Web Konferenz (ISWC 2007), 2. Asian Semantic Web Konferenz (ASWC 2007), LNCS 4825, Seiten 225-238, Busan, Korea, 11.-15. November 2007. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
^ R. Ghawi und N. Cullot (2007), “Database-to-Ontology Mapping Generation for Semantic Interoperability”. Im dritten internationalen Workshop zur Datenbankinteroperabilität (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
^ Li et al. (2005) “Eine halbautomatische Ontologieerfassungsmethode für das Semantic Web”, WAIM, Band 3739, Lecture Notes in Computer Science, Seite 209-220. Springer. doi:10.1007 / 11563952_19
^ Tirmizi et al. (2008), “Übersetzen von SQL-Anwendungen in das Semantic Web”, Lecture Notes in Computer Science, Band 5181/2008 (Datenbank- und Expertensystemanwendungen). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
^ Farid Cerbah (2008). “Lernen hochstrukturierter semantischer Repositories aus relationalen Datenbanken”, The Semantic Web: Research and Applications, Band 5021, Lecture Notes in Computer Science, Springer, Berlin / Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf Archiviert 2011-07-20 an der Wayback-Maschine
^ ^ein ^b Wimalasuriya, Daya C.; Dou, Dejing (2010). “Ontologiebasierte Informationsextraktion: Eine Einführung und ein Überblick über aktuelle Ansätze”, Zeitschrift für Informationswissenschaft36 (3), p. 306 – 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (abgerufen: 18.06.2012).
^ “NLP Interchange Format (NIF) 2.0 – Übersicht und Dokumentation”. persistence.uni-leipzig.org. Abgerufen 2020-06-05.
^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (Hrsg.). “Integration von NLP mithilfe verknüpfter Daten”. Das Semantic Web – ISWC 2013. Vorlesungsunterlagen in Informatik. Berlin, Heidelberg: Springer. 7908: 98–113. doi:10.1007 / 978-3-642-41338-4_7. ISBN 978-3-642-41338-4.
^ Verspoor, Karin; Livingston, Kevin (Juli 2012). “Auf dem Weg zur Anpassung sprachlicher Annotationen an wissenschaftliche Annotationsformalismen im Semantic Web”. Proceedings of the Sixth Linguistic Annotation Workshop. Jeju, Republik Korea: Vereinigung für Computerlinguistik: 75–84.
^ acoli-repo / conll-rdf, ACoLi, 2020-05-27abgerufen 2020-06-05
^ Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P.; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (Hrsg.). “CoNLL-RDF: Verknüpfte Korpora NLP-freundlich gemacht”. Sprache, Daten und Wissen. Vorlesungsunterlagen in Informatik. Cham: Springer International Publishing. 10318: 74–88. doi:10.1007 / 978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (Hrsg.). “Das LAPPS-Austauschformat”. Weltweite Sprachdienstinfrastruktur. Vorlesungsunterlagen in Informatik. Cham: Springer International Publishing. 9442: 33–47. doi:10.1007 / 978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
^ “The Language Application Grid | Eine Webdienstplattform für die Entwicklung und Forschung der Verarbeitung natürlicher Sprache”. Abgerufen 2020-06-05.
^ Newsreader / NAF, NewsReader, 2020-05-25abgerufen 2020-06-05
^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, deutsch; Rospocher, Marco (15.10.2016). “NewsReader: Verwenden von Wissensressourcen in einer mehrsprachigen Lesemaschine, um mehr Wissen aus massiven Nachrichtenströmen zu generieren”. Wissensbasierte Systeme. 110: 60–85. doi:10.1016 / j.knosys.2016.07.013. ISSN 0950-7051.
^ Cunningham, Hamish (2005). “Informationsextraktion, automatisch”, Enzyklopädie der Sprache und Linguistik, 2, p. 665 – 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (abgerufen: 18.06.2012).
^ Erdmann, M.; Maedche, Alexander; Schnurr, H.-P.; Staab, Steffen (2000). “Von der manuellen zur halbautomatischen semantischen Annotation: Informationen zu Ontologie-basierten Text Annotation Tools”, Verfahren der COLING, http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (abgerufen: 18.06.2012).
^ Rao, Delip; McNamee, Paul; Dredze, Mark (2011). “Entity Linking: Extrahierte Entitäten in einer Wissensdatenbank finden”, Extraktion und Zusammenfassung von Informationen aus mehreren Quellen und mehreren Sprachen, http://www.cs.jhu.edu/~delip/entity-linking.pdf^{[permanent dead link]} (abgerufen: 18.06.2012).
^ Rocket Software, Inc. (2012). “Technologie zum Extrahieren von Intelligenz aus Text”, http://www.rocketsoftware.com/products/aerotext Archiviert 2013-06-21 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Orchestr8 (2012): “AlchemyAPI Overview”, http://www.alchemyapi.com/api Archiviert 2016-05-13 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Die Universität von Sheffield (2011). “ANNIE: ein fast neues Informationsextraktionssystem”, http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (abgerufen: 18.06.2012).
^ ILP-Exzellenznetzwerk. “ASIUM (LRI)”, http://www-ai.ijs.si/~ilpnet2/systems/asium.html (abgerufen: 18.06.2012).
^ Attensity (2012). “Vollständige Extraktion”, http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archiviert 2012-07-11 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Mendes, Pablo N.; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian (2011). “DBpedia Spotlight: Licht ins Netz der Dokumente bringen”, Vorträge der 7. Internationalen Konferenz über semantische Systeme, p. 1 – 8, http://www.wiwiss.fu-berlin.de/de/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archiviert 2012-04-05 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). “Semantic Web Machine Reading mit FRED”, Semantic Web Journal, doi: 10.3233 / SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas (2009). “iDocument: Verwenden von Ontologien zum Extrahieren von Informationen aus Text”, http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (abgerufen: 18.06.2012).
^ SRA International, Inc. (2012). “NetOwl Extractor”, http://www.sra.com/netowl/entity-extraction/ Archiviert 2012-09-24 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). “OntoGen: Halbautomatischer Ontologie-Editor”, Tagungsband der Konferenz 2007 über Human Interface, Teil 2, p. 309 – 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (abgerufen: 18.06.2012).
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). “Integrierter Ansatz für das Lernen und Engineering von Web-Ontologie”, Computer35 (11), p. 60 – 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (abgerufen: 18.06.2012).
^ McDowell, Luke K.; Cafarella, Michael (2006). “Ontologie-gesteuerte Informationsextraktion mit OntoSyphon”, Vorträge der 5. internationalen Konferenz über das Semantic Web, p. 428 – 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (abgerufen: 18.06.2012).
^ Yildiz, Burcu; Miksch, Silvia (2007). “onX – Eine Methode zur Ontologie-gesteuerten Informationsextraktion”, Vorträge der internationalen Konferenz 2007 über Computerwissenschaften und ihre Anwendungen, 3, p. 660 – 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (abgerufen: 18.06.2012).
^ semanticweb.org (2011). “PoolParty Extractor”, http://semanticweb.org/wiki/PoolParty_Extractor Archiviert 2016-03-04 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R.; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A.; Zien, Jason Y. (2003). “SemTag und Sucher: Bootstraping des Semantic Web über automatisierte semantische Annotation”, Vorträge der 12. internationalen Konferenz über das World Wide Web, p. 178 – 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (abgerufen: 18.06.2012).
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio (2006). “Semantische Annotation für das Wissensmanagement: Anforderungen und Überblick über den Stand der Technik”, Web-Semantik: Wissenschaft, Dienste und Agenten im World Wide Web4 (1), p. 14 – 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf^{[permanent dead link]}, (abgerufen: 18.06.2012).
^ Cimiano, Philipp; Völker, Johanna (2005). “Text2Onto – Ein Framework für Ontologie-Lernen und datengesteuerte Änderungserkennung”, Vorträge der 10. Internationalen Konferenz über Anwendungen natürlicher Sprache auf Informationssysteme3513, p. 227 – 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (abgerufen: 18.06.2012).
^ Maedche, Alexander; Volz, Raphael (2001). “Das Ontologie-Extraktions- und Wartungs-Framework Text-To-Onto”, Tagungsband der IEEE International Conference on Data Mining, http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (abgerufen: 18.06.2012).
^ Maschinenverbindung. “Wir verbinden uns mit der Linked Open Data Cloud”, http://thewikimachine.fbk.eu/html/index.html Archiviert 2012-07-19 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Inxight Federal Systems (2008). “Inxight ThingFinder und ThingFinder Professional”, http://inxightfedsys.com/products/sdks/tf/ Archiviert 2012-06-29 an der Wayback-Maschine (abgerufen: 18.06.2012).
^ Frawley William. F. et al. (1992), “Knowledge Discovery in Databases: Ein Überblick”, AI Magazine (Band 13, Nr. 3), 57-70 (Online-Vollversion: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Archiviert 2016-03-04 an der Wayback-Maschine)
^ Fayyad U. et al. (1996), “Vom Data Mining zur Wissensermittlung in Datenbanken”, AI Magazine (Band 17, Nr. 3), 37-54 (Online-Vollversion: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Archiviert 2016-05-04 an der Wayback-Maschine
^ Cao, L. (2010). “Domaingesteuertes Data Mining: Herausforderungen und Perspektiven”. IEEE-Transaktionen zu Knowledge and Data Engineering. 22 (6): 755–769. CiteSeerX 10.1.1.190.8427. doi:10.1109 / tkde.2010.32. S2CID 17904603.

Wissensextraktion – Wikipedia

Überblick[edit]

Beispiele[edit]

Entitätsverknüpfung[edit]

Relationale Datenbanken zu RDF[edit]

1: 1-Zuordnung von RDB-Tabellen / -Ansichten zu RDF-Entitäten / -Attributen / -Werten[edit]

Komplexe Zuordnungen relationaler Datenbanken zu RDF[edit]

XML[edit]

Übersicht über Methoden / Werkzeuge[edit]

Sprachliche Annotation / Verarbeitung natürlicher Sprache (NLP)[edit]

[edit]

[edit]

Ontologielernen (OL)[edit]

Semantische Annotation (SA)[edit]

Werkzeuge[edit]

Wissensentdeckung[edit]

Eingabedaten[edit]

Ausgabeformate[edit]

Siehe auch[edit]

Verweise[edit]

Recent Posts

Recent Comments

Archives

Categories

Meta