Daten-Wrangling – Wikipedia

before-content-x4

Umstrukturierung der Daten in ein gewünschtes Format

Daten-Wrangling, manchmal als bezeichnet Daten mungingist der Prozess des Transformierens und Zuordnens von Daten aus einem “Rohdaten” -Formular in ein anderes Format mit der Absicht, sie für eine Vielzahl von nachgelagerten Zwecken wie der Analyse geeigneter und wertvoller zu machen. Das Ziel des Daten-Wranglings ist es, Qualität und nützliche Daten sicherzustellen. Datenanalysten verbringen im Vergleich zur tatsächlichen Analyse der Daten in der Regel den größten Teil ihrer Zeit mit dem Prozess des Daten-Wranglings.

Der Prozess des Daten-Wranglings kann weiteres Munging, Datenvisualisierung, Datenaggregation, Training eines statistischen Modells sowie viele andere mögliche Verwendungen umfassen. Das Daten-Wrangling folgt normalerweise einer Reihe allgemeiner Schritte, die mit dem Extrahieren der Daten in einer Rohform aus der Datenquelle, dem “Munging” der Rohdaten (z. B. Sortieren) oder dem Parsen der Daten in vordefinierte Datenstrukturen und dem endgültigen Ablegen des resultierenden Inhalts beginnen eine Datensenke zur Speicherung und zukünftigen Verwendung.[1]

Hintergrund[edit]

Der nicht-technische Begriff “Wrangler” stammt häufig aus Arbeiten des Nationalen Programms für digitale Informationsinfrastruktur und -erhaltung (NDIIPP) der US-Kongressbibliothek und ihres Programmpartners, der MetaArchive Partnership der Emory University Libraries. Der Begriff “Mung” hat seine Wurzeln im Munging, wie in der Jargon-Datei beschrieben.[2] Der Begriff “Data Wrangler” wurde auch als beste Analogie zum Codierer für jemanden vorgeschlagen, der mit Daten arbeitet.[3]

Eine der ersten Erwähnungen von Datenstreitigkeiten in einem wissenschaftlichen Kontext war Donald Cline während des NASA / NOAA Cold Lands Processes Experiments.[4] Cline erklärte, dass die Daten-Wrangler “die Erfassung der gesamten Sammlung der Experimentdaten koordinieren”. Cline legt auch Aufgaben fest, die normalerweise von a Speicheradministrator für die Arbeit mit großen Datenmengen. Dies kann in Bereichen wie großen Forschungsprojekten und dem Erstellen von Filmen mit einer großen Menge komplexer computergenerierter Bilder auftreten. In der Forschung umfasst dies sowohl die Datenübertragung vom Forschungsinstrument zum Speichernetz oder zur Speichereinrichtung als auch die Datenmanipulation zur erneuten Analyse über Hochleistungsrechner oder den Zugriff über auf Cyberinfrastruktur basierende digitale Bibliotheken.

Mit dem Aufkommen der künstlichen Intelligenz in der Datenwissenschaft wird es für die Automatisierung des Daten-Wranglings immer wichtiger, sehr strenge Checks and Balances durchzuführen, weshalb der Munging-Prozess von Daten nicht durch maschinelles Lernen automatisiert wurde. Data Munging erfordert mehr als nur eine automatisierte Lösung, es erfordert das Wissen darüber, welche Informationen entfernt werden sollten, und künstliche Intelligenz ist nicht so weit, solche Dinge zu verstehen.[5]

Verbindung zum Data Mining[edit]

Data Wrangling ist eine Obermenge des Data Mining und erfordert Prozesse, die von einigen Data Mining verwendet werden, jedoch nicht immer. Beim Data Mining werden Muster in großen Datenmengen gefunden, bei denen Data Wrangling Daten transformiert, um Einblicke in diese Daten zu erhalten. Obwohl Data Wrangling eine Obermenge von Data Mining ist, bedeutet dies nicht, dass Data Mining es nicht verwendet, gibt es viele Anwendungsfälle für Data Wrangling beim Data Mining. Data Wrangling kann dem Data Mining zugute kommen, indem Daten entfernt werden, die nicht dem Gesamtsatz zugute kommen oder nicht richtig formatiert sind. Dies führt zu besseren Ergebnissen für den gesamten Data Mining-Prozess.

Ein Beispiel für Data Mining, das eng mit dem Daten-Wrangling zusammenhängt, ist das Ignorieren von Daten aus einem Satz, der nicht mit dem Ziel verbunden ist: Angenommen, es gibt einen Datensatz, der sich auf den Bundesstaat Texas bezieht, und das Ziel besteht darin, Statistiken über die Einwohner von Houston zu erhalten Die Daten in der Gruppe, die sich auf die Einwohner von Dallas beziehen, sind für die gesamte Gruppe nicht nützlich und können vor der Verarbeitung entfernt werden, um die Effizienz des Data Mining-Prozesses zu verbessern.

Leistungen[edit]

Mit der Zunahme der Rohdaten steigt auch die Datenmenge, die von Natur aus nicht nützlich ist. Dies erhöht den Zeitaufwand für das Bereinigen und Organisieren von Daten, bevor diese analysiert werden können. Hier kommt das Daten-Wrangling ins Spiel. Das Ergebnis der Datenverwirrung kann wichtige Metadatenstatistiken für weitere Einblicke in die Daten liefern. Es ist wichtig sicherzustellen, dass die Metadaten konsistent sind, da dies sonst zu Straßensperren führen kann. Mit Data Wrangling können Analysten komplexere Daten schneller analysieren, genauere Ergebnisse erzielen und dadurch bessere Entscheidungen treffen. Viele Unternehmen haben sich aufgrund des damit verbundenen Erfolgs dem Daten-Wrangling zugewandt.

Kernideen[edit]

Verwandeln Sie unordentliche Daten in nützliche Statistiken

Die Hauptschritte beim Daten-Wrangling sind wie folgt:[6]

  1. Entdecken
    Der erste Schritt beim Daten-Wrangling besteht darin, ein besseres Verständnis der Daten zu erlangen: Verschiedene Daten werden auf unterschiedliche Weise verarbeitet und organisiert.
  2. Strukturierung
    Der nächste Schritt ist die Organisation der Daten. Rohdaten sind normalerweise nicht organisiert und viele davon sind möglicherweise für das Endprodukt nicht nützlich. Dieser Schritt ist wichtig, um die Berechnung und Analyse in den späteren Schritten zu vereinfachen.
  3. Reinigung
    Es gibt viele verschiedene Formen von Bereinigungsdaten. Beispielsweise erfasst eine Form von Bereinigungsdaten auf andere Weise formatierte Daten und eine andere Form entfernt Ausreißer, die die Ergebnisse verzerren, und formatiert auch Nullwerte. Dieser Schritt ist wichtig, um die Gesamtqualität der Daten sicherzustellen.
  4. Bereichernd
    Bestimmen Sie in diesem Schritt, ob zusätzliche Daten dem Datensatz zugute kommen, der leicht hinzugefügt werden kann.
  5. Validieren
    Dieser Schritt ähnelt dem Strukturieren und Reinigen. Verwenden Sie sich wiederholende Sequenzen von Validierungsregeln, um die Datenkonsistenz sowie Qualität und Sicherheit sicherzustellen. Ein Beispiel für eine Validierungsregel ist die Bestätigung der Genauigkeit von Feldern durch Gegenprüfung von Daten.
  6. Veröffentlichen
    Bereiten Sie den Datensatz für die nachgelagerte Verwendung vor, einschließlich der Verwendung für Benutzer oder Software. Stellen Sie sicher, dass Sie alle Schritte und die Logik während des Wranglings dokumentieren.

Diese Schritte sind ein iterativer Prozess, der einen sauberen und verwendbaren Datensatz ergeben sollte, der dann für die Analyse verwendet werden kann. Dieser Prozess ist langwierig, aber lohnend, da Analysten die benötigten Informationen aus einer großen Menge von Daten abrufen können, die sonst nicht lesbar wären.

Startdaten
Name Telefon Geburtsdatum Zustand
John Smith 445-881-4478 12. August 1989 Maine
Jennifer Tal + 1-189-456-4513 12.11.1965 Tx
Gates, Bill (876) 546-8165 15. Juni 72 Kansas
Alan Fitch 5493156648 2-6-1985 Oh
Jacob Alan 156-4896 3. Januar Alabama
Ergebnis
Name Telefon Geburtsdatum Zustand
John Smith 445-881-4478 08-12-1989 Maine
Jennifer Tal 189-456-4513 11-12-1965 Texas
Bill Gates 876-546-8165 15.06.1972 Kansas
Alan Fitch 549-315-6648 02-06-1985 Ohio

Das Ergebnis der Verwendung des Data Wrangling-Prozesses für diesen kleinen Datensatz zeigt, dass der Datensatz wesentlich einfacher zu lesen ist. Alle Namen werden jetzt auf die gleiche Weise formatiert, {Vorname Nachname}, Telefonnummern werden ebenfalls auf die gleiche Weise formatiert {Vorwahl-XXX-XXXX}, Datumsangaben werden numerisch formatiert {MM-TT-JJJJ} und Zustände werden nicht mehr angezeigt abgekürzt. Der Eintrag für Jacob Alan wurde als aus dem Datensatz entfernt angesehen, da er keine vollständig formulierten Daten enthielt, die Vorwahl auf der Telefonnummer fehlt und das Geburtsdatum auf Jahr festgelegt war und daher aus dem Datensatz entfernt wurde. Nachdem der resultierende Datensatz bereinigt und lesbar ist, kann er entweder bereitgestellt oder ausgewertet werden.

Typische Verwendung[edit]

Die Datentransformationen werden normalerweise auf bestimmte Entitäten (z. B. Felder, Zeilen, Spalten, Datenwerte usw.) innerhalb eines Datensatzes angewendet und können Aktionen wie Extrahieren, Parsen, Verknüpfen, Standardisieren, Erweitern, Bereinigen, Konsolidieren und Filtern zum Erstellen umfassen gewünschte Wrangling-Ausgänge, die stromabwärts genutzt werden können.

Die Empfänger können Einzelpersonen sein, z. B. Datenarchitekten oder Datenwissenschaftler, die die Daten weiter untersuchen, Geschäftsbenutzer, die die Daten direkt in Berichten verwenden, oder Systeme, die die Daten weiter verarbeiten und in Ziele wie Data Warehouses und Daten schreiben Seen oder nachgelagerte Anwendungen.

Modus Operandi[edit]

Abhängig von der Menge und dem Format der eingehenden Daten wurde das Daten-Wrangling traditionell manuell durchgeführt (z. B. über Tabellenkalkulationen wie Excel), Tools wie KNIME oder über Skripte in Sprachen wie Python oder SQL. R, eine Sprache, die häufig beim Data Mining und bei der statistischen Datenanalyse verwendet wird, ist jetzt auch häufig[7] wird für Daten-Wrangling verwendet. Data Wrangler verfügen in der Regel über folgende Fähigkeiten: R oder Python, SQL, PHP, Scala und weitere Sprachen, die normalerweise zur Analyse von Daten verwendet werden.

Visuelle Daten-Wrangling-Systeme wurden entwickelt, um Daten-Wrangling für Nicht-Programmierer zugänglich und für Programmierer einfacher zu machen. Einige davon umfassen auch eingebettete AI-Empfehlungen und Funktionen zum Programmieren anhand von Beispielen, um Benutzerunterstützung bereitzustellen, sowie Programmsynthesetechniken, um skalierbaren Datenflusscode automatisch zu generieren. Zu den frühen Prototypen visueller Daten-Wrangling-Tools gehören OpenRefine und Stanford / Berkeley Wrangler Forschungssystem;[8] Letzteres entwickelte sich zu Trifacta.

Andere Begriffe für diese Prozesse waren Datenfranchising,[9]Datenaufbereitung und Datenmunging.

Beispiel[edit]

Angesichts einer Reihe von Daten, die Informationen zu medizinischen Patienten enthalten, besteht Ihr Ziel darin, eine Korrelation für eine Krankheit zu finden. Suchen Sie nach Patienten mit dieser Krankheit, bevor Sie mit dem Durchlaufen der Daten beginnen können, um sicherzustellen, dass Sie das Ergebnis verstanden haben? Gibt es andere Krankheiten, die die Ursache sein können? Sobald ein Verständnis des Ergebnisses erreicht ist, kann der Daten-Wrangling-Prozess beginnen.

Bestimmen Sie zunächst die Struktur des Ergebnisses, was für das Verständnis der Krankheitsdiagnose wichtig ist.

Sobald eine endgültige Struktur festgelegt ist, bereinigen Sie die Daten, indem Sie alle Datenpunkte entfernen, die nicht hilfreich oder fehlerhaft sind. Dies kann Patienten einschließen, bei denen keine Krankheit diagnostiziert wurde.

Gibt es nach dem erneuten Bereinigen der Daten noch etwas, das dem bereits bekannten Datensatz hinzugefügt werden kann, was ihm zugute kommen würde? Ein Beispiel könnten die häufigsten Krankheiten in der Region sein. Amerika und Indien unterscheiden sich sehr, wenn es um die häufigsten Krankheiten geht.

Nun kommt der Validierungsschritt, um Validierungsregeln zu bestimmen, für die Datenpunkte auf ihre Gültigkeit überprüft werden müssen. Dies kann das Geburtsdatum oder die Überprüfung auf bestimmte Krankheiten umfassen.

Nach dem Validierungsschritt sollten die Daten nun organisiert und für die Bereitstellung oder Auswertung vorbereitet werden. Dieser Prozess kann für die Bestimmung von Korrelationen für die Krankheitsdiagnose von Vorteil sein, da er die große Datenmenge in etwas reduziert, das leicht analysiert werden kann, um ein genaues Ergebnis zu erzielen.

Siehe auch[edit]

Verweise[edit]


after-content-x4