[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/02\/data-warehouse-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/02\/data-warehouse-wikipedia\/","headline":"Data Warehouse – Wikipedia","name":"Data Warehouse – Wikipedia","description":"before-content-x4 Die Grundarchitektur eines Data Warehouse Beim Rechnen a Data Warehouse ((DW oder DWH), auch bekannt als Enterprise Data Warehouse","datePublished":"2021-01-02","dateModified":"2021-01-02","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki20\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki20\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/d\/d8\/Data_Warehouse_Feeding_Data_Mart.jpg\/220px-Data_Warehouse_Feeding_Data_Mart.jpg","url":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/d\/d8\/Data_Warehouse_Feeding_Data_Mart.jpg\/220px-Data_Warehouse_Feeding_Data_Mart.jpg","height":"87","width":"220"},"url":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/02\/data-warehouse-wikipedia\/","wordCount":8987,"articleBody":" (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4 Die Grundarchitektur eines Data WarehouseBeim Rechnen a Data Warehouse ((DW oder DWH), auch bekannt als Enterprise Data Warehouse ((EDW) ist ein System zur Berichterstellung und Datenanalyse und wird als Kernkomponente von Business Intelligence angesehen.[1] DWs sind zentrale Repositorys f\u00fcr integrierte Daten aus einer oder mehreren unterschiedlichen Quellen. Sie speichern aktuelle und historische Daten an einem einzigen Ort[2] Diese werden zum Erstellen von Analyseberichten f\u00fcr Mitarbeiter im gesamten Unternehmen verwendet.[3] (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4Die im Lager gespeicherten Daten werden aus den Betriebssystemen (z. B. Marketing oder Vertrieb) hochgeladen. Die Daten k\u00f6nnen einen Betriebsdatenspeicher durchlaufen und eine Datenbereinigung erfordern[2] f\u00fcr zus\u00e4tzliche Vorg\u00e4nge, um die Datenqualit\u00e4t sicherzustellen, bevor sie in der DW f\u00fcr die Berichterstellung verwendet wird.Extrahieren, Transformieren, Laden (ETL) und Extrahieren, Laden, Transformieren (ELT) sind die beiden Hauptans\u00e4tze zum Aufbau eines Data Warehouse-Systems. (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4Table of ContentsETL-basiertes Data Warehousing[edit]ELT-basiertes Data Warehousing[edit]Leistungen[edit]Generisch[edit]Verwandte Systeme (Data Mart, OLAPS, OLTP, Predictive Analytics)[edit]Geschichte[edit]Informationsspeicherung[edit]Fakten[edit]Dimensional versus normalisierter Ansatz zur Speicherung von Daten[edit]Dimensionaler Ansatz[edit]Normalisierter Ansatz[edit]Entwurfsmethoden[edit]Bottom-up-Design[edit]Top-Down-Design[edit]Hybrid-Design[edit]Data Warehouse-Merkmale[edit]Fachorientiert[edit]Integriert[edit]Zeitunterschied[edit]Nicht fl\u00fcchtig[edit]Data Warehouse-Optionen[edit]Anh\u00e4ufung[edit]Data Warehouse-Architektur[edit]Versus Betriebssystem[edit]Entwicklung der Organisationsnutzung[edit]Verweise[edit]Weiterf\u00fchrende Literatur[edit]ETL-basiertes Data Warehousing[edit]Das typische ETL-basierte Data Warehouse (Extract, Transform, Load)[4] Verwendet Staging-, Datenintegrations- und Zugriffsebenen, um die Schl\u00fcsselfunktionen unterzubringen. Die Staging-Schicht oder Staging-Datenbank speichert Rohdaten, die aus jedem der unterschiedlichen Quelldatensysteme extrahiert wurden. Die Integrationsschicht integriert die unterschiedlichen Datens\u00e4tze, indem sie die Daten aus der Staging-Schicht transformiert, wobei diese transformierten Daten h\u00e4ufig in einer ODS-Datenbank (Operational Data Store) gespeichert werden. Die integrierten Daten werden dann in eine weitere Datenbank verschoben, die h\u00e4ufig als Data Warehouse-Datenbank bezeichnet wird. Dort werden die Daten in hierarchischen Gruppen, h\u00e4ufig als Dimensionen bezeichnet, sowie in Fakten und aggregierten Fakten angeordnet. Die Kombination von Fakten und Dimensionen wird manchmal als Sternschema bezeichnet. Die Zugriffsebene hilft Benutzern beim Abrufen von Daten.[5]Die Hauptquelle der Daten wird bereinigt, transformiert, katalogisiert und f\u00fcr Manager und andere Gesch\u00e4ftsfachleute f\u00fcr Data Mining, Online-Analyseverarbeitung, Marktforschung und Entscheidungsunterst\u00fctzung zur Verf\u00fcgung gestellt.[6] Die Mittel zum Abrufen und Analysieren von Daten, zum Extrahieren, Transformieren und Laden von Daten sowie zum Verwalten des Datenw\u00f6rterbuchs werden jedoch auch als wesentliche Komponenten eines Data Warehousing-Systems angesehen. Viele Verweise auf Data Warehousing verwenden diesen breiteren Kontext. Eine erweiterte Definition f\u00fcr Data Warehousing umfasst daher Business Intelligence-Tools, Tools zum Extrahieren, Transformieren und Laden von Daten in das Repository sowie Tools zum Verwalten und Abrufen von Metadaten.IBM InfoSphere DataStage, Ab Initio Software, Informatica – PowerCenter sind einige der Tools, die h\u00e4ufig zur Implementierung von ETL-basiertem Data Warehouse verwendet werden. (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4ELT-basiertes Data Warehousing[edit] ELT-basierte Data Warehouse-ArchitekturELT-basiertes Data Warehousing beseitigt ein separates ETL-Tool f\u00fcr die Datentransformation. Stattdessen wird ein Staging-Bereich im Data Warehouse selbst verwaltet. Bei diesem Ansatz werden Daten aus heterogenen Quellsystemen extrahiert und dann direkt in das Data Warehouse geladen, bevor eine Transformation stattfindet. Alle erforderlichen Transformationen werden dann im Data Warehouse selbst abgewickelt. Schlie\u00dflich werden die manipulierten Daten in Zieltabellen im selben Data Warehouse geladen.Leistungen[edit]Ein Data Warehouse verwaltet eine Kopie der Informationen aus den Quelltransaktionssystemen. Diese architektonische Komplexit\u00e4t bietet die M\u00f6glichkeit:Integrieren Sie Daten aus mehreren Quellen in eine einzige Datenbank und ein einziges Datenmodell. Mehr Zusammenstellung von Daten in einer einzelnen Datenbank, sodass eine einzelne Abfrage-Engine verwendet werden kann, um Daten in einem ODS darzustellen.Reduzieren Sie das Problem von Sperrenkonflikten auf Datenbankisolationsstufe in Transaktionsverarbeitungssystemen, die durch Versuche verursacht werden, gro\u00dfe, lang laufende Analyseabfragen in Transaktionsverarbeitungsdatenbanken auszuf\u00fchren.Pflegen Sie den Datenverlauf, auch wenn dies bei den Quelltransaktionssystemen nicht der Fall ist.Integrieren Sie Daten aus mehreren Quellsystemen und erm\u00f6glichen Sie so eine zentrale Ansicht im gesamten Unternehmen. Dieser Vorteil ist immer wertvoll, insbesondere dann, wenn die Organisation durch Fusion gewachsen ist.Verbessern Sie die Datenqualit\u00e4t, indem Sie konsistente Codes und Beschreibungen bereitstellen, fehlerhafte Daten kennzeichnen oder sogar beheben.Pr\u00e4sentieren Sie die Informationen der Organisation konsistent.Stellen Sie ein einziges gemeinsames Datenmodell f\u00fcr alle interessierenden Daten bereit, unabh\u00e4ngig von der Datenquelle.Restrukturieren Sie die Daten so, dass sie f\u00fcr die Gesch\u00e4ftsbenutzer sinnvoll sind.Restrukturieren Sie die Daten so, dass sie auch bei komplexen analytischen Abfragen eine hervorragende Abfrageleistung bieten, ohne die Betriebssysteme zu beeintr\u00e4chtigen.Mehrwert f\u00fcr betriebliche Gesch\u00e4ftsanwendungen, insbesondere CRM-Systeme (Customer Relationship Management).Erleichtern Sie das Schreiben von Abfragen zur Entscheidungsunterst\u00fctzung.Wiederholte Daten organisieren und eindeutig definierenGenerisch[edit]Die Umgebung f\u00fcr Data Warehouses und Marts umfasst Folgendes:Quellsysteme, die Daten f\u00fcr das Lager oder den Markt bereitstellen;Datenintegrationstechnologie und -prozesse, die zur Vorbereitung der Daten f\u00fcr die Verwendung erforderlich sind;Verschiedene Architekturen zum Speichern von Daten im Data Warehouse oder in Data Marts eines Unternehmens;Verschiedene Tools und Anwendungen f\u00fcr die verschiedenen Benutzer;Metadaten, Datenqualit\u00e4t und Governance-Prozesse m\u00fcssen vorhanden sein, um sicherzustellen, dass das Lager oder der Markt seine Zwecke erf\u00fcllt.In Bezug auf die oben aufgef\u00fchrten Quellsysteme erkl\u00e4rt R. Kelly Rainer: “Eine h\u00e4ufige Quelle f\u00fcr Daten in Data Warehouses sind die Betriebsdatenbanken des Unternehmens, bei denen es sich um relationale Datenbanken handeln kann.”[7]In Bezug auf die Datenintegration erkl\u00e4rt Rainer: “Es ist notwendig, Daten aus Quellsystemen zu extrahieren, zu transformieren und in einen Data Mart oder ein Warehouse zu laden.”[7]Rainer erl\u00e4utert das Speichern von Daten im Data Warehouse oder in Data Marts eines Unternehmens.[7]Metadaten sind Daten \u00fcber Daten. “IT-Mitarbeiter ben\u00f6tigen Informationen zu Datenquellen, Datenbank-, Tabellen- und Spaltennamen, Aktualisierungspl\u00e4nen und Ma\u00dfnahmen zur Datennutzung.”[7]Die erfolgreichsten Unternehmen sind heute diejenigen, die schnell und flexibel auf Marktver\u00e4nderungen und -chancen reagieren k\u00f6nnen. Ein Schl\u00fcssel zu dieser Reaktion ist die effektive und effiziente Nutzung von Daten und Informationen durch Analysten und Manager.[7] Ein “Data Warehouse” ist ein Repository mit historischen Daten, das nach Unterst\u00fctzung der Entscheidungstr\u00e4ger in der Organisation organisiert ist.[7] Sobald Daten in einem Data Mart oder Warehouse gespeichert sind, kann auf sie zugegriffen werden.Verwandte Systeme (Data Mart, OLAPS, OLTP, Predictive Analytics)[edit]Ein Data Mart ist eine einfache Form eines Data Warehouse, das sich auf ein einzelnes Thema (oder einen Funktionsbereich) konzentriert. Daher beziehen sie Daten aus einer begrenzten Anzahl von Quellen wie Vertrieb, Finanzen oder Marketing. Data Marts werden h\u00e4ufig von einer einzelnen Abteilung innerhalb einer Organisation erstellt und gesteuert. Die Quellen k\u00f6nnen interne Betriebssysteme, ein zentrales Data Warehouse oder externe Daten sein.[8] Denormalisierung ist die Norm f\u00fcr Datenmodellierungstechniken in diesem System. Da Data Marts im Allgemeinen nur einen Teil der in einem Data Warehouse enthaltenen Daten abdecken, sind sie h\u00e4ufig einfacher und schneller zu implementieren.Unterschied zwischen Data Warehouse und DatenmarktAttributData WarehouseDatenmarktUmfang der DatenunternehmensweitabteilungsweitAnzahl der ThemenbereichemehrereSingleWie schwer zu bauenschwierigeinfachWie viel Zeit braucht man, um zu bauenMehrwenigerSpeichermengegr\u00f6\u00dferbegrenztZu den Arten von Data Marts geh\u00f6ren abh\u00e4ngige, unabh\u00e4ngige und hybride Data Marts.[clarification needed]Die Online-Analyseverarbeitung (OLAP) zeichnet sich durch ein relativ geringes Transaktionsvolumen aus. Abfragen sind oft sehr komplex und beinhalten Aggregationen. F\u00fcr OLAP-Systeme ist die Reaktionszeit ein Effektivit\u00e4tsma\u00df. OLAP-Anwendungen werden h\u00e4ufig von Data Mining-Techniken verwendet. OLAP-Datenbanken speichern aggregierte historische Daten in mehrdimensionalen Schemata (normalerweise Sternschemata). OLAP-Systeme haben normalerweise eine Datenlatenz von einigen Stunden, im Gegensatz zu Data Marts, bei denen die Latenz voraussichtlich n\u00e4her an einem Tag liegt. Der OLAP-Ansatz wird verwendet, um mehrdimensionale Daten aus mehreren Quellen und Perspektiven zu analysieren. Die drei grundlegenden Vorg\u00e4nge in OLAP sind: Roll-up (Konsolidierung), Drilldown und Slicing & Dicing.Die Online-Transaktionsverarbeitung (OLTP) ist durch eine gro\u00dfe Anzahl kurzer Online-Transaktionen (INSERT, UPDATE, DELETE) gekennzeichnet. OLTP-Systeme legen Wert auf eine sehr schnelle Abfrageverarbeitung und die Aufrechterhaltung der Datenintegrit\u00e4t in Umgebungen mit mehreren Zugriffen. Bei OLTP-Systemen wird die Effektivit\u00e4t anhand der Anzahl der Transaktionen pro Sekunde gemessen. OLTP-Datenbanken enthalten detaillierte und aktuelle Daten. Das zum Speichern von Transaktionsdatenbanken verwendete Schema ist das Entit\u00e4tsmodell (normalerweise 3NF).[9] Normalisierung ist die Norm f\u00fcr Datenmodellierungstechniken in diesem System.Bei der pr\u00e4diktiven Analyse geht es darum, verborgene Muster in den Daten mithilfe komplexer mathematischer Modelle zu finden und zu quantifizieren, mit denen zuk\u00fcnftige Ergebnisse vorhergesagt werden k\u00f6nnen. Die pr\u00e4diktive Analyse unterscheidet sich von OLAP darin, dass sich OLAP auf die Analyse historischer Daten konzentriert und reaktiver Natur ist, w\u00e4hrend sich die pr\u00e4diktive Analyse auf die Zukunft konzentriert. Diese Systeme werden auch f\u00fcr das Customer Relationship Management (CRM) verwendet.Geschichte[edit]Das Konzept des Data Warehousing reicht bis in die sp\u00e4ten 1980er Jahre zur\u00fcck[10] als die IBM-Forscher Barry Devlin und Paul Murphy das “Business Data Warehouse” entwickelten. Im Wesentlichen sollte das Data Warehousing-Konzept ein Architekturmodell f\u00fcr den Datenfluss von Betriebssystemen zu Entscheidungsunterst\u00fctzungsumgebungen bereitstellen. Das Konzept versuchte, die verschiedenen mit diesem Fluss verbundenen Probleme anzugehen, haupts\u00e4chlich die damit verbundenen hohen Kosten. In Ermangelung einer Data Warehousing-Architektur war eine enorme Redundanz erforderlich, um Umgebungen mit mehreren Entscheidungsunterst\u00fctzungen zu unterst\u00fctzen. In gr\u00f6\u00dferen Unternehmen war es typisch, dass Umgebungen mit mehreren Entscheidungshilfen unabh\u00e4ngig voneinander betrieben wurden. Obwohl jede Umgebung unterschiedliche Benutzer bediente, ben\u00f6tigten sie h\u00e4ufig einen Gro\u00dfteil der gleichen gespeicherten Daten. Der Prozess des Sammelns, Bereinigens und Integrierens von Daten aus verschiedenen Quellen, normalerweise aus langfristig vorhandenen Betriebssystemen (normalerweise als Legacy-Systeme bezeichnet), wurde in der Regel teilweise f\u00fcr jede Umgebung repliziert. Dar\u00fcber hinaus wurden die Betriebssysteme h\u00e4ufig \u00fcberpr\u00fcft, als neue Anforderungen an die Entscheidungsunterst\u00fctzung auftauchten. Oft erforderten neue Anforderungen das Sammeln, Bereinigen und Integrieren neuer Daten von “Data Marts”, die auf den sofortigen Zugriff durch Benutzer zugeschnitten waren.Wichtige Entwicklungen in den ersten Jahren des Data Warehousing:1960er Jahre – General Mills und das Dartmouth College entwickeln in einem gemeinsamen Forschungsprojekt die Begriffe Ma\u00dfe und Fakten.[11]1970er Jahre – ACNielsen und IRI bieten dimensionale Datenm\u00e4rkte f\u00fcr den Einzelhandelsverkauf an.[11]1970er Jahre – Bill Inmon beginnt, den Begriff Data Warehouse zu definieren und zu diskutieren.[citation needed]1975 – Sperry Univac f\u00fchrt MAPPER (MAintain, Prepare and Produce Executive Reports) ein, ein Datenbankverwaltungs- und Berichtssystem, das das weltweit erste 4GL enth\u00e4lt. Es ist die erste Plattform f\u00fcr den Bau von Informationszentren (ein Vorl\u00e4ufer der modernen Data Warehouse-Technologie).1983 – Teradata stellt den DBC \/ 1012-Datenbankcomputer vor, der speziell f\u00fcr die Entscheidungsunterst\u00fctzung entwickelt wurde.[12]1984 – Metaphor Computer Systems, gegr\u00fcndet von David Liddle und Don Massaro, ver\u00f6ffentlicht ein Hardware- \/ Softwarepaket und eine grafische Benutzeroberfl\u00e4che f\u00fcr Gesch\u00e4ftsanwender, um ein Datenbankverwaltungs- und Analysesystem zu erstellen.1985 – Die Sperry Corporation ver\u00f6ffentlicht einen Artikel (Martyn Jones und Philip Newman) \u00fcber Informationszentren, in dem sie den Begriff MAPPER Data Warehouse im Kontext von Informationszentren einf\u00fchren.1988 – Barry Devlin und Paul Murphy ver\u00f6ffentlichen den Artikel “Eine Architektur f\u00fcr ein Gesch\u00e4fts- und Informationssystem”, in dem sie den Begriff “Business Data Warehouse” einf\u00fchren.[13]1990 – Red Brick Systems, gegr\u00fcndet von Ralph Kimball, f\u00fchrt Red Brick Warehouse ein, ein Datenbankverwaltungssystem speziell f\u00fcr Data Warehousing.1991 – Prism Solutions, gegr\u00fcndet von Bill Inmon, f\u00fchrt Prism Warehouse Manager ein, eine Software zur Entwicklung eines Data Warehouse.1992 – Bill Inmon ver\u00f6ffentlicht das Buch Erstellen des Data Warehouse.[14]1995 – Das Data Warehousing Institute, eine gemeinn\u00fctzige Organisation, die Data Warehousing f\u00f6rdert, wird gegr\u00fcndet.1996 – Ralph Kimball ver\u00f6ffentlicht das Buch Das Data Warehouse Toolkit.[15]2000 – Dan Linstedt ver\u00f6ffentlicht \u00f6ffentlich die Data Vault-Modellierung, die 1990 als Alternative zu Inmon und Kimball konzipiert wurde, um eine langfristige historische Speicherung von Daten aus mehreren Betriebssystemen zu erm\u00f6glichen, wobei der Schwerpunkt auf R\u00fcckverfolgung, Pr\u00fcfung und Widerstandsf\u00e4higkeit gegen\u00fcber \u00c4nderungen liegt des Quelldatenmodells.2008 – Bill Inmon ver\u00f6ffentlicht zusammen mit Derek Strauss und Genia Neushloss “DW 2.0: Die Architektur f\u00fcr die n\u00e4chste Generation von Data Warehousing”, in dem er seinen Top-Down-Ansatz f\u00fcr Data Warehousing erl\u00e4utert und den Begriff Data Warehousing 2.0 pr\u00e4gt.2012 – Bill Inmon entwickelt und macht \u00f6ffentliche Technologie als “Textdisambiguierung” bekannt. Die Textdisambiguierung wendet den Kontext auf den Rohtext an und formatiert den Rohtext und den Kontext in ein Standarddatenbankformat um. Sobald der Rohtext einer Textdisambiguierung unterzogen wurde, kann er mit der Standard-Business-Intelligence-Technologie einfach und effizient abgerufen und analysiert werden. Die Textdisambiguierung wird durch die Ausf\u00fchrung der Text-ETL erreicht. Die Disambiguierung von Texten ist \u00fcberall dort n\u00fctzlich, wo Rohtext gefunden wird, z. B. in Dokumenten, Hadoop, E-Mail usw.Informationsspeicherung[edit]Fakten[edit]Eine Tatsache ist ein Wert oder eine Messung, die eine Tatsache \u00fcber die verwaltete Entit\u00e4t oder das verwaltete System darstellt.Die vom berichtenden Unternehmen gemeldeten Tatsachen gelten als Rohdaten. Wenn beispielsweise in einem Mobiltelefonsystem eine BTS (Basis-Transceiver-Station) 1.000 Anforderungen f\u00fcr die Zuweisung von Verkehrskan\u00e4len empf\u00e4ngt, 820 zuweist und die verbleibenden ablehnt, werden drei gemeldet Fakten oder Messungen an ein Managementsystem:tch_req_total = 1000tch_req_success = 820tch_req_fail = 180Fakten auf Rohebene werden in verschiedenen Dimensionen auf h\u00f6heren Ebenen zusammengefasst, um mehr Service- oder gesch\u00e4ftsrelevante Informationen daraus zu extrahieren. Diese werden als Aggregate oder Zusammenfassungen oder aggregierte Fakten bezeichnet.Wenn beispielsweise drei BTS in einer Stadt vorhanden sind, k\u00f6nnen die oben genannten Fakten in der Netzwerkdimension von der BTS auf die Stadtebene aggregiert werden. Zum Beispiel:tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) \/ 3Dimensional versus normalisierter Ansatz zur Speicherung von Daten[edit]Es gibt drei oder mehr f\u00fchrende Ans\u00e4tze zum Speichern von Daten in einem Data Warehouse – die wichtigsten Ans\u00e4tze sind der dimensionale Ansatz und der normalisierte Ansatz.Der dimensionale Ansatz bezieht sich auf den Ansatz von Ralph Kimball, bei dem angegeben wird, dass das Data Warehouse unter Verwendung eines Dimensionsmodells \/ Sternschemas modelliert werden sollte. Der normalisierte Ansatz, auch 3NF-Modell (Third Normal Form) genannt, bezieht sich auf den Ansatz von Bill Inmon, bei dem angegeben wird, dass das Data Warehouse unter Verwendung eines ER-Modells \/ normalisierten Modells modelliert werden sollte.[16]Dimensionaler Ansatz[edit]Bei einem dimensionalen Ansatz werden Transaktionsdaten in “Fakten” unterteilt, bei denen es sich im Allgemeinen um numerische Transaktionsdaten handelt, und in “Dimensionen”, bei denen es sich um Referenzinformationen handelt, die den Fakten einen Kontext geben. Beispielsweise kann eine Verkaufstransaktion in Fakten wie die Anzahl der bestellten Produkte und den f\u00fcr die Produkte gezahlten Gesamtpreis sowie in Dimensionen wie Bestelldatum, Kundenname, Produktnummer, Bestellversand und Rechnungsempf\u00e4nger unterteilt werden Standorte und Verk\u00e4ufer, die f\u00fcr den Eingang der Bestellung verantwortlich sind.Ein wesentlicher Vorteil eines dimensionalen Ansatzes besteht darin, dass das Data Warehouse f\u00fcr den Benutzer leichter zu verstehen und zu verwenden ist. Auch das Abrufen von Daten aus dem Data Warehouse erfolgt in der Regel sehr schnell.[15] Dimensionsstrukturen sind f\u00fcr Gesch\u00e4ftsanwender leicht zu verstehen, da die Struktur in Messungen \/ Fakten und Kontext \/ Dimensionen unterteilt ist. Fakten beziehen sich auf die Gesch\u00e4ftsprozesse und das Betriebssystem des Unternehmens, w\u00e4hrend die sie umgebenden Dimensionen einen Kontext \u00fcber die Messung enthalten (Kimball, Ralph 2008). Ein weiterer Vorteil des dimensionalen Modells besteht darin, dass nicht jedes Mal eine relationale Datenbank erforderlich ist. Daher ist diese Art der Modellierungstechnik f\u00fcr Endbenutzerabfragen im Data Warehouse sehr n\u00fctzlich.Das Modell von Fakten und Dimensionen kann auch als Datenw\u00fcrfel verstanden werden.[17] Wenn die Dimensionen die kategorialen Koordinaten in einem mehrdimensionalen W\u00fcrfel sind, ist die Tatsache ein Wert, der den Koordinaten entspricht.Die Hauptnachteile des dimensionalen Ansatzes sind die folgenden:Um die Integrit\u00e4t von Fakten und Dimensionen zu gew\u00e4hrleisten, ist das Laden des Data Warehouse mit Daten aus verschiedenen Betriebssystemen kompliziert.Es ist schwierig, die Data-Warehouse-Struktur zu \u00e4ndern, wenn die Organisation, die den dimensionalen Ansatz anwendet, die Art und Weise \u00e4ndert, in der sie Gesch\u00e4fte t\u00e4tigt.Normalisierter Ansatz[edit]Bei dem normalisierten Ansatz werden die Daten im Data Warehouse nach bis zu einem gewissen Grad nach Regeln zur Datenbanknormalisierung gespeichert. Tabellen sind nach gruppiert Themenbereiche die allgemeine Datenkategorien widerspiegeln (z. B. Daten zu Kunden, Produkten, Finanzen usw.). Die normalisierte Struktur unterteilt Daten in Entit\u00e4ten, wodurch mehrere Tabellen in einer relationalen Datenbank erstellt werden. Bei der Anwendung in gro\u00dfen Unternehmen entstehen Dutzende von Tabellen, die durch ein Netz von Verkn\u00fcpfungen miteinander verbunden sind. Dar\u00fcber hinaus wird jede der erstellten Entit\u00e4ten bei der Implementierung der Datenbank in separate physische Tabellen konvertiert (Kimball, Ralph 2008). Der Hauptvorteil dieses Ansatzes besteht darin, dass das Hinzuf\u00fcgen von Informationen zur Datenbank einfach ist. Einige Nachteile dieses Ansatzes bestehen darin, dass es f\u00fcr Benutzer aufgrund der Anzahl der beteiligten Tabellen schwierig sein kann, Daten aus verschiedenen Quellen zu aussagekr\u00e4ftigen Informationen zusammenzuf\u00fcgen und auf die Informationen zuzugreifen, ohne die Datenquellen und die Datenstruktur genau zu verstehen des Data Warehouse.Sowohl normalisierte als auch dimensionale Modelle k\u00f6nnen in Entity-Relationship-Diagrammen dargestellt werden, da beide verkn\u00fcpfte relationale Tabellen enthalten. Der Unterschied zwischen den beiden Modellen ist der Normalisierungsgrad (auch als Normalformen bezeichnet). Diese Ans\u00e4tze schlie\u00dfen sich nicht gegenseitig aus, und es gibt andere Ans\u00e4tze. Bei dimensionalen Ans\u00e4tzen k\u00f6nnen Daten bis zu einem gewissen Grad normalisiert werden (Kimball, Ralph 2008).Im Informationsgetriebenes Gesch\u00e4ft,[18] Robert Hillard schl\u00e4gt einen Ansatz zum Vergleich der beiden Ans\u00e4tze vor, der auf dem Informationsbedarf des Gesch\u00e4ftsproblems basiert. Die Technik zeigt, dass normalisierte Modelle weitaus mehr Informationen enthalten als ihre Dimensions\u00e4quivalente (selbst wenn in beiden Modellen dieselben Felder verwendet werden), diese zus\u00e4tzlichen Informationen gehen jedoch zu Lasten der Benutzerfreundlichkeit. Die Technik misst die Informationsmenge in Bezug auf die Informationsentropie und die Verwendbarkeit in Bezug auf das Datentransformationsma\u00df f\u00fcr kleine Welten.[19]Entwurfsmethoden[edit]Bottom-up-Design[edit]In dem Prost Ansatz werden zun\u00e4chst Data Marts erstellt, um Berichts- und Analysefunktionen f\u00fcr bestimmte Gesch\u00e4ftsprozesse bereitzustellen. Diese Data Marts k\u00f6nnen dann integriert werden, um ein umfassendes Data Warehouse zu erstellen. Die Data Warehouse-Busarchitektur ist in erster Linie eine Implementierung von “the bus”, einer Sammlung von konformen Dimensionen und konformen Fakten, die Dimensionen sind, die (auf eine bestimmte Weise) zwischen Fakten in zwei oder mehr Data Marts geteilt werden.[20]Top-Down-Design[edit]Das von oben nach unten Der Ansatz basiert auf einem normalisierten Unternehmensdatenmodell. “Atomic” -Daten, dh Daten mit gr\u00f6\u00dfter Detailgenauigkeit, werden im Data Warehouse gespeichert. Aus dem Data Warehouse werden dimensionale Data Marts erstellt, die Daten enthalten, die f\u00fcr bestimmte Gesch\u00e4ftsprozesse oder bestimmte Abteilungen ben\u00f6tigt werden.[21]Hybrid-Design[edit]Data Warehouses (DW) \u00e4hneln h\u00e4ufig der Hub- und Speichenarchitektur. Legacy-Systeme, die das Lager versorgen, umfassen h\u00e4ufig das Kundenbeziehungsmanagement und die Planung von Unternehmensressourcen, wodurch gro\u00dfe Datenmengen generiert werden. Um diese verschiedenen Datenmodelle zu konsolidieren und den Ladevorgang f\u00fcr die Extrakttransformation zu vereinfachen, verwenden Data Warehouses h\u00e4ufig einen Betriebsdatenspeicher, dessen Informationen in die tats\u00e4chliche DW analysiert werden. Um die Datenredundanz zu verringern, speichern gr\u00f6\u00dfere Systeme die Daten h\u00e4ufig normalisiert. Data Marts f\u00fcr bestimmte Berichte k\u00f6nnen dann \u00fcber dem Data Warehouse erstellt werden.Eine hybride DW-Datenbank wird in der dritten Normalform gehalten, um Datenredundanz zu beseitigen. Eine normale relationale Datenbank ist jedoch f\u00fcr Business Intelligence-Berichte, bei denen die dimensionale Modellierung vorherrscht, nicht effizient. Kleine Data Marts k\u00f6nnen Daten aus dem konsolidierten Lager einkaufen und die gefilterten, spezifischen Daten f\u00fcr die erforderlichen Faktentabellen und Abmessungen verwenden. Der DW bietet eine einzige Informationsquelle, aus der die Data Marts lesen k\u00f6nnen, und bietet eine breite Palette von Gesch\u00e4ftsinformationen. Durch die Hybridarchitektur kann ein DW durch ein Stammdatenverwaltungs-Repository ersetzt werden, in dem sich betriebliche (nicht statische) Informationen befinden k\u00f6nnen.Die Modellierungskomponenten f\u00fcr Datentresore folgen der Hub- und Speichenarchitektur. Dieser Modellierungsstil ist ein hybrides Design, das aus den Best Practices sowohl der dritten Normalform als auch des Sternschemas besteht. Das Datentresormodell ist keine echte dritte Normalform und verst\u00f6\u00dft gegen einige seiner Regeln. Es handelt sich jedoch um eine Top-Down-Architektur mit einem Bottom-Up-Design. Das Datentresormodell ist ausschlie\u00dflich auf ein Data Warehouse ausgerichtet. Es ist nicht darauf ausgerichtet, f\u00fcr Endbenutzer zug\u00e4nglich zu sein, was beim Erstellen weiterhin die Verwendung eines Data Mart- oder Star-Schema-basierten Release-Bereichs f\u00fcr gesch\u00e4ftliche Zwecke erfordert.Data Warehouse-Merkmale[edit]Es gibt grundlegende Funktionen, die die Daten im Data Warehouse definieren, darunter Themenorientierung, Datenintegration, Zeitvariante, nichtfl\u00fcchtige Daten und Datengranularit\u00e4t.Fachorientiert[edit]Im Gegensatz zu den Betriebssystemen drehen sich die Daten im Data Warehouse um Themen des Unternehmens. Die Themenorientierung ist nicht (Datenbanknormalisierung). Die Themenorientierung kann f\u00fcr die Entscheidungsfindung sehr n\u00fctzlich sein. Das Sammeln der erforderlichen Objekte wird als themenorientiert bezeichnet.Integriert[edit]Die im Data Warehouse gefundenen Daten werden integriert. Da es von mehreren Betriebssystemen stammt, m\u00fcssen alle Inkonsistenzen beseitigt werden. Zu den Konsistenzen geh\u00f6ren Namenskonventionen, Messung von Variablen, Codierungsstrukturen, physikalische Attribute von Daten usw.Zeitunterschied[edit]W\u00e4hrend Betriebssysteme aktuelle Werte widerspiegeln, da sie den t\u00e4glichen Betrieb unterst\u00fctzen, stellen Data Warehouse-Daten Daten \u00fcber einen langen Zeithorizont (bis zu 10 Jahre) dar, dh, sie speichern historische Daten. Es ist haupts\u00e4chlich f\u00fcr Data Mining und Prognosen gedacht. Wenn ein Benutzer nach einem Kaufmuster eines bestimmten Kunden sucht, muss er Daten zu aktuellen und vergangenen Eink\u00e4ufen anzeigen.[22]Nicht fl\u00fcchtig[edit]Die Daten im Data Warehouse sind schreibgesch\u00fctzt. Dies bedeutet, dass sie nicht aktualisiert, erstellt oder gel\u00f6scht werden k\u00f6nnen (es sei denn, es besteht eine gesetzliche oder gesetzliche Verpflichtung dazu).[23]Data Warehouse-Optionen[edit]Anh\u00e4ufung[edit]Im Data Warehouse-Prozess k\u00f6nnen Daten in Data Marts auf verschiedenen Abstraktionsebenen aggregiert werden. Der Benutzer kann beginnen, die gesamten Verkaufseinheiten eines Produkts in einer gesamten Region zu betrachten. Dann betrachtet der Benutzer die Zust\u00e4nde in dieser Region. Schlie\u00dflich k\u00f6nnen sie die einzelnen Gesch\u00e4fte in einem bestimmten Zustand untersuchen. Daher beginnt die Analyse normalerweise auf einer h\u00f6heren Ebene und f\u00fchrt zu niedrigeren Detailebenen.[22]Data Warehouse-Architektur[edit]Die verschiedenen Methoden zum Erstellen \/ Organisieren eines von einer Organisation angegebenen Data Warehouse sind zahlreich. Die verwendete Hardware, die erstellte Software und die Datenressourcen, die speziell f\u00fcr die korrekte Funktionalit\u00e4t eines Data Warehouse erforderlich sind, sind die Hauptkomponenten der Data Warehouse-Architektur. Alle Data Warehouses haben mehrere Phasen, in denen die Anforderungen der Organisation ge\u00e4ndert und verfeinert werden.[24]Versus Betriebssystem[edit]Betriebssysteme sind f\u00fcr die Wahrung der Datenintegrit\u00e4t und die Geschwindigkeit der Aufzeichnung von Gesch\u00e4ftstransaktionen mithilfe der Datenbanknormalisierung und eines Entity-Relationship-Modells optimiert. Betriebssystementwickler befolgen im Allgemeinen die 12 Regeln von Codd zur Datenbanknormalisierung, um die Datenintegrit\u00e4t sicherzustellen. Vollst\u00e4ndig normalisierte Datenbankdesigns (dh solche, die alle Codd-Regeln erf\u00fcllen) f\u00fchren h\u00e4ufig dazu, dass Informationen aus einem Gesch\u00e4ftsvorgang in Dutzenden bis Hunderten von Tabellen gespeichert werden. Relationale Datenbanken verwalten die Beziehungen zwischen diesen Tabellen effizient. Die Datenbanken weisen eine sehr schnelle Einf\u00fcge- \/ Aktualisierungsleistung auf, da bei jeder Verarbeitung einer Transaktion nur eine geringe Datenmenge in diesen Tabellen betroffen ist. Um die Leistung zu verbessern, werden \u00e4ltere Daten normalerweise regelm\u00e4\u00dfig aus den Betriebssystemen gel\u00f6scht.Data Warehouses sind f\u00fcr analytische Zugriffsmuster optimiert. Analytische Zugriffsmuster umfassen im Allgemeinen die Auswahl bestimmter Felder und selten oder nie select *Hiermit werden alle Felder \/ Spalten ausgew\u00e4hlt, wie dies in Betriebsdatenbanken \u00fcblich ist. Aufgrund dieser Unterschiede in den Zugriffsmustern profitieren Betriebsdatenbanken (lose OLTP) von der Verwendung eines zeilenorientierten DBMS, w\u00e4hrend Analysedatenbanken (lose OLAP) von der Verwendung eines spaltenorientierten DBMS profitieren. Im Gegensatz zu Betriebssystemen, die eine Momentaufnahme des Gesch\u00e4fts verwalten, f\u00fchren Data Warehouses im Allgemeinen eine unendliche Historie, die durch ETL-Prozesse implementiert wird, die regelm\u00e4\u00dfig Daten von den Betriebssystemen in das Data Warehouse migrieren.Entwicklung der Organisationsnutzung[edit]Diese Begriffe beziehen sich auf den Grad der Komplexit\u00e4t eines Data Warehouse:Offline-Data-WarehouseData Warehouses in dieser Entwicklungsphase werden in regelm\u00e4\u00dfigen Abst\u00e4nden (normalerweise t\u00e4glich, w\u00f6chentlich oder monatlich) von den Betriebssystemen aus aktualisiert und die Daten in einer integrierten berichtsorientierten Datenbank gespeichert.Offline-Data-WarehouseIn dieser Phase werden Data Warehouses regelm\u00e4\u00dfig anhand der Daten in den Betriebssystemen aktualisiert, und die Data Warehouse-Daten werden in einer Datenstruktur gespeichert, die die Berichterstellung erleichtert.P\u00fcnktliches Data WarehouseOnline Integrated Data Warehousing stellt die Echtzeitdaten der Data Warehouses-Phase im Warehouse dar, die f\u00fcr jede an den Quelldaten durchgef\u00fchrte Transaktion aktualisiert werdenIntegriertes Data WarehouseDiese Data Warehouses stellen Daten aus verschiedenen Gesch\u00e4ftsbereichen zusammen, sodass Benutzer die ben\u00f6tigten Informationen system\u00fcbergreifend nachschlagen k\u00f6nnen.[25]Verweise[edit]^ Dedi\u0107, Nedim; Stanier, Clare (2016). Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Lager, Olivier; Cordeiro, Jos\u00e9 (Hrsg.). Eine Bewertung der Herausforderungen der Mehrsprachigkeit in der Data Warehouse-Entwicklung. Internationale Konferenz \u00fcber Unternehmensinformationssysteme, 25. bis 28. April 2016, Rom, Italien (PDF). Vortr\u00e4ge der 18. Internationalen Konferenz \u00fcber Unternehmensinformationssysteme (ICEIS 2016). 1. SciTePress. S. 196\u2013206. doi:10.5220 \/ 0005858401960206. ISBN 978-989-758-187-8.^ ein b “9 Gr\u00fcnde, warum Data Warehouse-Projekte fehlschlagen”. blog.rjmetrics.com. Abgerufen 2017-04-30.^ “Erkundung von Data Warehouses und Datenqualit\u00e4t”. spotlessdata.com. Archiviert von das Original am 26.07.2018. Abgerufen 2017-04-30.^ “Was ist Big Data?”. spotlessdata.com. Archiviert von das Original am 2017-02-17. Abgerufen 2017-04-30.^ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil (2011). “Optimierung des Data Warehousing-Systems: Vereinfachung der Berichterstellung und Analyse”. IJCA Proceedings on International Conference und Workshop zu neuen Trends in der Technologie (ICWET). Gr\u00fcndung der Informatik. 9 (6): 33\u201337.^ Marakas & O’Brien 2009^ ein b c d e f Rainer, R. Kelly; Cegielski, Casey G. (2012-05-01). Einf\u00fchrung in Informationssysteme: Aktivieren und Transformieren von Unternehmen, 4. Ausgabe (Kindle ed.). Wiley. pp. 127128, 130, 131, 133. ISBN 978-1118129401.^ “Data Mart-Konzepte”. Orakel. 2007.^ “OLTP vs. OLAP”. Datawarehouse4u.Info. 2009. Wir k\u00f6nnen IT-Systeme in transaktionale (OLTP) und analytische (OLAP) unterteilen. Im Allgemeinen k\u00f6nnen wir davon ausgehen, dass OLTP-Systeme Data Warehouses mit Quelldaten versorgen, w\u00e4hrend OLAP-Systeme bei deren Analyse helfen.^ “Die Geschichte bisher”. 15.04.2002. Archiviert von das Original am 08.07.2008. Abgerufen 2008-09-21.^ ein b Kimball 2013, pg. 15^ Paul Gillin (20. Februar 1984). “Wird Teradata einen Markt wiederbeleben?”. Computerwelt. S. 43, 48. Abgerufen 2017-03-13.^ Devlin, BA; Murphy, PT (1988). “Eine Architektur f\u00fcr ein Gesch\u00e4fts- und Informationssystem”. IBM Systems Journal. 27: 60\u201380. doi:10.1147 \/ sj.271.0060.^ Inmon, Bill (1992). Erstellen des Data Warehouse. Wiley. ISBN 0-471-56960-7.^ ein b Kimball, Ralph (2011). Das Data Warehouse Toolkit. Wiley. p. 237. ISBN 978-0-470-14977-5.^ Golfarelli, Matteo; Maio, Dario; Rizzi, Stefano (01.06.1998). “Das dimensionale Faktenmodell: ein konzeptionelles Modell f\u00fcr Data Warehouses”. Internationale Zeitschrift f\u00fcr kooperative Informationssysteme. 07 (02n03): 215\u2013247. doi:10.1142 \/ S0218843098000118. ISSN 0218-8430.^ http:\/\/www2.cs.uregina.ca\/~dbd\/cs831\/notes\/dcubes\/dcubes.html^ Hillard, Robert (2010). Informationsgetriebenes Gesch\u00e4ft. Wiley. ISBN 978-0-470-62577-4.^ “Informationstheorie & Business Intelligence-Strategie – Datenumwandlungsma\u00dfnahme f\u00fcr kleine Welten – MIKE2.0, die Open-Source-Methode f\u00fcr die Informationsentwicklung”. Mike2.openmethodology.org. Abgerufen 2013-06-14.^ “Die Bottom-Up-Fehlbezeichnung – DecisionWorks Consulting”. DecisionWorks Consulting. Abgerufen 2016-03-06.^ Gartner, Of \u200b\u200bData Warehouses, Betriebsdatenspeicher, Data Marts und Data Outhouses, Dezember 2005^ ein b Paulraj., Ponniah (2010). Data Warehousing-Grundlagen f\u00fcr IT-Experten. Ponniah, Paulraj. (2. Aufl.). Hoboken, NJ: John Wiley & Sons. ISBN 9780470462072. OCLC 662453070.^ H., Inmon, William (2005). Aufbau des Data Warehouse (4. Aufl.). Indianapolis, IN: Wiley Pub. ISBN 9780764599446. OCLC 61762085.^ Gupta, Satinder Bal; Mittal, Aditya (2009). Einf\u00fchrung in das Datenbankverwaltungssystem. Laxmi-Ver\u00f6ffentlichungen. ISBN 9788131807248.^ “Data Warehouse”.Weiterf\u00fchrende Literatur[edit]Davenport, Thomas H. und Harris, Jeanne G. Wettbewerb um Analytik: Die neue Wissenschaft des Gewinnens (2007) Harvard Business School Press. ISBN 978-1-4221-0332-6Ganczarski, Joe. Data Warehouse-Implementierungen: Studie zu kritischen Implementierungsfaktoren (2009) VDM Verlag ISBN 3-639-18589-7 ISBN 978-3-639-18589-8Kimball, Ralph und Ross, Margy. Das Data Warehouse Toolkit Dritte Ausgabe (2013) Wiley, ISBN 978-1-118-53080-1Linstedt, Graziano, Hultgren. Das Gesch\u00e4ft mit der Modellierung von Datentresoren Zweite Ausgabe (2010) Dan linstedt, ISBN 978-1-4357-1914-9William Inmon. Erstellen des Data Warehouse (2005) John Wiley and Sons, ISBN 978-81-265-0645-3 (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki20\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki20\/2021\/01\/02\/data-warehouse-wikipedia\/#breadcrumbitem","name":"Data Warehouse – Wikipedia"}}]}]