Predictive Analytics – Wikipedia

before-content-x4

Statistische Techniken, die Fakten analysieren, um Vorhersagen über unbekannte Ereignisse zu treffen

Predictive Analytics umfasst eine Vielzahl statistischer Techniken aus Data Mining, Vorhersagemodellierung und maschinellem Lernen, die aktuelle und historische Fakten analysieren, um Vorhersagen über zukünftige oder anderweitig unbekannte Ereignisse zu treffen.[1][2]

In Unternehmen nutzen Vorhersagemodelle Muster aus historischen Daten und Transaktionsdaten, um Risiken und Chancen zu identifizieren. Modelle erfassen Beziehungen zwischen vielen Faktoren, um die Bewertung von Risiken oder Potenzialen zu ermöglichen, die mit bestimmten Bedingungen verbunden sind, und leiten die Entscheidungsfindung für Kandidatentransaktionen.[3]

Der definierende funktionale Effekt dieser technischen Ansätze besteht darin, dass die prädiktive Analyse eine prädiktive Bewertung (Wahrscheinlichkeit) für jede Person (Kunde, Mitarbeiter, Patient im Gesundheitswesen, Produkt-SKU, Fahrzeug, Komponente, Maschine oder andere Organisationseinheit) liefert, um zu bestimmen, zu informieren oder organisatorische Prozesse beeinflussen, die sich auf eine große Anzahl von Personen beziehen, wie z. B. Marketing, Kreditrisikobewertung, Betrugserkennung, Fertigung, Gesundheitswesen und Regierungsgeschäfte, einschließlich Strafverfolgung.

Predictive Analytics wird in der Versicherungsmathematik eingesetzt.[4]Marketing,[5]Unternehmensführung, Sport / Fantasy-Sport, [6]Versicherung, Telekommunikation,[7]Verkauf,[8]Reise,[9]Mobilität,[10]Gesundheitswesen,[11]Kinderschutz,[12][13]Pharmazeutika,[14]Kapazitätsplanung,[15]soziales Netzwerk[16] und andere Felder.

Eine der bekanntesten Anwendungen ist die Kreditbewertung.[1] die in der gesamten Geschäftsführung verwendet wird. Bewertungsmodelle verarbeiten die Bonitätshistorie, den Kreditantrag, die Kundendaten usw. eines Kunden, um Einzelpersonen nach ihrer Wahrscheinlichkeit zu ordnen, künftige Kreditzahlungen rechtzeitig zu leisten.

Definition[edit]

Predictive Analytics ist ein Bereich der Statistik, in dem Informationen aus Daten extrahiert und zur Vorhersage von Trends und Verhaltensmustern verwendet werden. Die Verbesserung der prädiktiven Webanalyse berechnet statistische Wahrscheinlichkeiten zukünftiger Ereignisse online. Zu den statistischen Techniken der Predictive Analytics gehören Datenmodellierung, maschinelles Lernen, KI, Deep-Learning-Algorithmen und Data Mining.[17] Oft liegt das unbekannte Ereignis von Interesse in der Zukunft, aber Predictive Analytics kann auf jede Art von Unbekanntem angewendet werden, sei es in der Vergangenheit, Gegenwart oder Zukunft. Zum Beispiel die Identifizierung von Verdächtigen nach Begehung eines Verbrechens oder Kreditkartenbetrug, sobald dieser auftritt.[18] Der Kern der prädiktiven Analyse besteht darin, die Beziehungen zwischen erklärenden Variablen und den vorhergesagten Variablen aus früheren Ereignissen zu erfassen und sie zur Vorhersage des unbekannten Ergebnisses zu nutzen. Es ist jedoch wichtig zu beachten, dass die Genauigkeit und Verwendbarkeit der Ergebnisse stark vom Grad der Datenanalyse und der Qualität der Annahmen abhängt.

Predictive Analytics wird häufig als Vorhersage auf einer detaillierteren Granularitätsebene definiert, dh als Generierung von Predictive Scores (Wahrscheinlichkeiten) für jedes einzelne Organisationselement. Dies unterscheidet es von der Prognose. Beispiel: “Predictive Analytics – Technologie, die aus Erfahrungen (Daten) lernt, um das zukünftige Verhalten von Personen vorherzusagen und bessere Entscheidungen zu treffen.”[19] In zukünftigen industriellen Systemen besteht der Wert der prädiktiven Analyse darin, potenzielle Probleme vorherzusagen und zu verhindern, um einen Ausfall nahe Null zu erreichen, und weiter in die präskriptive Analyse zur Entscheidungsoptimierung integriert zu werden.[citation needed]

Im Allgemeinen wird der Begriff “prädiktive Analyse” verwendet, um prädiktive Modellierung, “Bewertung” von Daten mit prädiktiven Modellen und Prognose zu bezeichnen. Der Begriff wird jedoch zunehmend für verwandte analytische Disziplinen verwendet, z. B. deskriptive Modellierung und Entscheidungsmodellierung oder -optimierung. Diese Disziplinen beinhalten auch eine strenge Datenanalyse und werden im Geschäftsleben häufig zur Segmentierung und Entscheidungsfindung eingesetzt, haben jedoch unterschiedliche Zwecke und die ihnen zugrunde liegenden statistischen Techniken variieren.

Vorhersagemodelle[edit]

Die prädiktive Modellierung verwendet Vorhersagemodelle, um die Beziehung zwischen der spezifischen Leistung einer Einheit in einer Stichprobe und einem oder mehreren bekannten Attributen oder Merkmalen der Einheit zu analysieren. Ziel des Modells ist es, die Wahrscheinlichkeit zu bewerten, mit der eine ähnliche Einheit in einer anderen Stichprobe die spezifische Leistung aufweist. Diese Kategorie umfasst Modelle in vielen Bereichen, z. B. Marketing, in denen nach subtilen Datenmustern gesucht wird, um Fragen zur Kundenleistung zu beantworten, oder Modelle zur Betrugserkennung. Vorhersagemodelle führen häufig Berechnungen während Live-Transaktionen durch, um beispielsweise das Risiko oder die Chance eines bestimmten Kunden oder einer bestimmten Transaktion zu bewerten und eine Entscheidung zu treffen. Mit den Fortschritten bei der Rechengeschwindigkeit sind einzelne Agentenmodellierungssysteme in der Lage, menschliches Verhalten oder Reaktionen auf bestimmte Reize oder Szenarien zu simulieren.

Die verfügbaren Stichprobeneinheiten mit bekannten Attributen und bekannten Leistungen werden als “Trainingsstichprobe” bezeichnet. Die Einheiten in anderen Stichproben mit bekannten Attributen, aber unbekannten Leistungen werden als “out of” bezeichnet [training] Beispieleinheiten. Die Out-of-Sample-Einheiten haben nicht unbedingt eine chronologische Beziehung zu den Training-Sample-Einheiten. Beispielsweise kann das Training-Sample aus literarischen Attributen von Schriften viktorianischer Autoren mit bekannter Zuordnung und der Out-of-Sample-Einheit bestehen Es kann sich um ein neu gefundenes Schreiben mit unbekannter Urheberschaft handeln. Ein Vorhersagemodell kann dabei helfen, eine Arbeit einem bekannten Autor zuzuordnen. Ein weiteres Beispiel ist die Analyse von Blutspritzern in simulierten Tatorten, bei denen die Einheit außerhalb der Probe das tatsächliche Blutspritzer-Muster ist ein Tatort. Die Einheit außerhalb der Stichprobe kann aus derselben Zeit wie die Trainingseinheiten stammen, aus einer früheren Zeit oder aus einer zukünftigen Zeit.

Beschreibende Modelle[edit]

Beschreibende Modelle quantifizieren Beziehungen in Daten auf eine Weise, die häufig verwendet wird, um Kunden oder Interessenten in Gruppen zu klassifizieren. Im Gegensatz zu Vorhersagemodellen, die sich auf die Vorhersage eines einzelnen Kundenverhaltens konzentrieren (z. B. Kreditrisiko), identifizieren beschreibende Modelle viele verschiedene Beziehungen zwischen Kunden oder Produkten. Beschreibende Modelle ordnen Kunden nicht nach ihrer Wahrscheinlichkeit, eine bestimmte Aktion auszuführen, wie Vorhersagemodelle. Stattdessen können beschreibende Modelle verwendet werden, um beispielsweise Kunden nach ihren Produktpräferenzen und ihrer Lebensphase zu kategorisieren. Deskriptive Modellierungswerkzeuge können verwendet werden, um weitere Modelle zu entwickeln, die eine große Anzahl individualisierter Agenten simulieren und Vorhersagen treffen können.

Entscheidungsmodelle[edit]

Entscheidungsmodelle beschreiben die Beziehung zwischen allen Elementen einer Entscheidung – den bekannten Daten (einschließlich der Ergebnisse von Vorhersagemodellen), der Entscheidung und den Prognoseergebnissen der Entscheidung -, um die Ergebnisse von Entscheidungen mit vielen Variablen vorherzusagen. Diese Modelle können zur Optimierung verwendet werden, um bestimmte Ergebnisse zu maximieren und andere zu minimieren. Entscheidungsmodelle werden im Allgemeinen verwendet, um Entscheidungslogik oder eine Reihe von Geschäftsregeln zu entwickeln, die für jeden Kunden oder Umstand die gewünschte Aktion erzeugen.

Anwendungen[edit]

Obwohl Predictive Analytics in vielen Anwendungen eingesetzt werden kann, skizzieren wir einige Beispiele, bei denen Predictive Analytics in den letzten Jahren positive Auswirkungen gezeigt hat.

Geschäft[edit]

Analytisches Kundenbeziehungsmanagement (CRM) ist eine häufige kommerzielle Anwendung der prädiktiven Analyse. Methoden der prädiktiven Analyse werden auf Kundendaten angewendet, um eine ganzheitliche Sicht auf den Kunden zu erstellen. CRM verwendet Predictive Analysis in Anwendungen für Marketingkampagnen, Vertrieb und Kundendienst. Analytisches CRM kann während des gesamten Lebenszyklus des Kunden angewendet werden (Akquisition, Beziehungswachstum, Kundenbindung und Rückgewinnung).

Oft sammeln und pflegen Unternehmensorganisationen reichlich Daten wie Kundendatensätze oder Verkaufstransaktionen. In diesen Fällen können Predictive Analytics dazu beitragen, die Ausgaben, die Nutzung und andere Verhaltensweisen der Kunden zu analysieren, was zu einem effizienten Cross-Sales führt oder zusätzliche Produkte an aktuelle Kunden verkauft.[2]

Die ordnungsgemäße Anwendung von Predictive Analytics kann zu proaktiveren und effektiveren Aufbewahrungsstrategien führen. Durch eine häufige Untersuchung der früheren Servicenutzung, der Serviceleistung, der Ausgaben und anderer Verhaltensmuster eines Kunden können Vorhersagemodelle die Wahrscheinlichkeit bestimmen, dass ein Kunde den Service bald beendet.[7] Eine Intervention mit Angeboten mit hohem wahrgenommenen Wert kann die Chance erhöhen, den Kunden zu konvertieren oder zu halten. Predictive Analytics kann auch stille Abnutzungserscheinungen vorhersagen, das Verhalten eines Kunden, die Nutzung langsam, aber stetig zu reduzieren.

Kinderschutz[edit]

Einige Kinderhilfswerke haben begonnen, Predictive Analytics zu verwenden, um Fälle mit hohem Risiko zu kennzeichnen.[20] In Hillsborough County, Florida, hat beispielsweise die Verwendung eines Vorhersagemodellierungswerkzeugs durch die Kinderschutzbehörde missbrauchsbedingte Todesfälle bei Kindern in der Zielgruppe verhindert.[21]

Klinische Entscheidungsunterstützungssysteme[edit]

Prädiktive Analysen haben im Gesundheitswesen in erster Linie Verwendung gefunden, um festzustellen, bei welchen Patienten das Risiko besteht, Erkrankungen wie Diabetes, Asthma oder Herzerkrankungen zu entwickeln. Darüber hinaus enthalten hochentwickelte Systeme zur Unterstützung klinischer Entscheidungen prädiktive Analysen zur Unterstützung der medizinischen Entscheidungsfindung.

Eine Studie über neurodegenerative Erkrankungen aus dem Jahr 2016 bietet ein aussagekräftiges Beispiel für eine CDS-Plattform zur Diagnose, Verfolgung, Vorhersage und Überwachung des Fortschreitens der Parkinson-Krankheit.[22]

Vorhersage der Ergebnisse rechtlicher Entscheidungen[edit]

Die Vorhersage des Ergebnisses juristischer Entscheidungen kann durch KI-Programme erfolgen. Diese Programme können als Hilfsmittel für Berufe in dieser Branche verwendet werden.[23][24]

Prognose auf Portfolio-, Produkt- oder Wirtschaftsebene[edit]

Oft liegt der Fokus der Analyse nicht auf dem Verbraucher, sondern auf dem Produkt, Portfolio, Unternehmen, der Industrie oder sogar der Wirtschaft. Beispielsweise könnte ein Einzelhändler daran interessiert sein, die Nachfrage auf Filialebene für Bestandsverwaltungszwecke vorherzusagen. Oder das Federal Reserve Board könnte daran interessiert sein, die Arbeitslosenquote für das nächste Jahr vorherzusagen. Diese Arten von Problemen können durch prädiktive Analysen unter Verwendung von Zeitreihentechniken angegangen werden (siehe unten). Sie können auch über maschinelle Lernansätze angesprochen werden, die die ursprüngliche Zeitreihe in einen Merkmalsvektorraum umwandeln, in dem der Lernalgorithmus Muster mit Vorhersagekraft findet.[25][26]

Underwriting[edit]

Viele Unternehmen müssen das Risiko aufgrund ihrer unterschiedlichen Dienstleistungen berücksichtigen und die zur Deckung des Risikos erforderlichen Kosten ermitteln. Predictive Analytics können dabei helfen, diese Mengen zu zeichnen, indem sie das Risiko von Krankheit, Ausfall, Insolvenz usw. vorhersagen. Predictive Analytics können den Prozess der Kundenakquise rationalisieren, indem sie das zukünftige Risikoverhalten eines Kunden anhand von Daten auf Anwendungsebene vorhersagen.[4] Predictive Analytics in Form von Kredit-Scores haben den Zeitaufwand für Kreditgenehmigungen, insbesondere auf dem Hypothekenmarkt, verkürzt. Eine ordnungsgemäße prädiktive Analyse kann zu angemessenen Preisentscheidungen führen, die dazu beitragen können, das zukünftige Ausfallrisiko zu verringern.

Technologie- und Big-Data-Einflüsse[edit]

Big Data ist eine Sammlung von Datensätzen, die so groß und komplex sind, dass die Arbeit mit herkömmlichen Datenbankverwaltungstools schwierig wird. Das Volumen, die Vielfalt und die Geschwindigkeit von Big Data haben zu allgemeinen Herausforderungen bei der Erfassung, Speicherung, Suche, Freigabe, Analyse und Visualisierung geführt. Beispiele für Big-Data-Quellen sind Weblogs, RFID, Sensordaten, soziale Netzwerke, Indexierung der Internetsuche, Anrufdetailaufzeichnungen, militärische Überwachung und komplexe Daten in den Bereichen Astronomie, Biogeochemie, Genomik und Atmosphärenwissenschaften. Big Data ist der Kern der meisten prädiktiven Analysedienste, die von IT-Organisationen angeboten werden.[27]

Dank des technologischen Fortschritts bei der Computerhardware – schnellere CPUs, billigerer Speicher und MPP-Architekturen – und neuer Technologien wie Hadoop, MapReduce sowie Datenbank- und Textanalysen für die Verarbeitung von Big Data ist es jetzt möglich, Daten zu sammeln, zu analysieren und abzubauen riesige Mengen strukturierter und unstrukturierter Daten für neue Erkenntnisse.[28] Es ist auch möglich, Vorhersagealgorithmen für Streaming-Daten auszuführen.[29] Heutzutage ist die Erforschung von Big Data und die Verwendung von Predictive Analytics für mehr Unternehmen als je zuvor erreichbar, und es werden neue Methoden vorgeschlagen, mit denen solche Datensätze verarbeitet werden können.[30][31]

Analytische Techniken[edit]

Die Ansätze und Techniken zur Durchführung prädiktiver Analysen lassen sich grob in Regressionstechniken und Techniken des maschinellen Lernens einteilen.

Regressionstechniken[edit]

Regressionsmodelle sind die Hauptstütze der prädiktiven Analyse. Der Schwerpunkt liegt auf der Erstellung einer mathematischen Gleichung als Modell zur Darstellung der Wechselwirkungen zwischen den verschiedenen betrachteten Variablen. Je nach Situation gibt es eine Vielzahl von Modellen, die bei der Durchführung von Predictive Analytics angewendet werden können. Einige von ihnen werden im Folgenden kurz erläutert.

Lineares Regressionsmodell[edit]

Das lineare Regressionsmodell sagt die Antwortvariable als lineare Funktion der Parameter mit unbekannten Koeffizienten voraus. Diese Parameter werden so angepasst, dass ein Maß für die Anpassung optimiert wird. Ein Großteil des Aufwands bei der Modellanpassung konzentriert sich auf die Minimierung der Größe des Residuums sowie auf die Sicherstellung, dass es in Bezug auf die Modellvorhersagen zufällig verteilt ist.

Das Ziel der Regression besteht darin, die Parameter des Modells so auszuwählen, dass die Summe der quadratischen Residuen minimiert wird. Dies wird als gewöhnliche Schätzung der kleinsten Quadrate (OLS) bezeichnet.

Modelle mit diskreter Auswahl[edit]

Die multiple Regression (oben) wird im Allgemeinen verwendet, wenn die Antwortvariable kontinuierlich ist und einen unbegrenzten Bereich aufweist. Oft ist die Antwortvariable nicht kontinuierlich, sondern diskret. Während es mathematisch möglich ist, multiple Regression auf diskrete geordnete abhängige Variablen anzuwenden, gelten einige der Annahmen hinter der Theorie der multiplen linearen Regression nicht mehr, und es gibt andere Techniken wie diskrete Auswahlmodelle, die für diese Art der Analyse besser geeignet sind. Wenn die abhängige Variable diskret ist, sind einige dieser überlegenen Methoden logistische Regression, multinomiale Logit- und Probit-Modelle. Logistische Regressions- und Probit-Modelle werden verwendet, wenn die abhängige Variable binär ist.

Logistische Regression[edit]

In einer Klassifizierungseinstellung kann das Zuweisen von Ergebniswahrscheinlichkeiten zu Beobachtungen mithilfe eines logistischen Modells (auch als Logikmodell bezeichnet) erreicht werden, das Informationen über die binär abhängige Variable in eine unbegrenzte kontinuierliche Variable umwandelt und ein reguläres multivariates Modell schätzt.

Der Wald- und der Likelihood-Ratio-Test werden verwendet, um die statistische Signifikanz jedes Koeffizienten zu testen b im Modell (analog zu den in der OLS-Regression verwendeten t-Tests; siehe oben). Ein Test zur Beurteilung der Anpassungsgüte eines Klassifizierungsmodells ist der “korrekt vorhergesagte Prozentsatz”.

Probit-Regression[edit]

Probit-Modelle bieten eine Alternative zur logistischen Regression zur Modellierung kategorial abhängiger Variablen.

Multinomiale logistische Regression[edit]

Eine Erweiterung des binären Logit-Modells auf Fälle, in denen die abhängige Variable mehr als zwei Kategorien aufweist, ist das multinomiale Logit-Modell. In solchen Fällen ist das Zusammenfassen der Daten in zwei Kategorien möglicherweise nicht sinnvoll oder führt zu einem Verlust des Datenreichtums. Das multinomiale Logit-Modell ist in diesen Fällen die geeignete Technik, insbesondere wenn die abhängigen Variablenkategorien nicht geordnet sind (zum Beispiel Farben wie Rot, Blau, Grün). Einige Autoren haben die multinomiale Regression um Methoden zur Merkmalsauswahl / -bedeutung wie die zufällige multinomiale Protokollierung erweitert.

Logit versus Probit[edit]

Die beiden Regressionen verhalten sich in der Regel ähnlich, mit der Ausnahme, dass die logistische Verteilung tendenziell etwas flacher ist. Die aus dem Logit- und Probit-Modell erhaltenen Koeffizienten liegen normalerweise nahe beieinander. Das Odds Ratio ist jedoch im Logit-Modell leichter zu interpretieren.

Praktische Gründe für die Wahl des Probit-Modells gegenüber dem Logistikmodell können sein:

  • Es besteht eine starke Überzeugung, dass die zugrunde liegende Verteilung normal ist
  • Das tatsächliche Ereignis ist kein binäres Ergebnis (z.B, Insolvenzstatus), aber ein Anteil (z.B, Anteil der Bevölkerung mit unterschiedlichen Schulden).

Zeitreihenmodelle[edit]

Zeitreihenmodelle werden zur Vorhersage oder Vorhersage des zukünftigen Verhaltens von Variablen verwendet. Diese Modelle berücksichtigen die Tatsache, dass Datenpunkte, die im Laufe der Zeit erfasst wurden, möglicherweise eine interne Struktur (wie Autokorrelation, Trend oder saisonale Variation) aufweisen, die berücksichtigt werden sollte. Infolgedessen können Standardregressionstechniken nicht auf Zeitreihendaten angewendet werden, und es wurde eine Methodik entwickelt, um den Trend, die saisonale und die zyklische Komponente der Reihe zu zerlegen.

Zeitreihenmodelle schätzen Differenzgleichungen, die stochastische Komponenten enthalten. Zwei häufig verwendete Formen dieser Modelle sind autoregressive Modelle (AR) und Modelle mit gleitendem Durchschnitt (MA). Die Box-Jenkins-Methode kombiniert die AR- und MA-Modelle, um das ARMA-Modell (autoregressive Moving Average) zu erstellen, das den Eckpfeiler der stationären Zeitreihenanalyse darstellt. ARIMA (autoregressive integrierte gleitende Durchschnittsmodelle) werden dagegen zur Beschreibung instationärer Zeitreihen verwendet.

In den letzten Jahren sind Zeitreihenmodelle komplexer geworden und versuchen, bedingte Heteroskedastizität zu modellieren. Zu diesen Modellen gehören das ARCH-Modell (autoregressive bedingte Heteroskedastizität) und das GARCH-Modell (generalisierte autoregressive bedingte Heteroskedastizität), die beide häufig für finanzielle Zeitreihen verwendet werden.

Überlebens- oder Daueranalyse[edit]

Die Überlebensanalyse ist ein anderer Name für die Zeit-zu-Ereignis-Analyse. Diese Techniken wurden hauptsächlich in den medizinischen und biologischen Wissenschaften entwickelt, sind aber auch in den Sozialwissenschaften wie Wirtschaftswissenschaften und Ingenieurwissenschaften weit verbreitet.

Zensur und Nichtnormalität, die für Überlebensdaten charakteristisch sind, verursachen Schwierigkeiten beim Versuch, die Daten unter Verwendung herkömmlicher statistischer Modelle wie der multiplen linearen Regression zu analysieren. Die Normalverteilung, die eine symmetrische Verteilung ist, nimmt sowohl positive als auch negative Werte an, aber die Dauer kann naturgemäß nicht negativ sein, und daher kann beim Umgang mit Dauer- / Überlebensdaten keine Normalität angenommen werden.

Dauer-Modelle können parametrisch, nicht parametrisch oder semiparametrisch sein. Einige der üblicherweise verwendeten Modelle sind Kaplan-Meier- und Cox-Proportional-Hazard-Modelle (nicht parametrisch).

Klassifikations- und Regressionsbäume (CART)[edit]

Klassifizierungs- und Regressionsbäume (CART) sind eine nicht parametrische Lernmethode für Entscheidungsbäume, die entweder Klassifizierungs- oder Regressionsbäume erzeugt, je nachdem, ob die abhängige Variable kategorisch oder numerisch ist.

Entscheidungsbäume werden durch eine Sammlung von Regeln gebildet, die auf Variablen im Modellierungsdatensatz basieren:

  • Regeln, die auf Variablenwerten basieren, werden ausgewählt, um die beste Aufteilung zu erhalten, um Beobachtungen basierend auf der abhängigen Variablen zu unterscheiden
  • Sobald eine Regel ausgewählt und ein Knoten in zwei geteilt wurde, wird der gleiche Prozess auf jeden “untergeordneten” Knoten angewendet (dh es handelt sich um eine rekursive Prozedur).
  • Das Aufteilen stoppt, wenn CART feststellt, dass keine weitere Verstärkung erzielt werden kann oder einige voreingestellte Stoppregeln eingehalten werden. (Alternativ werden die Daten so weit wie möglich aufgeteilt und der Baum später beschnitten.)

Jeder Zweig des Baums endet in einem Endknoten. Jede Beobachtung fällt in einen und genau einen Endknoten, und jeder Endknoten wird durch eine Reihe von Regeln eindeutig definiert.

Eine sehr beliebte Methode für die prädiktive Analyse sind zufällige Wälder.

Multivariate adaptive Regressionssplines[edit]

Multivariate adaptive Regressionssplines (MARS) sind eine nicht parametrische Technik, mit der flexible Modelle durch Anpassen stückweise linearer Regressionen erstellt werden.

Der multivariate und adaptive Regressions-Spline-Ansatz passt das Modell absichtlich an und schneidet es dann ab, um zum optimalen Modell zu gelangen. Der Algorithmus ist rechenintensiv und in der Praxis wird eine Obergrenze für die Anzahl der Basisfunktionen festgelegt.

Techniken des maschinellen Lernens[edit]

Maschinelles Lernen umfasst eine Reihe fortschrittlicher statistischer Methoden zur Regression und Klassifizierung und findet Anwendung in einer Vielzahl von Bereichen, einschließlich medizinischer Diagnostik, Erkennung von Kreditkartenbetrug, Gesichts- und Spracherkennung und Analyse der Börse.

In der Vergangenheit waren für die Verwendung von Predictive Analytics-Tools sowie für das Verständnis der von ihnen erzielten Ergebnisse fortgeschrittene Kenntnisse erforderlich. Moderne Predictive Analytics-Tools sind jedoch nicht mehr auf IT-Spezialisten beschränkt.[citation needed] Da immer mehr Unternehmen Predictive Analytics in Entscheidungsprozesse einbinden und in ihre Abläufe integrieren, verlagern sie den Markt in Richtung Geschäftsanwender als Hauptverbraucher der Informationen. Geschäftsanwender möchten Tools, die sie selbst verwenden können. Die Anbieter reagieren darauf mit der Erstellung einer neuen Software, die die mathematische Komplexität beseitigt, benutzerfreundliche grafische Oberflächen bereitstellt und / oder Verknüpfungen einbaut, mit denen beispielsweise die Art der verfügbaren Daten erkannt und ein geeignetes Vorhersagemodell vorgeschlagen werden kann.[32] Predictive Analytics-Tools sind so ausgefeilt, dass Datenprobleme angemessen dargestellt und analysiert werden können.[citation needed] Damit jeder datenbewusste Information Worker sie verwenden kann, um Daten zu analysieren und aussagekräftige, nützliche Ergebnisse abzurufen.[2] Beispielsweise präsentieren moderne Tools Ergebnisse anhand einfacher Diagramme, Grafiken und Scores, die die Wahrscheinlichkeit möglicher Ergebnisse angeben.[33]

Auf dem Markt sind zahlreiche Tools verfügbar, die bei der Ausführung von Predictive Analytics helfen. Diese reichen von denen, die nur sehr wenig Benutzerkompetenz benötigen, bis zu denen, die für den erfahrenen Praktiker entwickelt wurden. Der Unterschied zwischen diesen Tools liegt häufig in der Anpassungsstufe und dem zulässigen hohen Datenaufwand.

PMML[edit]

Die Predictive Model Markup Language (PMML) wurde als Standardsprache zum Ausdrücken von Vorhersagemodellen vorgeschlagen. Eine solche XML-basierte Sprache bietet den verschiedenen Tools die Möglichkeit, Vorhersagemodelle zu definieren und gemeinsam zu nutzen. PMML 4.0 wurde im Juni 2009 veröffentlicht.

Kritik[edit]

Es gibt viele Skeptiker, wenn es um die Fähigkeit von Computern und Algorithmen geht, die Zukunft vorherzusagen, darunter Gary King, Professor an der Harvard University und Direktor des Instituts für quantitative Sozialwissenschaften.[34] Menschen werden auf unzählige Weise von ihrer Umwelt beeinflusst. Um genau vorherzusagen, was die Menschen als nächstes tun werden, müssen alle einflussreichen Variablen bekannt sein und genau gemessen werden. “Die Umgebung der Menschen ändert sich noch schneller als sie selbst. Alles, vom Wetter bis zu ihrer Beziehung zu ihrer Mutter, kann die Art und Weise verändern, wie Menschen denken und handeln. Alle diese Variablen sind unvorhersehbar. Wie sie sich auf eine Person auswirken, ist noch weniger vorhersehbar. Wenn Wenn sie morgen genau die gleiche Situation haben, treffen sie möglicherweise eine völlig andere Entscheidung. Dies bedeutet, dass eine statistische Vorhersage nur unter sterilen Laborbedingungen gültig ist, was plötzlich nicht mehr so ​​nützlich ist, wie es vorher schien. “[35]

In einer Studie von 1072 Artikeln, die zwischen 1990 und 2006 in Information Systems Research und MIS Quarterly veröffentlicht wurden, versuchten nur 52 empirische Artikel prädiktive Behauptungen, von denen nur 7 eine ordnungsgemäße prädiktive Modellierung oder Prüfung durchführten.[36]

Siehe auch[edit]

Verweise[edit]

  1. ^ ein b Nyce, Charles (2007), Predictive Analytics White Paper (PDF), Amerikanisches Institut für Chartered Property Casualty Underwriter / Versicherungsinstitut von Amerika, p. 1
  2. ^ ein b c Eckerson, Wayne (10. Mai 2007), Wertsteigerung Ihrer Data Warehousing-Investition, Das Data Warehouse Institut
  3. ^ Coker, Frank (2014). Puls: Die Lebenszeichen Ihres Unternehmens verstehen (1. Aufl.). Bellevue, WA: Ambient Light Publishing. S. 30, 39, 42, mehr. ISBN 978-0-9893086-0-1.
  4. ^ ein b Conz, Nathan (2. September 2008), “Umstellung der Versicherer auf kundenorientierte Predictive Analytics-Technologien”, Versicherung & Technologie, archiviert von das Original am 22. Juli 2012abgerufen 2. Juli, 2012
  5. ^ Fletcher, Heather (2. März 2011), “Die 7 besten Anwendungen für Predictive Analytics im Multichannel-Marketing”, Zielgerichtete Vermarktung
  6. ^ Korn, Sue (21. April 2011), “Die Chance für Predictive Analytics im Finanzbereich”, HPC-Draht
  7. ^ ein b Barkin, Eric (Mai 2011), “CRM + Predictive Analytics: Warum sich alles summiert”, Ziel-CRM
  8. ^ Das, Krantik; Vidyashankar, GS (1. Juli 2006), “Wettbewerbsvorteil im Einzelhandel durch Analytik: Erkenntnisse entwickeln, Werte schaffen”, Informationsmanagement
  9. ^ McDonald, Michèle (2. September 2010), “Neue Technologie nutzt ‘Predictive Analytics’, um auf Reiseempfehlungen abzuzielen”, Reisemarktbericht, archiviert von das Original am 10. September 2015
  10. ^ Moreira-Matias, Luís; Gama, João; Ferreira, Michel; Mendes-Moreira, João; Damas, Luis (01.02.2016). “Zeitentwickelte OD-Matrixschätzung unter Verwendung von Hochgeschwindigkeits-GPS-Datenströmen”. Expertensysteme mit Anwendungen. 44: 275–288. doi:10.1016 / j.eswa.2015.08.048.
  11. ^ Stevenson, Erin (16. Dezember 2011), “Tech Beat: Können Sie Predictive Analytics für das Gesundheitswesen aussprechen?”, Times-Standard, archiviert von das Original am 4. August 2014abgerufen 2. Juli, 2012
  12. ^ Lindert, Bryan (Oktober 2014). “Eckerd Rapid Safety Feedback bringt Business Intelligence zum Wohl der Kinder” (PDF). Politik & Praxis. Abgerufen 3. März, 2016.
  13. ^ “Florida nutzt Predictive Analytics, um Todesfälle bei Kindern zu verhindern – andere Staaten folgen”. Die Huffington Post. 2015-12-21. Abgerufen 2016-03-25.
  14. ^ McKay, Lauren (August 2009), “Das neue Rezept für Pharma”, Ziel-CRM, archiviert von das Original am 10.07.2015abgerufen 2012-07-02
  15. ^ Gaeth, Andrae. “Evaluierung von Predictive Analytics für die Kapazitätsplanung” (PDF). www.hisa.org.au.. Abgerufen 22. November 2018.
  16. ^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). “Vorhersage der Popularität von Instagram-Posts für ein Lifestyle-Magazin mithilfe von Deep Learning”. 2017 2. Internationale Konferenz für Kommunikationssysteme, Computer und IT-Anwendungen (CSCITA). S. 174–177. doi:10.1109 / CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID 35350962.
  17. ^ Personali (2018-10-11). “Glossar zur UX-Optimierung> Data Science> Web Analytics> Predictive Analytics”. www.personali.com. Abgerufen 2018-10-22.
  18. ^ Finlay, Steven (2014). Predictive Analytics, Data Mining und Big Data. Mythen, Missverständnisse und Methoden (1. Aufl.). Basingstoke: Palgrave Macmillan. p. 237. ISBN 978-1137379276.
  19. ^ Siegel, Eric (2013). Predictive Analytics: Die Fähigkeit, vorherzusagen, wer klicken, kaufen, lügen oder sterben wird (1. Aufl.). Wiley. ISBN 978-1-1183-5685-2.
  20. ^ “Neue Strategien zur Messung des Kindeswohlrisikos längst überfällig – Die Chronik des sozialen Wandels”. Die Chronik des sozialen Wandels. 2016-02-03. Abgerufen 2016-04-04.
  21. ^ “Eine nationale Strategie zur Beseitigung von Kindesmissbrauch und zur Vernachlässigung von Todesfällen” (PDF). Kommission zur Beseitigung von Kindesmissbrauch und Vernachlässigung von Todesfällen. (2016). Abgerufen 14. April 2018.
  22. ^ Dinov, Ivo D.; Heavner, Ben; Tang, Ming; Glusman, Gustavo; Mangold, Kyle; Darcy, Mike; Madduri, Ravi; Pa, Judy; Spino, Cathie; Kesselman, Carl; Foster, Ian; Deutsch, Eric W.; Price, Nathan D.; Van Horn, John D.; Ames, Joseph; Clark, Kristi; Hood, Leroy; Hampstead, Benjamin M.; Dauer, William; Toga, Arthur W. (2016). “Predictive Big Data Analytics: Eine Studie zur Parkinson-Krankheit unter Verwendung großer, komplexer, heterogener, inkongruenter, quellenübergreifender und unvollständiger Beobachtungen”. PLUS EINS. 11 (8): e0157077. Bibcode:2016PLoSO..1157077D. doi:10.1371 / journal.pone.0157077. PMC 4975403. PMID 27494614.
  23. ^ Vorhersage von Gerichtsentscheidungen des Europäischen Gerichtshofs für Menschenrechte: eine Perspektive der Verarbeitung natürlicher Sprache
  24. ^ AI prognostiziert Ergebnisse von Menschenrechtsstudien
  25. ^ Dhar, Vasant (April 2011). “Prognose auf den Finanzmärkten: Der Fall für kleine Disjunkte”. ACM-Transaktionen zu intelligenten Systemen und Technologien. 2 (3). doi:10.1145 / 1961189.1961191. S2CID 11213278.
  26. ^ Dhar, Vasant; Chou, Dashin; Provost Foster (Oktober 2000). “Mit GLOWER interessante Muster für Investitionsentscheidungen entdecken – ein genetischer Lernalgorithmus, der mit Entropiereduktion überlagert ist”. Data Mining und Knowledge Discovery. 4 (4): 251–280. doi:10.1023 / A: 1009848126475. S2CID 1982544.
  27. ^ http://www.hcltech.com/sites/default/files/key_to_monetizing_big_data_via_predictive_analytics.pdf
  28. ^ Schiff, Mike (6. März 2012), BI-Experten: Warum Predictive Analytics weiter wachsen wird, Das Data Warehouse Institut
  29. ^ “Predictive Analytics für sich entwickelnde Datenströme” (PDF).
  30. ^ Ben-Gal I. Dana A.; Shkolnik N. und Singer (2014). “Effiziente Konstruktion von Entscheidungsbäumen nach der Dual Information Distance-Methode” (PDF). Qualitätstechnologie und quantitatives Management (QTQM), 11 (1), 133-147.
  31. ^ Ben-Gal I.; Shavitt Y.; Weinsberg E.; Weinsberg U. (2014). “Abrufen von Peer-to-Peer-Informationen mithilfe von Clustering mit gemeinsam genutzten Inhalten” (PDF). Knowl Inf Syst. 39 (2): 383–408. doi:10.1007 / s10115-013-0619-9. S2CID 16437786.
  32. ^ Halper, Fern (1. November 2011), “Die Top 5 Trends in Predictive Analytics”, Informationsmanagement
  33. ^ MacLennan, Jamie (1. Mai 2012), 5 Mythen über Predictive Analytics, Das Data Warehouse Institut
  34. ^ Temple-Raston, Dina (8. Oktober 2012), Vorhersage der Zukunft: Fantasie oder ein guter Algorithmus?, NPR
  35. ^ Alverson, Cameron (September 2012), Umfragen und statistische Modelle können die Zukunft nicht vorhersagenCameron Alverson
  36. ^ Shmueli, Galit (01.08.2010). “Erklären oder vorhersagen?”. Statistische Wissenschaft. 25 (3): 289–310. arXiv:1101.0891. doi:10.1214 / 10-STS330. ISSN 0883-4237. S2CID 15900983.

Weiterführende Literatur[edit]

  • Agresti, Alan (2002). Kategoriale Datenanalyse. Hoboken: John Wiley und Söhne. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. Und Schutzer, Daniel, “Intelligent Security Systems”, in Roy S. Freedman, Robert A. Flein und Jess Lederman, Herausgeber (1995). Künstliche Intelligenz auf den Kapitalmärkten. Chicago: Irwin. ISBN 1-55738-811-3.CS1-Wartung: mehrere Namen: Autorenliste (Link)
  • L. Devroye; L. Györfi; G. Lugosi (1996). Eine probabilistische Theorie der Mustererkennung. New York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Angewandte Zeitreihenökonometrie. Hoboken: John Wiley und Söhne. ISBN 0-521-83919-X.
  • Greene, William (2012). Econometric Analysis, 7. Aufl. London: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidère, Mathieu; Howard N, Sh. Argamon (2009). Rich Language Analysis zur Terrorismusbekämpfung. Berlin, London, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Maschinelles Lernen. New York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Predictive Analytics: Die Fähigkeit, vorherzusagen, wer klicken, kaufen, lügen oder sterben wird. John Wiley. ISBN 978-1119145677.
  • Tukey, John (1977). Explorative Datenanalyse. New York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Predictive Analytics, Data Mining und Big Data. Mythen, Missverständnisse und Methoden. Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Puls: Die Lebenszeichen Ihres Unternehmens verstehen. Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.

after-content-x4