Kovarianz – Wikipedia

In der Wahrscheinlichkeitstheorie und Statistik Kovarianz ist ein Maß für die gemeinsame Variabilität zweier Zufallsvariablen.[1] Wenn die größeren Werte einer Variablen hauptsächlich den größeren Werten der anderen Variablen entsprechen und dasselbe für die kleineren Werte gilt (dh die Variablen zeigen tendenziell ein ähnliches Verhalten), ist die Kovarianz positiv.[2] Im umgekehrten Fall ist die Kovarianz negativ, wenn die größeren Werte einer Variablen hauptsächlich den kleineren Werten der anderen Variablen entsprechen (dh die Variablen neigen dazu, ein entgegengesetztes Verhalten zu zeigen). Das Vorzeichen der Kovarianz zeigt daher die Tendenz in der linearen Beziehung zwischen den Variablen. Die Größe der Kovarianz ist nicht leicht zu interpretieren, da sie nicht normalisiert ist und daher von den Größen der Variablen abhängt. Die normalisierte Version der Kovarianz, der Korrelationskoeffizient, zeigt jedoch durch ihre Größe die Stärke der linearen Beziehung.
Es muss unterschieden werden zwischen (1) der Kovarianz zweier Zufallsvariablen, die ein Populationsparameter ist, der als Eigenschaft der gemeinsamen Wahrscheinlichkeitsverteilung angesehen werden kann, und (2) der Stichproben-Kovarianz, die zusätzlich als Deskriptor dient der Stichprobe dient auch als geschätzter Wert des Populationsparameters.
Definition[edit]
Für zwei gemeinsam verteilte reelle Zufallsvariablen
und
p. 119
Bei endlichen zweiten Momenten wird die Kovarianz als der erwartete Wert (oder Mittelwert) des Produkts ihrer Abweichungen von ihren individuellen erwarteten Werten definiert:[3][4]::
|
((Gl.1) |
wo
ist der erwartete Wert von
, auch bekannt als Mittelwert von
. Die Kovarianz wird manchmal auch bezeichnet
oder
in Analogie zur Varianz. Durch Verwendung der Linearitätseigenschaft der Erwartungen kann dies auf den erwarteten Wert ihres Produkts abzüglich des Produkts ihrer erwarteten Werte vereinfacht werden:
Diese Gleichung kann jedoch katastrophal aufgehoben werden (siehe Abschnitt über numerische Berechnungen weiter unten).
Die Maßeinheiten der Kovarianz
sind die von
mal die von
. Im Gegensatz dazu sind Korrelationskoeffizienten, die von der Kovarianz abhängen, ein dimensionsloses Maß für die lineare Abhängigkeit. (Tatsächlich können Korrelationskoeffizienten einfach als normalisierte Version der Kovarianz verstanden werden.)
Definition für komplexe Zufallsvariablen[edit]
Die Kovarianz zwischen zwei komplexen Zufallsvariablen
p. 119
ist definiert als[4]::Beachten Sie die komplexe Konjugation des zweiten Faktors in der Definition.
Diskrete Zufallsvariablen[edit]
Wenn das Zufallsvariablenpaar
kann die Werte annehmen
zum
mit gleichen Wahrscheinlichkeiten
dann kann die Kovarianz in Bezug auf die Mittel gleichwertig geschrieben werden
und
wie
Es kann auch äquivalent ausgedrückt werden, ohne sich direkt auf die Mittel zu beziehen, als[5]
- mögliche Realisierungen von nämlich aber mit möglicherweise ungleichen Wahrscheinlichkeiten zum dann ist die Kovarianz
Beispiel[edit]
Geometrische Interpretation des Kovarianzbeispiels. Jeder Quader ist der Begrenzungsrahmen seines Punktes (x, y, f((x, y )) und die X. und Y. bedeutet (Magenta-Punkt). Die Kovarianz ist die Summe der Volumina der roten Quader minus blauen Quader.Nehme an, dass
und
haben die folgende gemeinsame Wahrscheinlichkeitsmassenfunktion,[6] in denen die sechs zentralen Zellen die diskreten Gelenkwahrscheinlichkeiten angeben
der sechs hypothetischen Realisierungen
::
x 5 6 7 y 8 0 0,4 0,1 0,5 9 0,3 0 0,2 0,5 0,3 0,4 0,3 1 kann dabei drei Werte annehmen (5, 6 und 7)
kann zwei (8 und 9) annehmen. Ihre Mittel sind
und
. Dann,
Eigenschaften[edit]
Kovarianz mit sich selbst[edit]
Die Varianz ist ein Sonderfall der Kovarianz, bei der die beiden Variablen identisch sind (dh bei der eine Variable immer den gleichen Wert wie die andere annimmt):[4]::p. 121
Kovarianz linearer Kombinationen[edit]
Wenn
,
,
, und
sind reelle Zufallsvariablen und
Wenn es sich um reelle Konstanten handelt, sind die folgenden Tatsachen eine Folge der Definition der Kovarianz:
Für eine Sequenz
von Zufallsvariablen in reellen Werten und Konstanten
, wir haben
Hoeffdings Kovarianzidentität[edit]
Eine nützliche Identität zur Berechnung der Kovarianz zwischen zwei Zufallsvariablen
ist die Kovarianzidentität des Hoeffding:[7]
wo
ist die gemeinsame kumulative Verteilungsfunktion des Zufallsvektors
und
sind die Ränder.
[edit]
Zufallsvariablen, deren Kovarianz Null ist, werden als unkorreliert bezeichnet.[4]::p. 121 In ähnlicher Weise werden die Komponenten von Zufallsvektoren, deren Kovarianzmatrix in jedem Eintrag außerhalb der Hauptdiagonale Null ist, auch als unkorreliert bezeichnet.
Wenn
und
p. 123[8] Dies folgt, weil unter Unabhängigkeit,
sind unabhängige Zufallsvariablen, dann ist ihre Kovarianz Null.[4]::Das Gegenteil ist jedoch im Allgemeinen nicht der Fall. Zum Beispiel lassen
gleichmäßig verteilt sein in
und lass
. Deutlich,
und
sind nicht unabhängig, aber
In diesem Fall ist die Beziehung zwischen
und
ist nichtlinear, während Korrelation und Kovarianz Maß für die lineare Abhängigkeit zwischen zwei Zufallsvariablen sind. Dieses Beispiel zeigt, dass wenn zwei Zufallsvariablen nicht korreliert sind, dies im Allgemeinen nicht bedeutet, dass sie unabhängig sind. Wenn jedoch zwei Variablen gemeinsam normalverteilt sind (aber nicht, wenn sie nur einzeln normalverteilt sind), ist die Unkorrelation tutUnabhängigkeit implizieren.
Beziehung zu inneren Produkten[edit]
Viele der Eigenschaften der Kovarianz können elegant extrahiert werden, indem beobachtet wird, dass sie ähnliche Eigenschaften wie die eines inneren Produkts erfüllt:
- bilinear: für Konstanten und und Zufallsvariablen ,
- symmetrisch:
- positiv semidefinitiv: für alle Zufallsvariablen , und impliziert, dass ist fast sicher konstant.
Tatsächlich implizieren diese Eigenschaften, dass die Kovarianz ein inneres Produkt über dem Quotientenvektorraum definiert, der erhalten wird, indem der Unterraum von Zufallsvariablen mit endlichem zweiten Moment genommen und zwei beliebige identifiziert werden, die sich durch eine Konstante unterscheiden. (Diese Identifizierung wandelt die positive Halbbestimmtheit oben in eine positive Bestimmtheit um.) Dieser Quotientenvektorraum ist isomorph zum Unterraum von Zufallsvariablen mit endlichem zweiten Moment und Mittelwert Null; In diesem Unterraum ist die Kovarianz genau das L.2 inneres Produkt realer Funktionen auf dem Probenraum.
Infolgedessen ist für Zufallsvariablen mit endlicher Varianz die Ungleichung
gilt über die Cauchy-Schwarz-Ungleichung.
Beweis: Wenn
, dann gilt es trivial. Andernfalls lassen Sie eine Zufallsvariable
Dann haben wir
Berechnung der Stichproben-Kovarianz[edit]
Die Beispielkovarianzen unter
Variablen basierend auf
Beobachtungen von jedem, die aus einer ansonsten unbeobachteten Bevölkerung stammen, werden von der
Matrix
mit den Einträgen
Dies ist eine Schätzung der Kovarianz zwischen Variablen
und variabel
.
Der Stichprobenmittelwert und die Stichproben-Kovarianzmatrix sind unverzerrte Schätzungen des Mittelwerts und der Kovarianzmatrix des Zufallsvektors
, ein Vektor, dessen jth Element
ist eine der Zufallsvariablen. Der Grund, den die Stichproben-Kovarianzmatrix hat
eher im Nenner als
ist im Wesentlichen, dass die Bevölkerung bedeuten
ist nicht bekannt und wird durch den Stichprobenmittelwert ersetzt
. Wenn die Bevölkerung meint
bekannt ist, ist die analoge unverzerrte Schätzung gegeben durch
- .
Verallgemeinerungen[edit]
Autokovarianzmatrix von realen Zufallsvektoren[edit]
Für einen Vektor
von
gemeinsam verteilte Zufallsvariablen mit endlichen Sekundenmomenten, deren Autokovarianzmatrix (auch bekannt als Varianz-Kovarianz-Matrix oder einfach die Kovarianzmatrix)
(auch bezeichnet mit
S.335
) ist definiert als[9]::Lassen
Σ, und lass EIN eine Matrix sein, auf die man einwirken kann
sei ein Zufallsvektor mit KovarianzmatrixAXT ist:
auf der linken Seite. Die Kovarianzmatrix des Matrix-Vektor-ProduktsDies ist ein direktes Ergebnis der Linearität der Erwartung und nützlich, wenn eine lineare Transformation, wie beispielsweise eine Bleaching-Transformation, auf einen Vektor angewendet wird.
Kreuzkovarianzmatrix realer Zufallsvektoren[edit]
Für echte Zufallsvektoren
und
, das
S.336
Kreuzkovarianzmatrix ist gleich[9]::((Gl.2)
wo
ist die Transponierte des Vektors (oder der Matrix)
.
Das
-th Element dieser Matrix ist gleich der Kovarianz
ich-te Skalarkomponente von
zwischen denj-te Skalarkomponente von
und die. Speziell,
ist die Transponierte von
.
Numerische Berechnung[edit]
Wann
, Die gleichung
ist anfällig für katastrophale Löschung, wenn mit Gleitkomma-Arithmetik berechnet wird, und sollte daher in Computerprogrammen vermieden werden, wenn die Daten zuvor nicht zentriert wurden.[10]In diesem Fall sollten numerisch stabile Algorithmen bevorzugt werden.[11]
Die Kovarianz wird manchmal als Maß für bezeichnet „lineare Abhängigkeit“ zwischen den beiden Zufallsvariablen. Das bedeutet nicht dasselbe wie im Kontext der linearen Algebra (siehe lineare Abhängigkeit). Wenn die Kovarianz normalisiert ist, erhält man den Pearson-Korrelationskoeffizienten, der die Güte der Anpassung für die bestmögliche lineare Funktion angibt, die die Beziehung zwischen den Variablen beschreibt. In diesem Sinne ist die Kovarianz ein lineares Maß für die Abhängigkeit.
Anwendungen[edit]
In der Genetik und Molekularbiologie[edit]
Kovarianz ist eine wichtige Maßnahme in der Biologie. Bestimmte DNA-Sequenzen sind unter Spezies stärker konserviert als andere. Um Sekundär- und Tertiärstrukturen von Proteinen oder RNA-Strukturen zu untersuchen, werden Sequenzen in eng verwandten Spezies verglichen. Wenn Sequenzänderungen gefunden werden oder überhaupt keine Änderungen in nichtkodierender RNA (wie z. B. microRNA) gefunden werden, wird festgestellt, dass Sequenzen für gemeinsame Strukturmotive wie eine RNA-Schleife notwendig sind. In der Genetik dient die Kovarianz als Grundlage für die Berechnung der genetischen Beziehungsmatrix (GRM) (auch bekannt als Verwandtschaftsmatrix), die Rückschlüsse auf die Populationsstruktur aus einer Stichprobe ohne bekannte nahe Verwandte sowie Rückschlüsse auf die Abschätzung der Heritabilität komplexer Merkmale ermöglicht.
In der Theorie der Evolution und der natürlichen Auslese ist die Preisgleichung beschreibt, wie sich die Häufigkeit eines genetischen Merkmals im Laufe der Zeit ändert. Die Gleichung verwendet a Kovarianz zwischen einem Merkmal und Fitness, um eine mathematische Beschreibung der Evolution und der natürlichen Selektion zu geben. Es bietet eine Möglichkeit, die Auswirkungen der Genübertragung und der natürlichen Selektion auf den Anteil der Gene in jeder neuen Generation einer Population zu verstehen.[12][13] Die Preisgleichung wurde von George R. Price abgeleitet, um WD Hamiltons Arbeit zur Auswahl von Verwandten abzuleiten. Beispiele für die Preisgleichung wurden für verschiedene Evolutionsfälle konstruiert.
In der Finanzökonomie[edit]
Kovarianzen spielen eine Schlüsselrolle in der Finanzökonomie, insbesondere in der modernen Portfoliotheorie und im Preismodell für Kapitalanlagen. Kovarianzen zwischen den Renditen verschiedener Vermögenswerte werden verwendet, um unter bestimmten Annahmen die relativen Beträge verschiedener Vermögenswerte zu bestimmen, die Anleger (in einer normativen Analyse) (oder in einer positiven Analyse) im Kontext der Diversifikation halten sollten.
Bei der Assimilation meteorologischer und ozeanographischer Daten[edit]
Die Kovarianzmatrix ist wichtig für die Schätzung der Anfangsbedingungen, die für die Ausführung von Wettervorhersagemodellen erforderlich sind. Dieses Verfahren wird als Datenassimilation bezeichnet. Die ‚Prognosefehlerkovarianzmatrix‘ wird typischerweise zwischen Störungen um einen Mittelwert (entweder ein klimatologischer oder ein Ensemble-Mittelwert) konstruiert. Die ‚Beobachtungsfehler-Kovarianzmatrix‘ ist so konstruiert, dass sie die Größe kombinierter Beobachtungsfehler (auf der Diagonale) und die korrelierten Fehler zwischen Messungen (außerhalb der Diagonale) darstellt. Dies ist ein Beispiel für seine weit verbreitete Anwendung auf die Kalman-Filterung und die allgemeinere Zustandsschätzung für zeitvariable Systeme.
In der Mikrometeorologie[edit]
Die Wirbel-Kovarianz-Technik ist eine wichtige atmosphärische Messtechnik, bei der die Kovarianz zwischen der augenblicklichen Abweichung der vertikalen Windgeschwindigkeit vom Mittelwert und der augenblicklichen Abweichung der Gaskonzentration die Grundlage für die Berechnung der vertikalen turbulenten Flüsse bildet.
In der Signalverarbeitung[edit]
Die Kovarianzmatrix wird verwendet, um die spektrale Variabilität eines Signals zu erfassen.[14]
In Statistik und Bildverarbeitung[edit]
Die Kovarianzmatrix wird in der Hauptkomponentenanalyse verwendet, um die Merkmalsdimensionalität bei der Datenvorverarbeitung zu reduzieren.
Siehe auch[edit]
Verweise[edit]
- ^ Rice, John (2007). Mathematische Statistik und Datenanalyse. Belmont, Kalifornien: Brooks / Cole Cengage Learning. p. 138. ISBN 978-0534-39942-9.
- ^ Weisstein, Eric W. „Kovarianz“. MathWorld.
- ^ Oxford Dictionary of Statistics, Oxford University Press, 2002, p. 104.
- ^ ein b c d e Park, Kun Il (2018). Grundlagen der Wahrscheinlichkeit und stochastischer Prozesse mit Anwendungen auf die Kommunikation. Springer. ISBN 978-3-319-68074-3.
- ^ Yuli Zhang, Huaiyu Wu, Lei Cheng (Juni 2012). Einige neue Verformungsformeln zu Varianz und Kovarianz. Vorträge der 4. Internationalen Konferenz über Modellierung, Identifizierung und Kontrolle (ICMIC2012). S. 987–992.CS1-Wartung: Verwendet den Autorenparameter (Link)
- ^ „Kovarianz von X und Y | STAT 414/415“. Die Pennsylvania State University. Archiviert von das Original am 17. August 2017. Abgerufen 4. August 2019.
- ^ Papoulis (1991). Wahrscheinlichkeit, Zufallsvariablen und stochastische Prozesse. McGraw-Hill.
- ^ Siegrist, Kyle. „Kovarianz und Korrelation“. Universität von Alabama in Huntsville. Abgerufen 4. August 2019.
- ^ ein b Gubner, John A. (2006). Wahrscheinlichkeits- und Zufallsprozesse für Elektro- und Computeringenieure. Cambridge University Press. ISBN 978-0-521-86470-1.
- ^ Donald E. Knuth (1998). Die Kunst der Computerprogrammierung, Band 2: Seminumerische Algorithmen, 3rd edn., P. 232. Boston: Addison-Wesley.
- ^ Schubert, Erich; Gertz, Michael (2018). „Numerisch stabile parallele Berechnung der (Co-) Varianz“. Tagungsband der 30. Internationalen Konferenz für wissenschaftliches und statistisches Datenbankmanagement – SSDBM ’18. Bozen-Bozen, Italien: ACM Press: 1–12. doi:10.1145 / 3221269.3223036. ISBN 9781450365055. S2CID 49665540.
- ^ Price, George (1970). „Auswahl und Kovarianz“. Natur. 227 (5257): 520–521. doi:10.1038 / 227520a0. PMID 5428476. S2CID 4264723.
- ^ Harman, Oren (2020). „Wenn die Wissenschaft das Leben widerspiegelt: über die Ursprünge der Preisgleichung“. Phil. Trans. R. Soc. B.. 375 (1797): 1–7. doi:10.1098 / rstb.2019.0352. PMC 7133509. PMID 32146891. Abgerufen 2020-05-15.
- ^ Sahidullah, Md.; Kinnunen, Tomi (März 2016). „Lokale spektrale Variabilitätsmerkmale zur Sprecherüberprüfung“. Digitale Signalverarbeitung. 50: 1–11. doi:10.1016 / j.dsp.2015.10.011.
Neueste Kommentare