Corrélation canonique – Wikipedia

before-content-x4

Le Analyse de la corrélation canonique Décrit une méthode de statistiques multivariées pour analyser la dépendance de deux vecteurs aléatoires

X {displaystyle x}
after-content-x4

et

ET {displaystyle y}

. De plus, il permet à ces relations de résumer ces relations dans des données de haute dimension dans un petit nombre de statistiques.

L’idée derrière l’analyse de la corrélation canonique est la suivante, vous recherchez les deux combinaisons linéaires

( un , b ) {displayStyle (a, b)}

, appelé variables canoniques , donc c’est la plus grande corrélation

posséder. Cette généralisation de la corrélation est appelée corrélation canonique . La procédure est ensuite répétée, de sorte que les prochaines combinaisons linéaires sont également incorporées dans la combinaison linéaire précédente. [d’abord] [2]

L’analyse canonique de corrélation a été introduite en 1935 par Harold Hotelling [3] [4] .

after-content-x4

Découverte de structure [ Modifier | Modifier le texte source ]]

Puisqu’il se développe principalement comme un instrument de statistiques exploratoires, il sert principalement le Détection Structures intéressantes dans les données, ici la détection de relations intéressantes entre les quantités de variables dans un ensemble de données donné. Contrairement au coefficient de corrélation Bravais-Pearson simple, la dépendance entre deux variables individuelles n’est pas intéressée, mais entre Deux ensembles de variables [5] .

Réduction des dimensions [ Modifier | Modifier le texte source ]]

Un autre domaine d’application de l’analyse de corrélation canonique est la réduction de la dimension de l’enregistrement de données examiné en utilisant les variables canoniques avec la corrélation la plus élevée au lieu des variables d’origine basées sur la variable canonique. Important est,
que les variables canoniques peuvent être bien interprétées et aussi clairement que possible [6] , puisque le remplacement des variables d’origine entraînerait autrement des problèmes d’interprétation.

Deux quantités de variables aléatoires sont examinées

X = ( X d’abord , , X p ) T{displayStyle x = (x_ {1}, ldots, x_ {p}) ^ {mathrm {t}}}

et

ET = ( ET d’abord , , ET q ) T{displayStyle y = (y_ {1}, ldots, y_ {q}) ^ {mathrm {t}}}

.

L’objectif de l’analyse de corrélation canonique (linéaire) est de découvrir des variables canoniques appropriées, c’est-à-dire H. combinaisons linéaires appropriées du
Variables d’une quantité variable. À partir des variables canoniques le Coefficient de corrélation canonique déterminé que
Degré de dépendance linéaire mutuelle entre les variables canoniques et donc énoncée entre les phrases de variables aléatoires.

Vous regardez les combinaisons linéaires

et

Nous recherchons ces vecteurs de pondération

dans {displaystyle u}

et

dans {DisplayStyle V}

la corrélation entre

UN d’abord {displayStyle a_ {1}}

et

B d’abord {displayStyle b_ {1}}

maximiser, c’est-à-dire pour

nous recherchons

Peut être

Ensuite, nous optimisons

En évoluant, nous pouvons également résoudre le problème d’optimisation suivant avec une condition auxiliaire

Vous avez maintenant le premier couple variables canoniques

( UN d’abord , B d’abord ) {displayStyle (a_ {1}, b_ {1})}

trouvé, la procédure est successivement répétée avec la condition supplémentaire pour le

k {displaystyle k}

-Te étape que

( UN k , B k ) {displayStyle (a_ {k}, b_ {k})}

non corrélé au

d’abord , , k d’abord {DisplayStyle 1, points, K-1}

Les couples l’est. Plus précisément, cela signifie pour le deuxième couple qui aussi

doit s’appliquer.

L’objectif est l’éducation maximale de la covariance (similaire à l’analyse principale des composants, qui vise à être progressivement l’objectif de l’éducation maximale de la variance). La corrélation entre le

k {displaystyle k}

-La paire, nomme l’homme

k {displaystyle k}

-e corrélation canonique . Globalement peut

min ( p , q ) {displayStyle min (p, q)}

Les paires de facteurs sont extraites car un maximum autant de facteurs peuvent être extraits que les variables sont disponibles dans un groupe. [7]

Divers paramètres peuvent être calculés pour évaluer la solution.

Redondance [ Modifier | Modifier le texte source ]]

Les dimensions de redondance indiquent à quel point le superflu (redondant) est une enquête ou un ensemble variable si les observations du deuxième ensemble de variables sont connues. En d’autres termes, les dimensions de redondance indiquent que la variance d’un ensemble de variables s’explique par l’autre ensemble de variables.

Le coefficient de corrélation canonique n’est pas négatif par construction et la zone de valeur est donc

[ 0 , d’abord ]] {DisplayStyle [0.1]}

, dans le cas

p = q = d’abord {displayStyle p = q = 1}

est applicable

De nombreux autres processus multivariés sont des cas particuliers d’analyse de corrélation canonique ou y sont étroitement liés.

Si une quantité de variables se compose d’une seule variable, le coefficient de corrélation canonique correspond au coefficient de corrélation multiple. Si les deux quantités se composent d’une seule variable, le coefficient de corrélation canonique et la valeur absolue du coefficient de corrélation simple (Bravais-Pearson) sont identiques [5] .

Le modèle d’analyse de corrélation canonique peut être considéré comme un modèle de chemin avec deux variables latentes et les taux d’indicateur respectifs x ou y [8] .

Si la direction de la connexion entre les variables à partir de considérations théoriques est connue, une régression linéaire multiple peut être utilisée. H. Une analyse de régression avec plusieurs variables dépendantes.

L’analyse factorielle, l’analyse discriminatoire, l’analyse de la variance et de nombreuses autres procédures multivariées sont également étroitement liées à l’analyse de corrélation canonique.

L’analyse de corrélation canonique est utilisée, par exemple B. Dans l’analyse des variables latentes, qui sont opérationnalisées par plusieurs variables mesurables [4] . Un exemple est la mesure de la connexion des résultats d’un test de personnalité avec ceux
Test de performance.

Les procédures d’analyse de corrélation canonique sont intégrées dans de nombreux programmes de statistiques, par ex. B. en gnu r au moyen de la fonction Cancor () Du paquet Statistiques .

  1. W. M.dle, L. Sommar: Analyse statistique multivariée appliquée . 2e édition. Springer, 2007, S. 321 .
  2. Horst Rinne: Broché des statistiques . 3. Édition. Verlag Harri allemand, 2003, S. 84 .
  3. Hoteling H.: Le critère le plus prévisible . Dans: Journal of Educational Psychology . Groupe 26 , 1935, S. 139–142 .
  4. un b Jürgen Bortz: Statistiques pour les sciences humaines et sociales . 6. Édition. Springer, 2005, S. 627 .
  5. un b Werner Voß: Broché des statistiques . 1ère édition. Fachbuchverlag Leipzig, 2000, S. 516 .
  6. Horst Rinne: Broché des statistiques . 3. Édition. Verlag Harri allemand, 2003, S. 700 .
  7. Richard A. Johnson et Dean W. Wichern: Analyse statistique multivariée appliquée . HRSG: Pearson. 2007, ISBN 978-0-13-187715-3, S. 539–575 .
  8. Bernd Rönz, Hans G. Strohe: Statistiques du lexique . Gabler Business, 1994, S. 175 .
after-content-x4