Division de classe (statistiques) – Wikipedia

before-content-x4

Division de classe ou Classification Dans les statistiques, la division des valeurs caractéristiques ou des lignes statistiques en groupes, classes ou classes de taille distinctes. Selon sa valeur sur les variables correspondantes, chaque élément de l’intégralité examiné est attribué exactement une classe. Une division de classe est utile avec un nombre trop important de valeurs différentes d’une variable aléatoire (observée) à traiter ou à présenter pratique. Ce type de traitement des données est également effectué si les valeurs soulevées ne peuvent être considérées que comme une approximation des valeurs réelles ou si (quasi) les variables stables doivent être examinées avec des méthodes de variables discrètes.

after-content-x4

Toutes les valeurs d’une classe se trouvent dans les supérieurs et les inférieurs Frontière de classe , par lequel la différence de la partie supérieure et inférieure Frontière de classe le Largeur de classe est. Le Centre de classe représente la valeur représentative d’une classe utilisée pour une analyse plus approfondie. Fréquence ou Nombre d’occupation [d’abord] Correspond au nombre d’éléments contenus dans la classe.

Les cours sont disjunts, c’est-à-dire H. Intervalles non chevauchants et contraignants des valeurs caractéristiques, qui sont limitées et clairement définies par une bordure de classe inférieure et supérieure.

Une classification est un résumé des mêmes caractéristiques ou similaires à un groupe ou à une classe. Puisqu’il n’est souvent pas possible ou sensible dans les examens statistiques pour collecter ou traiter toutes les caractéristiques individuelles (différentes) des variables aléatoires examinées, un meilleur aperçu des données peut être obtenu par classification. Cela s’applique en particulier aux fonctionnalités ou fonctionnalités stables ou en tant que dégustation, dont le nombre de caractéristiques (différentes) est très grande.

L’inconvénient de la classification est la perte d’informations, car les valeurs d’observation individuelles sont «perdues» par la seule considération des classes et plutôt que des tailles représentatives telles que le nombre d’observations contenues dans une certaine classe ou au milieu de la classe pour d’autres analyses. Au sein d’une classe, les observations sur les caractéristiques doivent être distribuées aussi égales que possible, i. H. Les caractéristiques ne doivent pas seulement s’accumuler dans une zone limitée de la classe afin que la classe et la largeur de la classe pour les observations qu’il contient soient représentatives.

Une limite de classe est la valeur d’une variable (aléatoire) à l’échelle métrique qui limite une classe vers le bas ou vers le haut. Une classe

J {displaystyle j,}

est défini par deux frontières de classe qui Border de la classe inférieure

X J dans {DisplayStyle x_ {j} ^ {u}}

et le bordure supérieure

after-content-x4
X J O {DisplayStyle x_ {j} ^ {o}}

( J = d’abord , , k ) {displayStyle (j = 1, points, k),}

, par lequel la bordure supérieure de la classe du

J {displaystyle j,}

-Te classe de la frontière de la classe inférieure du

( J + d’abord ) {displaystyle (j+1),}

-Te La classe correspond à, d. H.

Le paramètre

k {displaystyle k}

représente le nombre de classes.

Les limites de classe à une classe peuvent être attribuées de deux manières. Soit appartient à la bordure de la classe inférieure

X J dans {DisplayStyle x_ {j} ^ {u}}

à la classe

J {displaystyle j,}

Et la bordure de la classe supérieure

X J O {DisplayStyle x_ {j} ^ {o}}

à la classe

J + d’abord {displaystyle j+1,}

Ou la bordure de la classe inférieure

X J dans {DisplayStyle x_ {j} ^ {u}}

appartient à la classe

J d’abord {displaystyle j-1,}

Et la bordure de la classe supérieure

X J O {DisplayStyle x_ {j} ^ {o}}

à la classe

J {displaystyle j,}

, d. h.

L’exemple suivant illustre les deux alternatives de la division de classe (J = 1 à 4):

Désignation Alternative 1 Alternative 2
classe 1 <100 ≦ 100
2e année ≧ 100 à <120 > 100 à ≦ 120
Classe 3 ≧ 120 à <150 > 120 à ≦ 150
Classe 4 ≧ 150 > 150

Une valeur d’observation ou une unité statistique examinée

X je {displayStyle x_ {i},}

( je = d’abord , , n ) {displayStyle (i = 1, points, n)}

Donc sera génial

J {displaystyle j,}

assigné si

X J dans X je < X J O {DisplayStyle x_ {j} ^ {u} LED x_ {i}

ou

X J dans < X je X J O , J = d’abord , , k {DisplayStyle x_ {j} ^ {u}

est applicable.

Pour la classe 2 dans le tableau, cela peut être formulé comme suit:

  • Alternative 1: La valeur est d’au moins 100 et est inférieure à 120.
  • Alternative 2: La valeur est supérieure à 100 et est un maximum de 120.

La largeur de la classe est la différence par rapport à la bordure supérieure et inférieure de la classe.

Les largeurs de classe suivantes entraînent l’exemple d’en haut:

Désignation Largeur de classe
classe 1 indéfini
2e année 20
Classe 3 30
Classe 4 indéfini

Les classes d’une caractéristique peuvent également avoir des largeurs différentes. Le nombre optimal de classes ou la largeur des classes dépend de la situation d’examen spécifique (données, objectifs). Une «règle générale» pour déterminer le nombre de classes ou au lieu de la largeur de la classe peut être trouvée dans l’article sur l’histogramme. L’algorithme Jenks Caspall fournit une procédure de classification automatique.

Après la classification, le centre de classe peut être utilisé pour d’autres analyses

X J {displayStyle x_ {j},}

En tant que valeur représentative d’une classe

J {displaystyle j,}

être utilisé. Si les éléments d’une classe sont symétriques, il peut être déterminé comme un agent arithmétique de la bordure inférieure et supérieure si les éléments d’une classe contiennent.

Dans l’exemple d’en haut, les classes suivantes résultent:

Désignation Centre de classe
classe 1 indéfini
2e année 110
Classe 3 135
Classe 4 indéfini

À titre d’exemple, la caractéristique métriquement constante du «revenu net de l’année» d’une population de personnes bien définie est examinée. Étant donné que le nombre de personnes est plus faible avec l’augmentation des revenus, vous choisissez i. d. R. Les classes de revenu supérieur plus larges que le milieu et le bas pour que la présentation reste claire.

Si une fonctionnalité est divisée en classes de largeurs différentes, la fréquence de classe (absolue ou relative) n’est pas significative sans spécifier la largeur de classe. Par conséquent, le calcul de la densité de fréquence est important pour rendre les classes comparables. Il correspond à la hauteur de colonne appartenant à la largeur de la classe et à la fréquence de classe dans un histogramme. La densité de fréquence d’une classe est le rapport de la fréquence absolue ou relative d’une classe à la largeur de classe correspondante.

La densité de fréquence pour

X J dans X < X J O {DisplayStyle x_ {j} ^ {u} LED x x

Il en résulte comme suit:

ou

Une possibilité de représentation systématique et claire d’une variable aléatoire stable classifiée offre un tableau de fréquence.

par lequel

n {displaystyle n,}

Le nombre d’objets d’enquête est. Les tables croisées peuvent être utilisées pour présenter des distributions de fréquences multidimensionnelles. La représentation graphique des variables classifiées peut être effectuée via un histogramme, une colonne ou un diagramme de tige, un diagramme de barres ou dans très peu de classes via un diagramme de gâteau.

Puisqu’il n’y a que des intervalles mais aucune valeur exacte dans une classification, seuls les intervalles et aucune valeur exacte ne peuvent être déterminés pour les paramètres de position.
Comme exemple [2] Le nombre de voitures pour mille habitants dans les pays européens est choisi ici.

Classe no. Nombre de voitures pour 1000 Nombre de pays Densité de fréquence
d’abord plus de 0 à 200 5 0,025
2 Plus de 200 à 300 6 0,06
3 Plus de 300 à 400 6 0,06
4 Plus de 400 à 500 9 0,09
5 Plus de 500 à 700 6 0,03
Sous limite: (5 · 0 + 6 · 200 + 6 · 300 + 9 · 400 + 6 · 500) / 32 = 300
Limite supérieure: (5 · 200 + 6 · 300 + 6 · 500 + 6 · 700) / 32 = 434,375
Ainsi: 300
Ou: le milieu arithmétique = 367 1875, par lequel l’erreur peut être un maximum de ± 67,1875.
Le 1er quartile est en 2e classe, donc: 200 <1er quartile ≤ 300.
Le 2e quartile = médian est en 3e année, c’est-à-dire 300 <2e quartile ≤ 400.
Le 3ème quartile est en 4e année, soit 400 <3e quartile ≤ 500.
Étant donné que la distribution spécifique des valeurs n’est pas connue, il ne peut pas être déterminé quelles valeurs se produisent le plus souvent, c’est-à-dire: 0
La classe modale est la classe avec la densité de fréquence la plus élevée, c’est-à-dire la 4ème classe avec la densité de fréquence 0,09.

Remarque: Une distribution de fréquence est souvent prise comme exemple avec les hypothèses supplémentaires suivantes:

  • Les valeurs par classe sont également distribuées, i. c’est-à-dire que les valeurs voisines ont la largeur / fréquence de la classe de distance = 1 / densité de fréquence
  • Les valeurs par classe sont symétriques au centre de la classe.

Cela peut être utilisé pour déterminer les valeurs de béton pour les paramètres de position avec des analyses fines et des considérations géométriques (par exemple, l’application des ensembles de rayonnement). Ou les deux hypothèses ont défini une liste claire d’URES.

Dans l’exemple, l’uriste unique suivant peut être créé

Clairement liste primitive selon l’exemple
Classe. Nombre de voitures pour 1000 Nombre de pays Effacer la liste
d’abord plus de 0 à 200 5 20; 60; 100; 140; 180
2 Plus de 200 à 300 6 208,33; 225; 241,67; 258,33; 275; 291.67
3 Plus de 300 à 400 6 308,33; 325; 341,67; 358,33; 375; 391,67
4 Plus de 400 à 500 9 405.56; 416,67; 427,78; 438,89; 450; 461,11; 472,22; 483,33; 494.44
5 Plus de 500 à 700 6 516,67; 550; 583,33; 616.67; 650; 683,33

Les valeurs suivantes résultent alors de cette liste

  • Moyen arithmétique = (5 · 100 + 6 · 350 + 9 · 450 + 6 · 600) / 32 = 367,1875
  • 1. Quartil = (241,67 + 258,33) / 2 = 250
  • 2. Quartil = médian = (375 + 391,67) / 2 = 383,33
  • 3. Quartil = (472.22 + 483,33) / 2 = 477,78
  • Chaque valeur est en mode car chaque valeur se produit exactement une fois

Une telle liste primaire sans ambiguïté peut ensuite être également calculée.

  1. Günter Bamberg, Franz Baur, Michael Krapp: Statistiques . 14e édition. Oldenbourg, 2008, S. 14 .
  2. Ceux: Wikibooks-logo.svg Statistiques: classification d’une caractéristique métrique avec de nombreuses formes différentes (WikiBooks)
after-content-x4