Quantil – Wikipedia

before-content-x4

Statistische Methode zur Aufteilung von Daten in gleich große Intervalle zur Analyse

Wahrscheinlichkeitsdichte einer Normalverteilung mit gezeigten Quartilen. Der Bereich unter der roten Kurve ist in den Intervallen gleich (−∞,Q.1), (Q.1,Q.2), (Q.2,Q.3), und (Q.3, + ∞).
after-content-x4

In Statistik und Wahrscheinlichkeit, Quantile sind Schnittpunkte, die den Bereich einer Wahrscheinlichkeitsverteilung in kontinuierliche Intervalle mit gleichen Wahrscheinlichkeiten teilen oder die Beobachtungen in einer Stichprobe auf dieselbe Weise teilen. Es gibt ein Quantil weniger als die Anzahl der erstellten Gruppen. Gängige Quantile haben spezielle Namen wie Quartile (vier Gruppen), Dezile (zehn Gruppen) und Perzentile (100 Gruppen). Die erstellten Gruppen werden als Hälften, Drittel, Viertel usw. bezeichnet, obwohl manchmal die Begriffe für das Quantil eher für die erstellten Gruppen als für die Schnittpunkte verwendet werden.

q– –Quantile sind Werte, in die eine endliche Menge von Werten aufgeteilt wird q Teilmengen von (fast) gleichen Größen. Es gibt q – 1 des q-quantile, eine für jede ganze Zahl k befriedigend 0 k < q. In einigen Fällen kann der Wert eines Quantils nicht eindeutig bestimmt werden, wie dies für den Median (2-Quantil) einer gleichmäßigen Wahrscheinlichkeitsverteilung auf einer Menge gerader Größe der Fall sein kann. Quantile können auch auf kontinuierliche Verteilungen angewendet werden, um Rangstatistiken auf kontinuierliche Variablen zu verallgemeinern (siehe Perzentilrang). Wenn die kumulative Verteilungsfunktion einer Zufallsvariablen bekannt ist, wird die q-Quantile sind die Anwendung der Quantilfunktion (der Umkehrfunktion der kumulativen Verteilungsfunktion) auf die Werte {1 /q, 2 /q,…, (q – 1) /q}.

Spezialisierte Quantile[edit]

Etwas q-quantile haben spezielle Namen:[citation needed]

  • Das einzige 2-Quantil heißt Median
  • Die 3-Quantile heißen tertiles oder terciles → T.
  • Die 4-Quantile heißen Quartile → Q; Der Unterschied zwischen oberem und unterem Quartil wird auch als Interquartilbereich bezeichnet. Midspread oder Mitte fünfzig → IQR = Q.3 – – Q.1
  • Die 5-Quantile heißen Quintile → QU
  • Die 6-Quantile heißen Sextilien → S.
  • Die 7-Quantile heißen Septile
  • Die 8-Quantile heißen Oktile
  • Die 10-Quantile heißen Dezile → D.
  • Die 12-Quantile werden Duo-Dezile oder Dodeciles genannt
  • Die 16-Quantile heißen Hexadeciles → H.
  • Die 20 Quantile heißen Ventiles, Vigintilesoder Halbdezile → V.
  • Die 100-Quantile heißen Perzentile → P.
  • Die 1000-Quantile wurden Permilles oder Milliles genannt, aber diese sind selten und weitgehend veraltet[1]

Quantile einer Bevölkerung[edit]

Wie bei der Berechnung beispielsweise der Standardabweichung hängt die Schätzung eines Quantils davon ab, ob man mit einer statistischen Population oder mit einer daraus gezogenen Stichprobe arbeitet. Für eine Bevölkerung mit diskreten Werten oder für eine kontinuierliche Bevölkerungsdichte beträgt die k-th q-quantile ist der Datenwert, an dem sich die kumulative Verteilungsfunktion kreuzt k/.q. Das ist, x ist ein k-th q-quantile für eine Variable X. wenn

Pr[X < x] ≤ k/.q oder äquivalent, Pr[Xx] ≥ 1 – k/.q

und

after-content-x4
Pr[Xx] ≥ k/.q.

Für eine endliche Bevölkerung von N. gleich wahrscheinliche indizierte Werte 1,…, N. vom niedrigsten zum höchsten, dem k-th q-quantil dieser Population kann äquivalent über den Wert von berechnet werden ichp = N. k/.q. Wenn ichp ist keine Ganzzahl, runden Sie dann auf die nächste Ganzzahl auf, um den entsprechenden Index zu erhalten. der entsprechende Datenwert ist der k-th q-quantil. Auf der anderen Seite, wenn ichp ist eine ganze Zahl, dann kann jede Zahl vom Datenwert an diesem Index bis zum Datenwert des nächsten als Quantil genommen werden, und es ist üblich (wenn auch willkürlich), den Durchschnitt dieser beiden Werte zu nehmen (siehe Schätzen von Quantilen aus einer Stichprobe) ).

If, anstatt Ganzzahlen zu verwenden k und q, das “p-quantile ”basiert auf einer reellen Zahl p mit 0 p <1 dann p ersetzt k/.q in den obigen Formeln. Einige Softwareprogramme (einschließlich Microsoft Excel) betrachten das Minimum und das Maximum als das 0. bzw. 100. Perzentil. Eine solche Terminologie ist jedoch eine Erweiterung über die traditionellen statistischen Definitionen hinaus.

Beispiele[edit]

In den folgenden beiden Beispielen wird die Definition des nächsten Ranges des Quantils mit Rundung verwendet. Eine Erklärung dieser Definition finden Sie unter Perzentile.

Gleichmäßige Bevölkerung[edit]

Betrachten Sie eine geordnete Grundgesamtheit von 10 Datenwerten {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Was sind die 4-Quantile (die “Quartile”) dieses Datensatzes?

Quartil Berechnung Ergebnis
Zeroth Quartil Obwohl nicht allgemein anerkannt, kann man auch vom nullten Quartil sprechen. Dies ist der Mindestwert der Menge, daher wäre das nullte Quartil in diesem Beispiel 3. 3
Erstes Quartil Der Rang des ersten Quartils beträgt 10 × (1/4) = 2,5, was auf 3 aufrundet, was bedeutet, dass 3 der Rang in der Bevölkerung (vom kleinsten zum größten Wert) ist, bei dem ungefähr 1/4 der Werte kleiner sind als der Wert des ersten Quartils. Der dritte Wert in der Bevölkerung ist 7. 7
Zweites Quartil Der Rang des zweiten Quartils (wie der Median) beträgt 10 × (2/4) = 5, was eine ganze Zahl ist, während die Anzahl der Werte (10) eine gerade Zahl ist, also der Durchschnitt sowohl des fünften als auch des sechsten Werte werden angenommen – das heißt (8 + 10) / 2 = 9, obwohl jeder Wert von 8 bis 10 als Median angenommen werden kann. 9
Drittes Quartil Der Rang des dritten Quartils beträgt 10 × (3/4) = 7,5, was auf 8 aufrundet. Der achte Wert in der Bevölkerung beträgt 15. 15
Viertes Quartil Obwohl nicht allgemein anerkannt, kann man auch vom vierten Quartil sprechen. Dies ist der Maximalwert der Menge, daher wäre das vierte Quartil in diesem Beispiel 20. Unter der Definition des Quantils für den nächsten Rang ist der Rang des vierten Quartils der Rang der größten Zahl, also der Rang des vierten Quartils 10 sein. 20

Das erste, zweite und dritte 4-Quantil (die “Quartile”) des Datensatzes {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} sind also {7, 9, 15}. Falls ebenfalls erforderlich, ist das nullte Quartil 3 und das vierte Quartil 20.

Ungerade Bevölkerung[edit]

Betrachten Sie eine geordnete Grundgesamtheit von 11 Datenwerten {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Was sind die 4-Quantile (die “Quartile”) dieses Datensatzes?

Quartil Berechnung Ergebnis
Zeroth Quartil Obwohl nicht allgemein anerkannt, kann man auch vom nullten Quartil sprechen. Dies ist der Mindestwert der Menge, daher wäre das nullte Quartil in diesem Beispiel 3. 3
Erstes Quartil Das erste Quartil wird durch 11 × (1/4) = 2,75 bestimmt, was auf 3 aufrundet, was bedeutet, dass 3 der Rang in der Bevölkerung (vom kleinsten zum größten Wert) ist, bei dem ungefähr 1/4 der Werte kleiner als sind der Wert des ersten Quartils. Der dritte Wert in der Bevölkerung ist 7. 7
Zweites Quartil Der zweite Quartilwert (wie der Median) wird durch 11 × (2/4) = 5,5 bestimmt, was auf 6 aufrundet. Daher ist 6 der Rang in der Bevölkerung (vom kleinsten zum größten Wert), bei dem ungefähr 2 / 4 der Werte sind kleiner als der Wert des zweiten Quartils (oder Medians). Der sechste Wert in der Bevölkerung ist 9. 9
Drittes Quartil Der dritte Quartilwert für das obige ursprüngliche Beispiel wird durch 11 × (3/4) = 8,25 bestimmt, was auf 9 aufrundet. Der neunte Wert in der Grundgesamtheit beträgt 15. 15
Viertes Quartil Obwohl nicht allgemein anerkannt, kann man auch vom vierten Quartil sprechen. Dies ist der Maximalwert der Menge, daher wäre das vierte Quartil in diesem Beispiel 20. Unter der Definition des Quantils für den nächsten Rang ist der Rang des vierten Quartils der Rang der größten Zahl, also der Rang des vierten Quartils 11 sein. 20

Das erste, zweite und dritte 4-Quantil (die “Quartile”) des Datensatzes {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} sind also {7, 9, 15} . Falls ebenfalls erforderlich, ist das nullte Quartil 3 und das vierte Quartil 20.

Schätzung von Quantilen aus einer Probe[edit]

Die asymptotische Verteilung von

p{ displaystyle p}

-th Probenquantil ist bekannt: Es ist asymptotisch normal um die

p{ displaystyle p}

-th Quantil mit einer Varianz von

wo

f((xp){ displaystyle f (x_ {p})}

ist der Wert der Verteilungsdichte am

p{ displaystyle p}

-th Quantil.[2] Diese Verteilung beruht jedoch auf der Kenntnis der Bevölkerungsverteilung; Das entspricht der Kenntnis der Populationsquantile, die wir zu schätzen versuchen! Moderne Statistikpakete stützen sich daher auf eine andere Technik – oder Auswahl von Techniken -, um die Quantile abzuschätzen.[3]

Mathematica,[4]Matlab,[5]R.[6] und GNU Octave[7] Programmiersprachen umfassen neun Beispielquantilmethoden. SAS umfasst fünf Stichprobenquantilmethoden, SciPy[8] und Ahorn[9] beide enthalten acht EViews[10] enthält die sechs stückweise linearen Funktionen Stata[11] enthält zwei, Python[12] enthält zwei und Microsoft Excel enthält zwei. Mathematica unterstützt einen beliebigen Parameter für Methoden, der andere, nicht standardmäßige Methoden zulässt.

Tatsächlich berechnen die Methoden Q.p, die Schätzung für die k-th q-quantil, wo p = k/.qaus einer Stichprobe von Größe N. durch Berechnung eines reellen Index h. Wann h ist eine ganze Zahl, die h-th kleinste der N. Werte, xhist die Quantilschätzung. Andernfalls wird ein Rundungs- oder Interpolationsschema verwendet, um die Quantilschätzung aus zu berechnen h, xh, und xh. (Notation siehe Boden- und Deckenfunktionen).

Die verwendeten Schätztypen und Interpolationsschemata umfassen:

Art h Q.p Anmerkungen
R-1, SAS-3, Maple-1 Np + 1/2 xh – 1 / 2⌉ Inverse der empirischen Verteilungsfunktion.
R-2, SAS-5, Maple-2, Stata Np + 1/2 ((xh – 1 / 2⌉ + xh + 1 / 2⌋) / 2 Das gleiche wie R-1, jedoch mit Mittelwertbildung bei Diskontinuitäten.
R-3, SAS-2 Np xh Die Beobachtung war am nächsten Np. Hier, h Zeigt die Rundung auf die nächste Ganzzahl an und wählt bei einem Gleichstand die gerade Ganzzahl.
R-4, SAS-1, SciPy- (0,1), Maple-3 Np xh + ((h – ⌊h⌋) (xh⌋ + 1 – – xh) Lineare Interpolation der empirischen Verteilungsfunktion.
R-5, SciPy – (. 5, .5), Maple-4 Np + 1/2 xh + ((h – ⌊h⌋) (xh⌋ + 1 – – xh) Stückweise lineare Funktion, bei der die Knoten die Werte in der Mitte der Schritte der empirischen Verteilungsfunktion sind.
R-6, Excel, Python, SAS-4, SciPy- (0,0), Maple-5, Stata-altdef ((N. + 1)p xh + ((h – ⌊h⌋) (xh⌋ + 1 – – xh) Lineare Interpolation der Erwartungen an die Auftragsstatistik für die Gleichverteilung auf [0,1]. Das heißt, es ist die lineare Interpolation zwischen Punkten ((ph, xh), wo ph = h/ ((N.+1) ist die Wahrscheinlichkeit, dass der letzte von (N.+1) zufällig gezogene Werte überschreiten nicht die h-th kleinste der ersten N. zufällig gezogene Werte.
R-7, Excel, Python, SciPy- (1,1), Maple-6, NumPy, Julia ((N. – 1)p + 1 xh + ((h – ⌊h⌋) (xh⌋ + 1 – – xh) Lineare Interpolation der Modi für die Ordnungsstatistik für die Gleichverteilung auf [0,1].
R-8, SciPy- (1 / 3,1 / 3), Maple-7 ((N. + 1/3)p + 1/3 xh + ((h – ⌊h⌋) (xh⌋ + 1 – – xh) Lineare Interpolation der ungefähren Mediane für die Ordnungsstatistik.
R-9, SciPy- (3 / 8,3 / 8), Maple-8 ((N. + 1/4)p + 3/8 xh + ((h – ⌊h⌋) (xh⌋ + 1 – – xh) Die resultierenden Quantilschätzungen sind für die erwartete Auftragsstatistik ungefähr unvoreingenommen, wenn x ist normal verteilt.

Anmerkungen:

  • R-1 bis R-3 sind stückweise konstant mit Diskontinuitäten.
  • R-4 und folgende sind stückweise linear, ohne Diskontinuitäten, unterscheiden sich jedoch darin, wie h wird berechnet.
  • R-3 und R-4 sind nicht symmetrisch, da sie nicht geben h = (N. + 1) / 2 wann p = 1/2.
  • Die PERCENTILE.EXC-Methode von Excel und die “exklusive” Standardmethode von Python entsprechen R-6.
  • Die PERCENTILE und PERCENTILE.INC von Excel und die optionale “Inclusive” -Methode von Python entsprechen R-7. Dies ist die Standardmethode von R.
  • Pakete unterscheiden sich darin, wie sie Quantile über die niedrigsten und höchsten Werte in der Stichprobe hinaus schätzen. Zur Auswahl stehen die Rückgabe eines Fehlerwerts, die Berechnung der linearen Extrapolation oder die Annahme eines konstanten Werts.

Der Standardfehler einer Quantilschätzung kann im Allgemeinen über den Bootstrap geschätzt werden. Die Maritz-Jarrett-Methode kann ebenfalls verwendet werden.[13]

Ungefähre Quantile aus einem Stream[edit]

Das Berechnen von ungefähren Quantilen aus Daten, die aus einem Strom ankommen, kann unter Verwendung komprimierter Datenstrukturen effizient durchgeführt werden. Die beliebtesten Methoden sind T-Digest[14] und KLL.[15] Diese Methoden lesen kontinuierlich einen Wertestrom und können jederzeit nach dem ungefähren Wert eines bestimmten Quantils abgefragt werden.

Beide Algorithmen basieren auf einer ähnlichen Idee: Komprimieren des Wertestroms durch Zusammenfassen identischer oder ähnlicher Werte mit einer Gewichtung. Wenn der Stream aus einer Wiederholung von 100 mal v1 und 100 mal v2 besteht, gibt es keinen Grund, eine sortierte Liste von 200 Elementen zu führen. Es reicht aus, zwei Elemente und zwei Zählungen beizubehalten, um die Quantile wiederherstellen zu können. Mit mehr Werten halten diese Algorithmen einen Kompromiss zwischen der Anzahl der gespeicherten eindeutigen Werte und der Genauigkeit der resultierenden Quantile aufrecht. Einige Werte können aus dem Stream verworfen werden und zum Gewicht eines nahe gelegenen Werts beitragen, ohne die Quantilergebnisse zu stark zu verändern. t-Digest verwendet einen Ansatz, der auf k-Means-Clustering basiert, um ähnliche Werte zu gruppieren, während KLL eine ausgefeiltere “Compactor” -Methode verwendet, die zu einer besseren Kontrolle der Fehlergrenzen führt.

Beide Methoden gehören zur Familie von Datenskizzen Dies sind Teilmengen von Streaming-Algorithmen mit nützlichen Eigenschaften: T-Digest- oder KLL-Skizzen können kombiniert werden. Das Berechnen der Skizze für einen sehr großen Wertevektor kann in trivial parallele Prozesse aufgeteilt werden, bei denen Skizzen für Partitionen des Vektors parallel berechnet und später zusammengeführt werden.

Diskussion[edit]

Standardisierte Testergebnisse werden üblicherweise als Schüler angegeben, der beispielsweise “im 80. Perzentil” bewertet. Dies verwendet eine alternative Bedeutung des Wortes Perzentil als Intervall zwischen (in diesem Fall) dem 80. und dem 81. Skalarperzentil.[16] Diese separate Bedeutung des Perzentils wird auch in von Experten begutachteten wissenschaftlichen Forschungsarbeiten verwendet.[17] Die verwendete Bedeutung kann aus ihrem Kontext abgeleitet werden.

Wenn eine Verteilung symmetrisch ist, ist der Median der Mittelwert (solange letzterer existiert). Im Allgemeinen können sich der Median und der Mittelwert jedoch unterscheiden. Bei einer Zufallsvariablen mit Exponentialverteilung hat beispielsweise eine bestimmte Stichprobe dieser Zufallsvariablen eine Wahrscheinlichkeit von ungefähr 63%, dass sie unter dem Mittelwert liegt. Dies liegt daran, dass die Exponentialverteilung für positive Werte einen langen Schwanz hat, für negative Zahlen jedoch Null ist.

Quantile sind nützliche Maßnahmen, da sie weniger anfällig für Mittelschwanzverteilungen und Ausreißer sind als Mittel. Empirisch gesehen sind Quantile möglicherweise nützlichere beschreibende Statistiken als Mittelwerte und andere momentbezogene Statistiken, wenn die zu analysierenden Daten nicht tatsächlich gemäß einer angenommenen Verteilung verteilt sind oder wenn es andere potenzielle Quellen für Ausreißer gibt, die weit vom Mittelwert entfernt sind .

Eng verwandt ist das Thema der geringsten absoluten Abweichungen, eine Regressionsmethode, die gegenüber Ausreißern robuster ist als die kleinsten Quadrate, bei der die Summe des Absolutwerts der beobachteten Fehler anstelle des quadratischen Fehlers verwendet wird. Die Verbindung besteht darin, dass der Mittelwert die einzelne Schätzung einer Verteilung ist, die den erwarteten quadratischen Fehler minimiert, während der Median den erwarteten absoluten Fehler minimiert. Die geringsten absoluten Abweichungen teilen die Fähigkeit, relativ unempfindlich gegenüber großen Abweichungen bei abgelegenen Beobachtungen zu sein, obwohl noch bessere Methoden für eine robuste Regression verfügbar sind.

Die Quantile einer Zufallsvariablen bleiben unter zunehmenden Transformationen in dem Sinne erhalten, dass beispielsweise wenn m ist der Median einer Zufallsvariablen X., dann 2m ist der Median von 2X., es sei denn, aus einem Wertebereich wurde eine willkürliche Auswahl getroffen, um ein bestimmtes Quantil anzugeben. (Beispiele für eine solche Interpolation finden Sie oben in der Quantilschätzung.) Quantile können auch in Fällen verwendet werden, in denen nur Ordnungsdaten verfügbar sind.

Siehe auch[edit]

Verweise[edit]

  1. ^ Helen Mary Walker, Joseph Lev, Elementare statistische Methoden1969, [p. 60 https://books.google.com/books?id=ogYnAQAAIAAJ&dq=permille]
  2. ^ Stuart, Alan; Ord, Keith (1994). Kendalls fortgeschrittene Theorie der Statistik. London: Arnold. ISBN 0340614307.
  3. ^ Hyndman, RJ; Fan, Y. (November 1996). “Probenquantile in statistischen Paketen”. Amerikanischer Statistiker. American Statistical Association. 50 (4): 361–365. doi:10.2307 / 2684934. JSTOR 2684934.
  4. ^ Mathematica-Dokumentation Siehe Abschnitt “Details”
  5. ^ “Quantilberechnung”. uk.mathworks.com.
  6. ^ Frohne, I.; Hyndman, RJ (2009). Probenquantile. R Projekt. ISBN 3-900051-07-0.
  7. ^ “Funktionsreferenz: Quantil – Octave-Forge – SourceForge”. Abgerufen 6. September 2013.
  8. ^ “scipy.stats.mstats.mquantiles – SciPy v1.4.1 Referenzhandbuch”. docs.scipy.org.
  9. ^ “Statistik – Maple-Programmierhilfe”. www.maplesoft.com.
  10. ^ “Archivierte Kopie”. Archiviert von das Original am 16. April 2016. Abgerufen 4. April, 2016.CS1-Wartung: Archivierte Kopie als Titel (Link)
  11. ^ Stata-Dokumentation für die Befehle pctile und xtile Siehe Abschnitt ‘Methoden und Formeln’.
  12. ^ “Statistik – Mathematische Statistikfunktionen – Python 3.8.3rc1 Dokumentation”. docs.python.org.
  13. ^ Wilcox, Rand R. (2010). Einführung in die robuste Schätzung und das Testen von Hypothesen. ISBN 0-12-751542-9.
  14. ^ Mahnwesen, Ted; Ertl, Otmar (Februar 2019). “Berechnung extrem genauer Quantile mit t-Digests”. arXiv:1902.04023 [stat.CO].
  15. ^ Zohar Karnin, Kevin Lang und Edo Liberty (2016). “Optimale Quantilannäherung in Strömen”. arXiv:1603.05346 [cs.DS].CS1-Wartung: Verwendet den Autorenparameter (Link)
  16. ^ “Perzentil”. Oxford Referenz. doi:10.1093 / oi / Authority.20110803100316401. Abgerufen 2020-08-17.
  17. ^ Kruger, J.; Dunning, D. (Dezember 1999). “Ungelernt und sich dessen nicht bewusst: Wie Schwierigkeiten beim Erkennen der eigenen Inkompetenz zu überhöhten Selbsteinschätzungen führen”. Zeitschrift für Persönlichkeits- und Sozialpsychologie. 77 (6): 1121–1134. doi:10.1037 // 0022-3514.77.6.1121. ISSN 0022-3514. PMID 10626367.
  18. ^ Stephen B. Vardeman (1992). “Was ist mit den anderen Intervallen?” Der amerikanische Statistiker. 46 (3): 193–197. doi:10.2307 / 2685212. JSTOR 2685212.

Weiterführende Literatur[edit]

Externe Links[edit]

  • Medien im Zusammenhang mit Quantile bei Wikimedia Commons

after-content-x4