Mehrdimensionale Skalierung – Wikipedia

before-content-x4

Ein Beispiel für die klassische mehrdimensionale Skalierung von Abstimmungsmustern im Repräsentantenhaus der Vereinigten Staaten. Jeder rote Punkt repräsentiert ein republikanisches Mitglied des Hauses und jeder blaue Punkt einen Demokraten.

Mehrdimensionale Skalierung ((MDS) ist ein Mittel zur Visualisierung des Ähnlichkeitsgrades einzelner Fälle eines Datensatzes. MDS wird verwendet, um “Informationen über die paarweisen” Abstände “zwischen einer Menge von n Objekten oder Individuen” in eine Konfiguration von n Punkten zu übersetzen, die in einem abstrakten kartesischen Raum abgebildet sind.[1]

Technisch gesehen bezieht sich MDS auf eine Reihe verwandter Ordinationstechniken, die bei der Informationsvisualisierung verwendet werden, insbesondere um die in einer Distanzmatrix enthaltenen Informationen anzuzeigen. Es ist eine Form der nichtlinearen Dimensionsreduktion.

Wenn eine Abstandsmatrix mit den Abständen zwischen jedem Objektpaar in einer Menge und einer ausgewählten Anzahl von Dimensionen gegeben ist, N.Ein MDS-Algorithmus platziert jedes Objekt in N.-dimensionaler Raum, so dass die Abstände zwischen Objekten so gut wie möglich erhalten bleiben. Zum N = 1, 2, und 3können die resultierenden Punkte auf einem Streudiagramm visualisiert werden.[2]

Die wichtigsten theoretischen Beiträge zu MDS wurden von James O. Ramsay von der McGill University geleistet, der auch als Vater der funktionalen Datenanalyse gilt.[citation needed]

MDS-Algorithmen fallen abhängig von der Bedeutung der Eingabematrix in eine Taxonomie:

Klassische mehrdimensionale Skalierung[edit]

Es ist auch bekannt als Hauptkoordinatenanalyse (PCoA), Torgerson-Skalierung oder Torgerson-Gower-Skalierung. Es wird eine Eingabematrix verwendet, die Unterschiede zwischen Elementpaaren aufweist, und es wird eine Koordinatenmatrix ausgegeben, deren Konfiguration eine aufgerufene Verlustfunktion minimiert Belastung.[2] Zum Beispiel angesichts der Luftentfernungen zwischen vielen Städten in einer Matrix

D.=[dij]{ textstyle D =[d_{ij}]}}

, wo

dichj{ textstyle d_ {ij}}

ist der Abstand zwischen den Koordinaten von

ichth{ textstyle i ^ {th}}

und

jth{ textstyle j ^ {th}}

Stadt, gegeben von

dichj=((xich– –xj)2+((yich– –yj)2{ Textstil d_ {ij} = { sqrt {(x_ {i} -x_ {j}) ^ {2} + (y_ {i} -y_ {j}) ^ {2}}}

möchten Sie die Koordinaten der Städte finden. Dieses Problem wird im klassischen MDB angesprochen.

Allgemeine Formen von Verlustfunktionen, die im klassischen MDS als Stress in Distanz-MDS und Dehnung bezeichnet werden. Die Belastung ist gegeben durch:

BelastungD.((x1,x2,...,xN.)=((ich,j((bichj– –xich,xj)2ich,jbichj2)1/.2{ displaystyle { text {Strain}} _ {D} (x_ {1}, x_ {2}, …, x_ {N}) = { Biggl (} { frac { sum _ {i, j} { bigl (} b_ {ij} – langle x_ {i}, x_ {j} rangle { bigr)} ^ {2}} { sum _ {i, j} b_ {ij} ^ { 2}}} { Biggr)} ^ {1/2}}

, wo

bichj{ displaystyle b_ {ij}}

sind die Begriffe der Matrix

B.{ displaystyle B}

definiert in Schritt 2 des folgenden Algorithmus.

Schritte eines klassischen MDS-Algorithmus:
Klassisches MDB nutzt die Tatsache, dass die Koordinatenmatrix
Das klassische MDB geht von euklidischen Abständen aus. Dies gilt also nicht für direkte Unähnlichkeitsbewertungen. [ Should indicate how Strain is minimized – Frobenius Distance? ]

Metrische mehrdimensionale Skalierung (mMDS)[edit]

Es ist eine Obermenge des klassischen MDS, die das Optimierungsverfahren auf eine Vielzahl von Verlustfunktionen und Eingabematrizen bekannter Abstände mit Gewichten usw. verallgemeinert. Eine nützliche Verlustfunktion wird in diesem Zusammenhang aufgerufen StressDies wird häufig durch ein Verfahren minimiert, das als Spannungsmajorisierung bezeichnet wird. Metrisches MDS minimiert die Kostenfunktion namens “Stress”, bei der es sich um eine Restsumme von Quadraten handelt:

StressD.((x1,x2,...,xN.)=((ichj=1,...,N.((dichj– –xich– –xj)2)1/.2{ displaystyle { text {Stress}} _ {D} (x_ {1}, x_ {2}, …, x_ {N}) = { Biggl (} sum _ {i neq j = 1 , …, N} { bigl (} d_ {ij} – | x_ {i} -x_ {j} | { bigr)} ^ {2} { Biggr)} ^ {1/2} }}

: oder,

StressD.((x1,x2,...,xN.)=((ich,j((dichj– –xich– –xj)2ich,jdichj2)1/.2{ displaystyle { text {Stress}} _ {D} (x_ {1}, x_ {2}, …, x_ {N}) = { Biggl (} { frac { sum _ {i, j} { bigl (} d_ {ij} – | x_ {i} -x_ {j} | { bigr)} ^ {2}} { sum _ {i, j} d_ {ij} ^ { 2}}} { Biggr)} ^ {1/2}}

Die metrische Skalierung verwendet eine Leistungstransformation mit einem benutzergesteuerten Exponenten

Nichtmetrische mehrdimensionale Skalierung (nMDS)[edit]

Im Gegensatz zum metrischen MDS findet das nichtmetrische MDS sowohl eine nicht parametrische monotone Beziehung zwischen den Unterschieden in der Element-Element-Matrix und den euklidischen Abständen zwischen Elementen als auch der Position jedes Elements im niedrigdimensionalen Raum. Die Beziehung wird typischerweise unter Verwendung einer isotonischen Regression gefunden: let

x{ textstyle x}

bezeichnen den Vektor der Nähe,

f((x){ textstyle f (x)}

eine monotone Transformation von

x{ textstyle x}

, und

d{ textstyle d}

die Punktabstände; dann müssen Koordinaten gefunden werden, die die sogenannte Spannung minimieren,

Stress=((f((x)– –d)2d2{ displaystyle { text {Stress}} = { sqrt { frac { sum { bigl (} f (x) -d { bigr)} ^ {2}} { sum d ^ {2}} }}}

Es gibt einige Varianten dieser Kostenfunktion. MDS-Programme minimieren automatisch den Stress, um die MDS-Lösung zu erhalten.
Der Kern eines nichtmetrischen MDS-Algorithmus ist ein zweifacher Optimierungsprozess. Zunächst muss die optimale monotone Transformation der Nähe gefunden werden. Zweitens müssen die Punkte einer Konfiguration optimal angeordnet werden, damit ihre Abstände so genau wie möglich mit den skalierten Ähnlichkeiten übereinstimmen. Die grundlegenden Schritte in einem nicht metrischen MDS-Algorithmus sind:

  1. Finden Sie eine zufällige Konfiguration von Punkten, z. B. durch Abtasten aus einer Normalverteilung.
  2. Berechnen Sie die Abstände d zwischen den Punkten.
  3. Finden Sie die optimale monotone Transformation der Nähe, um optimal skalierte Daten zu erhalten
  4. Minimieren Sie die Belastung zwischen den optimal skalierten Daten und den Abständen, indem Sie eine neue Konfiguration von Punkten finden.
  5. Vergleichen Sie die Belastung mit einem bestimmten Kriterium. Wenn die Spannung klein genug ist, beenden Sie den Algorithmus, andernfalls kehren Sie zu 2 zurück.

Die kleinste Raumanalyse (SSA) von Louis Guttman ist ein Beispiel für ein nichtmetrisches MDS-Verfahren.

Generalisierte mehrdimensionale Skalierung (GMD)[edit]

Eine Erweiterung der metrischen mehrdimensionalen Skalierung, bei der der Zielraum ein beliebiger glatter nichteuklidischer Raum ist. In Fällen, in denen die Unähnlichkeiten Abstände auf einer Oberfläche sind und der Zielraum eine andere Oberfläche ist, ermöglicht GMDS das Auffinden der Einbettung einer Oberfläche mit minimaler Verzerrung in eine andere.[4]

Einzelheiten[edit]

Die zu analysierenden Daten sind eine Sammlung von

M.{ displaystyle M}

Objekte (Farben, Gesichter, Bestände, …), auf denen a Distanzfunktion ist definiert,

Diese Abstände sind die Einträge der Unähnlichkeitsmatrix

Das Ziel von MDS ist gegeben

D.{ displaystyle D}

, finden

M.{ displaystyle M}

Vektoren

x1,,xM.R.N.{ displaystyle x_ {1}, ldots, x_ {M} in mathbb {R} ^ {N}}

so dass

wo

{ displaystyle | cdot |}

ist eine Vektornorm. Im klassischen MDS ist diese Norm der euklidische Abstand, im weiteren Sinne kann es sich jedoch um eine metrische oder willkürliche Abstandsfunktion handeln.[5]

Mit anderen Worten, MDS versucht, eine Zuordnung aus dem zu finden

M.{ displaystyle M}

Objekte in

R.N.{ displaystyle mathbb {R} ^ {N}}

so dass Entfernungen erhalten bleiben. Wenn die Dimension

N.{ displaystyle N}

Wenn 2 oder 3 gewählt wird, können wir die Vektoren zeichnen

xich{ displaystyle x_ {i}}

um eine Visualisierung der Ähnlichkeiten zwischen dem zu erhalten

M.{ displaystyle M}

Objekte. Beachten Sie, dass die Vektoren

xich{ displaystyle x_ {i}}

sind nicht eindeutig: Mit dem euklidischen Abstand können sie beliebig verschoben, gedreht und reflektiert werden, da diese Transformationen die paarweisen Abstände nicht ändern

xich– –xj{ displaystyle | x_ {i} -x_ {j} |}

.

(Hinweis: Das Symbol

R.{ displaystyle mathbb {R}}

gibt die Menge der reellen Zahlen und die Notation an

R.N.{ displaystyle mathbb {R} ^ {N}}

bezieht sich auf das kartesische Produkt von

N.{ displaystyle N}

Kopien von

R.{ displaystyle mathbb {R}}

, das ist ein

N.{ displaystyle N}

-dimensionaler Vektorraum über dem Feld der reellen Zahlen.)

Es gibt verschiedene Ansätze zur Bestimmung der Vektoren

xich{ displaystyle x_ {i}}

. Normalerweise wird MDS als Optimierungsproblem formuliert, wobei

((x1,,xM.){ displaystyle (x_ {1}, ldots, x_ {M})}

wird als Minimierer einer Kostenfunktion gefunden, zum Beispiel

Eine Lösung kann dann durch numerische Optimierungstechniken gefunden werden. Für einige besonders ausgewählte Kostenfunktionen können Minimierer analytisch in Form von Matrixeigenzusammensetzungen angegeben werden.[citation needed]

Verfahren[edit]

Die Durchführung der MDS-Forschung umfasst mehrere Schritte:

  1. Das Problem formulieren – Welche Variablen möchten Sie vergleichen? Wie viele Variablen möchten Sie vergleichen? Für welchen Zweck soll die Studie verwendet werden?
  2. Eingabedaten abrufen – Zum Beispiel: – Den Befragten wird eine Reihe von Fragen gestellt. Für jedes Produktpaar werden sie gebeten, die Ähnlichkeit zu bewerten (normalerweise auf einer 7-Punkte-Likert-Skala von sehr ähnlich bis sehr unterschiedlich). Die erste Frage könnte zum Beispiel für Cola / Pepsi sein, die nächste für Cola / Hires-Wurzelbier, die nächste für Pepsi / Dr. Pepper, die nächste für Dr. Pepper / Hires-Wurzelbier usw. Die Anzahl der Fragen ist eine Funktion der Anzahl von Marken und kann berechnet werden als
  3. Ausführen des MDS-Statistikprogramms – Software zum Ausführen des Verfahrens ist in vielen statistischen Softwarepaketen verfügbar. Oft besteht die Wahl zwischen metrischem MDB (das sich mit Daten auf Intervall- oder Verhältnisebene befasst) und nichtmetrischem MDB[6] (die sich mit Ordnungsdaten befasst).
  4. Legen Sie die Anzahl der Dimensionen fest – Der Forscher muss entscheiden, wie viele Dimensionen der Computer erstellen soll. Die Interpretierbarkeit der MDS-Lösung ist häufig wichtig, und Lösungen mit niedrigeren Dimensionen sind in der Regel einfacher zu interpretieren und zu visualisieren. Bei der Dimensionsauswahl geht es jedoch auch darum, Unter- und Überanpassung auszugleichen. Lösungen mit niedrigeren Dimensionen können unterpassen, indem wichtige Dimensionen der Unähnlichkeitsdaten weggelassen werden. Höherdimensionale Lösungen können bei den Unähnlichkeitsmessungen zu stark an Rauschen angepasst werden. Modellauswahlwerkzeuge wie AIC / BIC, Bayes-Faktoren oder Kreuzvalidierung können daher nützlich sein, um die Dimensionalität auszuwählen, die Unter- und Überanpassung in Einklang bringt.
  5. Zuordnen der Ergebnisse und Definieren der Dimensionen – Das Statistikprogramm (oder ein zugehöriges Modul) ordnet die Ergebnisse zu. Auf der Karte wird jedes Produkt dargestellt (normalerweise im zweidimensionalen Raum). Die Nähe der Produkte zueinander zeigt entweder an, wie ähnlich sie sind oder wie bevorzugt sie sind, je nachdem, welcher Ansatz verwendet wurde. Wie die Dimensionen der Einbettung tatsächlich den Dimensionen des Systemverhaltens entsprechen, ist jedoch nicht unbedingt offensichtlich. Hier kann eine subjektive Beurteilung der Entsprechung vorgenommen werden (siehe Wahrnehmungsabbildung).
  6. Testen Sie die Ergebnisse auf Zuverlässigkeit und Gültigkeit – Berechnen Sie das R-Quadrat, um zu bestimmen, welcher Anteil der Varianz der skalierten Daten durch das MDS-Verfahren berücksichtigt werden kann. Ein R-Quadrat von 0,6 wird als akzeptables Mindestniveau angesehen.[citation needed] Ein R-Quadrat von 0,8 wird für die metrische Skalierung als gut und 0,9 für die nichtmetrische Skalierung als gut angesehen. Andere mögliche Tests sind Kruskals Stress, Split-Data-Tests, Datenstabilitätstests (dh das Eliminieren einer Marke) und die Zuverlässigkeit von Testwiederholungen.
  7. Berichten Sie umfassend über die Ergebnisse – Zusammen mit der Kartierung sollten mindestens das Abstandsmaß (z. B. Sorenson-Index, Jaccard-Index) und die Zuverlässigkeit (z. B. Spannungswert) angegeben werden. Es ist auch sehr ratsam, dem Algorithmus (z. B. Kruskal, Mather), der häufig durch das verwendete Programm definiert wird (manchmal wird der Algorithmusbericht ersetzt), die Anzahl der Läufe anzugeben, wenn Sie eine Startkonfiguration angegeben haben oder eine zufällige Auswahl getroffen haben , die Bewertung der Dimensionalität, die Ergebnisse der Monte-Carlo-Methode, die Anzahl der Iterationen, die Bewertung der Stabilität und die proportionale Varianz jeder Achse (r-Quadrat).

Implementierungen[edit]

Siehe auch[edit]

Verweise[edit]

  1. ^ Mead, A (1992). “Überprüfung der Entwicklung mehrdimensionaler Skalierungsmethoden”. Zeitschrift der Royal Statistical Society. Serie D (Der Statistiker). 41 (1): 27–39. JSTOR 234863. Abstrakt. Mehrdimensionale Skalierungsmethoden sind heute ein gängiges statistisches Werkzeug in der Psychophysik und sensorischen Analyse. Die Entwicklung dieser Methoden wird anhand der ursprünglichen Untersuchungen von Torgerson (metrische Skalierung), Shepard und Kruskal (nicht metrische Skalierung) anhand der Skalierung individueller Unterschiede und der von Ramsay vorgeschlagenen Maximum-Likelihood-Methoden dargestellt.
  2. ^ ein b Borg, I.; Groenen, P. (2005). Moderne mehrdimensionale Skalierung: Theorie und Anwendungen (2. Aufl.). New York: Springer-Verlag. S. 207–212. ISBN 978-0-387-94845-4.
  3. ^ Wickelmaier, Florian. “Eine Einführung in MDS.” Forschungsstelle für Klangqualität, Universität Aalborg, Dänemark (2003): 46
  4. ^ Bronstein AM, Bronstein MM, Kimmel R (Januar 2006). “Verallgemeinerte mehrdimensionale Skalierung: ein Rahmen für isometrieinvariante partielle Oberflächenanpassung”. Proc. Natl. Acad. Sci. USA. 103 (5): 1168–72. Bibcode:2006PNAS..103.1168B. doi:10.1073 / pnas.0508601103. PMC 1360551. PMID 16432211.
  5. ^ Kruskal, JB und Wish, M. (1978), Mehrdimensionale Skalierung, Sage University Paper-Reihe zur quantitativen Anwendung in den Sozialwissenschaften, 07-011. Beverly Hills und London: Sage Publications.
  6. ^ Kruskal, JB (1964). “Mehrdimensionale Skalierung durch Optimierung der Anpassungsgüte an eine nichtmetrische Hypothese”. Psychometrika. 29 (1): 1–27. doi:10.1007 / BF02289565.

Literaturverzeichnis[edit]

  • Cox, TF; Cox, MAA (2001). Mehrdimensionale Skalierung. Chapman und Hall.
  • Coxon, Anthony PM (1982). Das Benutzerhandbuch zur mehrdimensionalen Skalierung. Unter besonderer Bezugnahme auf die MDS (X) -Bibliothek von Computerprogrammen. London: Heinemann Lehrbücher.
  • Green, P. (Januar 1975). “Marketinganwendungen von MDB: Bewertung und Ausblick”. Zeitschrift für Marketing. 39 (1): 24–31. doi:10.2307 / 1250799. JSTOR 1250799.
  • McCune, B. & Grace, JB (2002). Analyse ökologischer Gemeinschaften. Oregon, Gleneden Beach: MjM Software Design. ISBN 978-0-9721290-0-8.
  • Young, Forrest W. (1987). Mehrdimensionale Skalierung: Geschichte, Theorie und Anwendungen. Lawrence Erlbaum Associates. ISBN 978-0898596632.
  • Torgerson, Warren S. (1958). Theorie & Methoden der Skalierung. New York: Wiley. ISBN 978-0-89874-722-5.


after-content-x4