t-verteilte stochastische Nachbareinbettung – Wikipedia

Posted on December 25, 2020 by lordneo

before-content-x4

Technik zur Dimensionsreduktion

after-content-x4

t-verteilte stochastische Nachbareinbettung ((t-SNE) ist ein Algorithmus für maschinelles Lernen zur Visualisierung basierend auf Stochastic Neighbor Embedding, der ursprünglich von Sam Roweis und Geoffrey Hinton entwickelt wurde.^[1] wo Laurens van der Maaten das vorschlug t-verteilte Variante.^[2] Es handelt sich um eine nichtlineare Technik zur Reduzierung der Dimensionalität, die sich gut zum Einbetten hochdimensionaler Daten zur Visualisierung in einen niedrigdimensionalen Raum mit zwei oder drei Dimensionen eignet. Insbesondere wird jedes hochdimensionale Objekt durch einen zwei- oder dreidimensionalen Punkt so modelliert, dass ähnliche Objekte durch nahegelegene Punkte und unterschiedliche Objekte mit hoher Wahrscheinlichkeit durch entfernte Punkte modelliert werden.

Der t-SNE-Algorithmus umfasst zwei Hauptstufen. Zunächst konstruiert t-SNE eine Wahrscheinlichkeitsverteilung über Paare hochdimensionaler Objekte, so dass ähnlichen Objekten eine höhere Wahrscheinlichkeit zugewiesen wird, während unterschiedlichen Punkten eine niedrigere Wahrscheinlichkeit zugewiesen wird. Zweitens definiert t-SNE eine ähnliche Wahrscheinlichkeitsverteilung über die Punkte in der niedrigdimensionalen Karte und minimiert die Kullback-Leibler-Divergenz (KL-Divergenz) zwischen den beiden Verteilungen in Bezug auf die Positionen der Punkte in der Karte. Während der ursprüngliche Algorithmus den euklidischen Abstand zwischen Objekten als Grundlage für seine Ähnlichkeitsmetrik verwendet, kann dieser entsprechend geändert werden.

t-SNE wurde zur Visualisierung in einer Vielzahl von Anwendungen verwendet, einschließlich der Computersicherheitsforschung.^[3]Musikanalyse,^[4]Krebsforschung,^[5]Bioinformatik,^[6] und biomedizinische Signalverarbeitung.^[7] Es wird häufig verwendet, um Darstellungen auf hoher Ebene zu visualisieren, die von einem künstlichen neuronalen Netzwerk gelernt wurden.^[8]

Während t-SNE-Diagramme häufig Cluster anzuzeigen scheinen, können die visuellen Cluster stark durch die gewählte Parametrisierung beeinflusst werden. Daher ist ein gutes Verständnis der Parameter für t-SNE erforderlich. Es kann gezeigt werden, dass solche “Cluster” sogar in nicht geclusterten Daten erscheinen.^[9] und kann daher falsche Befunde sein. Eine interaktive Exploration kann daher erforderlich sein, um Parameter auszuwählen und Ergebnisse zu validieren.^[10]^[11] Es wurde gezeigt, dass t-SNE häufig gut getrennte Cluster wiederherstellen kann und mit speziellen Parameteroptionen eine einfache Form der spektralen Clusterbildung annähert.^[12]

Table of Contents

Einzelheiten[edit]

Gegeben eine Reihe von

{ displaystyle N}

$N.$ hochdimensionale Objekte

after-content-x4

{ displaystyle mathbf {x} _ {1}, dots, mathbf {x} _ {N}}

$mathbf {x} _ {1}, dots, mathbf {x} _ {N}$ , t-SNE berechnet zuerst Wahrscheinlichkeiten

{ displaystyle p_ {ij}}

$p_ {ij}$ das ist proportional zur Ähnlichkeit von Objekten

{ displaystyle mathbf {x} _ {i}}

$mathbf {x} _ {i}$ und

{ displaystyle mathbf {x} _ {j}}

$mathbf {x} _ {j}$ , wie folgt.

Zum

{ displaystyle i neq j}

$i neq j$ , definieren

{ displaystyle p_ {j mid i} = { frac { exp (- lVert mathbf {x} _ {i} – mathbf {x} _ {j} rVert ^ {2} / 2 sigma _ {i} ^ {2})} { sum _ {k neq i} exp (- lVert mathbf {x} _ {i} – mathbf {x} _ {k} rVert ^ {2 } / 2 sigma _ {i} ^ {2})}}}

und setzen

{ displaystyle p_ {i mid i} = 0}

${ displaystyle p_ {i mid i} = 0}$ . Beachten Sie, dass

{ displaystyle sum _ {j} p_ {j mid i} = 1}

${ displaystyle sum _ {j} p_ {j mid i} = 1}$ für alle

{ displaystyle i}

$ich$ .

Wie Van der Maaten und Hinton erklärten: “Die Ähnlichkeit des Datenpunkts

{ displaystyle x_ {j}}

$x_ {j}$ zum Datenpunkt

{ displaystyle x_ {i}}

$x_ {i}$ ist die bedingte Wahrscheinlichkeit,

{ displaystyle p_ {j | i}}

${ displaystyle p_ {j | i}}$ , Das

{ displaystyle x_ {i}}

$x_ {i}$ würde wählen

{ displaystyle x_ {j}}

$x_ {j}$ als sein Nachbar, wenn Nachbarn proportional zu ihrer Wahrscheinlichkeitsdichte unter einem Gaußschen zentriert bei ausgewählt wurden

{ displaystyle x_ {i}}

$x_ {i}$ . “^[2]

Nun definieren

{ displaystyle p_ {ij} = { frac {p_ {j mid i} + p_ {i mid j}} {2N}}}

und beachte das

{ displaystyle p_ {ij} = p_ {ji}}

${ displaystyle p_ {ij} = p_ {ji}}$ ,

{ displaystyle p_ {ii} = 0}

${ displaystyle p_ {ii} = 0}$ , und

{ displaystyle sum _ {i, j} p_ {ij} = 1}

${ displaystyle sum _ {i, j} p_ {ij} = 1}$ .

Die Bandbreite der Gaußschen Kernel

{ displaystyle sigma _ {i}}

$sigma _ {i}$ wird so eingestellt, dass die Ratlosigkeit der bedingten Verteilung einer vordefinierten Ratlosigkeit unter Verwendung der Halbierungsmethode entspricht. Infolgedessen wird die Bandbreite an die Dichte der Daten angepasst: kleinere Werte von

{ displaystyle sigma _ {i}}

$sigma _ {i}$ werden in dichteren Teilen des Datenraums verwendet.

Da der Gaußsche Kern den euklidischen Abstand verwendet

{ displaystyle lVert x_ {i} -x_ {j} rVert}

${ displaystyle lVert x_ {i} -x_ {j} rVert}$ wird es durch den Fluch der Dimensionalität beeinflusst, und in hochdimensionalen Daten, wenn Entfernungen die Fähigkeit zur Unterscheidung verlieren, die

{ displaystyle p_ {ij}}

$p_ {ij}$ zu ähnlich werden (asymptotisch würden sie zu einer Konstanten konvergieren). Es wurde vorgeschlagen, die Abstände mit einer Leistungstransformation basierend auf der intrinsischen Dimension jedes Punkts anzupassen, um dies zu mildern.^[13]

t-SNE zielt darauf ab, a zu lernen

{ displaystyle d}

$d$ -dimensionale Karte

{ displaystyle mathbf {y} _ {1}, dots, mathbf {y} _ {N}}

$mathbf {y} _ {1}, dots, mathbf {y} _ {N}$ (mit

{ displaystyle mathbf {y} _ {i} in mathbb {R} ^ {d}}

$mathbf {y} _ {i} in mathbb {R} ^ {d}$ ), die die Ähnlichkeiten widerspiegeln

{ displaystyle p_ {ij}}

$p_ {ij}$ so gut wie möglich. Zu diesem Zweck werden Ähnlichkeiten gemessen

{ displaystyle q_ {ij}}

$q_ {ij}$ zwischen zwei Punkten in der Karte

{ displaystyle mathbf {y} _ {i}}

$mathbf {y} _ {i}$ und

{ displaystyle mathbf {y} _ {j}}

$mathbf {y} _ {j}$ mit einem sehr ähnlichen Ansatz. Speziell für

{ displaystyle i neq j}

$i neq j$ , definieren

{ displaystyle q_ {ij}}

$q_ {ij}$ wie

{ displaystyle q_ {ij} = { frac {(1+ lVert mathbf {y} _ {i} – mathbf {y} _ {j} rVert ^ {2}) ^ {- 1}} { sum _ {k} sum _ {l neq k} (1+ lVert mathbf {y} _ {k} – mathbf {y} _ {l} rVert ^ {2}) ^ {- 1 }}}}

und setzen

{ displaystyle q_ {ii} = 0}

${ displaystyle q_ {ii} = 0}$ . Hier wird eine schwerfällige Student-T-Verteilung (mit einem Freiheitsgrad, der einer Cauchy-Verteilung entspricht) verwendet, um Ähnlichkeiten zwischen niedrigdimensionalen Punkten zu messen, damit unterschiedliche Objekte in der Karte weit auseinander modelliert werden können .

Die Positionen der Punkte

{ displaystyle mathbf {y} _ {i}}

$mathbf {y} _ {i}$ in der Karte werden durch Minimierung der (nicht symmetrischen) Kullback-Leibler-Divergenz der Verteilung bestimmt

{ displaystyle P}

$P.$ aus der Verteilung

{ displaystyle Q}

$Q.$ , das ist:

{ displaystyle mathrm {KL} left (P parallel Q right) = sum _ {i neq j} p_ {ij} log { frac {p_ {ij}} {q_ {ij}}} }}

Die Minimierung der Kullback-Leibler-Divergenz in Bezug auf die Punkte

{ displaystyle mathbf {y} _ {i}}

$mathbf {y} _ {i}$ wird mit Gradientenabstieg durchgeführt. Das Ergebnis dieser Optimierung ist eine Karte, die die Ähnlichkeiten zwischen den hochdimensionalen Eingaben widerspiegelt.

Software[edit]

ELKI enthält tSNE, ebenfalls mit Barnes-Hut-Näherung
Scikit-learn, ein beliebtes Toolkit für maschinelles Lernen in Python, implementiert t-SNE sowohl mit exakten Lösungen als auch mit der Barnes-Hut-Näherung.

Verweise[edit]

^ Roweis, Sam; Hinton, Geoffrey (Januar 2002). Stochastische Nachbareinbettung (PDF). Neuronale Informationsverarbeitungssysteme.
^ ^ein ^b van der Maaten, LJP; Hinton, GE (November 2008). “Visualisieren von Daten mit t-SNE” (PDF). Journal of Machine Learning Research. 9: 2579–2605.
^ Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). “Eine experimentelle Untersuchung der Vielfalt mit handelsüblichen Anti-Virus-Engines”. Vorträge des IEEE International Symposium on Network Computing and Applications: 4–11.
^ Hamel, P.; Eck, D. (2010). “Lernen von Funktionen aus Musik-Audio mit Deep Belief-Netzwerken”. Tagungsband der International Society for Music Information Retrieval Conference: 339–344.
^ Jamieson, AR; Giger, ML; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). “Untersuchung der Reduzierung nichtlinearer Merkmalsraumdimensionen und der Datendarstellung in Brust-CADx mit Laplace-Eigenkarten und t-SNE”. Medizinische Physik. 37 (1): 339–351. doi:10.1118 / 1.3267037. PMC 2807447. PMID 20175497.
^ Wallach, I.; Liliean, R. (2009). “Die Protein-Small-Molecule-Datenbank, eine nicht redundante strukturelle Ressource für die Analyse der Protein-Ligand-Bindung”. Bioinformatik. 25 (5): 615–620. doi:10.1093 / bioinformatics / btp035. PMID 19153135.
^ Birjandtalab, J.; Pouyan, MB; Nourani, M. (2016-02-01). Nichtlineare Dimensionsreduktion für die EEG-basierte Erkennung epileptischer Anfälle. 2016 IEEE-EMBS Internationale Konferenz für Biomedizin und Gesundheitsinformatik (BHI). S. 595–598. doi:10.1109 / BHI.2016.7455968. ISBN 978-1-5090-2455-1. S2CID 8074617.
^ Repräsentationen visualisieren: Deep Learning und Menschen Christopher Olahs Blog, 2015
^ “K-bedeutet Clustering am Ausgang von t-SNE”. Kreuzvalidiert. Abgerufen 2018-04-16.
^ Pezzotti, Nicola; Lelieveldt, Boudewijn PF; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017-07-01). “Ungefähre und benutzergesteuerte tSNE für Progressive Visual Analytics”. IEEE-Transaktionen zu Visualisierung und Computergrafik. 23 (7): 1739–1752. arXiv:1512.01655. doi:10.1109 / tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. S2CID 353336.
^ Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (2016-10-13). “Wie man t-SNE effektiv einsetzt”. Destillieren. Abgerufen 4. Dezember 2017.
^ Linderman, George C.; Steinerberger, Stefan (08.06.2017). “Clustering mit t-SNE nachweislich”. arXiv:1706.02582 [cs.LG].
^ Schubert, Erich; Gertz, Michael (2017-10-04). Intrinsische t-stochastische Nachbar-Einbettung zur Visualisierung und Ausreißererkennung. SISAP 2017 – 10. Internationale Konferenz über Ähnlichkeitssuche und Anwendungen. S. 188–203. doi:10.1007 / 978-3-319-68474-1_13.

Externe Links[edit]

after-content-x4

t-verteilte stochastische Nachbareinbettung – Wikipedia

Einzelheiten[edit]

Software[edit]

Verweise[edit]

Externe Links[edit]

Recent Posts

Recent Comments

Archives

Categories

Meta