t-verteilte stochastische Nachbareinbettung – Wikipedia

before-content-x4

Technik zur Dimensionsreduktion

after-content-x4

t-verteilte stochastische Nachbareinbettung ((t-SNE) ist ein Algorithmus für maschinelles Lernen zur Visualisierung basierend auf Stochastic Neighbor Embedding, der ursprünglich von Sam Roweis und Geoffrey Hinton entwickelt wurde.[1] wo Laurens van der Maaten das vorschlug t-verteilte Variante.[2] Es handelt sich um eine nichtlineare Technik zur Reduzierung der Dimensionalität, die sich gut zum Einbetten hochdimensionaler Daten zur Visualisierung in einen niedrigdimensionalen Raum mit zwei oder drei Dimensionen eignet. Insbesondere wird jedes hochdimensionale Objekt durch einen zwei- oder dreidimensionalen Punkt so modelliert, dass ähnliche Objekte durch nahegelegene Punkte und unterschiedliche Objekte mit hoher Wahrscheinlichkeit durch entfernte Punkte modelliert werden.

Der t-SNE-Algorithmus umfasst zwei Hauptstufen. Zunächst konstruiert t-SNE eine Wahrscheinlichkeitsverteilung über Paare hochdimensionaler Objekte, so dass ähnlichen Objekten eine höhere Wahrscheinlichkeit zugewiesen wird, während unterschiedlichen Punkten eine niedrigere Wahrscheinlichkeit zugewiesen wird. Zweitens definiert t-SNE eine ähnliche Wahrscheinlichkeitsverteilung über die Punkte in der niedrigdimensionalen Karte und minimiert die Kullback-Leibler-Divergenz (KL-Divergenz) zwischen den beiden Verteilungen in Bezug auf die Positionen der Punkte in der Karte. Während der ursprüngliche Algorithmus den euklidischen Abstand zwischen Objekten als Grundlage für seine Ähnlichkeitsmetrik verwendet, kann dieser entsprechend geändert werden.

t-SNE wurde zur Visualisierung in einer Vielzahl von Anwendungen verwendet, einschließlich der Computersicherheitsforschung.[3]Musikanalyse,[4]Krebsforschung,[5]Bioinformatik,[6] und biomedizinische Signalverarbeitung.[7] Es wird häufig verwendet, um Darstellungen auf hoher Ebene zu visualisieren, die von einem künstlichen neuronalen Netzwerk gelernt wurden.[8]

Während t-SNE-Diagramme häufig Cluster anzuzeigen scheinen, können die visuellen Cluster stark durch die gewählte Parametrisierung beeinflusst werden. Daher ist ein gutes Verständnis der Parameter für t-SNE erforderlich. Es kann gezeigt werden, dass solche “Cluster” sogar in nicht geclusterten Daten erscheinen.[9] und kann daher falsche Befunde sein. Eine interaktive Exploration kann daher erforderlich sein, um Parameter auszuwählen und Ergebnisse zu validieren.[10][11] Es wurde gezeigt, dass t-SNE häufig gut getrennte Cluster wiederherstellen kann und mit speziellen Parameteroptionen eine einfache Form der spektralen Clusterbildung annähert.[12]

Einzelheiten[edit]

Gegeben eine Reihe von

N.{ displaystyle N}

hochdimensionale Objekte

after-content-x4
x1,,xN.{ displaystyle mathbf {x} _ {1}, dots, mathbf {x} _ {N}}

, t-SNE berechnet zuerst Wahrscheinlichkeiten

pichj{ displaystyle p_ {ij}}

das ist proportional zur Ähnlichkeit von Objekten

xich{ displaystyle mathbf {x} _ {i}}

und

xj{ displaystyle mathbf {x} _ {j}}

, wie folgt.

Zum

ichj{ displaystyle i neq j}

, definieren

und setzen

pichich=0{ displaystyle p_ {i mid i} = 0}

. Beachten Sie, dass

jpjich=1{ displaystyle sum _ {j} p_ {j mid i} = 1}

für alle

ich{ displaystyle i}

.

Wie Van der Maaten und Hinton erklärten: “Die Ähnlichkeit des Datenpunkts

xj{ displaystyle x_ {j}}

zum Datenpunkt

xich{ displaystyle x_ {i}}

ist die bedingte Wahrscheinlichkeit,

pj|ich{ displaystyle p_ {j | i}}

, Das

xich{ displaystyle x_ {i}}

würde wählen

xj{ displaystyle x_ {j}}

als sein Nachbar, wenn Nachbarn proportional zu ihrer Wahrscheinlichkeitsdichte unter einem Gaußschen zentriert bei ausgewählt wurden

xich{ displaystyle x_ {i}}

. “[2]

Nun definieren

und beachte das

pichj=pjich{ displaystyle p_ {ij} = p_ {ji}}

,

pichich=0{ displaystyle p_ {ii} = 0}

, und

ich,jpichj=1{ displaystyle sum _ {i, j} p_ {ij} = 1}

.

Die Bandbreite der Gaußschen Kernel

σich{ displaystyle sigma _ {i}}

wird so eingestellt, dass die Ratlosigkeit der bedingten Verteilung einer vordefinierten Ratlosigkeit unter Verwendung der Halbierungsmethode entspricht. Infolgedessen wird die Bandbreite an die Dichte der Daten angepasst: kleinere Werte von

σich{ displaystyle sigma _ {i}}

werden in dichteren Teilen des Datenraums verwendet.

Da der Gaußsche Kern den euklidischen Abstand verwendet

xich– –xj{ displaystyle lVert x_ {i} -x_ {j} rVert}

wird es durch den Fluch der Dimensionalität beeinflusst, und in hochdimensionalen Daten, wenn Entfernungen die Fähigkeit zur Unterscheidung verlieren, die

pichj{ displaystyle p_ {ij}}

zu ähnlich werden (asymptotisch würden sie zu einer Konstanten konvergieren). Es wurde vorgeschlagen, die Abstände mit einer Leistungstransformation basierend auf der intrinsischen Dimension jedes Punkts anzupassen, um dies zu mildern.[13]

t-SNE zielt darauf ab, a zu lernen

d{ displaystyle d}

-dimensionale Karte

y1,,yN.{ displaystyle mathbf {y} _ {1}, dots, mathbf {y} _ {N}}

(mit

yichR.d{ displaystyle mathbf {y} _ {i} in mathbb {R} ^ {d}}

), die die Ähnlichkeiten widerspiegeln

pichj{ displaystyle p_ {ij}}

so gut wie möglich. Zu diesem Zweck werden Ähnlichkeiten gemessen

qichj{ displaystyle q_ {ij}}

zwischen zwei Punkten in der Karte

yich{ displaystyle mathbf {y} _ {i}}

und

yj{ displaystyle mathbf {y} _ {j}}

mit einem sehr ähnlichen Ansatz. Speziell für

ichj{ displaystyle i neq j}

, definieren

qichj{ displaystyle q_ {ij}}

wie

und setzen

qichich=0{ displaystyle q_ {ii} = 0}

. Hier wird eine schwerfällige Student-T-Verteilung (mit einem Freiheitsgrad, der einer Cauchy-Verteilung entspricht) verwendet, um Ähnlichkeiten zwischen niedrigdimensionalen Punkten zu messen, damit unterschiedliche Objekte in der Karte weit auseinander modelliert werden können .

Die Positionen der Punkte

yich{ displaystyle mathbf {y} _ {i}}

in der Karte werden durch Minimierung der (nicht symmetrischen) Kullback-Leibler-Divergenz der Verteilung bestimmt

P.{ displaystyle P}

aus der Verteilung

Q.{ displaystyle Q}

, das ist:

Die Minimierung der Kullback-Leibler-Divergenz in Bezug auf die Punkte

yich{ displaystyle mathbf {y} _ {i}}

wird mit Gradientenabstieg durchgeführt. Das Ergebnis dieser Optimierung ist eine Karte, die die Ähnlichkeiten zwischen den hochdimensionalen Eingaben widerspiegelt.

Software[edit]

  • ELKI enthält tSNE, ebenfalls mit Barnes-Hut-Näherung
  • Scikit-learn, ein beliebtes Toolkit für maschinelles Lernen in Python, implementiert t-SNE sowohl mit exakten Lösungen als auch mit der Barnes-Hut-Näherung.

Verweise[edit]

  1. ^ Roweis, Sam; Hinton, Geoffrey (Januar 2002). Stochastische Nachbareinbettung (PDF). Neuronale Informationsverarbeitungssysteme.
  2. ^ ein b van der Maaten, LJP; Hinton, GE (November 2008). “Visualisieren von Daten mit t-SNE” (PDF). Journal of Machine Learning Research. 9: 2579–2605.
  3. ^ Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). “Eine experimentelle Untersuchung der Vielfalt mit handelsüblichen Anti-Virus-Engines”. Vorträge des IEEE International Symposium on Network Computing and Applications: 4–11.
  4. ^ Hamel, P.; Eck, D. (2010). “Lernen von Funktionen aus Musik-Audio mit Deep Belief-Netzwerken”. Tagungsband der International Society for Music Information Retrieval Conference: 339–344.
  5. ^ Jamieson, AR; Giger, ML; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). “Untersuchung der Reduzierung nichtlinearer Merkmalsraumdimensionen und der Datendarstellung in Brust-CADx mit Laplace-Eigenkarten und t-SNE”. Medizinische Physik. 37 (1): 339–351. doi:10.1118 / 1.3267037. PMC 2807447. PMID 20175497.
  6. ^ Wallach, I.; Liliean, R. (2009). “Die Protein-Small-Molecule-Datenbank, eine nicht redundante strukturelle Ressource für die Analyse der Protein-Ligand-Bindung”. Bioinformatik. 25 (5): 615–620. doi:10.1093 / bioinformatics / btp035. PMID 19153135.
  7. ^ Birjandtalab, J.; Pouyan, MB; Nourani, M. (2016-02-01). Nichtlineare Dimensionsreduktion für die EEG-basierte Erkennung epileptischer Anfälle. 2016 IEEE-EMBS Internationale Konferenz für Biomedizin und Gesundheitsinformatik (BHI). S. 595–598. doi:10.1109 / BHI.2016.7455968. ISBN 978-1-5090-2455-1. S2CID 8074617.
  8. ^ Repräsentationen visualisieren: Deep Learning und Menschen Christopher Olahs Blog, 2015
  9. ^ “K-bedeutet Clustering am Ausgang von t-SNE”. Kreuzvalidiert. Abgerufen 2018-04-16.
  10. ^ Pezzotti, Nicola; Lelieveldt, Boudewijn PF; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017-07-01). “Ungefähre und benutzergesteuerte tSNE für Progressive Visual Analytics”. IEEE-Transaktionen zu Visualisierung und Computergrafik. 23 (7): 1739–1752. arXiv:1512.01655. doi:10.1109 / tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. S2CID 353336.
  11. ^ Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (2016-10-13). “Wie man t-SNE effektiv einsetzt”. Destillieren. Abgerufen 4. Dezember 2017.
  12. ^ Linderman, George C.; Steinerberger, Stefan (08.06.2017). “Clustering mit t-SNE nachweislich”. arXiv:1706.02582 [cs.LG].
  13. ^ Schubert, Erich; Gertz, Michael (2017-10-04). Intrinsische t-stochastische Nachbar-Einbettung zur Visualisierung und Ausreißererkennung. SISAP 2017 – 10. Internationale Konferenz über Ähnlichkeitssuche und Anwendungen. S. 188–203. doi:10.1007 / 978-3-319-68474-1_13.

Externe Links[edit]

after-content-x4