t-verteilte stochastische Nachbareinbettung – Wikipedia
Technik zur Dimensionsreduktion
t-verteilte stochastische Nachbareinbettung ((t-SNE) ist ein Algorithmus für maschinelles Lernen zur Visualisierung basierend auf Stochastic Neighbor Embedding, der ursprünglich von Sam Roweis und Geoffrey Hinton entwickelt wurde.[1] wo Laurens van der Maaten das vorschlug t-verteilte Variante.[2] Es handelt sich um eine nichtlineare Technik zur Reduzierung der Dimensionalität, die sich gut zum Einbetten hochdimensionaler Daten zur Visualisierung in einen niedrigdimensionalen Raum mit zwei oder drei Dimensionen eignet. Insbesondere wird jedes hochdimensionale Objekt durch einen zwei- oder dreidimensionalen Punkt so modelliert, dass ähnliche Objekte durch nahegelegene Punkte und unterschiedliche Objekte mit hoher Wahrscheinlichkeit durch entfernte Punkte modelliert werden.
Der t-SNE-Algorithmus umfasst zwei Hauptstufen. Zunächst konstruiert t-SNE eine Wahrscheinlichkeitsverteilung über Paare hochdimensionaler Objekte, so dass ähnlichen Objekten eine höhere Wahrscheinlichkeit zugewiesen wird, während unterschiedlichen Punkten eine niedrigere Wahrscheinlichkeit zugewiesen wird. Zweitens definiert t-SNE eine ähnliche Wahrscheinlichkeitsverteilung über die Punkte in der niedrigdimensionalen Karte und minimiert die Kullback-Leibler-Divergenz (KL-Divergenz) zwischen den beiden Verteilungen in Bezug auf die Positionen der Punkte in der Karte. Während der ursprüngliche Algorithmus den euklidischen Abstand zwischen Objekten als Grundlage für seine Ähnlichkeitsmetrik verwendet, kann dieser entsprechend geändert werden.
t-SNE wurde zur Visualisierung in einer Vielzahl von Anwendungen verwendet, einschließlich der Computersicherheitsforschung.[3]Musikanalyse,[4]Krebsforschung,[5]Bioinformatik,[6] und biomedizinische Signalverarbeitung.[7] Es wird häufig verwendet, um Darstellungen auf hoher Ebene zu visualisieren, die von einem künstlichen neuronalen Netzwerk gelernt wurden.[8]
Während t-SNE-Diagramme häufig Cluster anzuzeigen scheinen, können die visuellen Cluster stark durch die gewählte Parametrisierung beeinflusst werden. Daher ist ein gutes Verständnis der Parameter für t-SNE erforderlich. Es kann gezeigt werden, dass solche “Cluster” sogar in nicht geclusterten Daten erscheinen.[9] und kann daher falsche Befunde sein. Eine interaktive Exploration kann daher erforderlich sein, um Parameter auszuwählen und Ergebnisse zu validieren.[10][11] Es wurde gezeigt, dass t-SNE häufig gut getrennte Cluster wiederherstellen kann und mit speziellen Parameteroptionen eine einfache Form der spektralen Clusterbildung annähert.[12]
Einzelheiten[edit]
Gegeben eine Reihe von
hochdimensionale Objekte
, t-SNE berechnet zuerst Wahrscheinlichkeiten
das ist proportional zur Ähnlichkeit von Objekten
und
, wie folgt.
Zum
, definieren
und setzen
. Beachten Sie, dass
für alle
.
Wie Van der Maaten und Hinton erklärten: “Die Ähnlichkeit des Datenpunkts
zum Datenpunkt
ist die bedingte Wahrscheinlichkeit,
, Das
würde wählen
als sein Nachbar, wenn Nachbarn proportional zu ihrer Wahrscheinlichkeitsdichte unter einem Gaußschen zentriert bei ausgewählt wurden
. “[2]
Nun definieren
und beachte das
,
, und
.
Die Bandbreite der Gaußschen Kernel
wird so eingestellt, dass die Ratlosigkeit der bedingten Verteilung einer vordefinierten Ratlosigkeit unter Verwendung der Halbierungsmethode entspricht. Infolgedessen wird die Bandbreite an die Dichte der Daten angepasst: kleinere Werte von
werden in dichteren Teilen des Datenraums verwendet.
Da der Gaußsche Kern den euklidischen Abstand verwendet
wird es durch den Fluch der Dimensionalität beeinflusst, und in hochdimensionalen Daten, wenn Entfernungen die Fähigkeit zur Unterscheidung verlieren, die
zu ähnlich werden (asymptotisch würden sie zu einer Konstanten konvergieren). Es wurde vorgeschlagen, die Abstände mit einer Leistungstransformation basierend auf der intrinsischen Dimension jedes Punkts anzupassen, um dies zu mildern.[13]
t-SNE zielt darauf ab, a zu lernen
-dimensionale Karte
(mit
), die die Ähnlichkeiten widerspiegeln
so gut wie möglich. Zu diesem Zweck werden Ähnlichkeiten gemessen
zwischen zwei Punkten in der Karte
und
mit einem sehr ähnlichen Ansatz. Speziell für
, definieren
wie
und setzen
. Hier wird eine schwerfällige Student-T-Verteilung (mit einem Freiheitsgrad, der einer Cauchy-Verteilung entspricht) verwendet, um Ähnlichkeiten zwischen niedrigdimensionalen Punkten zu messen, damit unterschiedliche Objekte in der Karte weit auseinander modelliert werden können .
Die Positionen der Punkte
in der Karte werden durch Minimierung der (nicht symmetrischen) Kullback-Leibler-Divergenz der Verteilung bestimmt
aus der Verteilung
, das ist:
Die Minimierung der Kullback-Leibler-Divergenz in Bezug auf die Punkte
wird mit Gradientenabstieg durchgeführt. Das Ergebnis dieser Optimierung ist eine Karte, die die Ähnlichkeiten zwischen den hochdimensionalen Eingaben widerspiegelt.
Software[edit]
- ELKI enthält tSNE, ebenfalls mit Barnes-Hut-Näherung
- Scikit-learn, ein beliebtes Toolkit für maschinelles Lernen in Python, implementiert t-SNE sowohl mit exakten Lösungen als auch mit der Barnes-Hut-Näherung.
Verweise[edit]
- ^ Roweis, Sam; Hinton, Geoffrey (Januar 2002). Stochastische Nachbareinbettung (PDF). Neuronale Informationsverarbeitungssysteme.
- ^ ein b van der Maaten, LJP; Hinton, GE (November 2008). “Visualisieren von Daten mit t-SNE” (PDF). Journal of Machine Learning Research. 9: 2579–2605.
- ^ Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). “Eine experimentelle Untersuchung der Vielfalt mit handelsüblichen Anti-Virus-Engines”. Vorträge des IEEE International Symposium on Network Computing and Applications: 4–11.
- ^ Hamel, P.; Eck, D. (2010). “Lernen von Funktionen aus Musik-Audio mit Deep Belief-Netzwerken”. Tagungsband der International Society for Music Information Retrieval Conference: 339–344.
- ^ Jamieson, AR; Giger, ML; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). “Untersuchung der Reduzierung nichtlinearer Merkmalsraumdimensionen und der Datendarstellung in Brust-CADx mit Laplace-Eigenkarten und t-SNE”. Medizinische Physik. 37 (1): 339–351. doi:10.1118 / 1.3267037. PMC 2807447. PMID 20175497.
- ^ Wallach, I.; Liliean, R. (2009). “Die Protein-Small-Molecule-Datenbank, eine nicht redundante strukturelle Ressource für die Analyse der Protein-Ligand-Bindung”. Bioinformatik. 25 (5): 615–620. doi:10.1093 / bioinformatics / btp035. PMID 19153135.
- ^ Birjandtalab, J.; Pouyan, MB; Nourani, M. (2016-02-01). Nichtlineare Dimensionsreduktion für die EEG-basierte Erkennung epileptischer Anfälle. 2016 IEEE-EMBS Internationale Konferenz für Biomedizin und Gesundheitsinformatik (BHI). S. 595–598. doi:10.1109 / BHI.2016.7455968. ISBN 978-1-5090-2455-1. S2CID 8074617.
- ^ Repräsentationen visualisieren: Deep Learning und Menschen Christopher Olahs Blog, 2015
- ^ “K-bedeutet Clustering am Ausgang von t-SNE”. Kreuzvalidiert. Abgerufen 2018-04-16.
- ^ Pezzotti, Nicola; Lelieveldt, Boudewijn PF; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017-07-01). “Ungefähre und benutzergesteuerte tSNE für Progressive Visual Analytics”. IEEE-Transaktionen zu Visualisierung und Computergrafik. 23 (7): 1739–1752. arXiv:1512.01655. doi:10.1109 / tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. S2CID 353336.
- ^ Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (2016-10-13). “Wie man t-SNE effektiv einsetzt”. Destillieren. Abgerufen 4. Dezember 2017.
- ^ Linderman, George C.; Steinerberger, Stefan (08.06.2017). “Clustering mit t-SNE nachweislich”. arXiv:1706.02582 [cs.LG].
- ^ Schubert, Erich; Gertz, Michael (2017-10-04). Intrinsische t-stochastische Nachbar-Einbettung zur Visualisierung und Ausreißererkennung. SISAP 2017 – 10. Internationale Konferenz über Ähnlichkeitssuche und Anwendungen. S. 188–203. doi:10.1007 / 978-3-319-68474-1_13.
Recent Comments