Partycjonowanie danych – Wikipedia

before-content-x4

Przykład grupowanie Hierarchiczne.

. partycja danych (Lub Klastrowanie danych w języku angielskim) jest metodą analizy danych. Ma na celu podzielenie zestawu danych na różne jednorodne „pakiety”, w tym sensie, że dane z każdego podzbioru mają wspólne cechy, które najczęściej odpowiadają kryteriom bliskości (podobieństwu komputera), które definiujemy, wprowadzając pomiary i klasy odległości między obiektami .

after-content-x4

Aby uzyskać dobry wynik, jest odpowiedni dla obu:

  • zminimalizować bezwładność Klasa wewnątrz Aby uzyskać klastry ( grupa w języku angielskim) najbardziej jednorodne możliwe;
  • Maksymalizuj bezwładność między klasy, aby uzyskać dobrze zróżnicowane podzbiory.

Społeczność naukowa francusko -opakowań używa różnych terminów do wyznaczenia tej techniki.
Angielskie słowo grupowanie jest powszechnie używany. Często również rozmawiamy o metodach grupowanie . Często rozróżniamy metody „hierarchiczne” i „partycji”

« grupowanie Nie nadzorowany „nazywany także klasyfikacją nie nadzorowaną, jest procesem, który łączy podobne dane. Fakt, że nie jest on nadzorowany, oznacza, że ​​techniki uczenia maszynowego umożliwią znalezienie pewnych podobieństw, aby sklasyfikować dane i to w mniej lub bardziej autonomiczny sposób.

Ten typ analizy pozwala mieć profil różnych grup. Umożliwia to zatem uproszczenie analizy danych poprzez wydobywanie wspólnych punktów i różnic, a tym samym zmniejszenie liczby zmiennych danych. Ta technika jest stosowana nie tylko w dziedzinie genetycznej, ale także umożliwia listę potencjalnych klientów podczas akcji reklamowej.

« grupowanie Hierarchiczne ”to kolejna technika klasyfikacji. Tym razem porównywany parametr jest z góry rozstrzygany. Następnie, po wybraniu parametru porównawczego, obliczana jest odległość euklidesowa [9]. Aby to zrobić, używamy jego definicji podanej przez równanie (1).

after-content-x4

A B 2 = i(aibi)2( Pierwszy ) {displayStyle | a-b | _ {2} = {sqrt {sum _ {i} lewy (a_ {i} -b_ {i} right)^{2}}} qquad qquad qquad (1)}}

Wówczas wystarczy, aby wiązać najbliższe osoby między nimi, dwa na dwa, aż do formowania się schematu drzewa wywołanego dendrogramme .

Dendrogramy czytane w następujący sposób: Aby poznać poziom bliskości między 2 osobnikami, musisz spojrzeć na oś zamówień; Im bardziej połączenie między dwoma osobnikami jest tworzone z wysokim uporządkowanym, tym mniej będą one podobne z punktu widzenia obserwowanego parametru. Jeśli chcemy również poznać obserwowane osoby, musimy spojrzeć na oś odciętą.

W zależności od pożądanego wskaźnika bliskości, możliwe jest wówczas utworzenie wielu grup.

Mapa termiczna to graficzna reprezentacja danych statystycznych w macierzy dwuwymiarowej, która wykorzystuje technikę „klastra hierarchicznego” [Co ?] . Dane są reprezentowane w skali łączącej dwa kolory, takie jak zimny kolor i ciepły kolor, stąd nazwa karty termicznej lub czarno -biały.

Kolor siatki reprezentuje wartość parametru używanego do łączenia próbek. Możemy przyjąć konwencję, że im bardziej kolor jest gorący (np. Czerwony), tym większa bliskość.

Można zastosować różne metody sortowania, na przykład grupowanie w zależności od znanych cech lub sortowania zgodnie z parametrem zewnętrznym.

W jakim kontekście przydatne może być tworzenie karty termicznej? [[[ modyfikator |. Modyfikator i kod ]

W wielu obszarach można zastosować tę technikę podłączania dwóch posortowanych zestawów danych o wspólnej miarę. Na przykład podczas laboratorium dane są miarami genów, oba zestawy to pacjenci i geny, sortowanie pochodzi z dendrogramów, co ułatwia, graficznie kategorie pacjentów związanych z kategoriami genów zagrożonych. Możesz użyć tej samej koncepcji na kartach termicznych.

Ogólnie rzecz biorąc, może być używany do każdej analizy opisowej, od momentu, w którym musisz analizować zestaw danych zbyt duży, aby go analizować ręcznie i co odpowiada rodzaju danych oczekiwanych przez kartę termiczną. Na przykład technikę można zastosować do sortowania mostów, [Co ?] , lub w celu ustalenia, jakie cechy makroskopowe (MM-μM), związane ze składami materiału (NM, cząsteczki), mają najciekawsze właściwości; I to tylko przykłady.

. partycja danych jest metodą Klasyfikacja nieskórna (różni się od nadzorowanej klasyfikacji, w której dane uczenia się są już oznaczone), a zatem czasami nazywane jako takie.

Aplikacje:
Zasadniczo są trzy rodzaje [[[ Pierwszy ] :

  • . segmentacja baza danych; Można go użyć w dyskretny baza danych.
    Segmentacja może również pozwolić skraplacz Lub Kompresja dane z przestrzennej bazy danych (tj. Zmniejsz rozmiar pakietów danych do przetworzenia, w rozważanym zestawie danych); Na przykład na obrazie powietrznym lub satelitarnym GIS może inaczej leczyć lasy, pola, łąki, drogi, mokradła itp. Tutaj uważane za jednorodne podprzestrzenia. Cieńsze leczenie, które można następnie zastosować do poddziałów tych klas (np. Feuillus, odpowiedni, sztuczny, naturalny itp.).
    OLAP jest metodą ułatwiającą indeksowanie takich zasad;
  • Klasyfikacja (w podgrupach, subpopulacjach w bazie danych), na przykład baza danych klientów, do zarządzania relacjami klientów;
  • ekstrakcja wiedzy, która jest na ogół wykonywana bez obiektywu Pierwszy (Współczynnik panowania, przydatny do generowania hipotez lub modelowania predykcyjnego), w celu wydania podrzędnych i podkoncepcji prawdopodobnie niemożliwych do naturalnego rozróżnienia.

Aby dokonać partycjonowania danych, wspomniane dane powinny być zorganizowane w matrycy

X {Styl tekstowy x}

Każda linia odpowiada indywidualny (lub obserwacja), a każda kolumna odpowiada urządzenie prognozujące (lub zmienna). Zauważamy

N {Styl tekstowy n}

liczba osób i

P {Styl tekstowy p}

Liczba predyktorów: w taki sposób, macierz

X {Styl tekstowy x}

ma rozmiar

N × P {Styl tekstowy ntimes p}

Celem algorytmu partycjonowania będzie znalezienie „najlepszych” grup jednostek. W tym celu dajemy sobie odmianę

D ( X I W X i) {TextStyle d (x^{i}, x^{i ‘})}

Między jednostkami

X I = ( X Pierwszy I W . . . W X P I ) {DisplayStyle x^{i} = (x_ {1}^{i}, …, x_ {p}^{i})}

I

X i= ( X Pierwszy iW . . . W X P i) {displayStyle x^{i ‘} = (x_ {1}^{i’}, …, x_ {p}^{i ‘})}

(odpowiednio, linia

I {DisplayStyle i}

I

I {DisplayStyle i ‘}

z

X {DisplayStyle x}

).

Notatka

K 2 {DisplayStyle Kgeqslant 2}

liczba grup, które chcemy trenować. Sprowadza się to do znalezienia funkcji nagrody

C : [[[ [[[ Pierwszy W N ] ] [[[ [[[ Pierwszy W K ] ] {DisplayStyle C: [! [1, N]!] Longrightarrow [! [1, k]!]}

który minimalizuje funkcję kosztów.

Klasyczna funkcja kosztów to zmienność klasy ( wariancja wewnątrz klastra po angielsku) :

Istnieją inne funkcje kosztów (na przykład indeks Dunn, indeks Davies-Bouldin lub indeks Calinski-Harabasz). Można je wykorzystać do oceny jakości klasyfikacji [[[ 2 ] .

Istnieje wiele metod partycjonowania danych, w tym:

Metody te są wdrażane w wielu oprogramowaniach do wykopalisk.

Bibliografia [[[ modyfikator |. Modyfikator i kod ]

  • Anil K. Jain, M. N. Murty, P. J. Flynn, « Klastrowanie danych: przegląd », Ankiety obliczeniowe ACM W tom. trzydziesty pierwszy, N O 3, . Doi 10.1145/331499.331504
  • SM. Chen, J. Han i P. S. Yu, « Wydobycie danych: przegląd z perspektywy bazy danych », Transakcje IEEE dotyczące wiedzy i inżynierii danych W tom. 8, N O 6, P. 866–883 , 1996.
  • A. K. Jain, « Klastrowanie danych: 50 lat poza K-średnie », Listy rozpoznawania wzorców W tom. trzydziesty pierwszy, N O 8, P. 651–666 W .

Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]

after-content-x4