Rozróżnij Jaro-Winkler-Wikipedia
Artykuł w Wikipedii, Free L’Encyclopéi.
. Odległość jar-winkler mierzy podobieństwo między dwoma ciągami znaków. Jest to wariant zaproponowany w 1999 roku przez Williama E. Winklera, wynikający z Odległość roku (1989, Matthew A. Jaro), który jest stosowany głównie w wykrywaniu duplikatów.
Wynik jest standaryzowany tak, aby mieć miarę między 0 a 1, więc 0 reprezentuje brak podobieństwa i 1, równość kanałów porównywanych.
Ta miara jest szczególnie odpowiednia do leczenia krótkich łańcuchów, takich jak nazwy lub hasła.
Odległość Jaro między kanałami
I
jest zdefiniowany przez:
Lub:
- to długość sznurka znaku ;
- to liczba odpowiadające znaki (patrz poniżej);
- to liczba Transpozycje (patrz poniżej).
Dwie identyczne postacie
i
są rozważane korespondenci Jeśli ich odległość (tj. Różnica między ich pozycjami w odpowiednich kanałach) nie przekracza:
- .
Liczbę transpozycji uzyskuje się przez porównanie I -. odpowiedni z
Z postać i odpowiedni z
. Liczba razy te znaki są różne, podzielone przez dwa, daje liczbę Transpozycje .
Metoda wprowadzona przez Winklera używa Współczynnik przedrostka
który promuje łańcuchy, zaczynając od przedrostka długości
(z
). Biorąc pod uwagę dwa kanały
I
, ich odległość od Jaro-Winkler
Wschód :
Lub :
Lub dwa kanały
Martha I
Marhta . Przygotujemy ich Tabela korespondencyjna . Tutaj maksymalna odległość wynosi 6/2 – 1 = 2. W żółtych skrzynkach poniższej tabeli zarejestrujemy się zatem 1, gdy znaki są identyczne (istnieje korespondencja ) i 0 w przeciwnym razie:
M | A | R | T | H | A | |
M | Pierwszy | 0 | 0 | 0 | 0 | 0 |
A | 0 | Pierwszy | 0 | 0 | 0 | 0 |
R | 0 | 0 | Pierwszy | 0 | 0 | 0 |
H | 0 | 0 | 0 | 0 | Pierwszy | 0 |
T | 0 | 0 | 0 | Pierwszy | 0 | 0 |
A | 0 | 0 | 0 | 0 | 0 | Pierwszy |
- (liczba 1 w tabeli)
- Postaci korespondenci są {m, a, r, t, h, a} i {m, a, r, h, t, a} . Rozważając te uporządkowane zestawy, mamy zatem 2 pary (t/h i h/t) znaków korespondenci Różne, dwa pół-przenoszenie. Skąd
Odległość Jaro to:
Odległość jaro-winklera z
z prefiksem długości
staje się
Z kanałami
Dwayne I
Duane znaleźliśmy :
Odległość Jaro to:
Z Jaro-Winkler z
:
Z kanałami
Dixon I
Dicksonx , otrzymujemy:
D | I | X | O | N | |
D | Pierwszy | 0 | 0 | 0 | 0 |
I | 0 | Pierwszy | 0 | 0 | 0 |
C | 0 | 0 | 0 | 0 | 0 |
K | 0 | 0 | 0 | 0 | 0 |
S | 0 | 0 | 0 | 0 | 0 |
O | 0 | 0 | 0 | Pierwszy | 0 |
N | 0 | 0 | 0 | 0 | Pierwszy |
X | 0 | 0 | 0 | 0 | 0 |
Obliczamy maksymalną odległość dla kryterium korespondencji
- .
- (Zarówno X to jest korespondent nie, ponieważ są daleko od więcej niż 3 znaków)
Odległość Jaro:
Odległość jaro-winklera z
:
- (W) Jaro, M. A., ‘ Postępy w rekordowej metodologii łączącej zastosowanie do spisu powszechnego Tampa Florida z 1985 r. » W Journal of the American Statistical Society W tom. 84, N O 406, W P. 414-420
- (W) Jaro, M. A., ‘ Probabilistyczne powiązanie dużego pliku danych zdrowia publicznego » W Statystyki w medycynie W tom. 14, W P. 491-498 ( Czytaj online )
- (W) Winkler, W. E., ‘ Stan powiązania rekordów i aktualne problemy badawcze » W Statystyki działu dochodów, publikacja usług przychodów wewnętrznych R99/04 W ( Czytaj online )
- (W) Winkler, W. E., ‘ Przegląd powiązań rekordów i aktualnych kierunków badań » W Seria raportów badawczych, RRS W ( Czytaj online )
Recent Comments