Rozróżnij Jaro-Winkler-Wikipedia

before-content-x4

Artykuł w Wikipedii, Free L’Encyclopéi.

after-content-x4

. Odległość jar-winkler mierzy podobieństwo między dwoma ciągami znaków. Jest to wariant zaproponowany w 1999 roku przez Williama E. Winklera, wynikający z Odległość roku (1989, Matthew A. Jaro), który jest stosowany głównie w wykrywaniu duplikatów.

Wynik jest standaryzowany tak, aby mieć miarę między 0 a 1, więc 0 reprezentuje brak podobieństwa i 1, równość kanałów porównywanych.

Ta miara jest szczególnie odpowiednia do leczenia krótkich łańcuchów, takich jak nazwy lub hasła.

Odległość Jaro między kanałami

S 1{DisplayStyle S_ {1}}

I

after-content-x4
S 2{DisplayStyle S_ {2}}

jest zdefiniowany przez:

Lub:

Dwie identyczne postacie

S 1{DisplayStyle S_ {1}}

i

S 2{DisplayStyle S_ {2}}

są rozważane korespondenci Jeśli ich odległość (tj. Różnica między ich pozycjami w odpowiednich kanałach) nie przekracza:

Liczbę transpozycji uzyskuje się przez porównanie I -. odpowiedni z

S 1{DisplayStyle S_ {1}}

Z postać i odpowiedni z

S 2{DisplayStyle S_ {2}}

. Liczba razy te znaki są różne, podzielone przez dwa, daje liczbę Transpozycje .

Metoda wprowadzona przez Winklera używa Współczynnik przedrostka

P {DisplayStyle P}

który promuje łańcuchy, zaczynając od przedrostka długości

{DisplayStyle ELL}

(z

4 {DisplayStyle ell leq 4}

). Biorąc pod uwagę dwa kanały

S 1{DisplayStyle S_ {1}}

I

S 2{DisplayStyle S_ {2}}

, ich odległość od Jaro-Winkler

D w{DisplayStyle D_ {w}}

Wschód :

Lub :

Lub dwa kanały

S 1{DisplayStyle S_ {1}}

Martha I

S 2{DisplayStyle S_ {2}}

Marhta . Przygotujemy ich Tabela korespondencyjna . Tutaj maksymalna odległość wynosi 6/2 – 1 = 2. W żółtych skrzynkach poniższej tabeli zarejestrujemy się zatem 1, gdy znaki są identyczne (istnieje korespondencja ) i 0 w przeciwnym razie:

M A R T H A
M Pierwszy 0 0 0 0 0
A 0 Pierwszy 0 0 0 0
R 0 0 Pierwszy 0 0 0
H 0 0 0 0 Pierwszy 0
T 0 0 0 Pierwszy 0 0
A 0 0 0 0 0 Pierwszy
  • Postaci korespondenci są {m, a, r, t, h, a}

Odległość Jaro to:

Odległość jaro-winklera z

P = 0 W Pierwszy {DisplayStyle p = 0 {,} 1}

z prefiksem długości

= 3 {DisplayStyle ell = 3}

staje się

Z kanałami

S 1{DisplayStyle S_ {1}}

Dwayne I

S 2{DisplayStyle S_ {2}}

Duane znaleźliśmy :

Odległość Jaro to:

Z Jaro-Winkler z

= Pierwszy {DisplayStyle ell = 1}

:

Z kanałami

S 1{DisplayStyle S_ {1}}

Dixon I

S 2{DisplayStyle S_ {2}}

Dicksonx , otrzymujemy:

D I X O N
D Pierwszy 0 0 0 0
I 0 Pierwszy 0 0 0
C 0 0 0 0 0
K 0 0 0 0 0
S 0 0 0 0 0
O 0 0 0 Pierwszy 0
N 0 0 0 0 Pierwszy
X 0 0 0 0 0

Obliczamy maksymalną odległość dla kryterium korespondencji

Odległość Jaro:

Odległość jaro-winklera z

= 2 {DisplayStyle ell = 2}

:

  • (W) Jaro, M. A., Postępy w rekordowej metodologii łączącej zastosowanie do spisu powszechnego Tampa Florida z 1985 r. » W Journal of the American Statistical Society W tom. 84, N O 406, W P. 414-420
  • (W) Jaro, M. A., Probabilistyczne powiązanie dużego pliku danych zdrowia publicznego » W Statystyki w medycynie W tom. 14, W P. 491-498 ( Czytaj online )
  • (W) Winkler, W. E., Stan powiązania rekordów i aktualne problemy badawcze » W Statystyki działu dochodów, publikacja usług przychodów wewnętrznych R99/04 W ( Czytaj online )
  • (W) Winkler, W. E., Przegląd powiązań rekordów i aktualnych kierunków badań » W Seria raportów badawczych, RRS W ( Czytaj online )

after-content-x4