Model wektorowy – Wikipedia

after-content-x4

I Model wektorowy (Czasami nazwany Semantyka wektorowa ) to algebraiczna metoda reprezentowania dokumentu mającego na celu rozliczenie semantyki, zaproponowaną przez Gerarda Saltona w latach siedemdziesiątych ^{[[[ Pierwszy ]}. Jest używany w wyszukiwaniu informacji, w szczególności w zakresie badań dokumentalnych, klasyfikacji lub filtrowania danych. Ten model pierwotnie dotyczył dokumentów tekstowych i został rozszerzony od czasu innych rodzajów treści. Pierwszym przykładem użycia tego modelu jest inteligentny system.

Model wektorowy jest matematycznym przedstawieniem treści dokumentu, zgodnie z podejściem algebraicznym.

Zestaw dokumentów jest słownictwem, w tym warunki indeksowania. Są to zazwyczaj najważniejsze słowa rozważanego korpusu: nazwy wspólne, nazwy właściwe, przymiotniki … Mogą być bardziej skomplikowanymi konstrukcjami, takimi jak wyrażenia lub jednostki semantyczne. Każdy element słownictwa jest powiązany z pojedynczym dowolnym indeksem.

Każda zawartość jest zatem reprezentowana przez wektor W , którego wymiar odpowiada wielkości słownictwa. Każdy element W _Iwektor W składa się z wagi związanej z końcem indeksu I i próbka tekstu. Prostym przykładem jest identyfikacja W _Iliczba wystąpień terminu I W próbce tekstowej. Składnik wektora reprezentuje zatem wagę słowa

{DisplayStyle i}

$i$ W dokumencie. Jednym z najczęściej używanych wzorów ważenia jest TF-IDF.

after-content-x4

Biorąc pod uwagę wektor reprezentację korpusu dokumentów, możemy wprowadzić pojęcie przestrzeni wektorowej na przestrzeni dokumentów w języku naturalnym. Dochodzimy do koncepcji matematycznej bliskości między dokumentami.

Wprowadzając odpowiednie miary podobieństwa, możemy określić ilościowo semantyczną bliskość między różnymi dokumentami. Miary podobieństwa są wybierane zgodnie z aplikacją. Powszechnie stosowaną miarą jest podobieństwo cosinus, które polega na ilościowym kwantyfikacji podobieństwa między dwoma dokumentami poprzez obliczenie cosinusu między ich wektorami. Bliskość żądania

{DisplayStyle Q}

$q$ do dokumentu

{DisplayStyle D_ {1}}

$d_1$ W ten sposób zostanie podany przez:

{DisplayStyle Cost {alpha} = {frac {frac {d_ {1}} cdot mathbf {q}} {lewy | mathbf {d_ {1}} w prawo | lewy | Mathbf {q} w prawo |}}}}}}}

Utrzymując Cosinusa, wyrażamy podobieństwo. W szczególności wartość zerowa wskazuje, że żądanie jest ściśle ortogonalne do dokumentu. Fizycznie odzwierciedla to brak wspólnych słów między

{DisplayStyle Q}

$q$ I

{DisplayStyle D_ {1}}

$d_1$ . Ponadto miara ta nie jest wrażliwa na standard wektorów, więc nie uwzględnia długości dokumentów.

Zaletą podobieństwa cosinus jest to, że może on skutecznie skorzystać z odwróconej implementacji indeksu, pod warunkiem, że dokumenty są również indeksowane. Każdy niezależnie od elementu żądania

{DisplayStyle Q}

$q$ Pozwala znaleźć potencjalnie istotne dokumenty, a produkt skalarny (licznik podobieństwa Cosinus) jest jednocześnie obliczany przez akumulację „online”.

Równie skuteczną alternatywą jest obliczenie kwadratu standardu L2 między

{DisplayStyle Q}

$q$ I

{DisplayStyle D_ {1}}

$d_1$ Wyrażone przez:

{DisplayStyle | Mathbf {q-d_ {1}} | _ {2}^{2} = | Mathbf {q} | _ {2}^{2}+| mathbf {d_ {1}} | _ {2} ^{2} -2mathbf {d_ {1}} cdot mathbf {q}}

Takie podejście w zależności od tych samych wielkości, co podobieństwo cosinus, obliczanie za pomocą wdrażania odwrotnego jest równie skuteczne.

Wśród istniejących aplikacji możemy zacytować:

Kategoryzacja: automatycznie grupowanie dokumentów w predefiniowanych kategoriach.
Klasyfikacja: Biorąc pod uwagę zestaw dokumentów, automatycznie określa kategorie, które umożliwią oddzielenie dokumentów w najlepszy możliwy sposób (kategoryzacja nie nadzorowana).
Badania dokumentów: Znajdź dokumenty, które najlepiej spełniają żądanie (co robi wyszukiwarka); Żądanie użytkownika jest uważane za dokument, przetłumaczony na wektor i w porównaniu z wektorami zawartymi w korpusie indeksowanych dokumentów.
Filtr: klasyfikuj dokumenty w locie w predefiniowanych kategoriach (na przykład zidentyfikuj spam na podstawie podejrzanej liczby wystąpienia słowa „penis” w e -mailu i wysyłaj go automatycznie do kosza).

Model wektorowy jest stosunkowo prosty do zrozumienia (algebra liniowa) i jest łatwy do wdrożenia. Umożliwia to dość skuteczne znalezienie dokumentów w nieustrukturyzowanym korpusie (wyszukiwanie informacji), jego skuteczność zależna od dużej części jakości reprezentacji (słownictwo i schemat ważenia). Reprezentacja wektorowa umożliwia również korespondencję dokumentów z niedoskonałym żądaniem.

Obejmuje to również kilka ograniczeń, które dla niektórych zostały poprawione przez udoskonalenia modelu. W szczególności ten model zakłada, że warunki reprezentatywne są niezależne. Zatem w tekście kolejność słów nie jest brana pod uwagę. W najprostszej wersji nie bierze również pod uwagę synonimów ani morfologii treści.

Model wektorowy – Wikipedia

Bibliografia [[[ modyfikator |. Modyfikator i kod ]

Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]

Recent Posts

Recent Comments

Archives

Categories

Meta