Model wektorowy – Wikipedia

before-content-x4

Artykuł w Wikipedii, Free L’Encyclopéi.

after-content-x4

I Model wektorowy (Czasami nazwany Semantyka wektorowa ) to algebraiczna metoda reprezentowania dokumentu mającego na celu rozliczenie semantyki, zaproponowaną przez Gerarda Saltona w latach siedemdziesiątych [[[ Pierwszy ] . Jest używany w wyszukiwaniu informacji, w szczególności w zakresie badań dokumentalnych, klasyfikacji lub filtrowania danych. Ten model pierwotnie dotyczył dokumentów tekstowych i został rozszerzony od czasu innych rodzajów treści. Pierwszym przykładem użycia tego modelu jest inteligentny system.

Model wektorowy jest matematycznym przedstawieniem treści dokumentu, zgodnie z podejściem algebraicznym.

Zestaw dokumentów jest słownictwem, w tym warunki indeksowania. Są to zazwyczaj najważniejsze słowa rozważanego korpusu: nazwy wspólne, nazwy właściwe, przymiotniki … Mogą być bardziej skomplikowanymi konstrukcjami, takimi jak wyrażenia lub jednostki semantyczne. Każdy element słownictwa jest powiązany z pojedynczym dowolnym indeksem.

Każda zawartość jest zatem reprezentowana przez wektor W , którego wymiar odpowiada wielkości słownictwa. Każdy element W I wektor W składa się z wagi związanej z końcem indeksu I i próbka tekstu. Prostym przykładem jest identyfikacja W I liczba wystąpień terminu I W próbce tekstowej. Składnik wektora reprezentuje zatem wagę słowa

I {DisplayStyle i}

W dokumencie. Jednym z najczęściej używanych wzorów ważenia jest TF-IDF.

after-content-x4

Biorąc pod uwagę wektor reprezentację korpusu dokumentów, możemy wprowadzić pojęcie przestrzeni wektorowej na przestrzeni dokumentów w języku naturalnym. Dochodzimy do koncepcji matematycznej bliskości między dokumentami.

Wprowadzając odpowiednie miary podobieństwa, możemy określić ilościowo semantyczną bliskość między różnymi dokumentami. Miary podobieństwa są wybierane zgodnie z aplikacją. Powszechnie stosowaną miarą jest podobieństwo cosinus, które polega na ilościowym kwantyfikacji podobieństwa między dwoma dokumentami poprzez obliczenie cosinusu między ich wektorami. Bliskość żądania

Q {DisplayStyle Q}

do dokumentu

D 1{DisplayStyle D_ {1}}

W ten sposób zostanie podany przez:

Utrzymując Cosinusa, wyrażamy podobieństwo. W szczególności wartość zerowa wskazuje, że żądanie jest ściśle ortogonalne do dokumentu. Fizycznie odzwierciedla to brak wspólnych słów między

Q {DisplayStyle Q}

I

D 1{DisplayStyle D_ {1}}

. Ponadto miara ta nie jest wrażliwa na standard wektorów, więc nie uwzględnia długości dokumentów.

Zaletą podobieństwa cosinus jest to, że może on skutecznie skorzystać z odwróconej implementacji indeksu, pod warunkiem, że dokumenty są również indeksowane. Każdy niezależnie od elementu żądania

Q {DisplayStyle Q}

Pozwala znaleźć potencjalnie istotne dokumenty, a produkt skalarny (licznik podobieństwa Cosinus) jest jednocześnie obliczany przez akumulację „online”.

Równie skuteczną alternatywą jest obliczenie kwadratu standardu L2 między

Q {DisplayStyle Q}

I

D 1{DisplayStyle D_ {1}}

Wyrażone przez:

Takie podejście w zależności od tych samych wielkości, co podobieństwo cosinus, obliczanie za pomocą wdrażania odwrotnego jest równie skuteczne.

Wśród istniejących aplikacji możemy zacytować:

  • Kategoryzacja: automatycznie grupowanie dokumentów w predefiniowanych kategoriach.
  • Klasyfikacja: Biorąc pod uwagę zestaw dokumentów, automatycznie określa kategorie, które umożliwią oddzielenie dokumentów w najlepszy możliwy sposób (kategoryzacja nie nadzorowana).
  • Badania dokumentów: Znajdź dokumenty, które najlepiej spełniają żądanie (co robi wyszukiwarka); Żądanie użytkownika jest uważane za dokument, przetłumaczony na wektor i w porównaniu z wektorami zawartymi w korpusie indeksowanych dokumentów.
  • Filtr: klasyfikuj dokumenty w locie w predefiniowanych kategoriach (na przykład zidentyfikuj spam na podstawie podejrzanej liczby wystąpienia słowa „penis” w e -mailu i wysyłaj go automatycznie do kosza).

Model wektorowy jest stosunkowo prosty do zrozumienia (algebra liniowa) i jest łatwy do wdrożenia. Umożliwia to dość skuteczne znalezienie dokumentów w nieustrukturyzowanym korpusie (wyszukiwanie informacji), jego skuteczność zależna od dużej części jakości reprezentacji (słownictwo i schemat ważenia). Reprezentacja wektorowa umożliwia również korespondencję dokumentów z niedoskonałym żądaniem.

Obejmuje to również kilka ograniczeń, które dla niektórych zostały poprawione przez udoskonalenia modelu. W szczególności ten model zakłada, że ​​warunki reprezentatywne są niezależne. Zatem w tekście kolejność słów nie jest brana pod uwagę. W najprostszej wersji nie bierze również pod uwagę synonimów ani morfologii treści.

Bibliografia [[[ modyfikator |. Modyfikator i kod ]

Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]

after-content-x4