Model wektorowy – Wikipedia
Artykuł w Wikipedii, Free L’Encyclopéi.
I Model wektorowy (Czasami nazwany Semantyka wektorowa ) to algebraiczna metoda reprezentowania dokumentu mającego na celu rozliczenie semantyki, zaproponowaną przez Gerarda Saltona w latach siedemdziesiątych [[[ Pierwszy ] . Jest używany w wyszukiwaniu informacji, w szczególności w zakresie badań dokumentalnych, klasyfikacji lub filtrowania danych. Ten model pierwotnie dotyczył dokumentów tekstowych i został rozszerzony od czasu innych rodzajów treści. Pierwszym przykładem użycia tego modelu jest inteligentny system.
Model wektorowy jest matematycznym przedstawieniem treści dokumentu, zgodnie z podejściem algebraicznym.
Zestaw dokumentów jest słownictwem, w tym warunki indeksowania. Są to zazwyczaj najważniejsze słowa rozważanego korpusu: nazwy wspólne, nazwy właściwe, przymiotniki … Mogą być bardziej skomplikowanymi konstrukcjami, takimi jak wyrażenia lub jednostki semantyczne. Każdy element słownictwa jest powiązany z pojedynczym dowolnym indeksem.
Każda zawartość jest zatem reprezentowana przez wektor W , którego wymiar odpowiada wielkości słownictwa. Każdy element W I wektor W składa się z wagi związanej z końcem indeksu I i próbka tekstu. Prostym przykładem jest identyfikacja W I liczba wystąpień terminu I W próbce tekstowej. Składnik wektora reprezentuje zatem wagę słowa
W dokumencie. Jednym z najczęściej używanych wzorów ważenia jest TF-IDF.
Biorąc pod uwagę wektor reprezentację korpusu dokumentów, możemy wprowadzić pojęcie przestrzeni wektorowej na przestrzeni dokumentów w języku naturalnym. Dochodzimy do koncepcji matematycznej bliskości między dokumentami.
Wprowadzając odpowiednie miary podobieństwa, możemy określić ilościowo semantyczną bliskość między różnymi dokumentami. Miary podobieństwa są wybierane zgodnie z aplikacją. Powszechnie stosowaną miarą jest podobieństwo cosinus, które polega na ilościowym kwantyfikacji podobieństwa między dwoma dokumentami poprzez obliczenie cosinusu między ich wektorami. Bliskość żądania
do dokumentu
W ten sposób zostanie podany przez:
Utrzymując Cosinusa, wyrażamy podobieństwo. W szczególności wartość zerowa wskazuje, że żądanie jest ściśle ortogonalne do dokumentu. Fizycznie odzwierciedla to brak wspólnych słów między
I
. Ponadto miara ta nie jest wrażliwa na standard wektorów, więc nie uwzględnia długości dokumentów.
Zaletą podobieństwa cosinus jest to, że może on skutecznie skorzystać z odwróconej implementacji indeksu, pod warunkiem, że dokumenty są również indeksowane. Każdy niezależnie od elementu żądania
Pozwala znaleźć potencjalnie istotne dokumenty, a produkt skalarny (licznik podobieństwa Cosinus) jest jednocześnie obliczany przez akumulację „online”.
Równie skuteczną alternatywą jest obliczenie kwadratu standardu L2 między
I
Wyrażone przez:
Takie podejście w zależności od tych samych wielkości, co podobieństwo cosinus, obliczanie za pomocą wdrażania odwrotnego jest równie skuteczne.
Wśród istniejących aplikacji możemy zacytować:
- Kategoryzacja: automatycznie grupowanie dokumentów w predefiniowanych kategoriach.
- Klasyfikacja: Biorąc pod uwagę zestaw dokumentów, automatycznie określa kategorie, które umożliwią oddzielenie dokumentów w najlepszy możliwy sposób (kategoryzacja nie nadzorowana).
- Badania dokumentów: Znajdź dokumenty, które najlepiej spełniają żądanie (co robi wyszukiwarka); Żądanie użytkownika jest uważane za dokument, przetłumaczony na wektor i w porównaniu z wektorami zawartymi w korpusie indeksowanych dokumentów.
- Filtr: klasyfikuj dokumenty w locie w predefiniowanych kategoriach (na przykład zidentyfikuj spam na podstawie podejrzanej liczby wystąpienia słowa „penis” w e -mailu i wysyłaj go automatycznie do kosza).
Model wektorowy jest stosunkowo prosty do zrozumienia (algebra liniowa) i jest łatwy do wdrożenia. Umożliwia to dość skuteczne znalezienie dokumentów w nieustrukturyzowanym korpusie (wyszukiwanie informacji), jego skuteczność zależna od dużej części jakości reprezentacji (słownictwo i schemat ważenia). Reprezentacja wektorowa umożliwia również korespondencję dokumentów z niedoskonałym żądaniem.
Obejmuje to również kilka ograniczeń, które dla niektórych zostały poprawione przez udoskonalenia modelu. W szczególności ten model zakłada, że warunki reprezentatywne są niezależne. Zatem w tekście kolejność słów nie jest brana pod uwagę. W najprostszej wersji nie bierze również pod uwagę synonimów ani morfologii treści.
Bibliografia [[[ modyfikator |. Modyfikator i kod ]
Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]
Recent Comments