Wprowadzenie do budowy uslug informacyjnych

About This Presentation

Title:

Wprowadzenie do budowy uslug informacyjnych

Description:

W. Bartkiewicz Wprowadzenie do budowy us ug informacyjnych Wyk ad 5. Klasyfikacja dokument w tekstowych Filtrowanie, rekomendacja i kategoryzacja – PowerPoint PPT presentation

Number of Views:113

Avg rating:3.0/5.0

Slides: 37

Provided by: Witol1

Category:

more less

Transcript and Presenter's Notes

Title: Wprowadzenie do budowy uslug informacyjnych

1
Wprowadzenie do budowy uslug informacyjnych
Uniwersytet Lódzki Katedra Informatyki
W. Bartkiewicz
Wyklad 5. Klasyfikacja dokumentów tekstowych
Filtrowanie, rekomendacja i kategoryzacja
2
Klasyfikacja dokumentów

Klasyfikacja dokumentów polega na przypisaniu
kazdemu dokumentowi dj z danego zbioru
dokumentów, jednej ze skonczonego zbioru
ustalonych z góry kategorii (klas).
Tak wiec dla danego dokumentu dj reprezentowanego
przez wektor cech (x1, ..., xn) chcemy znalezc
odwzorowanie przypisujace mu jedna ze zbioru
kategorii C c1, ..., cm.
Odwzorowanie f Rn ? (x1, ..., xn) ? cm ?C
nazywamy klasyfikatorem, albo odwzorowaniem
klasyfikacyjnym.
Do stworzenia odwzorowania klasyfikacyjnego
niezbedne sa dodatkowe informacje. Zazwyczaj
przyjmuja one jedna z dwu podstawowych form
Profil (prototyp klasy, centroid), zawierajacy
typowe, charakterystyczne cechy odrózniajace dana
kategorie od innych.
Zbiór przykladów dokumentów nalezacych do
poszczególnych kategorii. (Moze posluzyc on
bezposrednio do budowy odwzorowania
klasyfikacyjnego, lub posrednio do wygenerowania
profilu).

3
Klasyfikacja dokumentów
4
Klasyfikacja dokumentów
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1,81 0 0 0,88 0 0 0 0,95 0 0 0,3 0 0 A
0 0 0 0,18 0 0 4,77 0 0 0 0,9 2,86 0 C
0 0 0,38 0 4,82 0 2,39 0 0,48 0 0 1,43 0 C
0 4,77 2,88 0 0 0,53 0 0 0,48 1,91 0 0 0,3 B
0,6 0,95 0 0,7 0 0,35 0 2,39 0 0 0 0 0 A
0 0 3,42 1,06 0 0,7 0 0 2,39 0 0,6 0 1,2 B
0 0,48 0,76 0 0 1,23 0 1,91 0 0 0 0 0,6 A
0 0 0 1,41 0 0,18 0 0 0,48 4,29 0,6 0 0 B
0 0 0 0 4,21 0 1,43 0 0 0,48 1,51 0,95 0 C
0 2,86 3,42 0,88 0 0,35 0 0 0 1,43 0 0 0,6 B
0 0 0 0,35 3,01 0,18 0 0 0 0 2,11 2,39 0,3 C
1,2 0 0 1,23 0 0,7 0,48 1,43 0 0 0 0 0,6 A
A - SF B Astronomia C - Western
5
Klasyfikacja dokumentówFiltrowanie i rekomendacja

Filtrowanie informacji jest procesem zblizonym do
wyszukiwania.
W przypadku wyszukiwania mamy staly zasób
informacyjny i wielu uzytkowników, wyrazajacych
swoje rózne potrzeby informacyjne.
W przypadku filtrowania mamy do czynienia z
jednym uzytkownikiem i stala potrzeba
informacyjna, natomiast zmiennym zasobem
informacji, czesto w postaci pewnego strumienia
dokumentów.
Staly charakter potrzeby informacyjnej umozliwia
zastosowanie w przypadku filtrowania metod
personalizacji, pozwalajacej na dostosowanie
procesu analizy dokumentu do potrzeb konkretnego
uzytkownika.
Generalnie filtrowanie moze byc traktowane jako
spersonalizowane wyszukiwanie informacji.
Typowe obszary zastosowan
Wyszukiwanie tematyczne w internecie, w którym
system wyszukiwawczy analizuje zawartosc
dokumentów webowych pod katem ich dostosowania
lub nie do pewnego zadanego tematu.

6
Klasyfikacja dokumentówFiltrowanie i rekomendacja

Typowe obszary zastosowan
Filtrowanie spamu, polegajace na zaklasyfikowaniu
dokumentu wiadomosci e-mail jako spamu lub jako
wiadomosci uzytecznej dla uzytkownika.
Spersonalizowane czasopisma (filtrowanie
wiadomosci) w których system ma za zadanie
zaklasyfikowac dana wiadomosc jako interesujaca
(relewantna) dla uzytkownika lub nie.
Rekomendacja stron webowych, w której system ma
za zadanie przeanalizowac strony znajdujace sie w
bazie dokumentów (np. katalogu towarów) tak, aby
na bazie stron przejrzanych wczesniej przez
uzytkownika zaproponowac nowe strony, które moga
go równiez zainteresowac.
Priorytetowanie dokumentów e-mail, zaliczenie
dokumentu do kategorii waznosci.
W przypadku filtrowania mamy zazwyczaj do
czynienia z klasyfikacja dokumentu do jednej z
dwu kategorii odpowiadajacy tematowi
nieodpowiedni, uzyteczny spam, relewantny
nierelewantny, itp.

7
Klasyfikacja dokumentówKatalogowanie

Kolejnym z typowych zastosowan klasyfikacji
dokumentów sa katalogi tematyczne.
Klasyczna metoda porzadkowania informacji pod
katem tematycznym.
Tradycyjnie proces katalogowania wykonywany jest
przez ludzi.
Dobre wyniki jesli wykonuja to eksperci.
Model mentalny struktury katalogu eksperta nie
zawsze musi byc zgodny z modelem uzytkownika.
Problemy spójnosci przy wiekszej grupie
ekspertów.
Podejscie trudne i drogie w skalowaniu.
Obecnie coraz czesciej skalowalnosc staje sie
problemem.
Katalogi elektroniczne moga przechowywac
informacje nawet o dziesiatkach albo setkach
tysiecy ofert produktów.
Koniecznosc oceny dokumentu przez czlowieka i
zakwalifikowania go do okreslonej kategorii staje
sie czesto waskim gardlem, opózniajacym
dostarczenie aktualnej informacji o zawartosci
katalogu.

8
Klasyfikacja dokumentówKatalogowanie

Zastosowanie systemów automatycznej klasyfikacji
moze byc rozwiazaniem problemu skalowalnosci.
Klasyfikacja automatyczna pozwala równiez na
zachowanie pewnego obiektywizmu w przydziale
produktów do kategorii.
Typowe aplikacje
Katalogi biblioteczne, webowe (np. Yahoo),
katalogi produktów itp.
Klasyfikacja tematyczna dokumentów mailowych,
wiadomosci, itp.
Wizualizacja i przegladanie struktury tematycznej
bazy dokumentów.
W procesie katalogowania dokument zaliczany jest
zazwyczaj do jednej z kilku kilkudziesieciu
kategorii tematycznych.

9
Klasyfikacja dokumentówIndeksowanie i
modyfikacja zapytan

Kolejny typ zastosowan zwiazany jest z
ujednoznacznianiem slownictwa wykorzystywanego
jednej strony do opisu dokumentu, z drugiej zas
do specyfikacji zapytania.
System klasyfikujacy dokonuje klasyfikacji
dokumentu na podstawie jego opisu w warstwie
leksykalnej (np. slów zawartych w dokumencie) do
zbioru jednoznacznych termów slownika
kontrolowanego (pojec).
Równolegle do tej samej przestrzeni
jednoznacznych termów klasyfikowane sa wykonywane
w systemie wyszukiwawczym zapytania.
Wyszukiwanie odbywa sie poprzez wyznaczenie
podobienstwa zapytania do dokumentów w
przestrzeni pojec.
Wymiar przestrzeni kategorii C, do których
klasyfikowane sa dokument i zapytanie, zazwyczaj
jest w przypadku tego zadania bardzo duzy, rzedu
kilkuset kilku tysiecy kategorii.

10
Klasyfikacja dokumentów Klasyfikacja oparta na
historii
Analiza danych historycznych powtarzana jest dla
kazdego nowo klasyfikowanego dokumentu
wartosc 11 wartosc 12 ... wartosc 1n A
wartosc 21 wartosc 22 ... wartosc 2n B
... ... ... ...
wartosc t1 wartosc t2 ... wartosc tn A
Analiza danych historycznych
Klasyfikacja (np. A)
Nowy dokument Nowy dokument Nowy dokument Nowy dokument Nowy dokument
wartosc 1 wartosc 1 ... wartosc n
11
Klasyfikacja dokumentów Klasyfikacja oparta na
modelu
wartosc 11 wartosc 12 ... wartosc 1n A
wartosc 21 wartosc 22 ... wartosc 2n B
... ... ... ...
wartosc t1 wartosc t2 ... wartosc tn A
Dane historyczne analizowane sa w trakcie uczenia
modelu. Podczas klasyfikacji przeliczany jest
tylko model
Uczenie
Model
Dane wejsciowe modelu
Klasyfikacja (np. A)
Nowy dokument Nowy dokument Nowy dokument Nowy dokument Nowy dokument
wartosc 1 wartosc 1 ... wartosc n
12
Klasyfikacja dokumentówMetoda najblizszego
sasiada

Klasyfikatory metoda najblizszych sasiadów sa
typowymi przykladami klasyfikacji opartej na
historii.
Nie ma fazy uczenia modelu. Klasyfikacja opiera
sie na wykorzystaniu zbioru treningowego
przykladów D.
Dla danego dokumentu d
Obliczamy podobienstwo d do kazdego z przykladów
ze zbioru treningowego D.
Przypisujemy d kategorie do której nalezal
najbardziej podobny przyklad ze zbioru D.
Wykorzystanie w procesie klasyfikacji wylacznie
najblizszego egzemplarza przykladowego moze
powodowac bledy
Powodowane przez pojedyncze nietypowe przyklady.
Powodowane przez szum, tj. bledy w przypisaniu
kategorii niektórym egzemplarzom przykladowym.

13
Klasyfikacja dokumentówMetoda najblizszego
sasiada
Government
Science
Arts
14
Klasyfikacja dokumentówMetoda k najblizszych
sasiadów (kNN)

Dla danego dokumentu d
Obliczamy podobienstwo d do kazdego z przykladów
ze zbioru treningowego D.
Wyszukujemy nastepnie k najbardziej podobnych
przykladów treningowych (stad nazwa k
najblizszych sasiadów) i analizujemy kategorie do
których one naleza.
Nowemu dokumentowi d przypisujemy kategorie
reprezentowana przez wiekszosc z tych k wybranych
przykladów.
Alternatywnie mozemy przedstawic wynik
klasyfikacji jako rozklad prawdopodobienstwa
P(cd) i/k gdzie i jest liczba sposród k
przykladów nalezacych co klasy c.
Wartosc k dobierana jest dla konkretnego
przypadku. Najczesciej, aby uniknac remisów
wybiera sie 3 lub 5.

15
Klasyfikacja dokumentów Metoda k najblizszych
sasiadów (kNN)
Government
Science
Arts
16
Klasyfikacja dokumentówMetoda k najblizszych
sasiadów (kNN)

Miary podobienstwa (lub odleglosci)
Dla ciaglych wielowymiarowych przestrzeni
najprostszym wyborem jest euklidesowa miara
odleglosci.
Dla wielowymiarowych przestrzeni binarnych
najprostszym wyborem jest miara odleglosci
Hamminga (liczba wartosci cech, które sie
pokrywaja).
W przypadku tekstów najczesciej stosowana jest
miara podobienstwa cosinusów i wagi tfidf.
kNN i indeksy odwrotne.
Okreslenie k najblizszych sasiadów polega na tum
samym co znalezienie k dokumentów najblizszych do
zapytania.
Najprosciej wiec wykorzystac do tego standardowe
metody przetwarzania zapytania w indeksie
odwrotnym dla modelu wektorowego.

17
Klasyfikacja dokumentów Metoda k najblizszych
sasiadów (kNN)
A - SF B Astronomia C - Western
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1 0 0 1 0 0 0 1 0 0 1 0 0 A
0 0 0 1 0 0 1 0 0 0 1 1 0 C
0 0 1 0 1 0 1 0 1 0 0 1 0 C
0 1 1 0 0 1 0 0 1 1 0 0 1 B
1 1 0 1 0 1 0 1 0 0 0 0 0 A
0 0 1 1 0 1 0 0 1 0 1 0 1 B
0 1 1 0 0 1 0 1 0 0 0 0 1 A
0 0 0 1 0 1 0 0 1 1 1 0 0 B
0 0 0 0 1 0 1 0 0 1 1 1 0 C
0 1 1 1 0 1 0 0 0 1 0 0 1 B
0 0 0 1 1 1 0 0 0 0 1 1 1 C
1 0 0 1 0 1 1 1 0 0 0 0 1 A
3 0,61
2 0,41
1 0,18
3 0,50
4 0,73
4 0,67
4 0,73
3 0,55
1 0,18
4 0,67
3 0.50
3 0,50
0 1 1 1 0 1 0 1 0 0 1 0 0
18
Klasyfikacja dokumentówMetoda k najblizszych
sasiadów (kNN)
Ilustracja metody 3NN dla tekstu
Poniewaz 2 z 3 naleza do kategorii niebieski
wiec niebieski
19
Klasyfikacja dokumentówProfile Metoda Rocchio

Wykorzystywana w sprzezeniu relewancji metoda
Rocchio jest równiez standardowa metoda
generowania profilu kategorii na podstawie
danych.
Opisy przykladowych dokumentów dla kazdej
kategorii (dane treningowe) reprezentowane sa w
formie standardowych wektorów tfidf.
Profil (prototyp) kazdej kategorii tworzony jest
jako centroid (wektor srednich) z wektorów
wszystkich egzemplarzy przykladowych nalezacych
do danej kategorii.
Jesli w systemie uzywana jest dalej miara
podobienstwa cosinusoidalnego (lub inna
znormalizowana miara podobienstwa), to profil
moze byc po prostu suma wektorów egzemplarzy z
danej kategorii. Cosinus jest niewrazliwy na
dlugosci wektorów.
Klasyfikacja nowego dokumentu odbywa sie na
podstawie jego podobienstwa do profili kategorii.
Dokumentowi przypisywana jest kategoria, której
profil jest najbardziej podobny do
reprezentujacego go wektora.

20
Klasyfikacja dokumentów Profile Metoda Rocchio
Poniewaz najblizszy profil nalezy do kategorii
niebieski wiec niebieski
21
Klasyfikacja dokumentów Profile Metoda Rocchio
Metody oparte na profilach maja problem z
kategoriami polimorficznymi (dyzjunkcyjnymi)
22
Klasyfikacja dokumentów Profile Metoda Rocchio
Metoda kNN radzi sobie z klasami
dyzjunkcyjnymi duzo lepiej
23
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski

Naiwny klasyfikator Bayesowski jest przykladem
klasyfikacji opartej na modelu.
W klasyfikatorach Bayesowskich tworzymy model,
który dla danego wzorca x, opisujacego dany
dokument stara sie oszacowac prawdopodobienstwo
Pr(C/x), przynaleznosci tego wzorca do okreslonej
klasy C.
Bezposrednie oszacowanie Pr(C/x) jest trudne,
poniewaz x jest wektorem o wielu wymiarach. Aby
oszacowac rozklad prawdopodobienstwa w
wielowymiarowej przestrzeni, niezbedne sa
olbrzymie ilosci danych, pokrywajace cala
rozwazana przestrzen.

24
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski

W naiwnym klasyfikatorze Bayesowskim zakladamy,
ze poszczególne cechy opisujace produkt sa
niezalezne. Dla zdarzen niezaleznych
prawdopodobienstwo iloczynu zdarzen równe jest
iloczynowi ich prawdopodobienstw.
Jest to zalozenie upraszczajace. W praktyce np.
rózne slowa kluczowe w opisie dokumentu w duzej
czesci beda od siebie zalezne. Dlatego wyniki
dzialania klasyfikatora naiwnego musza byc zawsze
zweryfikowane empirycznie.
Tym niemniej w praktycznych zastosowaniach model
ten osiaga calkiem zadowalajace wyniki. Jego
prostota obliczeniowa i szybkosc dzialania
powoduje, ze jest to jedno z najczesciej
wykorzystywanych podejsc do klasyfikacji
dokumentów.

25
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski

Prawdopodobienstwa wystepujace w tym modelu moga
byc latwo wyznaczone na podstawie arkusza danych,
zawierajacego informacje o slowach kluczowych w
przykladowych wzorcach dokumentów
Prawdopodobienstwo, ze dla danej klasy C, slowo
kluczowe xj wystepuje w opisie dokumentu
Pr(xj1/C) liczba_dok(xj1, C) / liczba_dok(C).
Prawdopodobienstwo, ze dla danej klasy C, slowo
kluczowe xj nie wystepuje w opisie dokumentu
Pr(xj0/C) 1 Pr(xj1/C).
Prawdopodobienstwo Pr(C) liczba_dok(C) / liczba
dokumentów.
Poniewaz chcemy porównywac prawdopodobienstwa
Pr(C/x) dla kolejnych klas C, wiec Pr(x) jako
takie samo dla wszystkich klas mozemy pominac.
Mozemy je równiez policzyc ze wzoru na
prawdopodobienstwo calkowite

26
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1 0 0 1 0 0 0 1 0 0 1 0 0 A
0 0 0 1 0 0 1 0 0 0 1 1 0 C
0 0 1 0 1 0 1 0 1 0 0 1 0 C
0 1 1 0 0 0 0 1 1 1 0 0 1 B
1 1 0 1 0 1 0 1 0 0 0 0 0 A
0 0 1 1 0 1 0 0 1 0 1 0 1 B
0 1 1 0 0 1 0 1 0 0 0 0 1 A
0 0 0 1 0 1 0 0 1 1 1 0 0 B
0 0 0 0 1 0 1 0 0 1 1 1 0 C
0 1 1 1 0 1 0 0 0 1 0 0 1 B
0 0 0 1 1 1 0 0 0 0 1 0 1 C
1 0 0 1 0 1 1 0 0 0 0 0 1 A
A - SF B Astronomia C - Western
3 2 1 3 0 3 1 3 0 0 1 0 2 4 A
0 2 3 3 0 3 0 1 3 3 2 0 3 4 B
0 0 1 2 3 1 3 0 1 1 3 3 1 4 C
27
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1 0 0 1 0 0 0 1 0 0 1 0 0 A
0 0 0 1 0 0 1 0 0 0 1 1 0 C
0 0 1 0 1 0 1 0 1 0 0 1 0 C
0 1 1 0 0 0 0 1 1 1 0 0 1 B
1 1 0 1 0 1 0 1 0 0 0 0 0 A
0 0 1 1 0 1 0 0 1 0 1 0 1 B
0 1 1 0 0 1 0 1 0 0 0 0 1 A
0 0 0 1 0 1 0 0 1 1 1 0 0 B
0 0 0 0 1 0 1 0 0 1 1 1 0 C
0 1 1 1 0 1 0 0 0 1 0 0 1 B
0 0 0 1 1 1 0 0 0 0 1 0 1 C
1 0 0 1 0 1 1 0 0 0 0 0 1 A
A - SF B Astronomia C - Western
0,75 0,5 0,25 0,75 0 0,75 0,25 0,75 0 0 0,25 0 0,5 0,33 A
0 0,5 0,75 0,75 0 0,75 0 0,25 0,75 0,75 0,5 0 0,75 0,33 B
0 0 0,25 0,5 0,75 0,25 0,75 0 0,25 0,25 0,75 0,75 0,25 0,33 C
28
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop
0,75 0,5 0,25 0,75 0 0,75 0,25 0,75 0 0 0,25 0 0,5 0,33 A
0 0,5 0,75 0,75 0 0,75 0 0,25 0,75 0,75 0,5 0 0,75 0,33 B
0 0 0,25 0,5 0,75 0,25 0,75 0 0,25 0,25 0,75 0,75 0,25 0,33 C
A - SF B Astronomia C - Western
0 1 1 1 0 1 0 1 0 0 1 0 0

Pr(A/x)((1-0,75)0,50,250,75(1-0)0,75(1-0,25
)0,75(1-0)(1-0)0,25(1-0)(1-0,5))0,33 /
Pr(x) 0,00041 / Pr(x)
Pr(B/x)((1-0)0,50,750,75(1-0)0,75(1-0)0,25
(1-0,75)(1-0,75)0,5(1-0)(1-0,75))0,33 /
Pr(x) 0,00014 / Pr(x)
Pr(C/x)00,33 / Pr(x) 0 / Pr(x)
Pr(x) 0,000410,000140 0,00055
Pr(A/x)0,75 Pr(B/x)0,25 Pr(C/x)0

29
Klasyfikacja dokumentówNaiwny Bayes praktyczne
korekty

Wygladzenie prawdopodobienstw
Normalnie prawdopodobienstwa liczone sa jako
czestosci
Pr(xj1/C) liczba_dok(xj1, C) /
liczba_dok(C).
Jednakze takie oszacowanie moze byc silnie
obciazone dla malych prób, a zwlaszcza w
przypadku termów o niskiej czestosci dokumentu
df.
Jesli rzadki term t nie wystepuje akurat w
zbiorze dokumentów treningowych, to Pr(t1/C)
0. Jesli wystapi on nastepnie w opisie dokumentu
, to Pr(C/x) 0 dla kazdej klasy niezaleznie od
innych termów (bo mnozenie przez 0 daje 0).
Dlatego aby uwzglednic kwestie wystepowania
rzadkich termów, zazwyczaj stosuje sie tzw.
wygladzanie Laplacea oszacowan
prawdopodobienstw
Pr(xj1/C) (liczba_dok(xj1, C) 1) /
(liczba_dok(C)k).
gdzie k jest liczba kategorii wartosci cechy xj
(dla binarnych k2).
Mnozenie prawdopodobienstw, które sa malymi
liczbami (miedzy 0 i 1) moze skutkowac bledami
zmiennopozycyjnymi.
Podstawa klasyfikacji moze byc równiez
log(Pr(C/x)), co pozwala zastapic te operacje
sumowaniem logarytmów prawdopodobienstw
log(Pr(xj1/C)).

30
Klasyfikacja dokumentów Inne typy modeli
klasyfikacyjnych

Klasyfikatory logiczne (drzewa (reguly)
decyzyjne)
Wewnetrzne wezly odpowiadaja poszczególnym
termom.
Galezie odpowiadaja róznym wartosciom wag termów
(zazwyczaj binarne).
Liscie odpowiadaja kategoriom.
Uzyskiwane zazwyczaj na drodze uczenia
indukcyjnego drzew (np. algorytm C4.5).
Sieci neuronowe.
Liniowe sieci perceptronowe.
Warstwowe perceptrony (MLP).
Sieci o bazie radialnej (RBF).
Support Vector Machines (SVM).

31
Klasyfikacja dokumentówKlasyfikatory liniowe i
nieliniowe

Klasyfikatory liniowe
Naiwny Bayes,
Rocchio,
Liniowe perceptrony,
Liniowe SVM
Klasyfikatory nieliniowe
kNN,
Drzewa decyzyjne,
Nieliniowe sieci neuronowe
(MLP, RBF, nieliniowe SVM).
Klasyfikatory liniowe tekstów radza sobie
zaskakujaco dobrze.
Olbrzymi rozmiar przestrzeni wejsciowej, duzo
wiekszy niz liczba danych treningowych oznacza
to, ze zawsze istnieja hiperplaszczyzny
rozdzielajace dowolne podzbiory danych dla
kategorii.
Nie znaczy to jednak oczywiscie, ze
hiperplaszczyzna jest najlepszym rozwiazaniem.

32
Klasyfikacja dokumentówKlasyfikatory liniowe
Znajdz a,b,c, takie ze ax by ? c dla
czerwonych punktów ax by ? c dla zielonych
punktów.
33
Klasyfikacja dokumentówKlasyfikatory liniowe
Generalnie wiele mozliwych rozwiazan dla a,b,c.
34
Klasyfikacja dokumentówSupport Vector Machines
(SVM)

SVM maksymalizuja margines wokól hiperplaszczyzny
rozdzielajacej.
Dlatego naleza do grupy tzw. klasyfikatorów
duzego marginesu (large margin classifiers).
Funkcja decyzyjna jest definiowana przez podzbiór
zbioru treningowego, tzw. wektory wspierajace.
Wektorami wspierajacymi sa przyklady najblizsze
hiperplaszczyzny rozdzielajacej
Okresla sie je z wykorzystaniem metod
programowania kwadratowego.
SVM sa uwazane obecnie za najlepsza metode
klasyfikacji tekstów.
Stosuje sie równiez nieliniowe wersje SVM,
wykorzystujace róznego typu funkcje jadra.