Title: Prezentacja programu PowerPoint
1Konstrukcja klasyfikatorów minimalnoodleglosciowyc
h o strukturze sieciowej Szymon Grabowski
Katedra Informatyki Stosowanej PL Kraków,
pazdziernik 2003
promotor prof. dr hab. inz. Dominik Sankowski
2- Klasyfikacja ustalanie etykiet klas
rozpoznawanych obiektów. - Cele pracy
- szybkie klasyfikatory (redukcja informacji
wejsciowej, efektywne struktury danych) - klasyfikatory dokladne
- moze pewien korzystny kompromis miedzy
szybkoscia a jakoscia? - Zakres pracy
- Klasyfikacja nadzorowana jesli dany jest zbiór
uczacy (baza wiedzy). - Klasyfikacja nieparametryczna brak
apriorycznego modelu probabilistycznego. - Symetryczna funkcja strat kazda pomylka
jednakowo kosztowna.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
3Klasyfikatory minimalnoodleglosciowe regula
k-NN, jej warianty i klasyfikatory pokrewne.
- Inne typy klasyfikatorów
- sieci neuronowe
- drzewa decyzyjne.
- Zalety k-NN
- asymptotyczna optymalnosc
- zazwyczaj dobra jakosc w praktyce
- prostota, podatnosc na modyfikacje.
- Wady k-NN
- wolna klasyfikacja
- wrazliwosc na zbedne cechy
- mala przestrzen rozpatrywanych modeli.
Klasyfikacja próbki q regula 3-NN
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
4- Glówne kierunki modyfikacji reguly k-NN
- modyfikacja metody glosowania, np. wazona k-NN
(Dudani, 1976) - modyfikacja etykiet zbioru uczacego, np.
rozmyta k-NN z uczeniem (Józwik, 1983) - odrzucanie niepewnych predykcji (Tomek, 1976
Józwik i in., 1996) - szybkie szukanie najblizszych sasiadów
(problem postawiony w Minsky i Papert, 1969) - redukcja zbioru uczacego (Hart, 1968, i ok. 30
dalszych prac) - schematy równolegle (Skalak, 1997 Alpaydin,
1997) - koncepcja symetrycznego sasiedztwa (Chaudhuri,
1996 Sánchez i in., 1997).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
5- Tezy rozprawy doktorskiej
- W niskich wymiarach (d ? 5) mozliwe jest
znajdowanie najblizszego sasiada w
deterministycznym subliniowym czasie w metryce
miejskiej. - Lokalny wybór zredukowanego zbioru odniesienia
prowadzi do osiagniecia wyzszej jakosci
klasyfikacji niz oferowana przez pojedynczy
zbiór zredukowany, zwlaszcza przy bardzo
wysokich wymaganiach szybkosciowych nalozonych
na klasyfikacje. - Mozliwe jest stworzenie równoleglej sieci
klasyfikatorów typu k sasiadów, osiagajacej
wyzsza jakosc predykcji niz klasyfikator bazowy
przy umiarkowanym spowolnieniu klasyfikacji,
umozliwiajacej ponadto, w polaczeniu z koncepcja
tzw. symetrycznego sasiedztwa, projektowanie
klasyfikatorów kaskadowych o korzystnych
relacjach szybkosci do jakosci klasyfikacji.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
6Teza I
Szukanie najblizszego sasiada (NNS Nearest
Neighbor Search) (Minsky i Papert, 1969)
Wejscie zbiór P p1, ..., pn (dany
off-line) w przestrzeni X z funkcja odleglosci
dfpróbka testowa q ? X (prezentowana
on-line).Zadanie dokonac takiej wstepnej
obróbki zbioru P, aby mozliwe bylo szybkie
znajdowanie najblizszego sasiada q w P. Przeglad
zupelny (brute force) wymaga czasu O(nd), d
wymiar przestrzeni X.
Fakty niewiele alg. z subliniowym w n
czasem szukania w najgorszym przypadku w
wysokich wymiarach nadal brak dobrych
algorytmów!
Potrzeby ograniczenie z góry czasu
szukania (mozliwe w niskich wymiarach)
prostota!
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
7Algorytmy NNS z czasem szukania subliniowym w n
Teza I
- Dobkin i Lipton (1976), Yao i Yao (1985)
- Agarwal i Matoušek (1992), Matoušek (1992)
- Clarkson (1988) wstepna obróbka
- szukanie NN
- Meiser (1993) wstepna obróbka
- szukanie NN
- Algorytm proponowany wstepna obróbka
- szukanie NN
-
- k wspólczynnik kompromisu
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
8Teza I
metryka miejska (Manhattan)
Kluczowa wlasnosc metryki miejskiej dla
dowolnych punktów A, B i C
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
9Teza I
Przyklad dwuwymiarowy
Jedna z próbek NN(v1)..NN(v4) jest najblizszym
sasiadem q. Wierzcholek v2 jest (przypadkowo)
miejscem polozenia pewnej próbki (która jest
oczywiscie NN tego wierzcholka).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
10Teza I
Wersja kompromisowa algorytmuZamiast pelnego
rozciecia przestrzeni, przeprowadzamy
hiperplaszczyzny tylko co k-ty punkt z P na
kazdej wspólrzednej (wymaga to policzenia
odleglosci do k1 dodatkowych punktów dla kazdej
wspólrzednej).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
11Teza I
Wyniki testów
ImplementacjaC (g 2.95.3) TestyCeleron
533 MHz384 MBLinux 2.4
3 wymiary, 1000 próbek w zbiorze odniesienia
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
12Teza I
Wyniki testów, c.d.
5 wymiarów, 1000 próbek w zbiorze odniesienia
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
13Teza I
Wlasnosci proponowanego algorytmu (podsumowanie)
- Wady
- bardzo wysokie (wykladnicze w d) koszta wstepnej
obróbki praktyczne ograniczenie zastosowan
do wymiarów 35 - ograniczenie do szukania tylko jednego
najblizszego sasiada - ograniczenie do metryki miejskiej.
- Zalety
- subliniowosc w n w najgorszym przypadku
- elastycznosc (parametr kompromisu k)
- prostota.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
14Teza II
1-NN najprostsza i najszybsza wersja reguly
k-NNDalsze przyspieszenie klasyfikacji typu
1-NN osiagamy przy pomocy redukcji zbioru
odniesienia.
- Najbardziej znane algorytmyredukcji zbioru
odniesienia - alg. Harta (1968)
- alg. GowdayKrishnay (1979)
- alg. Gatesa (1972)
- alg. Changa (1974)
- alg. Tomeka (1977).
Przykladowa redukcja
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
15Teza II
- Cechy algorytmu redukcji Skalaka (1994)
- probabilistyczny (w klasie algorytmów typu
random mutation hill climbing) - redukcja do zadanej liczby próbek
- nie gwarantuje zgodnosci zbioru zredukowanego.
- Procedura Skalak1(h, m1)
- wylosuj h próbek ze zbioru odniesienia S do
zbioru zredukowanego R i estymuj jakosc
otrzymanego zbioru - wykonaj w petli m1 mutacji mutacja polega na
wylosowaniu jednej próbki z R i jednej z S\R
jesli zamiana tych próbek zmniejsza estymowany
blad klasyfikacji, to ja zaakceptuj.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
16Teza II
- Procedura Skalak2(h, m1, m2)
- wykonaj Skalak1(h, m1)
- wykonaj w petli m2 mutacji polegajacych teraz na
zmianie losowej wspólrzednej (tj. cechy)
losowej próbki z R o 0.5 lub 0.5 jesli
mutacja zmniejsza estymowany blad klasyfikacji,
to ja zaakceptuj.
Wszystkie opisane algorytmy generuja pojedynczy
(globalny) zbiór zredukowany. ! Alternatywne
podejscie w niniejszej pracy zbiór
zredukowany wybierany kontekstowo (lokalnie)
dla danej próbki.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
17Teza II
Laczenie klasyfikatorów (combining classifiers)
przedmiot intensywnych badan od poczatku lat 90.
XX w.
- Trzy zasadniczo odmienne podejscia
- glosowanie (np. wiekszosciowe) zespolu
klasyfikatorów (Hansen i Salamon, 1990) wada
czas klasyfikacji proporcjonalny do liczby
klasyfikatorów skladowych - lokalny wybór klasyfikatora (Woods i in., 1997)
wada trudnosc okreslenia (szybkiego)
kryterium wyboru klasyfikatora - klasyfikator kaskadowy (Alpaydin i Kaynak,
1998) próbki latwe oceniane sa przez szybki
klasyfikator, próbki trudniejsze przechodza
do nastepnych etapów (z wolniejszymi, lecz
dokladniejszymi klasyfikatorami).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
18Teza II
Proponujemy dwa schematy lokalnego wyboru zbioru
zredukowanego dla reguly 1-NN a) schemat z
partycjonowaniem przestrzeni plaszczyznami b)
schemat z klasteryzacja zbioru odniesienia.
Podzial zbioru na (a) regiony przy pomocy
plaszczyzn(b) klastry, np. metoda k srednich
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
19- Procedura uczenia w schemacie klasteryzacjaSkala
k(L, k) - podziel zbiór odniesienia na k skupisk
(klastrów) przy pomocy metody k srednich
(k-means) - wygeneruj globalnie L zbiorów zredukowanych
(procedura Skalak1 lub Skalak2) - dla kazdego klastra estymuj jakosc klasyfikacji
regula 1-NN przy uzyciu poszczególnych zb.
zredukowanych. Skojarz z kazdym klastrem
najlepszy dla niego klasyfikator (tj. zbiór
zredukowany).
Teza II
- Procedura klasyfikacji próbki x
- policz odleglosci od x do srodków ciezkosci
wszystkich klastrów i wybierz klaster
najblizszy zgodnie z tym kryterium - przypisz x do klasy zwracanej przez klasyfikator
skojarzony z najblizszym klastrem.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
20Teza II
Klasyfikator 1-NN 1 brak redukcji2
Hart3 Gowda-Krishna4 Skalak15
Skalak26 klasteryzacja Skalak2.
Wyniki testów Zbiór danych rdzenie ferrytowe
(kontrola jakosci w zakladach Polfer w
W-wie) Zbiory uczace po 1400 próbek,metryka
miejska.
Wielkosc zbioru zredukowanego
Blad klasyfikacji
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
21Teza III
- Koncepcja symetrycznego sasiedztwa
- bliskosc sasiadów
- uklad geometryczny sasiadów w przestrzeni
(wokól próbki testowej).
Regula k-NN ignoruje aspekt polozenia sasiadów w
przestrzeni.
Praktyczne definicje symetrycznego sasiedztwa
Chaudhuri, 1996 Zhang i in., 1997.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
22Teza III
Regula k scentrowanych sasiadów (k Nearest
Centroid Neighbors, k-NCN) Sánchez i in.,
1997 koncepcja NCN Chaudhuri, 1996
Regula k-NCN, k3
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
23Teza III
Proponujemy stochastyczna regule k Near
Surrounding Neighbors (k-NSN), która
optymalizuje oba kryteria uzywane przez k-NCN.
- Algorytm
- k-NSN(q, k)
- znajdz k scentrowanych sasiadów (NCN) ni,
i1..k, próbki q - w petli próbuj zastepowac losowego sasiada ni
losowa próbka s ze zbioru odniesienia, o ile jest
ona polozona blizej próbki q niz ni i jesli
srodek ciezkosci nowego ukladu sasiadów lezy
blizej q niz przed zamiana.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
24Teza III
Wyniki testów
- zbiory danych
- rdzenie ferrytowe (kontrola jakosci w zakladach
Polfer w W-wie) - 5903 próbki, 30 cech, 8 klas
- 10 losowych partycji na zb. uczacy (1400 próbek)
i testowy (4503 próbki) - piec zbiorów danych z University of California,
Irvine (UCI) (Bupa, Glass, Iris, Pima, Wine) - 5-krotna walidacja skrosna
- Wszystkie dane postandaryzowane,
- metryka miejska.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
25Zbiór Iris w rzucie dwuwymiarowym (cechy 3 i 4)
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
26Teza III
Wyniki testów, c.d.
Bledy na zbiorzeFerrites
Bledy na zbiorach UCI
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
27Teza III
To, iz slyszeliscie jakas rzecz nie powinno byc
jeszcze prawidlem waszego wierzenia tak dalece,
iz nie powinniscie w nic uwierzyc nie wprawiwszy
sie wprzód w taki stan, jak gdybyscie nigdy tego
nie uslyszeli. / Pascal /
Argumentowano w szeroko cytowanej pracy (Breiman,
1996), iz klasyfikatorów minimalnoodleglosciowych
(NN) nie mozna pomyslnie wykorzystac w
schematach sieciowych z uwagi na ich
stabilnosc. Doprawdy..?
Klasyfikator voting k-NN
- Oryginalna regula k-NN korzysta z jednej wartosci
k wybieranej zwykle przy pomocy metody minus
jednego elementu. Wady estymowana optymalna
wartosc parametru k nie musi gwarantowac
najlepszej jakosci w zadaniu mala przestrzen
mozliwych modeli. - Proponowany klasyfikator zwieksza przestrzen
rozpatrywanych modeli i wygladza granice
decyzyjne.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
28Teza III
Klasyfikator voting k-NN, c.d.
Glosowanie 3 klasyfikatorów typu k-NN
Analogiczne schematy z glosowaniem
zaproponowalismy dla regul k-NCN i k-NSN. W
przeciwienstwie do wiekszosci klasyfikatorów
równoleglych, strata predkosci klasyfikacji w
stosunku do pojedynczego klasyfikatora jest
umiarkowana (w przypadku voting k-NN
zaniedbywalna).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
29Teza III
Proponowana rodzina klasyfikatorów
kaskadowych Cel Dobry kompromis miedzy jakoscia
a czasem klasyfikacji. Idea Dwie
fazy klasyfikacji. W pierwszej fazie
klasyfikator szybszy, oparty na
glosowaniu (równolegly) jako kryterium
wskazujace latwa próbke przyjeto jednoglosna
decyzje zespolu komponentów z pierwszej fazy. W
drugiej fazie wolny, lecz dokladny klasyfikator
(np. k-NCN, k-NSN lub ich wersje voting).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
30Teza III
Sumy rang klasyfikatorów na pieciu zbiorach UCI
Mniejsze wartosci sa korzystniejsze.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
31- Podsumowanie i wnioski
- W niskich wymiarach mozliwe jest szukanie
najblizszego sasiada w czasie subliniowym w
licznosci zbioru w najgorszym przypadku
prezentowany algorytm dopuszcza uzycie
wspólczynnika kompromisu miedzy szybkoscia
szukania a kosztem wstepnej obróbki. - Lokalny wybór zredukowanego zbioru odniesienia
oferuje wyzsza jakosc klasyfikacji niz
klasyfikatory oparte na pojedynczym zbiorze
zredukowanym (podejscie klasyczne). - Symetryczne sasiedztwo to nowy sposób poprawy
jakosci w rodzinie klasyfikatorów
minimalnoodleglosciowych. Zaprezentowana regula
k-NSN optymalizuje oba kryteria uzywane w
klasyfikatorze k-NCN. - Mozliwa jest wersja reguly k-NN z wieloma
wartosciami k (wyzsza jakosc klasyfikacji za
cene minimalnego spowolnienia). - Koncepcje z p. 3 i 4 pozwalaja na projektowanie
klasyfikatorów kaskadowych o korzystnych
relacjach szybkosci do jakosci klasyfikacji.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
32- Plany na przyszlosc (m. in.)
- eksperymenty z doborem parametrów dla schematu
z lokalnym wyborem zbioru odniesienia (metoda
klasteryzacji, liczba klastrów, wielkosc
kazdego zbioru zredukowanego) - rozwazenie zmiany strategii uczenia w algorytmie
Skalaka - pomiar jakosci poszczególnych klasyfikatorów
skladowych w klasyfikatorach k-NN, k-NCN i
k-NSN (postrzeganych jako klasyfikatory
równolegle), a takze korelacji miedzy nimi - poszerzenie zaproponowanej rodziny
klasyfikatorów kaskadowych (np. wprowadzenie
algorytmów trójetapowych).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
33 Literatura Sz. Grabowski, Fast deterministic
exact nearest neighbor search in the Manhattan
metric, II Konferencja Komputerowe
SystemyRozpoznawania (KOSYR 2001), Milków
k/Karpacza, maj 2001, str. 375379.
Sz. Grabowski, Experiments with the k-NCN
decision rule, IX Konferencja Sieci i Systemy
Informatyczne, Lódz, pazdziernik 2001, str.
307317. Sz. Grabowski, Voting over multiple
k-NN classifiers, International IEEE Conference
TCSET2002, Lviv-Slavske, Ukraina, luty 2002,
str. 223225. Sz. Grabowski, Lokalny wybór
zredukowanego zbioru odniesienia, Seminarium nt.
Przetwarzanie i analiza sygnalów w systemach
wizji i sterowania, Slok k/Belchatowa, czerwiec
2002, mat. sem., str. 142147. Sz. Grabowski, M.
Baranowski, Implementacja algorytmu szybkiego
deterministycznego szukania najblizszego sasiada
w metryce miejskiej, X Konferencja Sieci i
Systemy Informatyczne, Lódz, pazdziernik 2002,
str. 499514.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
34 Literatura, c.d. Sz. Grabowski, A family
of cascade NN-like classifiers, 7th International
IEEE Conference on Experience of Designing and
Application of CAD Systems in Microelectronics
(CADSM), LvivSlavske, Ukraina, luty 2003, str.
503506. Sz. Grabowski, A. Józwik, Sample set
reduction for nearest neighbor classifiers under
different speed requirements, 7th International
IEEE Conference on Experience of Designing and
Application of CAD Systems in Microelectronics
(CADSM), LvivSlavske, Ukraina, luty 2003, str.
465468. Sz. Grabowski, B. Sokolowska, Voting
over multiple k-NN and k-NCN classifiers for
detection of respiration pathology, III
Konferencja Komputerowe Systemy Rozpoznawania
(KOSYR 2003), Milków k/Karpacza, maj 2003, str.
363368. Sz. Grabowski, Towards decision rule
based on closer symmetric neighborhood,
Biocybernetics and Biomedical Engineering, Vol.
23, No. 3, lipiec 2003, str. 3946. Sz. Grabowski,
A. Józwik, C.-H. Chen, Nearest neighbor decision
rule for pixel classification in remote sensing,
rozdzial monografii Frontiers of Remote Sensing
Info Processing, ed. S. Patt, World Scientific
Publishing Co. Pte. Ltd., Singapur, lipiec 2003.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
35Czesc prac wykonywanych bylo w ramach grantu
NATOdotyczacego analizy zdjec lotniczych (remote
sensing). Kierownik prof. C.-H. Chen z
N.Dartmouth Coll., MA, USA,wspólwykonawcy dr A.
Józwik, Sz. Grabowski.
Fairhaven, czerwiec 2001
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
36(No Transcript)
37Teza II
Zgodnosc (consistency) zbioru zredukowanego z
oryginalnym zbiorem odniesienia (def.) poprawna
klasyfikacja wszystkich próbek z oryginalnego
zbioru.
Wiekszosc algorytmów redukcji gwarantuje zgodnosc
zbioru zredukowanego ze zbiorem oryginalnym. Czy
zgodnosc jest dobrym kryterium?
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
38Teza I
Kilka faktów dotyczacych NNS
- ponad 30 lat badan (sformulowanie problemu
Minsky i Papert, 1969) - nadal daleko do satysfakcjonujacych algorytmów
- niewiele algorytmów z subliniowym (w n) czasem
szukania w najgorszym przypadku - przeklenstwo wymiarowosci (curse of
dimensionality).
Przyblizone szukanie najblizszego
sasiada(Approximate Nearest Neighbor Search
(A-NNS))
pi jest ?-ANN dla q, jezeli
pj prawdziwy najblizszy sasiad q
?1 ? wersja oryginalna problemu (exact NNS)
Obiecujace wyniki Indyk i Motwani, 1998
Kushilevitz i in., 1998.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
39Teza I
Wyniki testów, c.d.
Zbiór IRIS 4 wymiary, 150 próbek
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
40Teza II
Prawdziwa inteligencja polega na tym, aby
wiedziec kiedy przestac myslec.
Zjawisko przeuczenia (overfitting)
Mozliwe hipotezy dla tego samego zbioru
Która plaszczyzne rozdzielajaca klasy zbioru
uczacego nalezy wybrac? Pojedyncza odstajaca od
pozostalych (ang. outlying) próbka ma znaczacy
wplyw na wyuczone granice decyzyjne. Plaszczyzna
(b) prawdopodobnie lepiej odpowiada rozkladowi
prawdopodobienstwa.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
41Teza II
- Spostrzezenia
- najlepsza jakosc przy braku redukcji
- slabe wyniki Harta i G-K (kryterium zgodnosci
watpliwe) - modyfikacja Skalaka przydatna przy agresywnej
redukcji - lokalny wybór zb. zred. poprawia jakosc
zwlaszcza przy bardzo ostrych wymaganiach
szybkosciowych - w schematach lokalnych mniejszy blad przy
silniejszej redukcji (!).
Rdzenie ferrytowe licznosci zbiorówzredukowanych
i bledy klasyfikacji
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
42Teza III
- Schematy dekompozycji zadania wielodecyzyjnego
- Józwik-Vernazza, 1988
- Moreira-Mayoraz, 1998.
Zadanie c-decyzyjne, decyzja w wyniku glosowania
sieci dychotomizerów
Schemat Moreiry-Mayoraza (Correcting Classifiers)
w glosowaniu uczestnicza tylko
(przypuszczalnie) adekwatne klasyfikatory
skladowe.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
43Teza III
Bledy () metod k-NN, k-NCN i k-NSN (100, 500
i 2500 iteracji) na zbiorach UCI
Odch. stand. () metod k-NN, k-NCN i k-NSN (100,
500 i 2500 iteracji) na zbiorach UCI
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
44Teza III
sasiedzi k-NN
sasiedzi k-NCN
Dane ferrytowe. Srednia liczba najblizszych
sasiadów w obrebie promienia k-tego sasiada NCN,
k3..10.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
45Teza III
- Wnioski
- k-NCN i k-NSN oferuja wyzsza jakosc klasyfikacji
niz k-NN k-NSN srednio lepsza - dekompozycja zadania wielodecyzyjnego atrakcyjna
technika poprawy jakosci (schemat M-M przewaznie
lepszy) - warto uwzgledniac nie tylko bliskosc sasiadów,
ale i ksztalt ich ukladu (koncepcja
symetrycznego sasiedztwa).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
46Teza III
- Algorytm voting k-NN
- Faza uczenia
- podziel L-krotnie zbiór uczacy na losowe polowy
w kazdym przypadku jedna polowa zbioru bedzie
zbiorem konstrukcyjnym, zas druga
walidacyjnym - znajdz optymalne wartosci ki, i1..L, dla
kazdego zbioru konstrukcyjnego z estymacja
bledu na odpowiednim zbiorze walidacyjnym. - Faza klasyfikacji
- sklasyfikuj L-krotnie próbke testowa przy uzyciu
reguly ki-NN, i1..L, i otrzymaj finalna
decyzje w wyniku prostego glosowania.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
47Teza III
- Konkretne algorytmy
- (5 Skalak) k-NCN
- voting k-NN k-NCN
- voting k-NN k-NSN
- voting k-NN voting k-NCN
- voting k-NN voting k-NSN.
Zaleta uzycia metody voting k-NN w pierwszej
fazie klasyfikatora kaskadowego
Próbka testowa q moze byc poprawnie przypisana do
klasy krzyzyków przez wszystkie klasyfikatory
skladowe ki-NN, o ile ki 3, i 1..L
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
48Teza III
- Konkretne algorytmy
- (5 Skalak) k-NCN
- voting k-NN k-NCN
- voting k-NN k-NSN
- voting k-NN voting k-NCN
- voting k-NN voting k-NSN.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
49- Plany na przyszlosc (m. in.)
- eksperymentowac z doborem parametrów dla
schematu z lokalnym wyborem zbioru odniesienia
(metoda klasteryzacji, liczba klastrów,
wielkosc kazdego zbioru zredukowanego) - rozwazyc zmiane strategii uczenia w algorytmie
Skalaka. Oryginalny algorytm genetyczny, z
racji stosowania tylko jednego operatora
genetycznego (mutacja), moze miec trudnosci z
wyjsciem z lokalnego minimum - zmierzyc jakosc poszczególnych klasyfikatorów
skladowych w klasyfikatorach k-NN, k-NCN i
k-NSN (postrzeganych jako klasyfikatory
równolegle), a takze korelacje miedzy nimi - zaimplementowac brakujace polaczenia
opisywanych schematów z algorytmami
dekompozycyjnymi dla zadan wielodecyzyjnych.
Rozwazyc uzycie selekcji cech dla podzadan - przeanalizowac skutecznosc techniki voting k-NN
przy róznych liczebnosciach zespolu
komponentów i róznych metodach podzialu zbioru
uczacego na czesc konstrukcyjna i walidacyjna.
Wziac pod uwage mozliwy schemat z wazonym
glosowaniem, np. w duchu idei Grossmana i
Williamsa (1999) dla schematu bagging.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
50Zbiory UCI Zbiory naleza do repozytorium
Uniwersytetu Kalifornijskiego w Irvine (Machine
Learning Repository, University of California,
Irvine) (Merz i Murphy, 1996) i sa powszechnie
wykorzystywane w literaturze przedmiotu. Bupa
zbiór dotyczacy wykrywania schorzen watroby w
populacji meskiej zwiazanych z naduzywaniem
alkoholu. Piec pierwszych cech to wyniki testów
krwi, natomiast ostatnia cecha to liczba
jednostek alkoholu przyjmowanych srednio w ciagu
doby przez badanego mezczyzne. Glass zbiór
próbek róznych rodzajów szkla (okienne,
samochodowe etc.), identyfikowanych na podstawie
zawartosci okreslonych pierwiastków chemicznych
(m. in. krzemu, sodu i wapnia). Zbiór
zgromadzony przez kryminologów z Home Office
Forensic Science Service w Reading w Wielkiej
Brytanii. Iris zbiór próbek trzech
podgatunków kosacca, klasyfikowanych na podstawie
czterech geometrycznych cech (dlugosc i szerokosc
liscia oraz dlugosc i szerokosc platka rosliny).
Zbiór zostal spopularyzowany przez Fishera
(1936).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
51Zbiory UCI, c.d. Pima zbiór odnoszacy sie do
zadania rozpoznania symptomów cukrzycy w oparciu
o kryteria przyjete przez Swiatowa Organizacje
Zdrowia (WHO). Dane zostaly zgromadzone na
podstawie badan populacji Indianek z plemienia
Pima (okolice Phoenix w Arizonie, USA). Wine
zbiór dotyczacy rozpoznania jednego z trzech
gatunków win wloskich na podstawie cech
wyekstrahowanych w wyniku analizy chemicznej.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
52Inne zbiory Ferrites zbiór dotyczacy kontroli
jakosci rdzeni ferrytowych, które byly
produkowane w zakladach Polfer w Warszawie.
Obraz danego rdzenia analizowany byl piksel po
pikslu, a zatem obiektami tworzacymi zbiór sa
pojedyncze piksle obrazu powierzchni rdzenia.
Wyróznione klasy stwierdzaja, czy dany piksel
nalezy do dobrej (nieuszkodzonej) czesci rdzenia,
do tla, czy tez do jednego z szesciu rodzajów
defektów. Cechy opisujace kazdy
piksel wyekstrahowane sa z jego sasiedztwa
(histogram jasnosci i momenty róznych
stopni). Cechy zostaly dobrane w taki sposób, aby
ich wartosci w niewielkim tylko stopniu zmienialy
sie przy obrotach danego rdzenia ferrytowego.
Dokladny opis zbioru zawiera praca (Nieniewski i
in., 1999).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
53Inne zbiory, c.d. Remotes zbiór dotyczacy
detekcji obiektów (pól upraw) na zdjeciach
lotniczych wykonanych w rejonie Feltwell w
Wielkiej Brytanii. Rozrózniane klasy to pole
uprawne marchwi, ziemniaka, buraka cukrowego,
pszenicy oraz sciern. Cechy opisujace obiekty
pozyskiwane byly z dwóch sensorów optycznego i
radarowego. Zbiór ten opisany zostal bardziej
szczególowo w pracach (Roli, 1996) i (Grabowski
i in., 2003). Dane niniejsze wykorzystywane byly
w grancie NATO nr PST.CLG.977258 (20012002)
dotyczacym zastosowan nieparametrycznych metod
rozpoznawania obrazów w aplikacjach remote
sensing, którego kierownikiem byl prof. C.-H.
Chen z N. Dartmouth Coll., MA, USA, zas
wspólwykonawcami dr Adam Józwik i autor
niniejszej rozprawy.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
54Charakterystyka uzytych zbiorów danych
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
55Realizacja funkcji XOR przy pomocy sieci
klasyfikatorów z prostym glosowaniem
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
56- Podsumowanie i wnioski
- W niskich wymiarach mozliwe jest szukanie
najblizszego sasiada w czasie subliniowym w
licznosci zbioru w najgorszym przypadku
prezentowany algorytm dopuszcza uzycie
wspólczynnika kompromisu miedzy szybkoscia
szukania a kosztem wstepnej obróbki. - Lokalny wybór zredukowanego zbioru odniesienia
oferuje wyzsza jakosc klasyfikacji niz
klasyfikatory oparte na pojedynczym zbiorze
zredukowanym (podejscie klasyczne). - Symetryczne sasiedztwo to nowy sposób poprawy
jakosci w rodzinie klasyfikatorów
minimalnoodleglosciowych. Zaprezentowana regula
k-NSN optymalizuje oba kryteria uzywane w
klasyfikatorze k-NCN. - Mozliwa jest wersja reguly k-NN z wieloma
wartosciami k (wyzsza jakosc klasyfikacji za
cene minimalnego spowolnienia). - Koncepcje z p. 3 i 4 pozwalaja na projektowanie
klasyfikatorów kaskadowych o korzystnych
relacjach szybkosci do jakosci klasyfikacji.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
57a, b, c, d prawdopodobienstwa abcd 1
Wspólczynnik Yulea
Wspólczynnik korelacji
wg C.A.Shipp L.I.Kuncheva, Relationships
between combination methods and measures of
diversity in combining classifiers, Information
Fusion, Vol. 3, No. 2, str. 135148.