Title: Paskaita 4. Klasteriavimas
1Paskaita 4. Klasteriavimas
DUOMENU GAVYBOS TECHNOLOGIJOS
- Leonidas Sakalauskas
- VGTU ITK, VU MII
- t. -85 2109323, ltsakal_at_ktl.mii.ltgt
2Klasteriavimo uždavinys
- Klasteriavimas (clustering) yra duomenu analizes
budas, padedantis atskleisti ju struktura. - Klasteriavimas yra skirtas sugrupuoti duomenis i
iš anksto nežinomas grupes arba klasterius
(cluster). - Klasteriavimu taip pat gali buti siekiama
sumažinti tiriamu duomenu kieki, sugrupuojant ir
nagrinejant juos atskirai.
3Klasteriavimo tikslas
- Pagrindinis klasterines analizes tikslas -
suskirstyti objektus taip, kad skirtumai
klasteriu viduje butu kuo mažesni, o tarp
klasteriu - kuo didesni. - Klasteriuojamu objektu ir klasteriavimo požymiu
parinkima diktuoja konkretaus tyrimo tikslai bei
uždaviniai. - Visais atvejais skirstymas i klasterius prasideda
tada, kai yra duoti objektu aibe ir kiekviena
objekta aprašanciu skaitiniu rodikliu aibes.
4Klasteriavimo etapai
- Klasteriavimo etapai
- pasirinkti klasteriuojamus objektus
- nuspresti, pagal kokius požymius klasteriuojama
- pasirinkti kiekybini mata, kuriuo matuojamas
objektu panašumas - vienu ar kitu metodu suskirstyti objektus i
klasterius - peržiureti gautus rezultatus.
5Klasteriavimo etapai
- Taikant klasteriavima, reikia atsižvelgti, kad
- daugelis klasteriavimo metodu yra euristiniai
- klasterines analizes metodai dažnai konstruojami
tam tikroms sritims, todel jie turi daug
specifiškumu. - tiriant tuos pacius duomenis skirtingais
klasterines analizes metodais, galima gauti
skirtingus rezultatus.
6Klasteriavimo duomenys
Lentele 6.1. Duomenys ? Lentele 6.1. Duomenys ? Lentele 6.1. Duomenys ?
Nr. Požymis X Požymis Y
1 27 19
2 11 46
3 25 15
4 36 27
5 35 25
6 10 43
7 11 44
8 36 24
9 26 14
10 26 14
11 9 45
12 33 23
13 27 16
14 10 47
Klasteriavimo algoritmuose naudojama pradine
informacija sudaro grupuojamu objektu stebejimu
irašu duomenys
7Klasteriavimo duomenys
- Tarkime, duota daugiamate nepriklausomu kintamuju
stebejimu matrica
Klasteriuojant siekiama sugrupuoti objektus
(eilutes, irašus).
8Panašumo ar skirtingumo matai
Klasteriavime svarbu parinkti kiekybini objektu
panašumo arba skirtingumo mata. Parinkus
kiekybini panašumo ar skirtingumo mata, galime
pasakyti, kurios objektu poros panašesnes. Nuo
pasirinkto mato priklauso klasteriavimo
rezultatai.
9Panašumo ir skirtingumo matai
- Klasterineje analizeje dažniausiai naudojami
panašumo matai (metrikos) - Metriniai atstumo matai
- Koreliacijos koeficientai
- Asociatyvumo koeficientai
- Metriniai atstumo matai naudojami tada, kai
objektus charakterizuojantys požymiai matuojami
pagal intervalu arba santykiu skale. - Asociatyvumo koeficientai taikomi binariniams
duomenims
10Atstumo (skirtingumo) matai
- Euklido metrika
- Miesto metrika (City metrics)
- Euklido atstumo kvadrato metrika
- Cebyševo metrika
11Trimate Euklido metrika
12Atstumai tarp klasteriu U ir V
Atstumas d(U, V) formule
Vienetines jungties (single linkage)
Pilnosios jungties (complete linkage)
Vidutines jungties
Centru (klasterius sudaranciu objektu požymiu vektoriu vidurkiai)
Vordo
13Klasteriavimo metodai
14Hierarchinis klasteriavimas
Hierarchiniu metodu rezultatai nusako klasteriu
tarpusavio hierarchija. Taikant hierarchinius
metodus, nustatoma visu klasteriu tarpusavio
priklausomybiu struktura ir tik po to
sprendžiama, kuria klasteriu struktura
pasirinkti. Hierarchiniai metodai skirstomi i
jungimo ir skaidymo metodus.
15Hierarchinis klasteriavimas
Jungimo metodai smulkius klasterius jungia i
stambesnius, kol telieka vienas didelis
klasteris. Skaidymo metodai yra logine jungimo
metodu priešingybe. Vienintelis klasteris
nuosekliai skaidomas i vis smulkejancias dalis.
Hierarchinius metodus sunku taikyti, kai
objektu skaicius yra didelis.
16Klasteriavimas jungimo budu
- 1) duota N klasteriu po 1 objekta ir NxN
simetrine atstumu matrica - 2) pagal atstumu tarp klasteriu matrica nustatomi
du klasteriai, tarp kuriu atstumas yra
mažiausias - 3) šie klasteriai sujungiami, o atstumu matrica
perskaiciuojama - išbraukiami stulpeliai ir eilutes, atitinkantys
sujungtus klasterius, - pridedama eilute ir stulpelis su atstumais tarp
naujo klasterio ir likusiuju klasteriu. - 4) žingsniai 2 ir 3 kartojami (N-1) kartu, kol
visi objektai patenka i viena klasteri.
17Dendrograma
Jungimo proceso schema vaizduojama grafiku,
vadinamu dendrograma.
18Jungimo protokolas
Kurioje vietoje kirsti medi, galima nuspresti
pagal jungimo protokola
Lentele 6.2. Jungimo tvarka Lentele 6.2. Jungimo tvarka Lentele 6.2. Jungimo tvarka Lentele 6.2. Jungimo tvarka
Cluster Combined Cluster Combined Coefficients
Cluster 1 Cluster 2
1 9 10 ,000
2 2 14 1,461E-02
3 3 9 1,461E-02
4 5 8 1,461E-02
5 6 7 1,461E-02
6 3 13 3,490E-02
7 2 11 3,651E-02
8 4 5 4,144E-02
9 2 6 5,118E-02
10 4 12 ,105
11 1 3 ,120
12 1 4 1,217
13 1 2 7,516
19Skaidymo metodai
Taikant skaidymo metodus, objektai yra
pavaizduojami grafu, kuriam sudaromas mažiausias
jungiantis medis (minimal spanning tree), ir iš
šio medžio nuosekliai šalinamos ilgiausios šakos,
kol lieka klasteriai, susidedantys tik iš vieno
objekto. Šis procesas taip pat vaizduojamas
dendrograma ir skaidymo protokolu.
20Minimalus jungiantis medis
21K-vidurkiu (K-means) algoritma9
- Ši klasteriavimo metoda galima laikyti
kvadratines paklaidos algoritmu (squared error
clustering algorithm) , nes jis minimizuoja
kvadratine paklaida. - Tegu klasteriui Kk priskirta objektu aibe
Xk1,Xk2,...,Xk,nk, cia nk -objektu skaicius
klasteryje Kk, Xij (x1ij,x2ij,...,xni j) , - j (1,..., nk)
22K-vidurkiu (K-means) algoritma9
Kvadratine paklaida k-tajam klasteriui yra
Euklido atstumu tarp kiekvieno klasterio elemento
ir klasterio centro Ck kvadratu suma
cia Ck(ck,1, ck,2, ... , ck,n) klasterio
vidurkis - klassnk
23K-vidurkiu (K-means) algoritma9
Kvadratine paklaida klasteriu aibei K
K1,K2,...,KK apskaiciuojama pagal formule
Klasteriai sudaromi taip, kad ši paklaida butu
mažiausia.
24K-vidurkiu algoritmas
- 1) inicijuojami k klasteriu centrai
- 2) kiekvienas objektas priskiriamas tam
klasteriui, iki kurio centro jo atstumas yra
mažiausias - 3) perskaiciuojami visu klasteriu centrai
- 4) apskaiciuojama kvadratine paklaida
- 2-4 punktai kartojami, kol kvadratines paklaidos
reikšme tampa mažesne už pasirinkta slenkstine
reikšme arba objektai nebepersiskirsto kitiems
klasteriams.
25K-vidurkiu algoritmas
26Klasteriavimo metodo parinkimas
- Tiriant pasleptas duomenu strukturas, butina
tirti, ar duomenu aibe turi tendencija
klasteriuotis, t.y. ar duomenys linke grupuotis,
kokia susidariusiu klasteriu forma ir pan. - Objektu klasteriavimui rekomenduojama taikyti
keleta klasterizavimo metodu. - Jei duomenyse paslepta ryški struktura, ji bus
pastebima daugeliu metodu.
27Klasteriu interpretavimas
- Klasterius apibudina keliolika charakteristiku
požymiu vektoriu sklaida nuo klasterio centro,
forma ir pan. Neturint išankstines informacijos
apie nagrinejamu duomenu strukturas, gautus
rezultatus lyginti sunku. - Svarbi klasterines analizes problema klasteriu
interpretavimas. - Klasterines analizes rezultatus butina pagristi.
- Tam patartina ištirti klasteriu aprašomasias
statistikas.
28Klasteriu aprašomoji statistika