Paskaita 4. Klasteriavimas - PowerPoint PPT Presentation

1 / 28
About This Presentation
Title:

Paskaita 4. Klasteriavimas

Description:

Title: Monte Carlo Author: Chad Shannon Last modified by: Destytojai Created Date: 4/3/2001 1:43:36 PM Document presentation format: Demonstracija ekrane (4:3) – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 29
Provided by: ChadSh3
Category:

less

Transcript and Presenter's Notes

Title: Paskaita 4. Klasteriavimas


1
Paskaita 4. Klasteriavimas
DUOMENU GAVYBOS TECHNOLOGIJOS
  • Leonidas Sakalauskas
  • VGTU ITK, VU MII
  • t. -85 2109323, ltsakal_at_ktl.mii.ltgt

2
Klasteriavimo uždavinys
  • Klasteriavimas (clustering) yra duomenu analizes
    budas, padedantis atskleisti ju struktura.
  • Klasteriavimas yra skirtas sugrupuoti duomenis i
    iš anksto nežinomas grupes arba klasterius
    (cluster).
  • Klasteriavimu taip pat gali buti siekiama
    sumažinti tiriamu duomenu kieki, sugrupuojant ir
    nagrinejant juos atskirai.

3
Klasteriavimo tikslas
  • Pagrindinis klasterines analizes tikslas -
    suskirstyti objektus taip, kad skirtumai
    klasteriu viduje butu kuo mažesni, o tarp
    klasteriu - kuo didesni.
  • Klasteriuojamu objektu ir klasteriavimo požymiu
    parinkima diktuoja konkretaus tyrimo tikslai bei
    uždaviniai.
  • Visais atvejais skirstymas i klasterius prasideda
    tada, kai yra duoti objektu aibe ir kiekviena
    objekta aprašanciu skaitiniu rodikliu aibes.

4
Klasteriavimo etapai
  • Klasteriavimo etapai
  • pasirinkti klasteriuojamus objektus
  • nuspresti, pagal kokius požymius klasteriuojama
  • pasirinkti kiekybini mata, kuriuo matuojamas
    objektu panašumas
  • vienu ar kitu metodu suskirstyti objektus i
    klasterius
  • peržiureti gautus rezultatus.

5
Klasteriavimo etapai
  • Taikant klasteriavima, reikia atsižvelgti, kad
  • daugelis klasteriavimo metodu yra euristiniai
  • klasterines analizes metodai dažnai konstruojami
    tam tikroms sritims, todel jie turi daug
    specifiškumu.
  • tiriant tuos pacius duomenis skirtingais
    klasterines analizes metodais, galima gauti
    skirtingus rezultatus.

6
Klasteriavimo duomenys
Lentele 6.1. Duomenys ? Lentele 6.1. Duomenys ? Lentele 6.1. Duomenys ?
Nr. Požymis X Požymis Y
1 27 19
2 11 46
3 25 15
4 36 27
5 35 25
6 10 43
7 11 44
8 36 24
9 26 14
10 26 14
11 9 45
12 33 23
13 27 16
14 10 47
Klasteriavimo algoritmuose naudojama pradine
informacija sudaro grupuojamu objektu stebejimu
irašu duomenys
7
Klasteriavimo duomenys
  • Tarkime, duota daugiamate nepriklausomu kintamuju
    stebejimu matrica

Klasteriuojant siekiama sugrupuoti objektus
(eilutes, irašus).
8
Panašumo ar skirtingumo matai
Klasteriavime svarbu parinkti kiekybini objektu
panašumo arba skirtingumo mata. Parinkus
kiekybini panašumo ar skirtingumo mata, galime
pasakyti, kurios objektu poros panašesnes. Nuo
pasirinkto mato priklauso klasteriavimo
rezultatai.
9
Panašumo ir skirtingumo matai
  • Klasterineje analizeje dažniausiai naudojami
    panašumo matai (metrikos)
  • Metriniai atstumo matai
  • Koreliacijos koeficientai
  • Asociatyvumo koeficientai
  • Metriniai atstumo matai naudojami tada, kai
    objektus charakterizuojantys požymiai matuojami
    pagal intervalu arba santykiu skale.
  • Asociatyvumo koeficientai taikomi binariniams
    duomenims

10
Atstumo (skirtingumo) matai
- Euklido metrika
- Miesto metrika (City metrics)
- Euklido atstumo kvadrato metrika
- Cebyševo metrika
11
Trimate Euklido metrika
12
Atstumai tarp klasteriu U ir V
Atstumas d(U, V) formule
Vienetines jungties (single linkage)
Pilnosios jungties (complete linkage)
Vidutines jungties
Centru (klasterius sudaranciu objektu požymiu vektoriu vidurkiai)
Vordo
13
Klasteriavimo metodai
14
Hierarchinis klasteriavimas
Hierarchiniu metodu rezultatai nusako klasteriu
tarpusavio hierarchija. Taikant hierarchinius
metodus, nustatoma visu klasteriu tarpusavio
priklausomybiu struktura ir tik po to
sprendžiama, kuria klasteriu struktura
pasirinkti. Hierarchiniai metodai skirstomi i
jungimo ir skaidymo metodus.
15
Hierarchinis klasteriavimas
Jungimo metodai smulkius klasterius jungia i
stambesnius, kol telieka vienas didelis
klasteris. Skaidymo metodai yra logine jungimo
metodu priešingybe. Vienintelis klasteris
nuosekliai skaidomas i vis smulkejancias dalis.
Hierarchinius metodus sunku taikyti, kai
objektu skaicius yra didelis.
16
Klasteriavimas jungimo budu
  • 1) duota N klasteriu po 1 objekta ir NxN
    simetrine atstumu matrica
  • 2) pagal atstumu tarp klasteriu matrica nustatomi
    du klasteriai, tarp kuriu atstumas yra
    mažiausias
  • 3) šie klasteriai sujungiami, o atstumu matrica
    perskaiciuojama
  • išbraukiami stulpeliai ir eilutes, atitinkantys
    sujungtus klasterius,
  • pridedama eilute ir stulpelis su atstumais tarp
    naujo klasterio ir likusiuju klasteriu.
  • 4) žingsniai 2 ir 3 kartojami (N-1) kartu, kol
    visi objektai patenka i viena klasteri.

17
Dendrograma
Jungimo proceso schema vaizduojama grafiku,
vadinamu dendrograma.
18
Jungimo protokolas
Kurioje vietoje kirsti medi, galima nuspresti
pagal jungimo protokola
Lentele 6.2. Jungimo tvarka Lentele 6.2. Jungimo tvarka Lentele 6.2. Jungimo tvarka Lentele 6.2. Jungimo tvarka
Cluster Combined Cluster Combined Coefficients
Cluster 1 Cluster 2
1 9 10 ,000
2 2 14 1,461E-02
3 3 9 1,461E-02
4 5 8 1,461E-02
5 6 7 1,461E-02
6 3 13 3,490E-02
7 2 11 3,651E-02
8 4 5 4,144E-02
9 2 6 5,118E-02
10 4 12 ,105
11 1 3 ,120
12 1 4 1,217
13 1 2 7,516
19
Skaidymo metodai
Taikant skaidymo metodus, objektai yra
pavaizduojami grafu, kuriam sudaromas mažiausias
jungiantis medis (minimal spanning tree), ir iš
šio medžio nuosekliai šalinamos ilgiausios šakos,
kol lieka klasteriai, susidedantys tik iš vieno
objekto. Šis procesas taip pat vaizduojamas
dendrograma ir skaidymo protokolu.
20
Minimalus jungiantis medis
21
K-vidurkiu (K-means) algoritma9
  • Ši klasteriavimo metoda galima laikyti
    kvadratines paklaidos algoritmu (squared error
    clustering algorithm) , nes jis minimizuoja
    kvadratine paklaida.
  • Tegu klasteriui Kk priskirta objektu aibe
    Xk1,Xk2,...,Xk,nk, cia nk -objektu skaicius
    klasteryje Kk, Xij (x1ij,x2ij,...,xni j) ,
  • j (1,..., nk)

22
K-vidurkiu (K-means) algoritma9
Kvadratine paklaida k-tajam klasteriui yra
Euklido atstumu tarp kiekvieno klasterio elemento
ir klasterio centro Ck kvadratu suma
cia Ck(ck,1, ck,2, ... , ck,n) klasterio
vidurkis - klassnk
23
K-vidurkiu (K-means) algoritma9
Kvadratine paklaida klasteriu aibei K
K1,K2,...,KK apskaiciuojama pagal formule
Klasteriai sudaromi taip, kad ši paklaida butu
mažiausia.
24
K-vidurkiu algoritmas
  • 1) inicijuojami k klasteriu centrai
  • 2) kiekvienas objektas priskiriamas tam
    klasteriui, iki kurio centro jo atstumas yra
    mažiausias
  • 3) perskaiciuojami visu klasteriu centrai
  • 4) apskaiciuojama kvadratine paklaida
  • 2-4 punktai kartojami, kol kvadratines paklaidos
    reikšme tampa mažesne už pasirinkta slenkstine
    reikšme arba objektai nebepersiskirsto kitiems
    klasteriams.

25
K-vidurkiu algoritmas
26
Klasteriavimo metodo parinkimas
  • Tiriant pasleptas duomenu strukturas, butina
    tirti, ar duomenu aibe turi tendencija
    klasteriuotis, t.y. ar duomenys linke grupuotis,
    kokia susidariusiu klasteriu forma ir pan.
  • Objektu klasteriavimui rekomenduojama taikyti
    keleta klasterizavimo metodu.
  • Jei duomenyse paslepta ryški struktura, ji bus
    pastebima daugeliu metodu.

27
Klasteriu interpretavimas
  • Klasterius apibudina keliolika charakteristiku
    požymiu vektoriu sklaida nuo klasterio centro,
    forma ir pan. Neturint išankstines informacijos
    apie nagrinejamu duomenu strukturas, gautus
    rezultatus lyginti sunku.
  • Svarbi klasterines analizes problema klasteriu
    interpretavimas.
  • Klasterines analizes rezultatus butina pagristi.
  • Tam patartina ištirti klasteriu aprašomasias
    statistikas.

28
Klasteriu aprašomoji statistika
Write a Comment
User Comments (0)
About PowerShow.com