ANALIZA SKUPIEN - PowerPoint PPT Presentation

1 / 44
About This Presentation
Title:

ANALIZA SKUPIEN

Description:

... 61445 0,696321 d_budim 0,02902 0,329358 d_compland 0,20430 0,412182 d_debica 0,60701 0,889546 d_kety 0,30424 0,420864 d_kghm -0,19881 0,522548 d_orbis 0,41486 ... – PowerPoint PPT presentation

Number of Views:135
Avg rating:3.0/5.0
Slides: 45
Provided by: DAp104
Category:
Tags: analiza | skupien | kghm

less

Transcript and Presenter's Notes

Title: ANALIZA SKUPIEN


1
ANALIZA SKUPIEN
  • (cluster analysis)

2
Zalozenia
  • Dane sa
  • zbiór obiektów bedacych przedmiotem klasyfikacji
  • zbiór K cech (zmiennych) charakteryzujacych
    przestrzen klasyfikacji
  • obserwacje K cech dla N obiektów tworza macierz

3
Punkt wyjscia procedur klasyfikacji (grupowania)
zbioru obiektów? zdefiniowanie miary
nie/podobienstwa obiektów
  • Najczestsze rozwiazanie
  • ?
  • odleglosc OBIEKTÓW miara ich niepodobienstwa

4
Odleglosc euklidesowa
  • Odleglosc miejska (Manhattan)

Odleglosc Czebyszewa
Odleglosc (metryka) Mahalanobisa !!!
5
ODLEGLOSC MIEDZY ROZLACZNYMI SKUPIENIEM ? i
?
  • Na podstawie odleglosci rzeczywistych obiektów
    (np. metoda najdalszego sasiada, najblizszego
    sasiada)
  • Na podstawie odleglosci obiektów-reprezentantów
    (np. metoda srodków ciezkosci)

6
METODY KLASYFIKACJI
  • Metody hierarchiczne (wynik dendrogram)
  • Procedury aglomeracyjne
  • Procedury podzialu
  • Metody niehierarchiczne
  • metoda Hartigana
  • metoda kul
  • metoda kostek
  • metoda podzialu przestrzennego
  • metoda taksonomii stochastycznej
  • metoda k-srednich

7
SCHEMAT HIERARCHICZNYCH PROCEDUR GRUPOWANIA
  • Etap I
  • Poszukuje sie pary skupien najmniej odleglych,
    tzn.

Etap II Skupienia ?p oraz ?q laczy sie w jedno
skupienie, zachowujac dla niego numer p, czyli
?p ?p ? ?q
Etap III Z macierzy D usuwane sa kolumna i
wiersz q (zmienia sie wymiar na N-1)
8
  • Etap IV
  • Obliczane sa odleglosci dpj miedzy nowym
    skupieniem ?p a pozostalymi skupieniami i
    wstawiane sa do macierzy D w miejsce kolumny/
    wiersza p.
  • Powrót do etapu I.
  • Koniec procedury wszystkie obiekty jedno
    skupienie.

9
Wykorzystanie pakietu STATISTICA
10
Uruchamianie Analizy skupien w programie
Statistica wybierane opcje
  • Statystyka
  • Wielowymiarowe techniki eksploracyjne
  • Analiza skupien

11
  • Wybór metody grupowania. Mozliwe sa dwa
    zasadnicze warianty
  • Aglomeracja (czyli wybór metody typu
    aglomeracyjnego)
  • Grupowanie metoda k srednich (metoda
    optymalizacyjna)

12
OPCJA AGLOMERACJA DOSTEPNE METODY
Metoda pojedynczego wiazania (najblizszego
sasiada) lancuchy obiektów
Metoda pelnego wiazania (najdalszego sasiada)
naturalne kepki obiektów
Metoda srednich polaczen (srednia odleglosc)
kepki
Metoda srednich polaczen wazonych (srednia
odleglosc wazona liczebnoscia skupien
Metoda srodków ciezkosci odleglosc skupien
odleglosc srodków ciezkosci (centroidów)
Metoda wazonych srodków ciezkosci
Metoda Warda szacowanie odleglosci skupien
oparte na analizie wariancji (zmiennosc wewnatrz-
i miedzygrupowa)
13
Po wyborze opcji Aglomeracja
Opcja wiecej
14
Po przeprowadzeniu obliczen
15
PRZYKLAD
W1 W2 W3 W4 W5 W6 W7 W8 W9 W10
Marza zysku netto Stopa zwrotu z kapitalu wlasnego Stopa zwrotu z aktywów Wskaznik plynnosci biezacej Rotacja naleznosci Rotacja zapasów Rotacja zobowiazan Cykl konwersji gotówki Rotacja aktywów Stopa zadluzenia

AGORA 0,173953 0,185656 0,146215 4,715732 42,6 12,2 56,4 -1,6 428,3 0,212441 D1
AMICA 0,054014 0,144399 0,062591 1,312957 56,2 41,8 90,3 7,7 310,7 0,566542 D2
APATOR -0,06608 -0,14414 -0,09858 2,563063 93,4 48,3 55,6 86,1 241,3 0,316047 D3
BORYSZEW 0,095637 0,216205 0,173361 2,733441 46,1 44,8 38,6 52,3 198,6 0,198164 D4
BUDIMEX 0,046151 0,063356 0,042277 1,405892 94,7 3,4 99,7 -1,6 393 0,332709 D5
COMPLAND 0,036745 0,179994 0,072154 1,579703 100,9 20,2 97,2 23,9 183,3 0,599131 D6
DEBICA 0,067891 0,115578 0,089028 4,009911 52,8 44,8 36,7 60,9 274,5 0,229712 D7
KETY 0,085912 0,146131 0,096903 1,690597 95,4 56,9 104,7 47,6 319,2 0,336875 D8
KGHM -0,0413 -0,04896 -0,03479 2,647707 33,5 74,7 45,1 63,1 427,4 0,289449 D9
ORBIS 0,115218 0,094365 0,077172 3,146802 22 11,1 50,1 -17 537,5 0,18219 D10
PKNORLEN 0,037507 0,108105 0,060601 1,035782 25,6 40,2 67,8 -2 222,8 0,439429 D11
PROKOM 0,143999 0,219338 0,170678 3,353862 80,5 52,1 72,7 59,9 303,7 0,221851 D12
SWIECIE 0,099228 0,105598 0,087783 2,86967 84,3 21,5 45,2 60,6 406,9 0,168705 D13
TPSA 0,087148 0,107004 0,043481 0,981527 79,5 4,6 140,8 -56,7 721,5 0,593653 D14
CERSANIT 0,167806 0,180247 0,113679 1,257928 50 60 120,2 -10,2 531,4 0,369318 D15
IRENA 0,0566 0,066878 0,05093 2,07922 82,1 75,4 82,3 75,2 400,1 0,238472 D16

4MEDIA -0,22861 -0,89505 -0,24517 1,041146 137,3 28,5 139,3 26,5 335,7 0,726084 Z1
APEXIM 0,000954 0,002005 0,000533 3,224478 465,7 129,1 175,5 419,3 644,6 0,734331 Z2
BEEFSAN -0,01882 -0,38824 -0,07948 0,819011 18,7 21,1 50,8 -11 85,2 0,795284 Z3
BEST -0,57164 -0,61015 -0,39022 0,914175 38,4 0,3 111,6 -72,9 527,4 0,360449 Z4
BICK 0,017371 0,089293 0,046327 1,573102 62,2 13,2 60,4 15 135 0,481178 Z5
BYTOM -0,00878 -0,06482 -0,01129 1,158574 71,7 91,9 144,1 19,5 279,9 0,825838 Z6
CENTROZAP -0,08339 -0,34152 -0,11644 1,143437 118,8 37,3 151,8 4,3 257,8 0,659041 Z7
CLIF 0,046361 0,197192 0,011822 1,300614 467,2 1 942,2 -474 1411,8 0,940048 Z8
ELEKTROMONTAZ-EXPORT -0,06074 -0,09749 -0,03795 0,880182 166,6 41,8 251,6 -43,2 576,2 0,610691 Z9
ELEKTROMONTAZ-W-WA 0,033712 0,072253 0,052998 2,879765 83,2 31 49 65,2 229 0,266502 Z10
ELKOP 0,02443 0,043235 0,024748 1,680043 207,3 42,4 152,4 97,3 355,4 0,427605 Z11
ENERGOMONTAZ-POLNOC 0,020527 0,041052 0,025792 2,369938 99,2 75 77,8 96,4 286,5 0,371719 Z12
FAMEG 0,041461 0,069416 0,045936 1,859172 46,7 121,8 94,1 74,4 324,9 0,33825 Z13
IBSYSTEM -0,04653 -0,12638 -0,05998 1,024008 82,1 52,2 135,4 -1,1 279,3 0,525368 Z14
LETA 0,068761 0,254119 0,093481 0,676118 53,1 3,5 102,7 -46,1 264,8 0,632139 Z15
16
(No Transcript)
17
(No Transcript)
18
(No Transcript)
19
etap laczenia/ nr krawedzi (i) Dlugosc krawedzi d(i) / d(i-1) d(i) d(i-1)
1 ,8396853
2 ,8832518 1,05 0,04
3 ,9347008 1,06 0,05
4 ,9462611 1,01 0,01
5 1,087814 1,15 0,14
6 1,289634 1,19 0,20
7 1,335727 1,04 0,05
8 1,449247 1,08 0,11
9 1,507871 1,04 0,06
10 1,556406 1,03 0,05
11 1,779411 1,14 0,22
12 1,834890 1,03 0,06
13 1,902711 1,04 0,07
14 2,078074 1,09 0,18
15 2,112621 1,02 0,03
16 2,257404 1,07 0,14
17 2,354639 1,04 0,10
18 2,542308 1,08 0,19
19 2,569906 1,01 0,03
20 2,622067 1,02 0,05
21 2,796135 1,07 0,17
22 3,159255 1,13 0,36
23 3,490557 1,10 0,33
24 3,891270 1,11 0,40
25 7,149348 1,84 3,26
26 7,863721 1,10 0,71
27 9,633989 1,23 1,77
28 12,43645 1,29 2,80
29 14,50333 1,17 2,07
30 17,27562 1,19 2,77
20
To warto jeszcze wiedziec o metodach
aglomeracyjnych!
21
Nr przypadku Srednie Odchylenie standardowe
D_AGORA 1,03557 1,161736
D_AMICA 0,04906 0,527579
D_APATOR -0,32413 0,614082
D_BORYSZ 0,61445 0,696321
D_BUDIM 0,02902 0,329358
D_COMPLAND 0,20430 0,412182
D_DEBICA 0,60701 0,889546
D_KETY 0,30424 0,420864
D_KGHM -0,19881 0,522548
D_ORBIS 0,41486 0,720458
D_PKNORL -0,11900 0,625328
D_PROKOM 0,86890 0,637737
D_SWIECIE 0,48284 0,401776
D_TPSA 0,01563 0,597181
D_CERSANIT 0,31210 0,823914
D_IRENA 0,16845 0,210806
Z_MEDIA -1,62315 1,459039
Z-APEX 0,89489 1,536227
Z_BEEFSAN -0,89224 0,472190
Z_BEST -2,36912 1,598446
Z_BICK -0,01535 0,336894
Z_BYTOM -0,33774 0,233982
Z_CENTRO -0,76281 0,580538
Z_CLIF 0,76733 1,586162
Z_ELEK_EX -0,36082 0,596843
Z_ELEK_WA 0,29904 0,395484
Z_ELKOP 0,21671 0,464600
Z_ENMONT 0,13958 0,171558
Z_FAMEG 0,02986 0,338894
Z_IBSYS -0,53293 0,257612
Z_LETA 0,08226 0,905589
22
Metoda k-srednich
  • PROCEDURA
  • wstepne losowe przyporzadkowanie obiektów do
    skupien
  • iteracyjne przenoszenie obiektów miedzy
    skupieniami, by zminimalizowac zmiennosc
    wewnatrzgrupowa i zmaksymalizowac zmiennosc
    miedzygrupowa.

23
(No Transcript)
24
Odleglosci euklidesowe skupien
Srednie wartosci zmiennych w skupieniach
Analiza wariancji
25
Analiza wariancji
26
(No Transcript)
27
(No Transcript)
28
FUNKCJA DYSKRYMINACYJNA
29
Wyprowadzenie
30
(No Transcript)
31
Spólka Plynnosc biezaca Rotacja naleznosci w dniach Rotacja zapasów w dniach
Elkop 0,79 97,3 11,5
Elektromontaz-Wwa 0,995 121,1 20
Energomontaz-Pólnoc 1,249 135,9 85,2
Mostostal-Zabrze 0,794 45,4 1,5
Resbud 0,825 69,5 4,5

Mostostal-Plock 4,235 101,1 8,6
Polnord 1,233 153,3 15,9
Mostostal-Export 0,917 224,4 26,4
Bauma 0,722 161,1 20,9
LPP 1,436 47,2 118,8
32
Równanie funkcji dyskryminacyjnej
Rotacja zapasów w dniach
Rotacja naleznosci w dniach
Plynnosc biezaca
33
Spólka Wskaznik plynnosci biezacej Rotacja naleznosci w dniach Rotacja zapasów w dniach Wartosci funkcji
Elkom 0,79 97,3 11,5 1,5298
Elektromontaz-Warszawa 0,995 121,1 20 0,4886
Energomontaz-Pólnoc 1,249 135,9 85,2 -1,4802
Mostostal-Zabrze 0,794 45,4 1,5 3,0682
Resbud 0,825 69,5 4,5 2,3445
Mostostal-Plock 4,235 101,1 8,6 -2,8403
Polnord 1,233 153,3 15,9 -0,5680
Mostostal-Export 0,917 224,4 26,4 -2,2234
Bauma 0,722 161,1 20,9 -0,2259
LPP 1,436 47,2 118,8 -0,0607
Podstawa klasyfikacji
34
OCENA JAKOSCI FUNKCJI DYSKRYMINACYJNEJ
Miara ogólnej zdolnosci dyskryminacyjnej modelu
wspólczynnik lambda Wilksa
Wplyw dodatkowych zmiennych na zdolnosc
dyskryminacyjna
35
Ocena zdolnosci dyskryminacyjnej poszczególnych
zmiennych (I)
Czastkowy wspólczynnik Wilksa
wartosc wspólczynnika lambda Wilksa dla modelu
po wprowadzeniu do niego danej zmiennej
wartosc wspólczynnika lambda Wilksa dla modelu
przed wprowadzeniem danej zmiennej.
okresla mnoznikowa zmiane wartosci statystyki
lambda, spowodowana wprowadzeniem do modelu danej
zmiennej Xk. Wartosc wspólczynnika zawiera sie w
przedziale lt0, 1gt
36
Ocena zdolnosci dyskryminacyjnej poszczególnych
zmiennych (II)
statystyka ?k Wilksa (dla modelu!)
Wartosc jaka przyjelaby statystyka lambda Wilksa
dla ogólnego modelu, gdyby wylaczyc z niego dana
zmienna Xk. ?k ? lt0, 1gt
37
Ocena zdolnosci dyskryminacyjnej poszczególnych
zmiennych (III)
wspólczynnik tolerancji Tk
Rk oznacza wspólczynnik korelacji wielorakiej
miedzy dana zmienna Xk a pozostalymi zmiennymi w
modelu (lt 90)
38
Macierz klasyfikacji
Rzeczywista przynaleznosc obiektu Populacja, do której obiekt zaklasyfikowano na podstawie funkcji dyskryminacyjnej Populacja, do której obiekt zaklasyfikowano na podstawie funkcji dyskryminacyjnej Laczna liczebnosc próby z danej populacji
?0 ?1
?0 n00 n01 n0
?1 n10 n11 n1
39
Analiza dyskryminacyjna w pakiecie STATISTICA
40
Podsumowanie zmienne w modelu
Zmiana Lambdy dla modelu po wprowadzeniu danej X
Lambda dla modelu przed wprowadzeniem danej X
41
(No Transcript)
42
1.   Elkom 2,3866 0,8588
2.   Elektromontaz-Warszawa 4,2470 3,7612
3.   Energomontaz-Pólnoc 7,7308 9,2169
4.   Mostostal-Zabrze -0,5321 -3,5995
5.   Resbud 0,8271 -1,5161
6.   Mostostal-Plock 8,8930 11,7354
7.   Polnord 6,1462 6,7174
8.   Mostostal-Export 9,4543 11,6824
9.   Bauma 5,7559 5,9853
10.        LPP 4,8476 4,9144
43
(No Transcript)
44
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com