Strojno ucenje (engl. machine learning) - PowerPoint PPT Presentation

About This Presentation
Title:

Strojno ucenje (engl. machine learning)

Description:

Strojno u enje (engl. machine learning) Algoritmi strojnog u enja - 2 Strojno u enje (engl. machine learning) Pripremio: Prof.dr.sc. Nikola Bogunovi ... – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 55
Provided by: nb956
Category:

less

Transcript and Presenter's Notes

Title: Strojno ucenje (engl. machine learning)


1
Strojno ucenje (engl. machine learning)
  • Algoritmi strojnog ucenja - 2

2
Strojno ucenje (engl. machine learning)
  • Pripremio
  • Prof.dr.sc. Nikola Bogunovic
  • Sveucilište u Zagrebu
  • Fakultet elektrotehnike i racunarstva
  • Temeljem izvornih dokumenata (autori zadržavaju
    sva prava)
  • I.H.Witten, E.Frank
  • DATA MINING, Practical Machine Learning Tools
    and Techniques
  • Morgan Kaufmann, 2005.
  • T.Michell
  • MACHINE LEARNING
  • McGraw Hill, 1997
  • Jiawei Han and Micheline Kamber
  • DATA MINING CONCEPS ABD TECHNIQUES
  • Morgan Kaufmann, 2001,

3
Probabilisticki algoritmi Naivni Bayes
  • Probabilisticki algoritmi Naivni Bayes

4
Probabilisticki algoritmi Naivni Bayes
  • Probabilisticki postupak u otkrivanju znanja
    dodjeljuje vjerojatnost klasifikaciji primjera u
    pojedini razred.
  • U primjeru igranja tenisa postupak može
    generirati pravilo
  • Ako Vrijeme.suncano i Temperatura.hladno i
    Vlažnost.visoka i Vjetrovito.Da, tada Igrati.DA
    (0.2) i Igrati.NE (0.8).
  • gdje je 0.2 vjerojatnost za Igrati DA, a 0.8
    vjerojatnost za Igrati NE.
  • U ovom primjeru radi se o binarnoj klasifikaciji.
    Suma vjerojatnosti za Igrati.DA i za Igrati.NE
    je jednaka 1.
  • Vjerojatnosti se odreduju frekvencijskom
    interpretacijom i promatranjem svakog atributa
    nezavisno. To je pretpostavka naivnosti.

5
Probabilisticki algoritmi Naivni Bayes
Temeljem tablice primjera za igru tenisa racunamo
statistiku.
Vrijeme Temperatura Vlažnost Vjetrovito Igrati
Suncano Topla Visoka Ne Ne
Suncano Topla Visoka Da Ne
Oblacno Topla Visoka Ne Da
Kišovito Blaga Visoka Ne Da
Kišovito Hladno Normalna Ne Da
Kišovito Hladno Normalna Da Ne
Oblacno Hladno Normalna Da Da
Suncano Blaga Visoka Ne Ne
Suncano Hladno Normalna Ne Da
Kišovito Blaga Normalna Ne Da
Suncano Blaga Normalna Da Da
Oblacno Blaga Visoka Da Da
Oblacno Topla Normalna Ne Da
Kišovito Blaga Visoka Da Ne
6
Probabilisticki algoritmi Naivni Bayes
  • Vrijeme Temperatura Vlažnost
  • DA NE DA NE DA NE
    Igrati
  • Suncano 2 3 Topla 2 2 Visoka 3
    4
  • Oblacno 4 0 Blaga 4
    2 Norm. 6 1
  • Kišovito 3 2 Hladno 3 1
  • Visoka 3/9 4/5
  • Suncano 2/9 3/5 Topla 2/9 2/5 Norm. 6/9
    1/5
  • Oblacno 4/9 0/5 Blaga 4/9 2/5
  • Kišovito 3/9 2/5 Hladno 3/9 1/5
  • Vjetrovito Igrati
  • DA NE DA NE
  • Da 3 3 9 5
  • Ne 6 2 9/14 5/14
  • Da 3/9 3/5
  • Ne 6/9 2/5

7
Probabilisticki algoritmi Naivni Bayes
  • Za traženo pravilo (ranije navedeni primjer)
  • Ako Vrijeme.suncano i Temperatura.hladno i
    Vlažnost.visoka i Vjetrovito.Da, tada Igrati.DA
    (?) i Igrati.NE (?).
  • množimo vjerojatnosti (konjunkcija i
    pretpostavka nezavisnosti) koje rezultiraju u
    izglednosti (engl. likelihood).
  • Za Igrati.DA izglednost je
  • 2/9 x 3/9 x 3/9 x 3/9 x 9/14 0.0053
  • Za Igrati.NE izglednost je
  • 3/5 x 1/5 x 4/5 x 3/5 x 5/14 0.0206
  • Nakon normalizacije slijede vjerojatnosti
  • Vjer. za Igrati.DA 0.0053 / (0.0053 0.0206)
    0.205
  • Vjer. za Igrati.NE 0.0206 / (0.0053 0.0206)
    0.795

8
Probabilisticki algoritmi Naivni Bayes
  • Teorijska osnovica probabilistickog rasudivanja
  • Vjerojatnost hipoteze H uz evidenciju (dokaz) E
    Pr(H E)
  • Uporaba Bayesovog pravila Pr(H E) Pr(E
    H) Pr(H) / Pr(E)
  • Neka je u našem primjeru hipoteza
  • H (Igrati.DA)
  • E evidencija (vrijednosti svih 4 atributa) E1,
    E2, E3, E4
  • Supstitucijom slijede zajednicke (engl. joint)
    vjerojatnosti
  • Pr(H E1, E2, E3, E4) Pr(E1, E2, E3, E4 H)
    Pr(H) / Pr(E1, E2, E3, E4)
  • Izracun je eksponencijalne složenosti pa uvodimo
    pretpostavku nezavisnosti atributa ("Naïvni
    Bayes")
  • Pr(H E) Pr(E1 H) x Pr(E2 H) x Pr(E3
    H) x Pr(E4 H) x Pr(H) / Pr(E)
  • Pr(H) Pr(Igrati.DA) je prethodna (apriorna)
    vjerojatnost (ništa još nije poznato o
    obilježjima dana evidenciji). U primjeru
    tenisa 9/14.
  • Uz uvodenje evidencije
  • Pr(Igrati.DA E) 2/9 x 3/9 x 3/9 x 3/9 x
    9/14 x 1/Pr(E)
  • Vjerojatnost Pr(E) nestaje pri normalizaciji.

9
Probabilisticki algoritmi Naivni Bayes
  • Problem probabilistickog rasudivanja (1/2)
  • Neke vrijednosti atributa se ne pojavljuju uz
    jedan ili više razreda.
  • Primjerice neka se vrijednost atributa
    Vrijeme.suncano pojavljuje samo uz Igrati.NE, a
    nikad uz Igrati.DA. Pri tome je
  • Pr(Igrati.DA Vrijeme.suncano) 0 i množi sve
    ostale vjerojatnosti u izracunu izglednosti za
    pravilo koje sadrži Vrijeme.suncano.
  • Rješenje Laplaceov estimator korekcija tablice
    frekvencija
  • Izvorna tablica Korigirana tablica
  • Vrijeme i Igrati.DA Vrijeme i Igrati.DA
  • Suncano 2/9 Suncano 3/12
  • Oblacno 4/9 Oblacno 5/12
  • Kišovito 3/9 Kišovito 4/12
  • Dodaje se 1 u brojnike, a to se kompenzira s 3
    u nazivnike. Time se osigurava da frekvencija
    nikada nije nula.

10
Probabilisticki algoritmi Naivni Bayes
  • Problem probabilistickog rasudivanja (2/2)
  • Opcenito, možemo dodati bilo koju malu konstantu
    ? (ne samo 1)
  • (2 ?/3) / (9 ?)
  • (4 ?/3) / (9 ?)
  • (3 ?/3) / (9 ?) za raniji primjer ? 3
  • Nema nekog posebnog razloga za raspodjelu ? u 3
    jednaka dijela.
  • Umjesto toga možemo koristiti
  • (2 ?p1 ) / (9 ?)
  • (4 ?p2 ) / (9 ?)
  • (3 ?p3 ) / (9 ?) gdje ? pi 1, pi su
    apriorne vjerojatnosti atributa
  • p1 Pr(Vrijeme.suncano) 5/14 - pojava u 5
    primjera od 14
  • p2 Pr(Vrijeme.oblacno) 4/14 - pojava u 4
    primjera od 14
  • p3 Pr(Vrijeme.kišovito) 5/14 - pojava u 5
    primjera od 14
  • Najcešca heuristika
  • Inicijaliziraj sve vrijednosti za brojanje
    frekvencija na 1 (umjesto 0), t.j pojavljuju se
    barem jedanput uz svaki razred.

11
Probabilisticki algoritmi Naivni Bayes
  • Problem nedostajucih vrijednosti
  • Jednostavno se izostave te vrijednosti u
    izracunu izglednosti. Omjeri za vjerojatnost
    temelje se samo na postojecim vrijednostima.
  • Numericke vrijednosti atributa (1/3)
  • Najprije se izracuna srednja vrijednost i
    standardna devijacija n numerickih vrijednosti
    pojedinog atributa (tzv. ? i ? uzoraka).
  • Srednja vrijednost ? ? /n
  • Std. dev. ? ? (x - ?)2 /(n -1) 1/2
    varijanca 1/2
  • Ukoliko postoji dovoljno velik skup numerickih
    vrijednosti nekog atributa pretpostavljamo
    Gaussovsku (normalnu) razdiobu tih vrijednosti uz
    parametre ? i ? uzoraka.
  • Funkcija gustoce razdiobe vjerojatnosti za
    normalnu razdiobu je

12
Probabilisticki algoritmi Naivni Bayes
  • Numericke vrijednosti atributa (2/3)
  • Neka su dane neke vrijednosti atributa za svaki
    razred
  • Temperatura (ºF) Vlažnost
  • DA NE DA NE Igrati (ciljni atribut,
    klasifikacija)
  • 83 85 86 85
  • 70 80 96 90
  • Izracunamo
  • 73 74.6 Srednja vr. 79.1 86.2
  • 6.2 7.9 Std. Dev. 10.2 9.7
  • Uz uporabu odgovarajuce (za odreden ? i ?)
    funkcije gustoce razdiobe f(x)
  • f (Temperatura66 Igrati.DA) 0.034
  • f (Vlažnost90 Igrati.DA) 0.021
  • Funkcija f(x) aproksimira vjerojatnosti.

13
Probabilisticki algoritmi Naivni Bayes
  • Numericke vrijednosti atributa (3/3)
  • f(x) ipak nije jednaka vjerojatnosti, jer
  • Vjerojatnost da vrijednost neke velicine leži
    unutar intervala (x - ?/2) i (x ?/2)
  • je ? f(x)
  • Buduci da se ? nalazi u svakoj izglednosti, to se
    u normalizaciji gubi.
  • Za primjer
  • Vrijeme.suncano i Temperatura66 i Vlažnost90 i
    Vjetrovito.Da
  • Izracun vjerojatnosti je (atributi su nominalni i
    numericki)
  • Izglednost (Igrati.DA) 2/9 x 0.0340 x 0.0221 x
    3/9 x 9/14 0.000036
  • Izglednost (Igrati.NE) 3/5 x 0.0291 x 0.0380 x
    3/5 x 5/14 0.000136
  • Pa je normalizirano na vjerojatnosti
  • Pr(Igrati.DA) 0.000036 / (0.000036 0.000136)
    0.209
  • Pr(Igrati.NE) 0.000136 / (0.000036 0.000136)
    0.791
  • što je vrlo slicno ranijim zakljuccima.

14
Probabilisticki algoritmi Naivni Bayes
  • Sažetak o probabilistickom algoritmu (Naivni
    Bayes)
  • Naivni Bayes je jednostavan i vrlo uobicajen.
  • Ima dobru semantiku za predstavljanje
    probabilistickog znanja.
  • Pokazano uspješniji od mnogih složenijih
    pristupa.
  • Pretpostavka o nezavisnosti atributa može unositi
    pogreške
  • (Npr. dva stupca istog atributa multiplicira
    njegov utjecaj, te je
  • potrebno pažljivo odabrati atribute, posebice
    ako ih ima mnogo).
  • Pretpostavka normalne razdiobe može se
    relaksirati uvodenjem druge razdiobe koje bolje
    opisuje primjere ili se može koristiti procedura
    "estimacije jezgre" (koja ne pretpostavlja jednu
    definiranu razdiobu).

15
Pravila pridruživanja
  • Pravila pridruživanja
  • (engl. association rules)

16
Pravila pridruživanja
  • Pravila pridruživanja u osnovici daju vezu izmedu
    atributa.
  • Npr. za igranje tenisa
  • AKO (Temperatura.Hladno) TADA (Vlažnost.Normalna)
  • Pravila pridruživanja imaju širi cilj
  • Pronalaženje cestih uzoraka, asocijacija,
    korelacija, ili uzrocnih struktura u skupu
    objekata u transakcijskim i relacijskim bazama,
    te drugim repozitorijima podataka.
  • Primjena
  • Analiza tržišta (engl. market-basket),
    oblikovanje kataloga, grupiranje,
  • Opci oblik induciranog znanja (pravila)
  • AKO (Tijelo_pravila) TADA (Glava_pravila)
    potpora, uvjerenost
  • potpora (engl. support) vjerojatnost svih
    elemenata pravila ( u tijelu i glavi) u cijelom
    skupu primjera (podataka).
  • uvjerenost (engl. confidence) vjerojatnost
    posljedice (glave pravila) ako uvjet (tijelo
    pravila). To je uvjetna vjerojatnost.

17
Pravila pridruživanja
  • Primjer 1 (sintaksa slijedi formalizam predikatne
    logike)
  • kupuje(x, pelene) ? kupuje( x, pivo) 5, 60
  • Potpora 5 svih kupaca kupilo je pelene i
    pivo.
  • Uvjerenost vjer. "pivo ako pelene" P(pivo
    pelene)
  • Pivo je kupilo 60 kupaca od onih koji su
    kupili pelene.
  • Primjer 2
  • studira(x, racunarstvo) ? sluša(x,
    formalne_postupke) ?
  • srednja_ocjena_barem(x, 4) 1, 75
  • Potpora 1 svih studenata studira racunarstvo i
    sluša formalne postuple i ima srednju ocjenu
    barem 4.
  • Uvjerenost srednju ocjenu barem 4 ima 75
    studenata od onih koji studiraju racunarstvo i
    slušaju formalne postupke.
  • Pravila pridruživanja koja zadovoljavaju
    minimalnu zadanu potporu i minimalnu zadanu
    uvjerenost nazivaju se jaka pravila (engl. strong
    rules).

18
Pravila pridruživanja
  • Terminologija u domeni pravila pridruživanja
  • Skup transakcija korespondira skupu podataka.
  • Transakcija (engl. itemset) sadrži skup
    elemenata, korespondira terminu primjer u
    podrucju obradbe podataka.
  • Element (engl. item) postoji ili ne u pojedinoj
    transakciji.
  • Svaka transakcija daje informaciju koji elementi
    se pojavljuju zajedno u toj transakciji.
  • Transakcije se tipicno razlikuju u broju
    elemenata.
  • Transakcija se može vizualizirati kao izdani
    racun s popisom elemenata (artikala) nakon
    placanja na blagajni trgovine.
  • Primjer skupa od
  • 5 transakcija

Elementi u pojedinim transakcijama
19
Pravila pridruživanja
  • Temeljem prikazanog skupa od 5 transakcija
    možemo primjerice izracunati potporu i uvjerenost
    za pravilo
  • Potpora (support) je broj transakcija koje sadrže
    sve elemenate u pravilu (Diaper, Milk, Beer)
    prema ukupnom broju transakcija (ovdje 5).
  • Uvjerenost (confidence) je uvjetna vjerojatnost
  • P(glava tijelo) P(glava i tijelo) / P(tijelo)
  • P(Beer Diaper, Milk) P(Beer, Diaper, MIlk) /
    P(Diaper, Milk)
  • (2/5) / (3/5) 2 /3 0.66
  • Vjerojatnosti se racunaju preko frekvencija.

tijelo glava
20
Pravila pridruživanja
  • Problem Izracun frekvencija podskupova elemenata
    u bazi transakcija.
  • Npr. Za 1000 razlicitih elemenata broj
    podskupova s tri elementa je
  • Izracun frekvencija i mjera kvalitete za skupove
    elemenata s pet ili više elemenata vrlo lako može
    biti potpuno vremenski neizvedivo.
  • U tom je slucaju od prvorazrednog znacaja
    generalizacija elemenata. Obicno su artikli u
    prodavaonicama svrstani u kategorije
    (taksonomija). Desetci i stotine artikala mogu
    biti svedeni na jednu ili više kategorija koje
    dobro reprezentiraju generalna svojstva svih
    artikala koje prodaje odredeni odjel.
  • Racunalna složenost izracuna za sustav od n
    transakcija i m elemenata je eksponencijalna
    O(n x m x 2m ).
  • Potrebno je pronaci postupak smanjena složenosti
    u pretraživanju i generiranju podskupova ? Aprori
    algoritam.

21
Pravila pridruživanja
  • Apriori algoritam
  • Definicija Skup elemenata koji zadovoljava
    minimalnu potporu naziva se cest_ skup elemenata
    (engl. frequent set).
  • Kljucni koraci Apriori algoritma
  • Iterativno nadi ceste skupove elemenata (frequent
    skupove) s kardinalnošcu 1 do k.
  • Uporabi uredene ceste skupove kardinalnosti k-1 i
    operaciju join da bi našao skupove s k
    elemenata.
  • Smanji skup s k elemenata uvjetom da svaki
    podskup mora biti cest skup. Ostaju kandidati za
    ceste skupove.
  • Npr. ako je A, B cest skup, to moraju biti
    A i B.
  • Pretraživanjem baze selektiraj stvarne ceste
    skupove.
  • Iskoristi ceste skupove za generiranje pravila.
  • Selektiraj jaka pravila (engl. strong rules).

22
Pravila pridruživanja
  • Apriori algoritam
  • Primjer vrlo male baze transakcija
  • Za zadanu potporu S (npr. min S 3) generiraju
    se svi cesti podskupovi elemenata.
  • Zapocinje se s podskupovima s jednim elementom.
    Podskupovi koji zadovoljavaju uvjet potpore
    (nalaze se u bazi barem 3 puta) su Bread, Milk,
    Beer, Diaper.
  • Podskupovi Coke i Eggs ne zadovoljavaju potporu
    pa nisu cesti i ne sudjeluju u daljnjem
    generiranju cestih podskupova.

23
Pravila pridruživanja
  • Prikaz Apriori principa, (žuto su oznaceni
    podskupovi za koje vrijedi S ? 3 , i oni
    sudjeluju u daljim koracima generiranja).

Koliko puta se pojavljuje u bazi transakcija
join
Pazi pogreška !!
join
Milk, Diaper, Beer nije, jer Milk, Beer nije
cest.
24
Pravila pridruživanja
  • Primjer generiranja cestih skupova za S ? 2

25
Pravila pridruživanja
  • Objašnjenje generiranja cestog podskuoa od tri
    elemenata
  • Cesti podskupovi od 2 elementa
  • Operacijom Join slijede podskupovi od 3
    elementa
  • 1, 2, 3 nije kandidat jer podskup 1, 2
    nije cest.
  • 1, 3, 5 nije kandidat jer podskup 1, 5
    nije cest.
  • 2, 3, 5 to je jedini kandidat za cesti skup
    od 3 elemenata.
  • Provjerom u bazi slijedi da je taj kandidat
    doista i cest podskup (pojavljuje se 2 puta u
    transakcijama).

26
Pravila pridruživanja
  • Primjer generiranja cestog podskupa APRIORI
    postupkom
  • Promatramo raniji primjer
  • Ranije pokazani postupak generira
  • 1, 2, 3, 1, 3, 5, 2, 3, 5,
  • Rezanjem (provjerom svih njihovih
  • podskupova da li su cesti) ostaje samo 2, 3, 5
    kao kandidat za provjeru
  • minimalne potpore ponovnim skeniranjem baze.
  • APRIORI S obzirom na leksicku uredenost
    generiramo uzimajuci u obzir a_priori podskupove
    od 2 elementa koji zadovoljavaju minimalnu
    potporu
  • Prvi clan 1 ne daje niti jedan podskup s 3
    elementa jer "1" nije u paru s nijednim daljnjim
    elementom (leksicka uredenost) u skupu cestih
    podskupova s 2 elementa.
  • 1, 2, 3 nismo generirali jer 1, 2 nije na
    popisu. To je a-priori poznato jer "1" pocinje s
    1, 3. Jednako za 1, 3, 5, jer nema 1, 5.
  • Prvi clan 2 daje 2, 3, 5.
  • Umjesto 3 generiran je samo jedan podskup kao
    kandidat.

27
Pravila pridruživanja
  • Primjer generiranja cestog podskupa APRIORI
    postupkom
  • Neka su na razini k3 elementi leksicki uredeni i
    cine ceste podskupove
  • L3abc, abd, acd, ace, bcd
  • 1. Korak Self-joining L3L3
  • Uz jednaka prva dva elementa (leksicka uredenost)
    tražimo
  • Iz abc i abd slijedi abcd, a iz acd i ace
    slijedi acde.
  • Nema drugih mogucnosti. Npr. acd i bcd nije
    potrebno razmatrati jer su vec u generiranom
    abcd.
  • 2. Korak rezanje (engl. pruning) provjera da
    li su svi podskupovi cesti
  • acde je maknut jer ade nije u L3
  • 3. Korak Kandidat za k4 cest skup je (i on se
    provjerava u bazi da li je stvarno cest)
  • C4abcd

28
Pravila pridruživanja
  • Pseudo kod APRIORI algoritma

29
Pravila pridruživanja
  • Generiranje jakih pravila iz cestog (engl.
    frequent ) skupa
  • Neka je naden cest skup od k3 elementa L L1,
    L2, L5
  • 1. korak - tvore se svi neprazni podskupovi s 1
    do k-1 elemenata
  • L1, L2, L1, L5, L2, L5, L1, L2, L5
  • 2. korak - generiraju se sva moguca pravila s
    podskupovima iz 1. koraka i racuna uvjerenost
    (engl. confidence) za svako pravilo
  • L1 ? L2 L5 Conf
  • L1 ? L5 L2 Conf
  • L2 ? L5 L1 Conf
  • L1 L2 ? L5 Conf
  • L2 L1 ? L5 Conf
  • L5 L1 ? L2 Conf
  • 3. korak primjenom praga zadane minimalne
    uvjerenosti selektiraju se jaka pravila.

30
Pravila pridruživanja
  • Poteškoce u generiranju pravila pridruživanja
  • Jezgra APRIORI algoritma
  • Uporabi ceste (k 1)-itemsetove da bi generiralo
    kandidate cestog k-itemseta.
  • Postupak skenira bazu podataka i traži slaganje
    uzoraka kako bi izbrojio kandidate.
  • Usko grlo APRIORI algoritma genriranje kandidata
  • Veliki skupovi kandidata
  • 104 cestih 1-itemset generira 107 kandidata
    2-itemsets.
  • Za otkrivanje cestog uzorka velicine 100, npr.
    a1, a2, , a100, potrebno je generirati 2100 ?
    1030 kandidata.
  • Višestruko skeniranje baze podataka
  • Potrebno (n 1 ) prolaza, gdje je n duljina
    najduljeg uzorka.

31
Pravila pridruživanja
  • Postupci efikasnijeg generiranje pravila
  • Uporaba hash funkcije u generiranju adresa
    tablice s cestim podskupovima
  • Tijekom prebrojavanju 1-elem cestih, stvara se
    niz (što više) hash košarica za 2-elem. U
    daljnje prebrojavanje 2-elem uzimaju se samo
    košarice koje zadovoljavaju minimalnu potporu
    (minimalan broj 2-elem u košarici i naravno oba
    elementa u 2-elem su cesti).
  • Reduciranje broja transakcija
  • Transakcija koja nema k-1 ceste podskupove se
    izostavlja u daljnjem ispitivanju (beskorisna
    je).
  • Dijeljenje skupa transakcija u particije
  • Traže se cesti podskupovi u pojedinim particijama
    (lokalni podskupovi). Svi lokalni skupovi spoje
    se u globalni skup. U drugom prolazu iz globalnog
    skupa izdvajaju se stvarni cesti podskupovi.
  • Slucajan izbor manjeg skupa transakcija iz velike
    baze
  • Vjerojatno je da se neki podskupovi ne pronadu,
    snizuje se prag potpore.
  • Dinamicko brojanje
  • Cesti podskupovi se izdvajaju tijekom prolaza po
    dijelovima, a ne prije cijelog prolaza kroz bazu
    kao kod Apriori algoritma.

32
Pravila pridruživanja
Prikaz tablicom
33
Pravila pridruživanja
Vizualizacija planarnim grafom
34
Pravila pridruživanja
Vizualizacija U ORACLE sustavu
35
Pravila pridruživanja
  • Prikaz pravila u sustavu za analizu Agrokor

36
Pravila pridruživanja
  • Rezultati analize uz vrlo malu potporu i
    uvjerenost (ovdje pouzdanost i znacaj)

37
Pravila pridruživanja
  • Višerazinska pravila pridruživanja
  • Elementi (proizvodi) cesto cine hijerarhiju.
  • Elementi na nižoj razini ocekivano imaju manju
    potporu. Umjesto uniformne potpore koristi se
    reducirana potpora na nižim razinama.
  • Transakcijska baza se može kodirati prema
    razinama.
  • Mogu se istraživati pridruživanja
  • Razinu po razinu nezavisno
  • Pojedini elementi kroz razine
  • Podskupovi elemenata kroz razine

38
Pravila pridruživanja
  • Postupci generiranja višerazinskih pravila
    pridruživanja
  • Odozgo prema dolje tako da se prvo traže
    pravila više razine
  • milk bread
    20, 60.
  • a zatim pravila niže razine (slabija pravila)
  • 2 milk wheat
    bread 6, 50.
  • Varijacije generiranja višerazinskih pravila
    pridruživanja
  • Medurazinska pravila pridruživanja
  • 2 milk Wonder wheat bread
  • Pravila pridruživanja s više hijerarhijskih
    opcija
  • 2 milk Wonder bread

smanjenje
39
Pravila pridruživanja
  • Taksonomija pravila pridruživanja
  • Jedno-dimenzijska pravila (jedan predikat u
    pravilu)
  • buys(X, milk) ? buys(X, bread)
  • Više-dimenzijska pravila (2 ili više dimenzije
    predikata)
  • Inter-dimenzijska pravila (nema ponavljajucih
    predikata)
  • age(X,19-25) ? occupation(X,student) ?
    buys(X,coke)
  • Hibridno dimenzijska pravila (ponavljajuci
    predikati)
  • age(X,19-25) ? buys(X, popcorn) ? buys(X,
    coke)
  • Kategoricki atributi - predikati
  • Konacan broj mogucih vrijednosti, ne postoji
    uredenost izmedu vrijednosti
  • Kvantitativni atributi - predikati
  • Numericki, implicitna uredenost vrijednosti

40
Pravila pridruživanja
  • Buduci pravci istraživanja
  • Booleova i kvantitativna pridruživanja
  • Pridruživanja diskretnih i kontinuiranih podataka
  • Od pravila pridruživanja prema korelacijskoj
    analizi i analizi uzroka i posljedica
  • Pridruživanje ne mora nužno implicirati
    korelacijsku ili uzrocno-posljedicnu vezu
  • Od intra-transakcijskih do inter-transakcijskih
    pridruživanja
  • Napušta se granica pojedine transakcije
  • Od analize pridruživanja do klasifikacije i
    grupiranja (engl. clustering)
  • Grupiranje pravila pridruživanja

41
Pohranjeni primjeri
  • Ucenje i klasifikacija temeljena na pohranjenim
    primjerima
  • (engl. instance based learning)

42
Pohranjeni primjeri
  • Ovaj postupak temelji se na pohranjenim
    primjerima za koje je poznata pripadnost razredu.
  • Primjer nepoznate klasifikacije ulazi u sustav i
    pridružuje se razredu kojem pripada jedan
    najbliži pohranjeni primjer.
  • Algoritam je lijen (ništa ne radi sve do
    dolaska nepoznatog primjera).
  • Temeljni problem Definicija funkcije udaljenost
    do pohranjenog primjera (t.j. odredivanje
    najbližeg primjera).
  • Funkcije udaljenosti
  • Vecina sustava koristi tzv. Euklidsku udaljenost.
  • Neka jedan primjer, oznaceno (1), ima
    vrijednosti atributa
  • a1(1), a2(1), , ak(1)
  • Drugi primjer (2) ima vrijednost atributa
  • a1(2), a2(2), , ak(2) (gdje k predstavlja broj
    atributa)

43
Pohranjeni primjeri
  • Euklidska udaljenost je definirana
  • Striktno gledano nije potrebno racunati korijen
    vec se mogu usporediti sume kvadrata razlika
    vrijednosti atributa. kvadrata.
  • Alternativa Euklidskoj udaljenosti jest Manhattan
    mjera, gdje se razlika izmedu atributa ne
    kvadrira vec samo zbraja.
  • Druge mogucnosti su više potencije razlika koje
    povecavaju utjecaj vecih razlika u odnosu na
    manje.
  • Euklidska udaljenost predstavlja najbolji
    kompromis.
  • Problem Razliciti atributi mjereni su u
    razlicitim mjerilima.
  • Rješenje uobicajeno je normalizirati
    vrijednosti atributa na skalu od 0 do 1

44
Pohranjeni primjeri
  • Normalizacija vrijednosti atributa
  • gdje ?i predstavlja vrijednost atributa i, a
    maksimum i minimum su izracunati temeljem svih
    vrijednosti pohranjenih primjera.
  • Dosadašnji izrazi pretpostavljali su numericke
    vrijednosti atributa.
  • Nominalne vrijednosti atributa
  • Za razlicite vrijednosti razlika 1.
  • Za jednake vrijednosti razlika 0.
  • Nije potrebno normalizirati vrijednosti.

45
Pohranjeni primjeri
  • Problem nedostajucih vrijednosti
  • Nominalni atributi
  • Nedostaje jedna ili obje razlika 1.
  • Numericki atributi
  • Obje vrijednosti nedostaju razlika 1.
  • Jedna vrijednost nedostaje razlika se uzima kao
    normalizirana velicina druge postojece
    vrijednosti (ili jedan minus ta normalizirana
    velicina ovisno što je vece).
  • Pri nedostajucim vrijednostima razlika je najveca
    moguca (pesimistican pristup).

46
Pohranjeni primjeri
  • Shema ucenja temeljena na pohranjenim primjerima
  • Implicitno se pretpostavlja da se nepoznati
    primjer usporeduje sa svima pohranjenima i
    odlucuje se za klasifikaciju jednaku kao jedan
    njemu najbliži susjed.
  • Problemi
  • Kod velikih skupova podataka sporo se izvodi jer
    se za svaki novi primjer mora pretražiti cijeli
    skup pohranjenih primjera. Složenost je
    proporcionalna s brojem pohranjenih testnih
    primjera.
  • Daje loše rezultate kad u podacima ima šuma jer
    je razred novog primjera odredena pomocu samo
    jednog najbližeg susjeda koji može bit korumpiran
    šumom.
  • Loše rezultate daje takoder i u slucajevima kada
    razliciti atributi imaju razliciti utjecaj na
    rezultat (posebice u ekstremnim slucajevima gdje
    su neki atributi potpuno nebitni), jer u formuli
    udaljenosti svi atributi imaju jednak utjecaj.

47
Pohranjeni primjeri
  • Povecanje efikasnosti pretraživanja primjera 1/3
  • Pohranjeni primjeri u memoriji predstavljeni su
    kao stablo
  • (kD-stablo, engl. kD-tree).
  • To je binarno stablo koje dijeli ulazni prostor
    hiper-ravninom (dimenzije ovisno o broju atributa
    k) tako da se rekurzivno cijepa. Npr. za k2
    (atributi a1 i a2 ) i 4 pohranjenih primjera

48
Pohranjeni primjeri
  • Povecanje efikasnosti pretraživanja primjera 2/3
  • Izgradnja stabla Prvi primjer (7,4) je korijen
    stabla i dijeli prostor horizontalno (a2 4).
    Primjer (2,2) pada ispod horizontalne podjele pa
    predstavlja list. Primjer (6,7) dijeli dalje
    prostor vertikalno. Primjer (3,8) je list jer je
    lijevo od vertikalne podjele. U svakoj regiji
    nalazi se samo jedan (list) ili nijedan primjer.
  • Pretraživanje kD-stabla danog na slici
  • Novi primjer je oznacen zvijezdom.
  • List te regije je oznacen crno. To nije nužno
  • najbliži, ali je prva dobra aproksimacija.
  • Svaki bliži bi morao biti unutar crtkanog kruga.
  • Potraga za bližim prvo se odnosi na sestrinski
    prostor (oznacen sivo). Primjer u tom prostoru
    nije unutar kruga pa nije bliži. Pretraga se
    vraca na roditeljski cvor i njegov sestrinski
    prostor (sve iznad horizontalne crte). Lijevi
    primjer nije unutar kruga a desni je.
  • Algoritam je bitno brži od postupka ispitivanja
    svih primjera.
  • Potrebno je uociti da se ne traži udaljenost
    prema granicama nego i dalje prema pohranjenom
    primjeru.

49
Pohranjeni primjeri
  • Ostale metode povecanja efikasnosti pretraživanja
    3/3
  • Umjesto pamcenja svih testnih primjera, primjeri
    se mogu komprimirati u regije predstavljene samo
    jednim karakteristicnim primjerom.
  • Povecanjem inicijalnog broja pohranjenih testnih
    primjera temeljem kojih se stvara regija povecava
    se preciznost klasifikacije.
  • Postupak je osjetljiv na šum jer pohranjeni
    podaci sa šumom kontinuirano utjecu na krivo
    klasificiranje.
  • Opci postupak pohranjuje nove primjere
    povecavajuci skup primjera u kojem se traži
    najbliži susjed. Nije potrebno pamtiti sve do
    sada videne primjere. Postoji nekoliko tehnika
    redukcije skupa.
  • Postupak s intervalnim vrijednostima
  • Pregledaju se sve vrijednosti svih atributa
    testnih primjera i stvore intervali tih
    vrijednosti za pojedini razred. Novi primjer
    usporeduje svoje vrijednosti atributa s pojedinim
    intervalima i svrsta se u razred prema najvecem
    broju slaganja s intervalima za pojedini razred.

50
Pohranjeni primjeri
  • Smanjenje utjecaja šuma
  • k-najbližih susjeda
  • Umjesto pretrage za jednim najbližim susjedom,
    locira se manji broj
  • (npr. k 5) - najbližih susjeda.
  • Razred novoga primjera odreduje se vecinskim
    glasanjem k najbližih susjeda.
  • Što je veci šum potreban je veci broj primjera.
  • Pracenje uspješnosti svakog primjera
  • Zapisuju se ispravne i neispravne klasifikacije
    za svaki pohranjeni primjer.
  • Postave se dvije razine uspješnosti ako je
    primjer iznad razine koristi se za klasifikaciju,
    a ako je ispod razine izbacuje se iz sustava. Ako
    se uspješnost nalazi izmedu razina ne koristi se
    za klasifikaciju ali svaki puta kada je najbliži
    bilježi se u njegovoj statistici (raste mu
    razina).
  • U sustavu WEKA implementirano je pracenje
    uspješnosti (npr. algoritam IB3 - Instance based
    ver 3).

51
Pohranjeni primjeri
  • Atributi s težinama
  • Euklidska udaljenosti i normalizacija je dobar
    postupak za domene s jednako relevantnim
    atributima.
  • U vecini domena neki su atributi nebitni, dok se
    bitni atributi razlikuju po razini važnosti.
  • Poboljšanje
  • Svaki atribut ima težinski faktor.
  • Mjera udaljenosti ukljucuje težinske faktore wi
    za svali atribut
  • U nekim primjenama težinski faktori su ovisni o
    razredu. U tom slucaju postojat ce odvojeni skup
    težina za svaki razred.

52
Pohranjeni primjeri
  • Atributi s težinama
  • Adaptacija težina
  • Svi težinski faktori atributa obnove se nakon
    klasifikacije svakog primjera za ucenje (poznata
    klasifikacija) temeljem najslicnijeg predloška.
  • Npr. Primjer x i najslicniji predložak y.
  • Za svaki atribut i, razlika xi - yi
    predstavlja mjeru doprinosa toga atributa odluci
    (mala razlika atribut pozitivno pridonosi
    odluci).
  • Namjera je da se osvježi i-ta težina na osnovu
    velicine ove razlike i tocnosti klasifikacije.
  • Ako je klasifikacija ispravna i-ta težina se
    poveca (obrnuto proporcionalno razlici xi - yi
    ).
  • Ako je klasifikacija neispravna i-ta težina se
    smanjuje (proporcionalno razlici xi - yi ).
  • Promjenu težine obicno slijedi korak ponovne
    normalizacije.

53
Pohranjeni primjeri
  • Generaliziranje primjera
  • Primjeri se generaliziraju (zamijenjuju) s
    višedimenzionalnim (broj atributa) pravokutnim
    regijama u prostoru primjera (hiper-pravokutnici).
  • Kod klasificiranja traži se udaljenost do hiper
    pravokutnika (ne više do najbližeg susjeda).
  • Ako je novi predložak klasificiran tocno, stvara
    se novi hiper-pravokutnik koji pokriva stare i
    nove primjere.
  • Ako je novi predložak klasificiran netocno,
    granice hiper-pravokutnika se mijenjaju tako da
    se odvoje od novog primjera.
  • Potrebno je odluciti hoce li se dopustiti
    preveliko generaliziranje, uzrokovano
    ugnježdivanjem ili preklapanjem
    hiper-pravokutnika (temeljem neke mjere
    konflikata postojecih podrucja).
  • Preklapajuci hiper-pravokutnici odgovaraju
    pokrivanju primjera sa dva ili više pravila u
    skupu pravila.
  • Ugnježdeni hiper-pravokutnici odgovaraju
    iznimkama u sustavu s pravilima.

54
Pohranjeni primjeri
  • Generaliziranje primjera
  • Funkcija udaljenosti do hiper-pravokutnika
  • Udaljenost od primjera do hiper-pravokutnika 0
    ako tocka leži unutar ili na granici hiper
    pravokutnika.
  • Inace racuna se udaljenost do najbližeg dijela
    hiper-pravokutnika (nije trivijalno odrediti).
  • Primjer 2 razreda (R1 i R2) i 2 dimenzije-
    atributa (slika).
  • Granica sadrži 9 regija
  • 1 - linearno, jednaka udaljenost
  • 2 - parabolicna
  • 3 - linearna

R1
R2
Write a Comment
User Comments (0)
About PowerShow.com