Modellez - PowerPoint PPT Presentation

About This Presentation
Title:

Modellez

Description:

Title: Our Acoustic Based Speaker Independent Speech Recognition System – PowerPoint PPT presentation

Number of Views:85
Avg rating:3.0/5.0
Slides: 26
Provided by: Kuba4
Category:

less

Transcript and Presenter's Notes

Title: Modellez


1
Modellezési technikák a statisztikai
alakfelismerésben
  • Tóth László
  • Mesterséges Intelligencia Tanszéki Kutatócsoport,
    Magyar Tudományos Akadémia Szegedi
    Tudományegyetem

2
Az osztályozási feladat
  • Feladat objektumok osztályba sorolása
  • Adott osztályok c1,,cK halmaza és mérési
    adatok (jellemzok) (x1,,xm) vektortere
  • Felhasználási fázis
  • Input egy x jellemzovektor
  • Output egy ci osztálycímke
  • Tanulási fázis
  • Input felcímkézett ltx(n), c(n)gt tanítópéldák
    n1,,N
  • Output valamilyen modell az X?C leképezéshez
  • Egy egyszeru példa karakterfelismerés
  • A gépi tanulás legfontosabb feladattípusa
  • Sokféle, egészen eltéro megközelítése,
    formalizálása létezik

3
Szemléltetés
  • 2 jellemzovel, 2 osztállyal
  • Tkp. ami kellene minden osztályhoz egy X?0,1
    karakterisztikus függvény
  • Ez viszont (folytonos változók esetén)
    körülményesen reprezentálható közvetlenül

4
Reprezentációs módszerek
  • Geometriai szemlélet az osztályok közötti határt
    (döntési felületet) reprezentálja döntés a pont
    melyik oldalra esik
  • Döntéselméleti szemlélet minden osztályhoz egy
    disz-kriminánsfüggvény (x pont mennyire eleme az
    osztálynak)
  • Döntés melyik diszkriminánsfüggvény adja a
    legnagyobb értéket
  • Mindkét esetben egyszeru, folytonos függvényekkel
    dolgozhatunk

5
A Bayes döntési szabály
  • A döntéselméleti szemlélet speciális esete az
    egyes osztályokhoz tartozó diszkriminánsfüggvény
    legyen P(cix)
  • Tétel minimalizálja a téves besorolások számának
    várható értékét
  • A Bayes-szabály szerint
  • P(x)-nek nincs szerepe, (i-re maximalizálunk)
  • P(ci) könnyen modellezheto (pl. leszámlálással)
  • Diszkriminatív modellek a P(cix) posterior
    valószínuséget modellezik
  • Közvetlenül a döntési függvények pontos leírására
    törekednek
  • Generatív modellek a p(xci) osztályonkénti
    eloszlást modellezik
  • az osztályok pontos leírására törekednek (akár
    példák generálására is képesek az adott
    osztályból)

6
Szokásos alapfüggvények
  • Egyszeru, pár paraméterrel szabályozható görbék
  • Hipersík
  • Két részre vágja a teret
  • Nem lokalizált (végtelen nagy térrészt sorol az
    adott osztályhoz)
  • Kvadratikus alak
  • 2D-ben kör v. ellipszis alakú térrészt
    kanyaríthatunk körül vele
  • Normális eloszlás
  • Alapvetoen a generatív modellezésben használatos
  • De küszöböléssel térrészek körülhatárolására is
    jó lehet
  • Polinom

7
Alapfüggvények kombinálása
  • Ha bonyolultabb döntési felületet v.
    eloszlásfüggvényt akarunk leírni
  • Geometriai szemlélet
  • Területek összekapcsolása ÉS-sel, VAGY-gyal
  • Pl hipersíkokat használva így tetszoleges
    térrész körülkerítheto
  • Többszintu modell (az egyik szint outputja a
    másik inputja)
  • Pl neuronháló
  • Súlyozott összegzés
  • Döntéselméleti (generatív) szemlélet
  • Súlyozott összegzés
  • Ha fj(x) szabályos suruségfüggvény minden j-re,
    akkor is az, ha wjgt0 és

8
Valószínuségi kimenet garantálása
  • Diszkriminatív modellek
  • Könnyu P(cix) diszkrét eloszlás
  • 0 és 1 közé szorítás
  • a, küszöböléssel
  • b,sigmoid-függvénnyel
  • garantálása normalizálással
    (osztás -vel)
  • A két problémát egy lépésben megoldja a softmax
    kombinálás
  • Generatív modellek
  • Nehezebb garantálni, hogy a kimenet szabályos
    suruségfüggvény legyen, így a legjobb eleve
    suruségfüggvényekbol építkezni (pl. normális
    eloszlás) pl. súlyozott összegzéssel (ld.
    korábban)

9
Néhány konkrét modell
  • Gaussian Mixture Modell (GMM)
  • Minden osztályra Gauss-görbék súlyozott összegét
    illeszti
  • A paraméterszám csökkentése érdekében a
    kovarianciamátrixot gyakran diagonálisra
    korlátozzuk
  • Radial Basis Function Network (RBFN)
  • Nagyon hasonlít a GMM-hez
  • Az osztályokhoz hasonló diszkriminánsfügvényeket
    rendel
  • De a Gauss-bázisfügvények nem osztályspecifikusak
    ! (mindegyik szerepel mindegyik gi-ben)
  • Az oszályokat együtt tanítja, nem külön-külön,
    mint a GMM
  • A kimenet nem valószínuségi (pl. negatív
    értékek is lehetnek)

10
Néhány konkrét modell (2)
  • Mesterséges Neuronháló (ANN)
  • Egyetlen neuron (Perceptron)
  • Aktiváció
  • Kimenet oSigmoid(a)
  • Tkp egy hipersíkkal két részre osztja a teret,
    majd 0-1-re küszöböl
  • Logikailag ÉS, VAGY muveleteket tudja
    reprezentálni, XOR-t nem
  • Többrétegu elorecsatolt neuronháló
  • Az alacsonyabb szintek outputjai a magasabb
    szintek inputjai
  • Két réteg tetsz. logikai függvényt meg tud
    tanulni (ld. konjunktív normálforma), vagy konvex
    összefüggo térrészt körül tud zárni
  • Három réteg bármilyen gyakorlati szempontból
    lényeges függvényt tetszoleges pontossággal tud
    közelíteni

11
Néhány konkrét modell (3)
  • Kvadratikus Neuronháló (QNN)
  • Az alsó réteg neuronjaiban lineáris helyett
    kvadratikus kombináció
  • Nagyobb reprezentációs képesség
  • 3 helyett 2 réteg is elég
  • A tanítás jóval bonyolultabb
  • Projection Pursuit Learning (PPL)
  • Alapvetoen az osztályok eloszlását modellezi
  • Kiválaszt p darab aj irányt és veszi a pontok
    erre eso 1D vetületét
  • Ezekre f interpolációs polinomot illeszt
    (egyszeru, mert 1D-ben kell)
  • Majd ezeket súlyozott összegzéssel kombinálja

12
Néhány konkrét modell (4)
  • Support Vector Machine (SVM)
  • Alapvetoen nem valószínuségi modell
  • De azzá teheto a kimenete (ld. pl. szigmoidos
    trükk)
  • Hipersíkkal szeparál
  • Nem kell neki bonyolultabb döntési felület, mert
    nem a felületet görbíti a pontokhoz, hanem a
    pontokat (teret) a felülethez
  • Fontos megjegyzés
  • Az, hogy a modell generatív vagy diszkriminatív,
    az sokkal inkább a tanítási módszeren múlik,
    semmint a modell struktúráján!
  • Azaz a tanítás során az osztályok leírására vagy
    a minél pontosabb osztályozására optimalizáljuk a
    modellt

13
Tanítási módszerek
  • Tanítás a modell paramétereinek beállítása
  • Input felcímkézett példák ltx(n), c(n) gt párok,
    n1,,N
  • A tanításhoz kell egy optimalizálandó
    célfüggvény (mit)
  • Meg egy optimalizáló algoritmus (hogyan)
  • A tanítóhalmazon optimalizáljuk a modell
    muködését
  • Remélve, hogy más, ismeretlen pontokra is jól fog
    általánosítani
  • Generatív modellek tanítása
  • A Maximum Likelihood (ML) kritérium
  • Külön-külön modellezi az osztályok eloszlását,
    azaz p(xci)-t
  • Olyan ? modellt keres, amelyre
  • Az Expectation Maximization algoritmus
  • Egy hatékony megoldás az ML-tanításra
  • Iteratív, lokális optimum megtalálását garantálja

14
Tanítási módszerek (2)
  • Diszkriminatív tanítási kritériumok
  • Mean Squared Error (MSE)
  • Tétel megfelelo beállítások mellett P(cix)
    közelítéséhez vezet!!
  • Minimalizálás tkp. globális optimalizálási
    probléma
  • Lineáris súlyozás esetén pszeudo-inverz
    számítással megoldható
  • zárt képlet, de viszonylag lassú
  • Ha a modellben minden komponens deriválható
    gradient descent algoritmus (legmeredekebb
    csökkentés elve)
  • Iteratív, lokális optimumot talál
  • Speciális eset a neuronhálók backpropagation
    tanítóalgoritmusa
  • Egyéb otpimalizálási módszerek konjugált
    gradiens, Newton, BFGS,

(o a modell kimenete)
15
Tanítási módszerek (3)
  • Maximum Mutual Information (MMI)
  • Az X jellemzovektor és a C osztálycímkék
    kölcsönös információját maximalizálja (ez
    lényegében a címkék entrópiájának csökkenése x
    megismerése után)
  • A tanulópéldákon a célfüggvény
  • Optimalizálás pl. a gradient descent módszerrel
    (pl. neuronhálók)
  • Belátható, hogy megfelelo beállításokkal P(cix)
    közelítéséhez vezet
  • Megegyezik az ún. Minimum Cross Entropy
    kritériummal

16
Tanítási módszerek (4)
  • Minimum Classification Error (MCE)
  • Nagyon gyakorlatias nem foglalkozik a valszámos
    háttérrel
  • Közvetlenül a tévesztések számát igyekszik
    minimalizálni
  • Minimalizálás nem triviális, mert lépcsos
    függvény
  • Folytonossá tétel (hogy deriválni lehessen)
  • sgn közelítése sigmoiddal
  • max közelítése jó nagy a mellett

17
A paraméterszám megválasztása
  • Hány neuron, Gauss, stb. legyen?
  • A gépi tanulás legnehezebb problémája
  • Túl kicsi szabadsági fok a modell nem képes
    tanulni
  • Túl nagy a modell túltanul (magol, nem
    általánosít)
  • Einstein Things should be done as simple as
    possible. But no simpler.
  • Occam-borotva heurisztika általában a
    legegyszerubb muködo magyarázat bizonyul
    helyesnek
  • Ez azonban mindig problémafüggo
  • Így a gyakorlatban általában tapasztalati úton
    lojük be
  • No Free Luch tétel
  • Nincs általános értelemben vett legjobb
    tanulómódszer, minden módszerhez található könnyu
    és nehéz feladatat is!
  • Azért gyakorlati feladattípusok esetén lehet
    olyat mondani, hogy az egyik módszercsalád
    általában jobb rá, mint a másik

18
A jellemzokinyerés
  • A jó jellemzok feladatspecifikusak
  • Elvileg a témában járatos szakérto dolga a
    kiválasztásuk
  • Minél relevánsabb és minél kevesebb jellemzot
    kell keresni
  • A dimenzionalitás átka
  • A nem releváns jellemzok nem csökkentik az
    információtartalmat
  • De nagyon megnehezíthetik az algoritmikus
    modellépítést (tanulást)
  • A jellemzokinyerés gépi támogatása feature
    selection
  • Jellemzo-kiválasztás egy bovebb halmazból
    kiválogatni a fontos jellemzoket
  • Vagy kidobálni a kevésbé fontosakat
  • Kritériumok korreláció, kölcsönös információ,
  • Elvileg minden részhalmazt meg kellene vizsgálni
  • De ez túl sok, inkább mohó algoritmussal,
    egyenként válogatunk

19
Jellemzotér-transzformáció
  • A jellemzokinyerés támogatásának másik módja
  • Úgy igyekszik transzformálni a jellemzoteret,
    hogy azzal segítse az osztályok szétválasztását
  • A kinyert irányok számának korlátozásával a
    jellemzok száma is csökkentheto
  • Lineáris módszerek lineáris transzformációt
    találnak
  • PCA (Principal Component Analysis) olyan
    független irányokat keres, melyek mentén a
    levetített adatok varianciája nagy
  • Felügyelet nélkül, azaz az osztálycímkéket nem
    veszi figyelembe
  • Nagyon sokat segít pl. GMM-es tanulásnál
    diagonális kovarianciamátrix esetén

20
A PCA szemléltetése
21
Az LDA
  • Linear Discriminant Analysis egy másik lineáris
    módszer
  • Az osztálycímkéket is felhasználja
  • Arra törekszik, hogy az osztályok szórása minél
    kisebb legyen, és egyúttal minél távolabb essenek
    egymástól
  • Szemléltetés

22
Nemlineáris módszerek
  • Sokkal radikálisabban képesek vetemíteni a
    teret
  • Háttér a kernel-trükk
  • A skalárszorzat-muvelet lecserélésével az
    algoritmus áthelyezése egy nagyobb szabadsági
    fokot megengedo térbe
  • Többek között az elobb látott PCA és LDA is
    kernelesítheto, nemlineárissá teheto így

23
A Kernel-PCA szemléltetése
24
A Kernel-LDA szemléltetése
25
A Kernel-LDA szemléltetése (2)
Write a Comment
User Comments (0)
About PowerShow.com