Title: Neurale Netwerken
1Neurale Netwerken
- Kunstmatige Intelligentie
- Rijksuniversiteit Groningen
April 2005
2hc 3
- herhaling hc 2
- de delta regel
- begin hc4
- boek H3, H4, H5 en 6.1
3overzicht
- herhaling TLUs trainen H3 en 4
- de delta regel H5
- de sigmoid transfer function
- inleiding multilayer nets en 6.1
backpropagation
4een TLU met 2 inputs, 1 output
51 TLU trainen (2 inputs, 1 output)
- ordening patterns en opsplitsen in
- trainingset p1, ..., pn en testset pn 1,
..., pm - training set van patterns p1, ..., pn, pi
(xi1, xi2, ti) - voor elk pattern pi gewichten aanpassen
- dmv. error estimate (ti yi)
- yi is de output die de TLU geeft
- ti is wat de output zou moeten zijn
- test set van patterns pn 1, ..., pm
- error op de test set is de prestatie maat
- testen gebeurt na elk epoch
6the augmented weight vector
y 1 if w x gt T y 0 if w x lt T w
x T decision hyperplane T kun je zien als
extra gewicht met vaste input -1 y 1 if w x
gt 0 y 0 if w x lt 0 w x 0 decision
hyperplane
7Perceptron Training Rule
- w w av w w av
- t y
- w w a(t y)v 1 1
- 1 0
- 0 1
- 0 0
- ?w a(t y)v
- vector components
- i 1 t/m (n 1) ?wi a(t y)vi
- w (w1, w2, ..., wn, ?)
- v (v1, v2, ..., vn, -1)
8the perceptron training algorithm boek p. 34
- repeat
- for each training vector pair (v, t)
- update weight vector w
- end for loop
- until y t for all input vectors
9the perceptron training algorithm boek p. 34
- repeat
- for each training vector pair (v, t)
- evaluate the output y when v is input to the
TLU - if y ? t then
- form new weight vector w according to (4.4)
- else
- do nothing
- end if
- end for loop
- until y t for all input vectors
- (4.4) w w a(t y)v
- Perceptron Convergence Theorem
- Als twee klasses lineair scheidbaar zijn zal
het toepassen van bovenstaand algoritme leiden
tot een decision hyperplane dat de twee klasses
van elkaar scheidt. bewezen door Rosenblatt
(1962)
10niet-lineair scheidbare klasses
neuron 1 zegt AB, neuron 2 zegt AD tabel 4.2 kan
alleen als de input van klasse A is dit gaat ook
op voor klasse B, C en D decoderen tabel 4.3
11(No Transcript)
12overzicht
- herhaling TLUs trainen H3 en 4
- de delta regel H5
- de sigmoid transfer function
- inleiding multilayer nets en 6.1
backpropagation
13de delta regel
- train het netwerk zonder a priori kennis
- (zonder zelf de gewichten in te stellen)
- de perceptron regel (eq. 4.4) is hiervoor niet
geschikt - vandaar de delta regel...
14gradient descent
15formules
- In het boek worden formules opgesteld via
tussenstappen. Bij het tentamen hebben we alleen
de eindproducten nodig. - Die krijg je erbij, maar je wordt wel getoetst
op je begrip van de formules. - Deze formule-kaart wordt op de website
ge-update, bij het tentamen zal een uitdraai van
de laatste versie uitrgedeeld worden.
16E f(w)
true error E batch learning langzaam!
17pattern training (sequential ipv. batch)
- error estimate ep
- sequential learning
- snel, schatting
delta regel w convergeert naar w0, E(w0) is een
minimum bij niet lineair scheidbare problemen
geeft w0 het beste decision hyperplane perceptron
regel w blijft oscilleren perceptron rule is
afgeleid van hyperplane manipulation delta regel
van gradient descent op de kwadratische fout
18the delta rule training algorithm boek p. 59
- repeat
- for each training vector pair (v, t)
- evaluate activation a when v is input to the
TLU - adjust each of the weights according to (5.13)
- end for loop
- until the rate of change of the error is
sufficiently small - .
19tabel 5.1 in het boek, logical AND operator
w1 w2 ? x1 x2 a t ad dw1 dw2 d?
0,00 0,40 0,30 0 0 -0,30 -1,00 -0,17 -0,00 -0,00 0,17
0,00 0,40 0,48 0 1 -0,08 -1,00 -0,23 -0,00 -0,23 0,23
...
20overzicht
- herhaling TLUs trainen H3 en 4
- de delta regel H5
- de sigmoid transfer function
- inleiding multilayer nets en 6.1
backpropagation
21de sigmoid transfer functie
0,25
22s(a) Is het grootst rond a 0, dan zijn de
aanpassingen aan de gewichtsvector ook het
grootst.
uitbreiding van één TLU naar een single layer
netwerk
input pattern index p neuron index
j gewichts/input index i
23batch learning, echte gradient decent sequential
learning, a 0,25 sequential learning, a
0,6 sequential learning, a 1,6
24overzicht
- herhaling TLUs trainen H3 en 4
- de delta regel H5
- de sigmoid transfer function
- inleiding multilayer nets en 6.1
backpropagation
25multilayer nets en backpropagation
- gradient descent op error E(w)
- sequential learning (pattern mode of training)
- outputs worden vergeleken met targets
- probleem geen targets voor hidden neurons
- credit assignment problem
26de gegeneraliseerde delta regel
input pattern index p neuron index k,
j gewichts/input index i
Ik de verzameling van neuronen die de output van
neuron k als input hebben
27forward pass, backward pass
forward pass output doorgeven aan de volgende
laag backward pass dj teruggeven aan de vorige
laag
28x1 x2 t
p1 1 1 0
p2 1 0 1
p3 0 1 1
p4 0 0 0
XOR probleem niet lineair scheidbaar, niet op te
lossen door single layer net
29