RETI NEURALI - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

RETI NEURALI

Description:

RETI NEURALI Corso di Circuiti e Algoritmi per il Trattamento dei Segnali SISTEMI ADATTATIVI RETI NEURALI Corso di Circuiti e Algoritmi per il Trattamento dei Segnali ... – PowerPoint PPT presentation

Number of Views:410
Avg rating:3.0/5.0
Slides: 24
Provided by: AugustoM
Category:

less

Transcript and Presenter's Notes

Title: RETI NEURALI


1
RETI NEURALI
  • Corso di
  • Circuiti e Algoritmi per il Trattamento dei
    Segnali

2
SISTEMI ADATTATIVI
3
SA-1
INTRODUCONO UN MODO INNOVATIVO DI CONCEPIRE IL
PROGETTO
piuttosto che costruire il sistema con specifiche
stabilite a priori, i dati esterni al sistema
vengono utilizzati per settare i parametri
TRA I DIVERSI SISTEMI ADATTATIVI VI SONO LE RETI
NEURALI
nelle reti neurali supervisionate laddestramento
è condotto utilizzando un training set spesso
costituito dalle coppie di valori dingresso e di
uscita desiderata
4
PROGETTO DI UN SISTEMA ADATTATIVO
SA-2
  • Scelta della topologia
  • Scelta del training set
  • Scelta di un criterio per
  • misurare le prestazioni
  • del sistema
  • Si conoscono topologie in grado
  • di creare mappatori universali
  • Si sanno implementare algoritmi
  • di training

IL CORSO È MIRATO AL TRATTAMENTO DEI SEGNALI CHE
STA ALLA BASE DI MOLTE APPLICAZIONI
INGEGNERISTICHE
  • Modelli lineari
  • Modelli non-lineari
  • Modelli alternativi (es. neurali )

5
MODELLI LINEARI
SA-3
Unalternativa consiste nel fittare i dati con
un modello lineare ?REGRESSIONE LINEARE
  • Raccolta dati
  • devono essere sufficienti
  • devono contenere le informazioni principali
  • devono essere liberi da rumore (tanto più
  • quanto è possibile)

6
SA-4
Problema ricavare w, b affinché la linea di
fittaggio passi il più vicino possibile a tutti i
punti
PROGETTO TRADIZIONALE Metodo dei minimi
quadrati minimizzare la somma dei quadrati degli
scostamenti
CRITERIO DI OTTIMALITÀ errore quadratico medio
(MSE)
N numero dosservazioni
Minimizzazione per via analitica
7
Dimostrazione
SA-5
Si può dimostrare che la linea di regressione
passa per il punto
CENTROIDE DELLE OSSERVAZIONI
8
SA-6
SVANTAGGIO TIME CONSUMING per grossi insiemi
di dati
  • CALCOLO DELLE PRESTAZIONI DEL MODELLO
  • LMSE ha problemi di scala
  • se scaliamo i dati lMSE cambia senza che cambi
    il modo con cui la retta fitta i dati
  • COEFFICIENTE DI CORRELAZIONE r

Allora il numeratore di r è la covarianza delle
due variabili e il denominatore è il prodotto
delle corrispondenti deviazioni standard
? È UNA PROPRIETÀ INSITA NEI DATI
9
SA-7
r 1 correlazione perfetta lineare positiva (x
e d covariano) r -1 correlazione perfetta
lineare negativa r 0 x e d sono scorrelate
r2 rappresenta la quantità di
varianza presente nei dati e catturata da una
regressione lineare ottima
10
PROGETTO ADATTATIVO
SA-8
UN SISTEMA ADATTATIVO ALLENATO SUL TRAINING SET
POSSIEDE CAPACITÀ DI GENERALIZZARE
  • Il progetto di un sistema adattativo
    supervisionato si basa su
  • un sistema con parametri adattativi
  • una risposta desiderata
  • un criterio di ottimalità da minimizzare
  • un metodo per calcolare i parametri ottimi

Nel caso in esame il sistema è lineare con
parametri w,b il criterio di ottimalità è il
MSE. Occorre trovare una procedura sistematica
per la modifica dei parametri. Tale procedura è
una procedura di ricerca del minimo di una
funzione
11
SA-9
Hp b 0 (rimuoviamo le medie di x e d )
La funzione obiettivo o costo è
Nel piano J-w è una parabola e viene chiamata
SUPERFICIE DI PRESTAZIONE
Il gradiente di J è un vettore che punta verso la
direzione di massimo cambiamento e con ampiezza
pari al coefficiente angolare della tangente alla
curva J nel punto considerato
12
METODI DEL GRADIENTE
SA-10
  • Fanno uso delle informazioni relative al
    gradiente.Vantaggi
  • Il gradiente può essere calcolato localmente
  • Il gradiente punta nella direzione di massimo
    cambiamento

METODO DELLA DISCESA PIÙ RIPIDA
La ricerca è condotta nella direzione opposta al
gradiente 1. Calcolare J in un punto iniziale
w(0) 2. Modificare w(0) proporzionalmente al
gradiente negativo 3. Iterare la procedura
precedente
(h piccola costante)
  • Se h è piccolo la procedura converge a w
  • Spesso il gradiente non è noto esplicitamente
  • Metodi di stima del gradiente
  • Widrow (1960) propone un algoritmo basato
    sulluso del valore istantaneo

13
SA-11
METODO LEAST MEAN SQUARE (LMS)
poiché
Cioè si assume di rimuovere la sommatoria e
definire la stima del gradiente al passo k come
il suo valore istantaneo. Il metodo della
discesa più ripida diventa
h STEPSIZE o LEARNING RATE
  • Questo algoritmo effettua laggiornamento del
    peso w campione dopo campione
  • TRADING ON LINE (o sequenziale)
  • EPOCA presentazione dellintero campione degli
    ingressi

14
SA-12
TRAINING BATCH
Si calcolano i valori degli aggiornamenti durante
unepoca, si sommano questi valori e si apporta
la modifica
Vantaggi si segue meglio il gradiente evitando
traiettorie a zig-zag. Facilità di
implementazione in parallelo NOTA è buona norma
rendere random lordine di presentazione del
trainig set da unepoca allaltra Svantaggi
maggior immagazzinamento di dati facilità di
intrappolamento in minimi locali (se esistenti)
VALIDAZIONE / TESTING
  • VALIDATION SET
  • Se il decadimento delle prestazioni è
    inaccettabile è segno che la quantità e qualità
    dei dati nel trainig set è inadeguata

15
SA-13
Coefficiente di correlazione nei sistemi
adattativi
Approssima r anche durante la procedura di
adattamento
CURVA DI LEARNING
h tasso di learning (scelto dal progettista)
  • Se h è troppo piccolo?convergenza lenta
  • Se h è troppo grande ?può divergere
  • Si può cercare un modo per calcolare il massimo
    valore di h che garantisce la convergenza

16
SA-14
WEIGHT TRACK
17
SA-15
  • Nel caso dei metodi steepest-descent, per h
    costante, si ha la convergenza asintotica
  • Si può dimostrare che
  • Nel learning batch si deve usare un valore di
    normalizzato h /N
  • Nel learning on-line (N1) si usa la stima
    istantanea del gradiente che è, quindi, affetta
    da errore. Si deve introdurre un fattore di
    sicurezza. Es h lt h/N
  • Costante di tempo della procedura di adattamento
    (pendenza dellesponenziale decrescente nella
    weight-track)

dopo 4 ? 5 costanti di tempo la procedura di
adattamento può considerarsi conclusa
  • Fenomeno del rattling

Non si arriva a stabilizzare la soluzione ( h
troppo alto)
18
SA-16
Soluzione di compromesso h alto allinizio del
processo iterativo e via via decrescente. Es
( b piccola costante)
Possono essere usati schemi alternativi (regole
geometriche, logaritmiche, etc.)
REGRESSIONE PER VARIABILI MULTIPLE
Sia d funzione di x1 , x2 , . . . , xd
La migliore regressione lineare sarà un
iperpiano di dimensione D. Es D2
In generale
Lobiettivo della regressione è quello di trovare
i pesi w1 , w2 , . . . wd cioè w w1 , w2
, . . . wd che minimizzi lo scarto quadratico
medio (MSE) su tutti gli N punti.

19
PROCESSORE ELEMENTARE
SA-17
Il PE che realizza la regressione lineare è
Analiticamente
con
ADALINE
da cui
Sistema di D1 equazioni normali nelle D1
incognite wk Sono equazioni facilmente risolvibili
20
MATRICE DI AUTO CORRELAZIONE
SA-18
Cross-correlazione dellingresso per lindice j e
la risposta desiderata
Autocorrelazione tra i campioni k e j
Matrice di auocorrelazione
COEFF. DI CORRELAZIONE MULTIPLO rm
Sostituendo nelle equazioni normali
Si ottiene
matrice dei dati di input
con
Soluzione ottima
21
Si può dimostrare che la funzione costo può
essere espressa come
SA-19
Imponendo
già ricavata
Sostituendo w nella J
22
SA-20
METODI DELLA DISCESA PIÙ RIPIDA
METODO LEAST MEAN SQUARE (LMS)
e (k) è lerrore corrente
  • NOTA
  • possono essere utilizzati differenti algoritmi di
    ricerca del minimo quali
  • Newton
  • Quasi-Newton
  • etc.

23
SISTEMA ADATTATIVO
SA-21
  • Non conosciamo la regola per generare d noto x ma
    siamo in grado di misurarli sperimentalmente.
    Vogliamo generare un modello che approssimi bene
    anche in fase di generalizzazione. Per fare ciò
  • I dati del training devono coprire bene tutta la
    casistica
  • Ci devono essere sufficienti dati nel training
    set
  • Il coefficiente rm deve essere prossimo allunità
Write a Comment
User Comments (0)
About PowerShow.com