Title: Besz
1Beszéd alapfrekvencia meghatározása- Pitch
detektor algoritmusok -
Beszédfelismerés és szintézis- eloadás -2007.
március 8.
Bárdi Tamás
Pázmány Péter Katolikus Egyetem, Információs
Technológia Kar
2Mi az alapfrekvencia ?
Alapfrekvencia a hangszalagok pillanatnyi
rezgésszámaSzokásos jelölése F0
3Gerjesztés típusok a beszédben
Alapfrekvenciát csak akkor értelmezünk,ha zöngés
(kváziperiodikus) gerjesztés jelen van a
beszédben.
4Pitch is....that attribute of auditory
sensation in terms of which sounds may be ordered
on a musical scale(American Standards
Association, 1960 cited in Moore, 1997)
What is the definition of pitch?
Vagyis - a pitch (hangmagasság) érzeti
mennyiség - az alapfrekvencia (F0) fizikai
mennyiség
5Tones that have the same repetition rate tend to
have the same pitch
Frequency
Time
6Melyik hang alapfrekvenciája nagyobb?
7Miért érdekes az alapfrekvencia?
A hangmagasság változásai a beszédben nyelvi,
érzelmi, hangulati, stb. jelentést
hordoznak.Illusztráció egy rövid beszédfelvétel
a pitch kontúrjával.
8Pitch kontúr eloállítása
- Fo részfeladatok - F0 becslése, - zöngésség
megállapítása - PDA Pitch Detector AlgorithmOlyan algoritmus,
amely a beszédjelbol a fenti értelemben vett
pitch kontúrt képes eloállítani. - VDA Voicing Detection AlgorithmA PDA-nak az a
része, amely a zöngés/zöngétlen szakaszok
megkülönböztetéséért felelos
9Pitch detektorok alkalmazásai
- Low-bitrate speech coding pitch adaptive (pl.
GSM) - Speech Synthesis processing unit inventories
- Linguistic analysis, prosody processing
- Music auto-scoring, editing, midi conversion
10Hogyan áll össze egy pitch kontúr
Haladunk ablakról ablakra - mindegyikre adunk
egy alapfrekvencia becslést - tipikus hossz
20 40 ms - tipikus lépésköz 10 ms -
általában átfedik egymást
11Algoritmusok ACF
Auto Correlation Function (autokorreláció
függvény)
s(t) a beszédjelw az elemzett ablak hossza
12Csúcs kiválasztás ACF-en
Az elemzett beszédablak
Csúcskeresés az ACF-en
13Detekciós hiba lehetoségek
- Nagy hibák oktáv vagy még nagyobb tévesztés az
alapfrekvenciában.Jellemzoen a gyorsan halkuló
vagy hangosodó szakaszokon fordul elo, leginkább
szó elején vagy végén. - Kis hibák apróbb pontatlanságok az
alapfrekvenciában.Jellemzoen a vegyes
gerjesztésu hangoknál fordul elo (zöngés
mássalhangzók) - Zöngés-zöngétlen tévesztés jellemzoen ez is a
vegyes gerjesztésu hangoknál.
14Examples for ACF
15Algoritmusok ASDF
Average Squared Difference Function
s(t) a beszédjelw az elemzett ablak hossza
16Examples for ASDF
17Algoritmusok AMDF
Average Magnitude Difference Function
s(t) a beszédjelw az elemzett ablak hossza
18Algoritmusok Cepstrum
Homomorph analysis
CEPSTRUM(x) IFFT(LOG(FFT(x)))
19Algoritmusok LPC
- Csúcsokat keresünk az LPC hibajelben- ezt
pitch-mark kijelölésnek is hívják
20F0 contour with ACF method
Applying ACF directly on speech signal
Preproc.
21A beszédjel célszeru torzításával csökkenthetjük
a hibák arányát
My preprocessor is a combination of low-pass
filtering and center clipping.
22A Preprocesszor (1)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
23A Preprocesszor (2)
A szurt jel és a középre vágási szint (center
clip level)- a burkoló 40-a
24A Preprocesszor (3)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
25A Preprocesszor (4)
Hangzó illusztráció (s, sz, c eltunik)
26F0 contour with ACF method
Applying ACF after preprocessing the speech
signal
Original
27Egy összetett Pitch Detektor struktúrája
Bemeno beszédjel
Preprocesszor
Meghallgatható
Ablakozás
Basic Extractor- ACF számítása és elemzése -
F0 becslés
V/UV döntés
Pitch kontúr
28A kiértékelés adatbázisa
Pitch detektor algoritmusok kiértékelésére olyan
beszéd adatbázisokat lehet használni, melyekben a
zöngés-zöngétlen szakaszok ill. az alapfrekvencia
értékek címkézve vannak. A címkézés automatikussá
vagy fél-automatikussá teheto laryngográf jel
felvételével.
Database 1 Keele Pitch Database Georg
Meyer Keele University
Database 2 FDA Evaluation Database Paul
Bagshow al. Centre for Speech Technology
Research, University of Edinburgh
29Beszédfelvétel és laryngográf jel
30Zöngés-zöngétlen átmenet
31Zöngés-zöngétlen átmenet
32Optimization on the database
Expected decision error rate in terms of the
threshold
After preprocessor
Without preprocessor
33Zöngés/zöngétlen megkülönböztetés
A basic extractor-ban kiválasztott csúcs nagysága
és a beszédablak energiája szolgál döntési
paraméterként.Mindkettot egy-egy küszöbbel
hasonlítjuk össze.
A tévesztési arány keresztkiértékeléssel 2.1
34Összehasonlítás
Bagshaw (1993)
35Rekedt beszédhang pitch kontúrja
36Hangmagasság módosítása
Pitch-Synchronous Overlap-Add (PSOLA) on LPC
residual
eredeti
80
125
167
200
37Köszönöm a figyelmet