Besz - PowerPoint PPT Presentation

About This Presentation
Title:

Besz

Description:

Title: Voicing detection and pitch frequency estimation from speech signals Author: B rdi Tam s Last modified by: Tak cs Gy rgy Created Date – PowerPoint PPT presentation

Number of Views:66
Avg rating:3.0/5.0
Slides: 38
Provided by: B305
Category:
Tags: besz | detection | music | pitch

less

Transcript and Presenter's Notes

Title: Besz


1
Beszéd alapfrekvencia meghatározása- Pitch
detektor algoritmusok -
Beszédfelismerés és szintézis- eloadás -2007.
március 8.
Bárdi Tamás
Pázmány Péter Katolikus Egyetem, Információs
Technológia Kar
2
Mi az alapfrekvencia ?
Alapfrekvencia a hangszalagok pillanatnyi
rezgésszámaSzokásos jelölése F0
3
Gerjesztés típusok a beszédben
Alapfrekvenciát csak akkor értelmezünk,ha zöngés
(kváziperiodikus) gerjesztés jelen van a
beszédben.
4
Pitch is....that attribute of auditory
sensation in terms of which sounds may be ordered
on a musical scale(American Standards
Association, 1960 cited in Moore, 1997)
What is the definition of pitch?
Vagyis - a pitch (hangmagasság) érzeti
mennyiség - az alapfrekvencia (F0) fizikai
mennyiség
5
Tones that have the same repetition rate tend to
have the same pitch
Frequency
Time
6
Melyik hang alapfrekvenciája nagyobb?
7
Miért érdekes az alapfrekvencia?
A hangmagasság változásai a beszédben nyelvi,
érzelmi, hangulati, stb. jelentést
hordoznak.Illusztráció egy rövid beszédfelvétel
a pitch kontúrjával.
8
Pitch kontúr eloállítása
  • Fo részfeladatok - F0 becslése, - zöngésség
    megállapítása
  • PDA Pitch Detector AlgorithmOlyan algoritmus,
    amely a beszédjelbol a fenti értelemben vett
    pitch kontúrt képes eloállítani.
  • VDA Voicing Detection AlgorithmA PDA-nak az a
    része, amely a zöngés/zöngétlen szakaszok
    megkülönböztetéséért felelos

9
Pitch detektorok alkalmazásai
  • Low-bitrate speech coding pitch adaptive (pl.
    GSM)
  • Speech Synthesis processing unit inventories
  • Linguistic analysis, prosody processing
  • Music auto-scoring, editing, midi conversion

10
Hogyan áll össze egy pitch kontúr
Haladunk ablakról ablakra - mindegyikre adunk
egy alapfrekvencia becslést - tipikus hossz
20 40 ms - tipikus lépésköz 10 ms -
általában átfedik egymást
11
Algoritmusok ACF
Auto Correlation Function (autokorreláció
függvény)
s(t) a beszédjelw az elemzett ablak hossza
12
Csúcs kiválasztás ACF-en
Az elemzett beszédablak
Csúcskeresés az ACF-en
13
Detekciós hiba lehetoségek
  • Nagy hibák oktáv vagy még nagyobb tévesztés az
    alapfrekvenciában.Jellemzoen a gyorsan halkuló
    vagy hangosodó szakaszokon fordul elo, leginkább
    szó elején vagy végén.
  • Kis hibák apróbb pontatlanságok az
    alapfrekvenciában.Jellemzoen a vegyes
    gerjesztésu hangoknál fordul elo (zöngés
    mássalhangzók)
  • Zöngés-zöngétlen tévesztés jellemzoen ez is a
    vegyes gerjesztésu hangoknál.

14
Examples for ACF
15
Algoritmusok ASDF
Average Squared Difference Function
s(t) a beszédjelw az elemzett ablak hossza
16
Examples for ASDF
17
Algoritmusok AMDF
Average Magnitude Difference Function
s(t) a beszédjelw az elemzett ablak hossza
18
Algoritmusok Cepstrum
Homomorph analysis
CEPSTRUM(x) IFFT(LOG(FFT(x)))
19
Algoritmusok LPC
  • Csúcsokat keresünk az LPC hibajelben- ezt
    pitch-mark kijelölésnek is hívják

20
F0 contour with ACF method
Applying ACF directly on speech signal
Preproc.
21
A beszédjel célszeru torzításával csökkenthetjük
a hibák arányát
My preprocessor is a combination of low-pass
filtering and center clipping.
22
A Preprocesszor (1)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
23
A Preprocesszor (2)
A szurt jel és a középre vágási szint (center
clip level)- a burkoló 40-a
24
A Preprocesszor (3)
Az eredeti beszédjel a burkolójával, valamint a
beszédjel alul-átereszto szurés után
25
A Preprocesszor (4)
Hangzó illusztráció (s, sz, c eltunik)
26
F0 contour with ACF method
Applying ACF after preprocessing the speech
signal
Original
27
Egy összetett Pitch Detektor struktúrája
Bemeno beszédjel
Preprocesszor
Meghallgatható
Ablakozás
Basic Extractor- ACF számítása és elemzése -
F0 becslés
V/UV döntés

Pitch kontúr
28
A kiértékelés adatbázisa
Pitch detektor algoritmusok kiértékelésére olyan
beszéd adatbázisokat lehet használni, melyekben a
zöngés-zöngétlen szakaszok ill. az alapfrekvencia
értékek címkézve vannak. A címkézés automatikussá
vagy fél-automatikussá teheto laryngográf jel
felvételével.
Database 1 Keele Pitch Database Georg
Meyer Keele University
Database 2 FDA Evaluation Database Paul
Bagshow al. Centre for Speech Technology
Research, University of Edinburgh
29
Beszédfelvétel és laryngográf jel
30
Zöngés-zöngétlen átmenet
31
Zöngés-zöngétlen átmenet
32
Optimization on the database
Expected decision error rate in terms of the
threshold
After preprocessor
Without preprocessor
33
Zöngés/zöngétlen megkülönböztetés
A basic extractor-ban kiválasztott csúcs nagysága
és a beszédablak energiája szolgál döntési
paraméterként.Mindkettot egy-egy küszöbbel
hasonlítjuk össze.
A tévesztési arány keresztkiértékeléssel 2.1
34
Összehasonlítás
Bagshaw (1993)
35
Rekedt beszédhang pitch kontúrja
36
Hangmagasság módosítása
Pitch-Synchronous Overlap-Add (PSOLA) on LPC
residual
eredeti
80
125
167
200
37
Köszönöm a figyelmet
Write a Comment
User Comments (0)
About PowerShow.com