Title: K
1Kõnekommunikatsioon ja -tehnoloogia
- Einar Meister
- TTÜ Küberneetika Instituut
- Foneetika ja kõnetehnoloogia labor
- Akadeemia tee 21
- Tallinn 12618
- http//www.phon.ioc.ee
2Teemad
- Kõnekommunikatsioon olemus (produktsioon,
akustika, tajumine) - Keele- ja kõnetehnoloogia
- Kõnesüntees
- Kõnetuvastus
- Kõne andmebaasid
- Kõnelejatuvastus
3Kõnekommunikatsiooni ahel
- Kõneleja mõte i -gt Kõnesignaal -gt Kuulaja
mõte i
Lingvistiline tasand mõtte kujunemine mõtte
keeleline väljendus
SÜNTEES ANALÜÜS
4Definitsioonid
- Foneetika (häälikuõpetus, hääldusõpetus) on
teadus, mis uurib inimkõne üksusi - häälikuid -
artikulatoorsest, akustilisest ja pertseptiivsest
aspektist. - Artikulatoorne foneetika uurib kõneorganite
tegevust kõneloome protsessis. - Akustiline foneetika uurib häälelainet ja selle
vahendusel edastatava suulise kõne üksuste
akustilisi omadusi. - Pertseptiivne e. tajufoneetika uurib häälelainega
edastatavate hääldusüksuste kuuldelise eristamise
ja tajumise (äratundmise) probleeme. - Artikulatoorne, akustiline ja pertseptiivne
foneetika püüavad oma uurimistulemuste abil
selgitada hääldamisliigutuste, akustiliste
tunnuste ja taju vahelisi seoseid.
5Definitsioonid
- Foneetika põhiüksus - häälik - on väikseim
kuuldeliselt eristatav artikulatoorsete ja / või
akustiliste omadustega määratletav kõnesegment. - Häälikute hulk on lõpmatu. Häälikute kvaliteeti
mõjutavad tema positsioon, naaberhäälikud,
kõneleja kõneorganite anatoomia, kõneleja
emotsionaalne seisund. - Häälikuklassi abstraktsioon e. invariantne etalon
on foneem. Foneem on fonoloogia põhiüksus. - Fonoloogia uurib lõplikku hulka (põhimõtteliselt
hääldatavaid) invariantseid üksusi, mis on
piisavad ja tarvilikud uuritavas keeles kõigi
erinevaiks peetavate sõnavormide, fraaside ja
lausete eristamiseks. - Iga foneem realiseerub kõnes mingi häälikuna.
Foneemivariant e. allofoon on foneemi püsivate
tunnuste miinimumkomplekt pluss positsioonist,
häälikümbrusest või kõnelejast tingitud
varieeruvad tunnused.
6Veel foneemi mõistest
- Foneem on abstraktsioon, reaalsuses esineb ta
variantide e. allofoonidena. - Olulisim on foneemi distinktiivne e. tähendust
eristav funktsioon. Erinev foneemikombinatsioon
annab erineva häälikulise vormi, millele saab
anda tähenduse. Foneemil endal ei ole tähendust. - Foneem on ühe häälikuperekonna oluliste e.
relevantsete ühistunnuste miinimumkomplekt, mida
konkreetses häälikümbruses täiendatakse
reduntantsete (liiaste) tunnustega, mis sobitavad
foneemivariandi tema häälikümbrusse. - Foneem on psühholoogiline reaal. Kõneleja ja
kuulaja kas ei märka foneemivariantide erinevusi
üldse või siis ei omista neile erinevustele
mingit tähendust. - Küsimus Mitu foneemi on eesti keeles?
7Kõne produktsioon kõneorganid
kõva suulagi
ninaõõs
pehme suulagi
suuõõs
kõripealis
keel
keeleluu
sõrmuskõhr
kilpkõhr
häälekurrud
hingetoru
söögitoru
rinnak
kopsud
diafragma
8Kõnetrakti piiravad ja muutvad häälduselundid
- 1 huuled, 2 hambad, 3 ülalõualuu, 4
alalõualuu, 5 hambasombud, alveoolid, 6
postalveolaarne häälduskoht, 7 kõva suulagi,
palaatum, 8 pehme suulagi, veelum, 9
kurgunibu, 10 neelu tagasein, 11 kõripealis,
12 - keel, 13 keeletipp, 14 keelelaba, 15
keeleselja eesosa, predorsum, 16 keeleselja
keskosa, mediodorsum, 17 keeleselja tagaosa,
postdorsum, 18 keelejuur, keelepära.
9Hääleallikas
Põhitooni impulsid
Põhitooni periood T0
Põhitooni sagedus F0
F0 1/ T0
10Kõnetrakti mudelid
Allikas - filter mudel
11Kõnetrakti mudelid
Torumudelid
/a/ A1 1 cm2 A2 7 cm2 l1 1 cm
l2 7 cm
/i/ A1 8 cm2 A2 1 cm2 l1 8 cm
l2 1 cm
A1 A2 A3 A4
l1 l2 l3 l4
12Eesti häälikusüsteem
13Eesti häälikusüsteem
- Konsonandid
- (1) - helilised l, r, m, n, h, v, j
- - helitud p, t, k, h, s, š, f, h
- (2) moodustusviis järgi
- - sulghäälikud e. klusiilid k, p, t
- - ninahäälikud e. nasaalid m, n, h
- - ahtushäälikud e. spirandid w, v, f, s, r,
l, j, š, h - (3) moodustuskoha järgi
- - huulhäälikud p, m, v, f, w
- - hammashäälikud t, n, s, r, l
- - suulaehäälikud k, h, j, š
- - kõrihäälik h
14Eesti häälikusüsteem
15Akustiline analüüs
- Analoogsignaali diskreetimine
- diskreetrimissagedus Fd gt 2 Fnyquist
- Fd 48 kHz - professionaalne audio
- 44 kHz - CD mängija
- 22 kHz - multimeedia
- 8-16 kHz - kõne
- resolutsioon 16 bitti (signaal/müra suhe 96 dB)
- 22 bitti (130 dB)
16Kõneanalüüsi põhimeetodid
- Fourier teisendus - FFT, DFT
- Spektraalanalüüs -gt lühiajaline spekter
- -gt pikaajaline spekter
- -gt spektrogramm
- Lineaarne prognoos (linear prediction)
- Kepstraalanalüüs -gt kepster, MFCC
- Formantanalüüs
- Põhitooni analüüs
- Autokorrelatsioon
- Ristkorrelatsioon
- jt
17Kõne akustiline analüüs
18Kõne akustiline analüüs
19Kõne akustiline analüüs
20Kõne akustiline analüüs
21Kõne akustiline analüüs
22Eesti vokaalid hääldusruumis
A. Eek, E. Meister, Acoustics and perception
of Estonian vowel types. - Phonetic Experimental
Research, Institute of Linguistics, University
of Stockholm, PERILUS XVIII, 1994 55-90.
23Kõneanalüüsisüsteemid
- Computerized Speech Lab, Kay Elemetrics Corp.,
USA - Speech Filing System, Mark Huckvale, UCL, UK
- ESPS/Waves, Entropic, UK
- Intelligent Speech Analyzer, Pitchsystems OY,
Soome - SIS, Speech Technology Center, St.Petersburg
- SpeechStation2, Sensimetrics Ltd., USA
- QuickSig, Acoustics Lab, HUT, Soome
- Caesar, Avaaz Ltd., Kanada
- Praat, P.Boersma, Holland
- ....................
24Praat
- DEMO
- Signaalide akustiline analüüs
- Segmenteerimine
- Tunnused F0, intensiivsus, spektrogramm,
formandid, jne.
25Pertseptiivne foneetika
- Pertseptiivne e. tajufoneetika uurib häälelainega
edastatavate hääldusüksuste kuuldelise eristamise
ja tajumise (äratundmise) probleeme. - Eesmärgiks on erinevate kõneüksuste tajumiseks
oluliste tunnuste väljaselgitamine, kõnetaju
iseärasusi arvestavate mudelite loomine kõne- ja
kõnelejatuvastuseks.
26Kõrva ehitus
27Kõrva ehitus
- Teos on basilaarmembraan, kus asuvad fibrillid -
kuulmiskiud e. basilaarkiud (20000 - 24000) - Basilaarmembraani pikkus on 32 mm
- Basilaarmembraanil asetseb Corti organ e.
spiraalelund, mis koosneb mitut liiki
karvarakkudest. Need muudavad basilaarmembraani
mehaanilised võnkumised elektrilisteks
närviimpulssideks, mis teonärvi kiudude kaudu
juhitakse ajukoore kuulmistsentrisse.
28Kuulmise eripärad
- Helinivoo 0 dB - 130 dB
- Kuuldav sageduspiirkond 20 Hz - 20 kHz
- Maskeerimisefekt
- Kriitilised ribad
- Helikõrgus
29Kuulmise eripärad
Samavaljusjooned
30Kuulmise eripärad
Helikõrguse skaalad - Hz - mel-skaala m 2595
log10(1 f/700) m 1000 log2(1
f/1000) -Bark-skaala z 13 arctan(0,00076 f)
3,5 arctan(f / 7500)2 z 26,81 f / (1960
f) 0,53 -ERB-skaala RERB 21,3
log10(1f/228,7)
31Kuulmise eripärad
32Basilaarmembraani mudel
33Valjusspekter ja auditiivne spekter
34Eesti vokaalid tajuruumis
A. Eek, E. Meister, Acoustics and perception
of Estonian vowel types. - Phonetic Experimental
Research, Institute of Linguistics, University
of Stockholm, PERILUS XVIII, 1994 55-90.
35Kategooriline taju
- Eri keeltes on erinev hulk fonoloogilisi
kategooriaid - Lühikese pika hääliku vastandus
- Erinev foneemide hulk, näiteks
- vokaalid eesti 9
- soome 8
- itaalia 7
- poola 6
- tšehhi 5
- creek 3
- Kuidas jaotub vokaaliruum eri keelte korral?
- Turu Ülikooli vokaalitest http//www.utu.fi/hum/fo
netiikka/
36Eesti 9 vokaali
600
2800
F2, Hz
240
800
F1, Hz
37Rootsi 9 vokaali
38Soome 8 vokaali
39Saksa 8 vokaali
40Itaalia 7 vokaali
41Poola 6 vokaali
42Tšehhi 5 vokaali
43Hispaania 5 vokaali
44Tajueksperimendid
- Vältetaju
- Lühikese-pika hääliku taju
45Mis on keeletehnoloogia?
- Keeletehnoloogia on keelealaste teadmiste
rakendamine arvutisüsteemide loomiseks, mis
võimaldavad analüüsida, tuvastada, mõista ja
sünteesida inimkeelt kõigis tema vormides. - KT avardab võimalusi
- inimese ja arvuti vahelise suhtluse
parandamiseks, - informatsiooni paremaks esitamiseks,
kasutamiseks, otsimiseks ja analüüsimiseks, - inimkeele paremaks mõistmiseks ja töötlemiseks.
46KT komponendid
Tehnoloogilised lahendused kõne süntees ja
tuvastus, morfoloogiline, süntaktiline ja
semantiline analüüs, masintõlge,
keeleõppevahendid, jne
Keeleressursid kõne- ja tekstikorpused,
elektroonsed sõnastikud ja andmebaasid,
ressursside loomise ja haldamise vahendid
Teadmised keele ehitusest foneetika,
fonoloogia, morfoloogia, süntaks, semantika,
pragmaatika
47Kõnetehnoloogia
- tehnoloogilised lahendused kõnesignaalide
salvestuseks, töötluseks, analüüsiks, sünteesiks
ja tuvastuseks - kõneressursid (andmebaasid) uuringuteks,
süsteemide treenimiseks ja testimiseks - praktilised rakendused
- kõnesüntees
- kõnetuvastus
- kõne kodeerimine ja edastamine
- keeleõppeprogrammid
- dialoogsüsteemid
- abivahendid puuetega inimestele
- jne.
48Inimene-masin suhtlusvormide areng
Kangid, nupud
49 Hiroya Fujisaki (University of Tokyo) From
mind to mind - the ultimate goal of speech
science and spoken language technology
Estonian Speech Recognition
Tere!
Estonian Speech Synthesis
50Näiteid edukatest rakendustest
- MS Windows XP kõnetuvastus, morfoloogiline
analüüs, grammatikakontroll, peagi tulemas
masintõlge inglise ? hispaania, inglise ?
prantsuse, inglise ? saksa, inglise ? jaapani,
inglise ? hiina, prantsuse ? hispaania, hiina ?
jaapani - Nuance Say Anything tehnoloogia -
kõnetuvastus, loomuliku keele mõistmine,
kõnelejatuvastus, kõnesüntees - dialoogsüsteemide
arendusplatvorm - hulgaliselt edukalt toimivaid
süsteeme kogu maailmas - Scansoft väga hea ingliskeelne kõnesüntees
- Loquendo
- Itaalia raudtee infosüsteem (3500 peatuse
nimetust, 30000 kõnet päevas, 90 päringutest
teostatud automaatselt) - hääleportaalid noorteportaal (muusika, sport -
150000 kõnet päevas), infotelefon (300000 kõnet
päevas) - telefonipangandus
51KT roll infoühiskonnas
- Info- ja kommunikatsioonitehnoloogias
rakendatakse üha enam loomuliku keele liideseid - KT on oma olemuselt keele-spetsiifiline
- KT-küpsed keeled on eelkõige suure kõnelejate
arvuga keeled (gt 50 milj. kõnelejat) - Keelte puhul, mille kõnelejate arv on alla 10
miljoni, on keeletehnoloogia arendustöö
majanduslikult mõttetu - Maailmas on üle 6000 keele, igas kuus hävib kaks
keelt - Keeled, mida Microsoft elektrooniliselt ei toeta,
hakkavad tasapisi välja surema (Microsofti
seisukoht 1998) - IT areng asetab keeled ebavõrdsesse seisu - KT
arendus peaks tagama keeltele võrdsed
kasutusvõimalused - Minevik keeled, millel ei arendatud välja
kirjakeelt, on tänaseks ammu välja surnud - Tulevik keeled, millel puudub arvutitugi, on
kindlasti määratud väljasuremisele
52KT arendus on Eestile oluline
- et tagada eesti keele ja kultuuri kestmine ning
areng - et tagada eesti keelele suurte keeltega võrdsed
kasutusvõimalused IT-keskkonnas - et tõsta Eesti konkurentsivõimet rahvusvahelises
äris - et tõsta Eesti haldussuutlikust Euroopa Liidus
- et arendada kasutajasõbralikke tehnoloogiaid ja
luua innovatiivseid teenuseid - et luua võrdsed võimalused puuetega inimestele
- et