Perception Cat - PowerPoint PPT Presentation

About This Presentation
Title:

Perception Cat

Description:

... Les donn es recueillies sont quantitatives et ... A computational analysis of uniqueness points in ... Data from stimulation of the left primary ... – PowerPoint PPT presentation

Number of Views:91
Avg rating:3.0/5.0
Slides: 71
Provided by: Pierr5
Category:

less

Transcript and Presenter's Notes

Title: Perception Cat


1
Introduction à la psycholinguistique
Introduction générale Juan Segui Perception
de la parole 1 Pierre Hallénotions de base,
étapes prélexicales Perception de la parole 2
"accès lexical segmentation, parallélisme
Perception de la parole 3 "traitement des
variations, Interactions orthographe x phonologie
CogMaster mardi 11 octobre 2011
2
outline reprise Categorical perception Is
speech special? . 5 segmentation
18 MSS (anglais)
marqueurs prosodiques/syntaxiques (français)
données empiriques sur la sélection au cours du
temps, . 33traitements parallèle, effets de
compétition modèles - Cohort
43- TRACE
55 - Shortlist
. 59 extras
65a case study the
"Christmas capes and foolish tapes" saga
3
Rappel "Perception Catégorielle"
point essentiel bonne discrimination entre
catégories, mauvaise discrimination au sein
dune catégorie gt notion centrale de frontière
catégorielle.
PC pour les différents types de sons
Consonnes - occlusives très catégoriel -
fricatives et glides moins catégoriel
Voyelles typiquement perception continue
plutôt que catégorielle / sensibilité au
contexte Tons (ex. chinois) semblable aux
voyelles
4
Voyelles(e.g., /a/-/?/)
Occlusives(e.g., /d/-/g/)
Pisoni (1973)
5
Deux théories opposées
(A) années 60-80 (Haskins) "speech is special"
sons de parole traités par un module
phonétique distinct PC pour speech-like
stimuli e.g., continuums comme ba-da-ga
pas de PC pour nonspeech stimuli e.g.,
transitions F3 isolées effet duplex
(Mattingly et al., 1971 Liberman Mattingly,
1989) gt théorie motrice de la perception
(Liberman et al., 1967, 1985) nous percevons
lintention phonétique, pas le résultat
acoustique (B) années 70-90 (Pisoni, Kluender)
"general auditory mechanisms" mêmes
mécanismes pour ba-ga et porte qui claque
PC non spécifique à lhomme, ni aux sons de
parole (TOTs, chords) non-linéarités du
système auditif gt catégories naturelles
catégories phonétiques universelles
non-spécifiques à la parole (Miller et al.,
1976 contrepartie production Stevens, 1989,
théorie quantale)
6
(chinchillas) Kuhl Miller (1978). JASA, 63,
905-917
7
(rhesus monkeysmacaques) Kuhl Padden (1983).
JASA, 73, 1003-1010
8
Speech is special duplex perception
isolated transitions percept "chirp" isolated
"base" perceptambiguous syllable combined
dichotically gt two sources perceived
integrated percept for one source, chirp for the
other
gt distinct general auditory and speech modules?
9
Speech is special duplex perception
continuum /da/-/ga/ (Mann Liberman, 1983)
PC
PC
pas de PC
10
Arguments pour la théorie motrice
écoute gt activité EMG
lécoute passive de parole (mots ou pseudo-mots)
induit une excitabilité des muscles impliqués
dans sa production. technique TMS sur aires
motrices EMG muscle(s) impliqué(s) ici,
muscles commandant la pointe de la langue pour
/rr/ (italien) Exemples birra vs. baffo
(W)berro vs. biffo (NW)
rr
rr
ff
ff
Fadiga et al. (2002)
11
Arguments pour la théorie motrice
listening to speech vs. noise looking at lips
vs. eyes TMS EMG of orbicularis oris
Motor excitability during speech perception. (A)
Data from stimulation of the left primary motor
face area in a single subject when listening to
speech, listening to non-verbal sounds, viewing
speech and viewing eye movements. EMG recordings
from individual trials are superimposed and the
dotted line indicates the time of TMS
stimulation. (B) Average MEP sizes for the same 4
stimulus conditions with stimulation to the left
hemisphere face area, right face area and hand
area of motor cortex. (Watkins et al., 2003)
12
Speech is special cross-linguistic perception
(américains)
/b/
/p/
20ms
(thai)
ph
p
b
45ms
-10ms
(Abramson Lisker 1970)
VOTgt
13
AXB discrimination by Chinese vs. French listeners
14
Prototypes de catégories
(une autre façon de comprendre la perception
catégorielle ?) L'emphase est sur les prototypes
("bons exemplaires") de catégories plutôt que sur
les frontières entre catégories Les catégories
ont une structure interne centrées sur un
prototype qui distord localement lespace
perceptif magnet effect moins grande
sensibilité autour des prototypes Lappartenance
d'un son à une catégorie nest plus binaire mais
graduée, quantifiée par la similarité
(acoustique ?, articulatoire ?) entre ce son et
le prototype de la catégorie. L'effet magnet est
compatible avec le point central de la PC
"meilleure discrimination inter- que
intra-catégorielle" gt la notion de catégorie
n'est pas remise en cause
15
Magnet effect
easy discrimination
non prototype
prototype
difficult discrimination
16
shrinking of perceptual distances around
prototypes
/la/
physical distances
/ra/
perceived distances (from ratings on all pairs
and MDS)
Iverson Kuhl (1996). JASA, 99, 1130-40
17
Les grandes questions
unités prélexicales non séquentialité et
variabilité, mais percepts stables mécanismes
d'identification et de classification PC,
prototypes
mots absence de frontières claires entre mots,
plus problèmes du décours temporel, et de la
variabilité. Mais mots reconnus quels
mécanismes d'accès, quelles représentations ?
18
questions essentielles pour l'accès au lexique
  • La segmentation de la parole continue en mots
  • - pré-lexicale ? Donc induite par des indices
    dans le signal- sous-produit de la
    reconnaissance des mots ?
  • (2) La reconnaissance proprement dite des mots
    (étapes proposées par Frauenfelder Tyler,
    1987)
  • (a) contact initial (input-form lt--gt lexical
    form gt hypotheses) (b) sélection (best match,
    threshold match gt select one entry) (c)
    intégration (access to lexical entry information)
  • (3) Les (possibles) interactions entre niveau
    lexical et niveaux supérieurs (syntaxique,
    sémantique, pragmatique) ou "inférieurs"
    (sub-lexicaux)

19
Problème des frontières peu de marques fiables
On peut identifier des évènements (explosion,
silence...) qui peuvent marquer des frontières
entre sons. Mais ils marquent rarement des
frontières de mots
20
arguments pour segmentation donnée par le signal
Anne Cutler distingue "explicit" et
"serendipitous" segmentation. - serendipitous
by-product of word recognition (i.e., something
accidentally discovered) - explicit ?
(explicit) mechanism(s) for the location of word
boundaries.
arguments généraux pour explicit segmentation
- explication simple du "bootstrap lexical"
(nécessaire continuité entre l'enfant et
l'adulte) (cf. Mehler, Dupoux, Segui, 1990) -
ou du problème des mots enchâssés (cat in
catalog, sack in sacrifice, bone in trombone)
En anglais MSS (metrical segmentation
strategy) la plupart des mots anglais commencent
par une syllabe forte (Cutler Carter, 1987) gt
strategy strong syllable word onset
21
arguments pour MSS
tâche de word spotting (McQueen, Norris,
Cutler, 1994) MESS détecté plus facilement dans
neMESS n?'m?s que dans MESStem 'm?st?m SACK
dans kleSAK kl?'sæk que SAKrek
'sæk??k interprétation frontière de mot
entre sylllabe 1 et 2 pour neMESSgt match
parfait avec MESS placée en onset de
syllabe 1 pour MESStemgt reste à extraire MESS
de MESStem MESS plus difficile à détecter dans
deMESS que neMESS - interprétation compétition
entre demess et domestic (aussi sackref et
sacrifice)
WS gt SW
22
McQueen, Norris, Cutler (1994), JEPLMC,
20(3), 621-638
23
arguments pour MSS
"slips of the ear" erreurs de
segmentation gt (souvent) frontière de mot sur
syllabe forte ex. by loose analogy heard asgt
by Luce and allergy how big is it? gt how
bigoted? MINTAYVE vs. MINTesh (word spotting
Cutler Norris, 1988) MINT détecté plus
facilement dans (1) MINTesh 'mint?? que (2)
MINTAYVE 'min'te?v (1st vs. both syllables
stressed) proposition (2) est segmenté en 2
éléments MIN et TAYVE qu'il faut recomposer pour
trouver MINT (1) n'est pas segmenté. mais
dans (1), il faut quand-même extraire MINT de
MINTesh
WS gt SS
24
Figure 1. Mean word detection response times
(milliseconds) for SS (two strong syllables) and
SW (strong first, weak second syllable) items,
Experiment 1. (Cutler Norris, 1988)
25
Les indices prosodiques aident ou non la
segmentation
indices prosodiques gt frontières des
groupements prosodiques intonational phrase gt
phonological phrase gt prosodic word (the little
dogpp was running fastpp)IP, (I could hardly
see itpp)IP
phonological phrase D'après ma soeur, 1. le
gros chat grimpait aux arbres 2. le gros
chat dressait l'oreille - pas d'effet
d'ambiguité locale - interprétation indices
suffisants pour isoler les groupes, donc le mot
"chat" de la suite gt la compétition entre "chat"
et "chagrin" est résolue. quels indices
? allongement final net pour PP F0 resetting
pour PP, pas pour PW
prosodic word Le livre racontait l'histoire
1. d'un grand chat grincheuxqui 2. d'un
grand chat droguéqui (chagrin vs.
chadr) effet d'ambiguité locale détection de
"chat" plus difficile en (1) - interprétation
compétition entre mot enchâssé et mot enchâssant
non résolue indices insuffisants
(word monitoring)
26
Les indices prosodiques aident ou non la
segmentation
prosodic word
(1)
(2)
phonological phrase
(2)
(1)
Christophe et al. (2004). JML, 51
27
Les "mots vides" aident la segmentation
(Christophe et al., 1997)
mots vides articles, prépositions, etc.
statut particulier des articles ils "marquent"
le mot suivant
détection de phonème (1) en début de mot vs. (2)
généralisée idée si frontières de mot
disponibles à partir de la reconnaissance de mot,
(1) demande plus de calcul que (2) gt RTs plus
longs pour (1) que (2) résultat on trouve (1) gt
(2) pour /g/ dans pas gracieux pas pour /f/
dans un fou larmoyant proposition l'article
"un" permet de postuler une frontière de mot
après lui.
28
other prelexical infos for 'explicit segmentation'
1) Niveau phonémique - régularités
phonotactiques (e.g., (Fr) /-?f-/ gt /-?f-/) 2)
Niveau phonético-acoustique - indices de durées
(e.g., mati vs. mati) - autres indices
prosodiques (e.g., stress gt MSS anglais) -
cohésion perceptive (perceptual grouping)
indices articulatoires/prosodiques de cohésion
par exemple, degré de coarticulation ou pattern
métrique en français, un rythme iambique
(court-long) est cohésif "cerceau" davantage
activé par /s?r.s o/ que par /s ? r.so/ gt aide
à résoudre mots enchâssés serre seau vs.
cerceau 3) Probabilités de transition
29
word segmentation based on detection of recurrent
patterns
Saffran et al. 1996 learning "words" from a
stream of syllables with manipulation of syllable
transition probabilities (TPs)
S-words S2S3S4 S5S6S7 defined by TP "dips"
S1 S2 S3 S4 S5 S6 S7
.3 .7 .7 .3 .7 . 7
.3
bidakupadotigolabubidakugolabubidakupadoti
Both 8-month-olds (HPP) and adults
(forced-choice) succeed in "segmenting" S-words
(e.g., golabu gtgt dakugo) they have learned
S2S3S4 rather than e.g. S4S5S6
30
Consonant-vowel asymmetry
Elaboration TPs between Cs or between Vs
(Bonatti et al. 2005)
C-words p_r_g_ b_d_k_ m_l_t_
success (87.7 gt chance)
V-words _?_i_a _o_?_y _u_e_?_
failure (54.2 chance)
31
click detection within vs. between words
in syllable streams inducing statistical-learnin
g of words, faster RTs to clicks appearing
between than within words, from minute3 on. gt
Suggests listeners do segment the stream into
words after 2 mn.
pabudagifotominaropabuda
Gomez, Bion, Mehler (2011), LCP, 26, 212-223
32
Décours temporel continuité, parallélisme et
compétition
traitement continu gt traitement effectué au
fur et à mesure de la disponibilité de
linformation en input traitement continu
plutôt que par étapes sérielles (?production, cf.
cours Segui). hypothèses concurrentes en
parallèle (gt compétition) gt plusieurs
hypothèses en parallèle pour (1) le découpage
des énoncés et (2) lappariement des morceaux
avec des mots en compétition gt Traitement
continu, parallèle avec compétition
tolérance aux variations (cours
suivant) tolérance au mismatch mais critères
dappariement suffisamment stricts pour ne pas
confondre les mots proches (e.g., bain ?
pain). gt flexibilité relative
33
Données empiriques
continuité le traitement commence avant la fin
des mots(Marslen-Wilson 1987) amorçage
sémantique inter-modal Cible visuelle
présentée plus ou moins tard dans le mot - au
son /r/ ou au dernier son (/l/ ou
/s/). Résultats - en /r/, les 2 mots army
et gift sont activés- en /l/ ou /s/, seul
army ou gift reste activé Conclusion (1)
un traitement qui va jusquau niveau sémantique
est effectué pour tous les mots compatibles avec
linput en t lt fin (2) la réponse à la cible
présentée au moment t nintègre que les infos
reçues jusquau temps t.
34
paradigme expérimental priming sémantique
inter-modal
amorces (primes) auditives, cibles (targets,
probes) visuelles. timing t0 présentation
amorce ttc prés. cible réponse tâche
le plus souvent, décision lexicale sur la
cible design paires amorcecible reliées
(association sémantique) ou non exemple
papierCRAYON ou chaussureCRAYON- une moitié
des sujets voit CRAYON précédé de papier-
lautre moitié voit CRAYON précédé de
chaussure. effet damorçage DRT entre relié et
non-relié pour chaque cible Convention de
noatation X gt Y pour X "facilite" Y
35
Données empiriques (suite)
le traitement commence avant la fin des
mots (Zwitserlood, 1989) données semblables à
Marslen-Wilson (1987)
primes kapitein et kapitaal (présentés tronqués
de kap à kapit(e/a)) targets SCHIP et GELD
présentés à l'offset des primes 4 durées de
fragments G1 à G4 (divers contextes
neutres) résultats G1-2 facilitation de GELD
et SCHIPG3-4 G(kapitaal) facilite GELD
mais pas SCHIP
amorce kapitaal
non-relié
SCHIP
GELD/SCHIP
GELD
G1 G2 G3 G4kap kapi
kapit kapitaa
36
Données empiriques (suite)
activations multiples en parallèle (1) gener
gt ARMY, GIFT kapi gt GELD, SCHIP (2)
mots enchâssants ou enchâssés - two lips gt
FLOWER, MOUTH (Gow Gordon, 1995) - trombone
gt RIB (ass. à bone) (Shillcock, 1990) NB.
quelques restrictions priming pour
enchâssement en début de non-mot, pas de mot
le mot enchâssant finit par lemporter sur
lenchâssé gt enchâssé en début de mot désactivé
plus rapidement que enchâssé en fin de
mot. (e.g., SACK plus difficile à détecter dans
SAKref 'sæk??f que dans SAKrek 'sæk??k car
compétition entre 'sack' et 'sacrifice')
37
Eye Tracking
Enregistrement on-line des mouvements
oculaires en lecture face à une scène
visuelle face à une grille d'images
  • Indices temporels sur le balayage oculaire
  • Ce qui est regardé, comment (fixations /
    saccades), combien de temps
  • Les retours en arrière (régressions)

38
Procédure "visual word"
Le "visual world paradigm" (Tanenhaus) permet de
déterminer on-line ce que le sujet regarde en
fonction de ce quil entend.
39
Procédure "visual word"
Présentation auditive de candle
40
Données empiriques (suite)
compétition entre candidats multiples activés
en parallèle activations multiples en parallèle
hypothèses entretenues en parallèle sur la
valeur lexicale de linput. Exemple, linput
kæn active les hypothèses candy et candle
On appelle ces hypothèses les candidats en
compétitionLa compétition est-elle active et
dynamique ou bien statique ? effets de
densité de voisinage un voisinage dense
(beaucoup de mots voisins de forme sonore
proche) induit une plus grande difficulté de
reconnaissance (RTs, précision). (Cluff
Luce, 1990 Luce Large, 2001).
41
Modèles de reconnaissance des mots parlés
Cohort (1, 2, DCM) (Marslen-Wilson et coll.,
1978, 1987, 1995) TRACE (McClelland Elman,
1986) Shortlist (Norris, 1994) Merge (Norris
et al., 2000) NAM (Luce, 1986) PARSYN (Luce
et al., 2000) older models Logogens (Morton,
1969) Autonomous Search (Forster, 1989) LAFS
(Klatt, 1979) Race model (Cutler Norris,
1979) less known models ARTSTREAM, ARTWORD
(Grossberg et coll., 2004, 2000)
points daccord entre les principales approches
traitement continu sans attente (massivement)
parallèle avec candidats multiples compétition
entre candidats
42
references
Marslen-Wilson, W., Welsh, A. (1978).
Processing interactions and lexical access during
word recognition in continuous speech. Cognitive
Psychology, 10, 2963. Marslen-Wilson,W. (1987).
Functional parallelism in spoken
word-recognition. Cognition, 25, 71102. Gaskell,
M. G., Hare, M., Marslen-Wilson, W. D. (1995).
A connectionist model of phonological
representation in speech perception. Cognitive
Science, 19, 407439. McClelland, J. L., Elman,
J. L. (1986). The TRACE model of speech
perception. Cognitive Psychology, 18,
186. Norris, D. (1994). Shortlist A
connectionist model of continuous speech
recognition. Cognition, 52, 189234. Norris, D.,
McQueen, J. M., Cutler, A. (2000). Merging
information in speech recognition Feedback is
never necessary. Behavioral Brain Sciences, 23,
299370. Luce, P. A. (1986). A computational
analysis of uniqueness points in auditory word
recognition. Perception Psychophysics, 39,
155158. Luce, P. A., Goldinger, S. D., Auer, E.
T., Jr., Vitevitch, M. S. (2000). Phonetic
priming, neighborhood activation, and parsyn.
Perception and Psychophysics, 62,
615625. Morton, J. (1969). Interaction of
information in word recognition. Psychological
Review, 76, 165178. Forster, K. I. (1989). Basic
issues in lexical processing. In W.
Marslen-Wilson (Ed.), Lexical representation and
process. Cambridge, MA MIT Press. Klatt, D. H.
(1979). Speech perception A model of
acoustic-phonetic analysis and lexical access.
Journal of Phonetics, 7, 279312. Cutler, A.,
Norris, D. (1979). Monitoring sentence
comprehension. InW. E. Cooper, E. C. T. Walker
(Eds), Sentence processing Psycholinguistic
studies presented to Merrill Garrett. Hillsdale
Erlbaum. Grossberg , S., Govindarajan, K.K.,
Wyse, L.L., Cohen, M.A. (2004) ARTSTREAM A
neural network model of auditory scene analysis
and source segregation. Neural Networks, 17,
511536. Grossberg, S., Myers, C. W. (2000).
The resonant dynamics of speech perception
Interword integration and duration-dependent
backward effects. Psychological Review, 107,
735767.
43
Cohort initial automatic activation
lard mare par dard tard
cas canne casser partir
carte carton cap car cure bar cor
cartable carré cape cale
argent
Cohorte
CA
44
e l e f
?
contact
sélection
1) cohorte initiale élaborer élargir élastique éle
ctron élégance élégie élément éléphant élévateur é
lider éligible éliminer élire élixir
2) réduction élégance élégie élément éléphant
élévateur
3) identification éléphant
PU valable pour un lexique ne contenant pas de
mots dérivés de éléphant (éléphantesque,
éléphanteau, etc.) Le PU considéré est en
général le PU de famille morphologique
PU Point d'Unicité Uniqueness point ici /f/
45
  • Point dunicité (PU)
  • Le phonème qui correspond au point pour lequel il
    nexiste plus d'autre mot dans le lexique qui
    soit compatible avec le début de la séquence
    point dans le mot à partir duquel ce mot ne
    peut plus être confondu avec un autre mot.
  • Exemples /f/ dans éléphant second /o/ dans
    crocodile
  • Point de reconnaissance (PR) Le moment où le
    mot est véritablement reconnu dans des
    expériences de gating.
  • Le modèle COHORT prédit quun mot présenté hors
    contexte peut être reconnu dès son point
    dunicité.
  • Cest à dire PR PU
  • En contexte de phrase la reconnaissance peut même
    avoir lieu avant le PU, si le contexte contraint
    suffisamment la sélection.
  • PR lt PU

46
Cohort PU avant ou après la fin de mot
Exemple 1 mot long et peu de voisins (ou de
dérivés)crocodile /krokodil/ Point dUnicité
deuxième /o/ info disponible cohorte de
candidats /kr/ cratère, cruel, crottin
crocodile . /kro/ crottin, croquette
crocodile . /krok/ croquette crocodile
/kroko/ crocodile
Exemple 2 mot court ou enchâssé dans un
autre ou avec dérivésmairie /meri/ Point
dUnicité après le mot info disponible cohorte
de candidats /me/ métier, ménage, mérite
mairie /mer/ mérou, mérite, méridien
mairie /meri/ mérite, méridien mairie
/meri/ mairie
47
versions de Cohort essentiellement bottom-up,
mais possibilité que la sélection (réduction de
la cohorte) soit contrainte par le contexte
syntaxique et sémantique. Le contact initial
repose uniquement sur linformation
sensorielle. Cohort 1 fréquence ignorée,
mismatch interdit au contact initial (gt
tableau prononcé /kablo/ ne sera pas reconnu)
Cohort 2 notion de niveau d'activation.
Fréquence prise en compte dans le niveau
d'activation de base (na) des candidats. Par
exemple, pour linput /da/, na(dame) gt
na(dalle), suivant les fréquences de ces mots.
Tolérance au mismatch via niveaux d'activation
sous-optimaux. DCM (Distributed Cohort Model)
connexionniste input codé au niveau des traits
traits phonologiques et traits sémantiques
traités au même niveau pas dinteractions
top-down.
48
Données empiriques à lappui de Cohort
données (general/generous)(ARMY-GIFT)
(Marslen-Wilson 1987) Cohort jusqu'en /r/, la
cohorte contient encore general et generous
après /r/, elle se réduit au seuls candidats
compatibles données general facilite GIFT et
ARMY, si présentés en tc /r/ mais seulement
ARMY pour tc /l/même chose pour
(kapitaal/kapitein)(GELD/SCHIP) (Z 1989)
données de gating (Grosjean 1980) identification
(recognition point) dun mot dès que le fragment
(gate) présenté contient le PU.Dautre part,
la position du point de reconnaissance peut être
modulée par le contexte linguistique,
conformément aux prédictions de Cohort.
49
exemple de gating abscisse de a à apsis
a p s i
50
données visual word elles montrent
explicitement le décours temporel des
activations. Ici, linstruction est cliquer sur
les boutons(Dahan et al., 2000)
bouton
bouton
bouteille
chien
bouteille
51
données visual word (suite) influence du
contexte sur la sélection (Dahan et al., 2000)
Même chose que précédemment, mais avec
linstruction "cliquez sur le bouton" ou bien
"cliquez sur la bouteille" (le genre du mot à
cliquer est donc ici donné explicitement par
l'article) Cette fois-ci, pas dactivation
transitoire du compétiteur. Interprétation
"Cohort" les infos syntactico-sémantiques (ici,
genre grammatical) contraignent la cohorte gt
bouteille est éliminé par la contrainte
masculin.
bouton
chien
bouteille
52
données similaires avec des paires dhomophones
de genre opposé, comme sel/selle (Spinelli
Alario, 2002) le genre explicite de l'article
contraint l'activation du nom qui le
suit (amorçage sémantique inter-modal) s?l
facilite POIVRE, CHEVAL las?l facilite CHEVAL
mais pas POIVRE
cible
poivre
cheval
53
Les données empiriques que Cohort nexplique pas
effets de fréquence (mais Cohort 2 les prend en
compte) effets de voisinage les mots avec
beaucoup de voisins phonologiques (ex BALLE -
salle, cale, dalle, bol, bar ) sont plus
difficilement identifiés que les mots avec peu de
voisins (ex BOMBE - bonde)(selon une
définition simple de voisinage) la tolérance
aux variations (mais Cohort 2)
54
Les questions que Cohort naborde pas
détail sous-phonémique Cohort (1, 2) intègre
un calcul dappariement par tout ou rien au
niveau des phonèmes. DCM raffine les choses
jusquau niveau du trait. Cependant, les détails
phonétiques qui révèlent lintention du locuteur
se situent plutôt au niveau prosodique des durées
(cas du /r/ dans dernier oignon vs. dernier
rognon) et non des traits classiques. reste
vague sur les mécanismes dappariement (cf.
suite) segmentation Cohort ne marche que
pour des mots isolés, en tout cas après une étape
de segmentation. Dans les cas où le PU survient
avant la fin du mot, il est envisageable
d'anticiper la frontière de mot suivante (gt
segmentation "séquentielle"). Mais un tel
mécanisme est peu plausible car peu de mots avec
PU avant la fin.
55
TRACE modèle interactif de propagation
d'activation basé sur le modèle interactif
dactivation de McClelland et Rumelhart (1981)
(reconnaissance visuelle des mots, cf. cours B.
New). architecture à 3 niveaux unités
traits, phonèmes, mots notion de niveau
d'activation des unités ces niveaux dépendent
(1) de l'activation reçue, et (2) d'une fonction
du tps "rise and decline" TRACE implémente un
réseau exhaustif (tout le lexique)- connexions
inter-niveaux excitatrices seulement,
bidirectionnelles (bottom-up et top-down) entre
mots et phonèmes- connexions intra-niveaux
inhibitrices seulement aspects temporels
létat du réseau dactivation est recopié pour
chaque nouvelle time slice (phonème) et un
nouvel état calculé pour linput mis à jour
déclin progressif "naturel" des activations
mots en compétition tous ceux qui partagent une
partie de linput courant. Ex., pour lentrée
chômage, chaumière, hommage, magique, etc.
dont chômage partagent au moins un phonème et
sinhibent mutuellement. Des cohortes sont
activées au départ de tous les phonèmes (gt TRACE
vu comme généralisation de Cohort)
56
time
57
TRACE (suite)
le processus dinhibition latérale conduit à
lémergence dun mots ou dune suite de mots.
Cette solution de reconnaissance fournit en même
temps la segmentation en mots la segmentation
est ici un sous-produit de la reconnaissance.
/t??o/
/?oma?/
chômage finira par lemporter sur chaud (recevra
davantage dexcitation)gt output chômage
temps et chaud ne partagent pas de phonème et
donc ne sinhiberont pasgt output
tempschaud
58
TRACE (suite)
TRACE comporte un mécanisme sommaire qui simule
la coarticulation (3 time slices/phoneme) gt
traite un peu le problème de la variabilité à un
niveau sub-phonémique. Le feedback mot gt
phonème est un mécanisme puissant pour rendre
compte de la tolérance aux variations Les
effets de fréquence lexicale peuvent être
implémentés de plusieurs façons (activations au
repos ou poids des connexions sortantes)
Dans lidéal, le modèle produit en sortie une
suite segmentée Un problème est le nombre de
paramètres à régler. Manque détudes montrant que
les choix ne sont pas arbitraires...
59
Shortlist
at any given time point ( phoneme), set of
candidates 30 best activated words containing
that phoneme. exampleat /æ/ 'at', 'cat'at
/l/ 'log', 'cattle' and 'catalog'
60
commun à TRACE et Shortlist la solution la plus
longue lemporte.
61
Différences entre TRACE et Shortlist
interactivité vs. autonomie
Shortlist
TRACE
62
Shortlist (suite)
la différence essentielle avec TRACE est
labsence de connexions descendantes (top-down).
Parmi tous les candidats considérés pour
linput courant, Shortlist ne retient que les
plus activés (i.e., les mieux supportés par
linput) à raison de 30 par position phonémique.
Ceci simplifie beaucoup par rapport à TRACE. Le
réseau de compétition est donc dynamique, alors
quil est fixe et exhaustif pour TRACE gt grande
économie de calcul. exemple ship inquiry
/??pinkwa?ri/ - shortlist au 1er phonème /?/
ship, shipping - shortlist au phonème /k/
inquiry domine la shortlist locale dont
shipping fait partie mais pas ship inquiry
inhibe et élimine shipping, doù lanalyse
finale de linput en ship inquiry.
63
Merge (Norris et al., 2000)
lexical nodes
decision nodes
input nodes
counter-intuitive the locus of sublexical
decision is post-lexical
The Merge model. The basic architecture is shown,
together with the connectivity patterns for the
node types used in the simulations. Activation
spreads from the input nodes to the lexical nodes
and to the phoneme decision nodes, and from the
lexical nodes to the phoneme decision nodes
inhibitory competition operates at the lexical
and phoneme decision levels. Excitatory
connections, shown with bold lines and arrows,
are unidirectional inhibitory connections, shown
with fine lines and closed circles, are
bidirectional
64
EXTRAS
65
Lexical feed-back? "Christmas capes and foolish
tapes"
Ecole "bottom-up only" (Merge "feedback is
never necessary" Ecole "interactive activation"
(TRACE Samuel et coll.) (1) Effet Ganong
(Ganong, 1980) Un son ambigu entre deux phonèmes
est désambiguïsé par le contexte lexical. Par
exemple, un son ambigu entre /s/ et /?/, soit ?,
est interprété comme /s/ dans Christma? et /?/
dans fooli?Leffet est fort en fin de mot, et
dautant plus que le mot est long.
Cette perception est elle induite par feedback
? - TRACE le feedback modifie l'information
prélexicale - Merge pas de feedback l'info
prélexicale ne peut être modifiée les
décisions sur le niveau prélexical sont prises en
combinant cette info proprement dite et celle
du niveau lexical. gt l'idée est de tester la
nature du percept reconstruit (par exemple /s/
dans Christma?)
66
(2) Compensation pour la Coarticulation (effet de
niveau prélexical) La catégorisation d'un
continuum /t/-/k/ est biaisée par le contexte
phonétique /s/ vs. /?/ /?/ biaise vers /t/, /s/
vers /k/
Identification de /t/-/k/ après /s/, /?/ ou après
contexte neutre (/f/). Après /s/ dental, /k/ est
antériorisé gt un son jugé normalement /t/ est
considéré comme un /k/ davant
(1) et (2) gt (A) Elman McClelland (1988)
Lidée est dinduire un effet de CFC
(Compensation For Coarticulation) avec un phonème
reconstruit par effet Ganong. Si leffet CFC est
bien induit, c'est que l'effet Ganong modifie
bien l'information prélexicale le feedback
serait avéré
67
Elman McClellands design /?/ de foolish
remplacé par ? entre /?/ et /s/. Si fooli?
biaise /t/-/k/ vers /t/ (? agit comme un /?/) et
que Christma? biaise /t/-/k/ vers /k/ (? agit
comme un /s/), cest que le percept produit par ?
agit comme un vrai son acoustique gt ? serait
modifié en /?/ ou /s/ par feedback
lexical. Elman et McClelland ont bien trouvé
leffet CFC Christma? et fooli? biaisent
/t/-/k/ vers /k/ et /t/, respectivement.
gtproposition ? est reconstruit comme /?/ ou
/s/ au niveau prélexical puisqu'il produit le
même effet prélexical qu'un son réel intact ?
ou s .
68
(B) Pitt McQueen (1998)
Il a fallu 10 ans pour que le camp no feedback
relève le défi. Pitt et McQueen remarquent quen
anglais, le son /s/ est plus probable après /a/
que /i/ et /?/ plus probable après /i/ que /a/
(probabilités de transition). La réparation de
? en /s/ ou /?/ pourrait donc être un effet
prélexical de TPs plutôt quun feedback
lexical... (a) Pitt et McQueen testent
directement l'hypothèse "TP" avec des non-mots
terminés par i? ou a? ces non-mots
produisent la même CFC que foolish et Christmas,
resp. (b) de plus, P McQ utilisent des mots
terminés en /s/ ou /?/, mais contrôlés pour les
TPs ex. bush vs. juice (/b??/ vs. /d?us/)
avec bu? et jui?, aucun CFC nest observé.
gtproposition ? est reconstruit comme /?/ ou
/s/ via les probabilités de transition
69
(C) Samuel Pitt (2003), Magnuson et al. (2003)
S P conduisent une étude systématique avec
contrôle acoustique du matériel. Ils trouvent un
effet CFC avec des mots pour lesquels biais
lexical et biais TP sont opposés (par exemple,
des mots en is vs. mots en ash). Magnuson et
al. réanalysent les données initiales de E McC
'88 et trouvent que les mots où /s/ ou /?/ ne
sont pas prédictibles par les TPs produisent
pourtant leffet CFC. Ils conduisent des
analyses de corpus et trouvent que les TPs pour
diphones mais aussi pour tout n-phones ne peuvent
prédire les données CFC Leurs propres données
avec des mots comme bliss et brush (cooccurrences
non TP) semblent confirmer E McC
70
(D) McQueen, Jesse, Norris (2009)
l'histoire ne s'arrête pas là ! arguments de
McQ et al. à la fois méthodologiques et de
fond (1) méthodo dans l'étude de Magnuson et
al. (2003), les sujets reçoivent des mots
"ambigus" (e.g., bli? et bru?), les mots intacts
correspondants (bliss et brush) (qui devraient
induire une CFC claire), mais pas les séquences
inversées du type blish et bruss.McQ et al.
montrent que ce design induit un apprentissage
statistique de TP dès la phase de training !
(2) de fond l'effet Ganong est très robuste
(e.g., bu? perçu comme 'bush' et jui? comme
'juice') mais l'effet CFC est très fragile (peu
reproductible). Si le percept "Ganong" avait sa
source au niveau prélexical (modifié), l'effet
CFC devrait lui aussi être robuste les deux
effets devraient être indissociables.  pour
conclure, McQ et al. pensent qu'il est temps de
passer à autre chose
Write a Comment
User Comments (0)
About PowerShow.com