Cours 4 - PowerPoint PPT Presentation

About This Presentation
Title:

Cours 4

Description:

... avoir, tre... ... F1s Paires attribut-valeur partOfSpeech = verb tense = future person = 1 ... pres verb present VER:simp verb simple past VER:subi ... – PowerPoint PPT presentation

Number of Views:51
Avg rating:3.0/5.0
Slides: 28
Provided by: lapo4
Category:
Tags: avoir | cours | present | tense

less

Transcript and Presenter's Notes

Title: Cours 4


1
Cours 4
  • Étiquettes lexicales

2
Catégories grammaticales
  • En anglais parts of speech (POS)
  • Exemple de liste de catégories grammaticales
  • nom, verbe, adjectif, adverbe, pronom,
    préposition, conjonction, déterminant
  • En général, 10 à 15 catégories par langue
  • Information sur les voisins du mot
  • Un pronom est souvent suivi d'un verbe il
    intervient
  • Un déterminant est souvent suivi d'un nom les
    annonces
  • Information sur la prononciation du mot
  • Président peut être un nom Le président de
    séance est en retard
  • Président peut être un verbe Ils président la
    séance à tour de rôle
  • La prononciation est différente
  • Les poules du couvent couvent

3
Catégories grammaticales
  • Catégories grammaticales et suffixes
  • vaccine est un verbe, on peut le regrouper avec
    vacciner
  • féminine est un adjectif, on peut le regrouper
    avec féminin
  • Application la recherche d'informations
  • Catégories grammaticales et pertinence
  • Les noms sont souvent pertinents balle, film,
    banque...
  • Les prépositions le sont moins selon, depuis,
    malgré...
  • une croix en or et pierres précieuses... nom
  • Or la version de la chanson... conjonction

4
Définition des catégories grammaticales
  • Par les suffixes
  • Deux mots qui prennent les mêmes suffixes ont des
    chances d'appartenir à la même catégorie
  • vaccine, vaccinent, vacciné, vaccines/juge,
    jugent, jugé, juges verbes
  • parent, parents, parente, parentes/ami, amis,
    amie, amies noms
  • Par les contextes
  • Deux mots qui acceptent les mêmes contextes ont
    des chances d'appartenir à la même catégorie
  • Les représentants des pays concernés
  • Les représentants des partis concernés noms
  • Le TGV n'avait pas prévu de s'arrêter
  • Le TGV n'avait pas cessé de s'arrêter verbes

5
Catégories ouvertes/fermées
  • Catégories fermées
  • Les éléments sont en nombre limité et fixe
  • Mots grammaticaux (jouent un rôle important dans
    la grammaire), courts et fréquents
  • Prépositions à de par pour sans selon depuis
    malgré...
  • Quelques dizaines
  • On en crée rarement de nouvelles
  • Catégories ouvertes
  • Les éléments sont nombreux et de nouveaux sont
    créés continuellement
  • Noms futon MP3 pseudotéléspectateur
    triréacteur...
  • Quelques dizaines de milliers
  • Verbes faxer surréglementer sursubventionner
    télécopier...
  • Quelques milliers

6
Catégories ouvertes
  • Noms ou substantifs
  • Souvent précédés d'un déterminant des annonces
  • Varient entre singulier et pluriel une
    annonce/des annonces
  • Sous-catégories
  • noms communs bateau, chaise, relation, élève
  • noms propres Paris, Laporte, Lip
  • Verbes
  • Varient en temps il annonce il annoncera
  • personne il annonce nous annonçons
  • Sous-catégories
  • auxiliaires pouvoir, devoir, avoir, être...

7
Catégories ouvertes
  • Adjectifs
  • Varient entre singulier et pluriel normal normaux
  • masculin et féminin normaux normales
  • Adverbes
  • Généralement déplaçables dans une phrase
  • Souvent, le bus s'arrête ici
  • Le bus, souvent, s'arrête ici
  • Le bus s'arrête souvent ici
  • Le bus s'arrête ici souvent

8
Catégories fermées
  • Prépositions
  • à de par pour sans selon sur sous avec depuis
    malgré...
  • Devant des noms ou des verbes à des
    annonces pour annoncer
  • Conjonctions
  • et ou mais car...
  • Entre deux séquences analogues des programmes
    et des données
  • que quand si comme lorsque...
  • Devant une phrase incluse dans une autre Je
    viendrai si je peux

9
Catégories fermées
  • Déterminants
  • un une des du le la les chaque deux trois quatre
    beaucoup mon...
  • Devant des noms des annonces beaucoup
    d'annonces
  • Pronoms
  • je tu il elle on nous vous moi toi lui ceci cela
    qui quoi que quelqu'un...

10
Étiquettes lexicales
  • En anglais tags
  • Je viendrai si je peux
  • Je,PRO1s viendrai,VF1s si,CONJS je,PRO1s
    peux,VP1s
  • Un objet qui identifie pour chaque token-mot
  • - la catégorie grammaticale
  • - éventuellement d'autres propriétés (temps,
    personne, nombre...)
  • On peut aussi étiqueter les symboles de
    ponctuation

11
Étiquettes lexicales non structurées
  • Je,PP viendrai,VBF si,IN je,PP peux,VBP
  • Chaque étiquette représente une catégorie
    généralement un peu plus précise qu'une catégorie
    grammaticale
  • Exemples
  • PP pronom personnel
  • VBF verbe conjugué au futur
  • IN préposition ou conjonction de subordination
  • Jeu d'étiquettes (tagset)
  • Ensemble d'étiquettes
  • Pour l'anglais, généralement 50 à 150 étiquettes

12
Étiquettes lexicales structurées
  • Je,PRO1s viendrai,VF1s si,CONJS je,PRO1s
    peux,VP1s
  • Chaque étiquette donne séparément
  • - la catégorie grammaticale
  • - d'autres propriétés éventuelles
  • - temps (présent, futur, passé...)
  • - personne (1, 2, 3)
  • - genre (masculin, féminin)
  • - nombre (singulier, pluriel)
  • etc.
  • Traits flexionnels

13
Étiquettes lexicales structurées
  • viendrai,VF1s
  • Paires attribut-valeur
  • partOfSpeech verb
  • tense future
  • person 1
  • number singular
  • attributs (features)
  • valeurs (values)

14
  • ABR abreviation
  • ADJ adjective
  • ADV adverb
  • DETART article
  • DETPOS possessive pronoun (ma, ta, ...)
  • INT interjection
  • KON conjunction
  • NAM proper name
  • NOM noun
  • NUM numeral
  • PRO pronoun
  • PRODEM demonstrative pronoun
  • PROIND indefinite pronoun
  • PROPER personal pronoun
  • PROPOS possessive pronoun (mien, tien, ...)
  • PROREL relative pronoun
  • PRP preposition

PRPdet preposition plus article
(au,du,aux,des) PUN punctuation
PUNcit punctuation citation SENT sentence tag
SYM symbol VERcond verb conditional
VERfutu verb futur VERimpe verb imperative
VERimpf verb imperfect VERinfi verb
infinitive VERpper verb past participle
VERppre verb present participle VERpres verb
present VERsimp verb simple past VERsubi verb
subjunctive imperfect VERsubp verb subjunctive
present
15
Racinisation
  • Pour la recherche d'informations, les variations
    de forme des mots ne sont pas très pertinentes et
    augmentent inutilement le nombre de dimensions de
    l'espace vectoriel
  • Exemples
  • vaccine, vaccinent, vacciné, vaccines...
  • La racinisation (stemming) consiste à remplacer
    toutes ces variantes par vacciner
  • ou même vaccine, vaccinent, vacciné, vaccines,
    vaccination, vaccinal... par vaccin
  • On n'a pas besoin que ce soit un mot correct, il
    suffit que ce soit le même pour tous

16
Le raciniseur de Porter (1980)
  • Substitution de suffixes
  • ational --gt ate relational --gt relate
  • ing --gt ? motoring --gt motor
  • Plusieurs passes
  • Passe 1 ies --gt i capabilities --gt capabiliti
  • Passe 4 (mgt0)biliti --gt ble capabiliti --gt
    capable
  • m nombre de séquences voyelle/consonne
  • Exemples
  • capabilities m 5 capa m 1

17
Step 1a   SSES -gt SS
caresses -gt caress IES -gt I
ponies -gt poni
ties -gt ti SS -gt
SS caress -gt caress
S -gt cats
-gt cat Step 1b   (mgt0) EED -gt EE
feed -gt feed
agreed -gt agree (v) ED
-gt plastered -gt plaster
bled
-gt bled (v) ING -gt
motoring -gt motor
sing -gt sing If the second or
third of the rules in Step 1b is successful, the
following is done   AT -gt ATE
conflat(ed) -gt conflate BL -gt BLE
troubl(ed) -gt trouble
IZ -gt IZE siz(ed) -gt
size (d and not (L or S or Z)) -gt
single letter
hopp(ing) -gt hop
tann(ed) -gt tan
fall(ing) -gt fall
hiss(ing) -gt hiss
fizz(ed) -gt
fizz (m1 and o) -gt E
fail(ing) -gt fail
fil(ing) -gt file The rule to map to
a single letter causes the removal of one of the
double letter pair. v contains a vowel (a, e,
i, o, u, or y preceded by a consonant) d ends
with a double consonant, e.g. tt, ss o ends with
cvc, where the second c is not w, x or y
18
Step 1c   (v) Y -gt I
happy -gt happi
sky -gt sky Step 2   (mgt0)
ATIONAL -gt ATE relational -gt
relate (mgt0) TIONAL -gt TION
conditional -gt condition
rational -gt rational
(mgt0) ENCI -gt ENCE valenci -gt
valence (mgt0) ANCI -gt ANCE
hesitanci -gt hesitance (mgt0) IZER -gt
IZE digitizer -gt digitize
(mgt0) ABLI -gt ABLE conformabli -gt
conformable (mgt0) ALLI -gt AL
radicalli -gt radical (mgt0) ENTLI -gt
ENT differentli -gt different
(mgt0) ELI -gt E vileli - gt
vile (mgt0) OUSLI -gt OUS
analogousli -gt analogous (mgt0) IZATION -gt
IZE vietnamization -gt vietnamize
(mgt0) ATION -gt ATE predication -gt
predicate (mgt0) ATOR -gt ATE
operator -gt operate (mgt0) ALISM -gt
AL feudalism -gt feudal (mgt0)
IVENESS -gt IVE decisiveness -gt
decisive (mgt0) FULNESS -gt FUL
hopefulness -gt hopeful (mgt0) OUSNESS -gt
OUS callousness -gt callous
(mgt0) ALITI -gt AL formaliti -gt
formal (mgt0) IVITI -gt IVE
sensitiviti -gt sensitive (mgt0) BILITI -gt
BLE sensibiliti -gt sensible
19
Step 3 (mgt0) ICATE -gt IC
triplicate -gt triplic (mgt0) ATIVE -gt
formative -gt form (mgt0)
ALIZE -gt AL formalize -gt
formal (mgt0) ICITI -gt IC
electriciti -gt electric (mgt0) ICAL -gt
IC electrical -gt electric
(mgt0) FUL -gt hopeful -gt
hope (mgt0) NESS -gt
goodness -gt good Step 4   (mgt1) AL
-gt revival -gt reviv
(mgt1) ANCE -gt allowance -gt
allow (mgt1) ENCE -gt
inference -gt infer (mgt1) ER -gt
airliner -gt airlin (mgt1) IC
-gt gyroscopic -gt
gyroscop (mgt1) ABLE -gt
adjustable -gt adjust (mgt1) IBLE -gt
defensible -gt defens (mgt1)
ANT -gt irritant -gt
irrit (mgt1) EMENT -gt
replacement -gt replac (mgt1) MENT -gt
adjustment -gt adjust (mgt1)
ENT -gt dependent -gt
depend (mgt1 and (S or T)) ION -gt
adoption -gt adopt (mgt1) OU -gt
homologou -gt homolog (mgt1)
ISM -gt communism -gt
commun (mgt1) ATE -gt
activate -gt activ (mgt1) ITI -gt
angulariti -gt angular (mgt1)
OUS -gt homologous -gt
homolog (mgt1) IVE -gt
effective -gt effect (mgt1) IZE -gt
bowdlerize -gt bowdler S ends
with s (and the same for other letters)
20
Step 5a   (mgt1) E -gt
probate -gt probat
rate -gt rate (m1 and
not o) E -gt cease -gt
ceas Step 5b   (m gt 1 and d and L) -gt
single letter
controll -gt control
roll -gt roll
21
Le raciniseur de Porter (1980)
  • Exemples d'imperfections
  • Paires regroupées
  • numerical numerous --gt numer
  • university universe --gt univers
  • Paires non regroupées
  • noisy --gt noisi noise --gt nois
  • sparsity --gt sparsiti sparse --gt spars

22
Étiquetage
  • Attribution d'une étiquette lexicale à chaque
    token (mot ou symbole de ponctuation)
  • Entrées un texte tokenisé et un jeu
    d'étiquettes
  • Sortie le texte étiqueté
  • Applications
  • recherche d'informations
  • reconnaissance de parole
  • analyse syntaxique
  • Ambiguïtés lexicales
  • La poste livre le colis dans un délai d'une
    semaine verbe
  • Le livre parvient à l'acheteur en une semaine nom

23
Étiquetage par règles écrites à la main
  • Première étape
  • On consulte un lexique qui donne toutes les
    étiquettes possibles des tokens-mots
  • Il,PRO3s est,VP3s,Ams,Amp,Afs,Afp,ADV
    fin,Ams,Nfs ./.
  • Deuxième étape
  • On applique des règles écrites à la main qui
    éliminent des étiquettes en fonction du contexte
  • if (1A/ADV/QUANT) (2 SENT-LIM) (NOT -1
    SVOC/A)
  • then eliminate non-ADV tags
  • else eliminate ADV tag

24
Étiquetage par règles apprises statistiquement
(Brill, 1995)
  • Première étape
  • On consulte un lexique qui donne l'étiquette la
    plus fréquente pour chaque token
  • race/NN (plus souvent nom que verbe)
  • expected/VBN to/TO race/NN tomorrow/NN
  • Deuxième étape
  • On applique les règles apprises statistiquement
    qui changent des étiquettes en fonction du
    contexte
  • Changer NN en VB après TO
  • expected/VBN to/TO race/VB tomorrow/NN

25
Étiquetage par règles apprises statistiquement
  • Deux algorithmes d'apprentissage
  • Pour la première étape
  • Le lexique donnant l'étiquette la plus fréquente
    pour chaque token est obtenu à partir d'un corpus
    étiqueté
  • Pour la deuxième étape
  • Entrées le lexique de la première étape un
    corpus étiqueté des formes de règles
  • Sorties un ensemble de règles
  • étiqueter le texte du corpus avec le lexique de
    la première étape
  • tant que les résultats ne sont pas assez bons
  • examiner toutes les règles
  • sélectionner celle qui donne le meilleur
    étiquetage
  • remplacer l'ancien étiquetage par celui obtenu

26
Étiquetage par règles apprises statistiquement
  • Pour la deuxième étape
  • Les règles peuvent être des arbres de décision
  • Chaque noeud de l'arbre correspond à un critère
    (question), et chaque noeud fils à une réponse
    possible
  • Chaque feuille correspond à une décision
  • Exemple de jeu de critères

- étiquette de l'avant-dernier token avant -
étiquette du dernier token avant - forme du
token, s'il est fréquent - les 2 premières
lettres du token - les 3 dernières lettres du
token
- particularités typographiques du token
(majuscules, guillemets, tiret...) - forme du
token après, s'il est fréquent - particularités
typographiques du token après (majuscules,
guillemets, tiret...)
27
Étiquetage par modèle de Markovappris
statistiquement
  • Probabilité qu'un mot étiqueté TO soit suivi d'un
    mot étiqueté NN
  • P(NNTO) 0,021 P(VBTO) 0,34
  • Probabilité qu'un mot étiqueté NN soit race
  • P(raceNN) 0,00041 P(race VB) 0,00003
  • Probabilité qu'un mot étiqueté TO soit suivi de
    race/NN
  • P(NNTO) P(raceNN) 0,000007
  • P(VBTO) P(race VB) 0,00001
  • Conclusion
  • L'étiquette correcte de race dans to race est
    probablement VB
Write a Comment
User Comments (0)
About PowerShow.com