Les Donnes Textuelles

About This Presentation

Title:

Les Donnes Textuelles

Description:

corpus syntaxiques Penn Treebank www.cis.upenn.edu/~treebank ... ne pas pourrait ventuellement tre adverbe continu car il existe des phrases ... – PowerPoint PPT presentation

Number of Views:204

Avg rating:3.0/5.0

Slides: 75

Provided by: dil91

Category:

more less

Transcript and Presenter's Notes

Title: Les Donnes Textuelles

1
Les Données Textuelles

Qu'est-ce qu'un corpus, corpus équilibré, monitor
corpus, corpus de référence, exemples
dutilisation
Exemples de corpus textuels le British National
Corpus
PAROLE
Français, Le Monde
Les corpus étiquetés et analysés
- corpus syntaxiques Penn Treebank
www.cis.upenn.edu/treebank
Corfrans
www-rali.iro.umontreal.ca/corfrans
NEGRA corpus
-corpus sémantiques Framenet
www.icsi.berkeley.edu/framenet
PropBank

2
Corpus

Définition Une collection quelconque de plus
d'un texte
Propriétés représentatif, de taille finie,
lisible par une machine
Référence standard
Utilisations Lexicographieétablir si un verbe
est transitif
Utilisations Développement de
grammairedéterminer la couverture de la
grammaire, les erreurs les plus fréquentes.

3
Corpus équilibrés

En principe, une collection de plus d'un texte
peut être appelée un corpus. Cependant, le terme
corpus possède en général des connotations plus
spécifiques.
Le corpus doit être représentatif. Afin quune
collection de textes soit représentative, elle
doit être échantillonnée de façon équilibrée. La
méthode la plus utilisée est la méthode
d'échantillonnage stratifiée, où l'on crée une
collection équilibrée de textes distribués
uniformément à travers les genres (roman,
journal, discours politique, etc.) et les
modalités (écrite, orale) qui intéressent.
Le corpus doit être de taille finie définie à
l'avance. On parle alors de corpus fermé.
D'habitude, les corpus sont des collections des
textes fixées à l'avance, afin d'assurer que
l'équilibre et la représentativité soient
respectés.
Un corpus doit être électronique
(machinereadable) pour permettre des recherches
et des manipulations rapides à large échelle.

4
Corpus équilibrés

D'un point de vue statistique, on peut considérer
un corpus comme un échantillon d'une population
(d'événements langagiers).
Comme tout échantillon, un corpus est passible de
deux types d'erreurs statistiques qui menacent la
généralité des résultats
l'incertitude (random error)
la déformation (bias error)
L'incertitude survient quand un échantillon est
trop petit pour représenter avec précision la
population réelle.
Une déformation se produit quand les
caractéristiques d'un échantillon sont
systématiquement différentes de celles de la
population que cet échantillon a pour objectif de
refléter.

5
Exemples derreurs
Incertitude Un extrait de 2 000 mots d'une
interview de F. Mitterrand par Y. Mourousi ne
permet pas d'extrapoler et d'en tirer des
conclusions sur le français mitterrandien ou sur
l'interaction journaliste-homme politique.
Déformation Si on utilise que les articles de
la seule rubrique Économie du Monde, quel que
soit le volume textuel rassemblé, on risque de
déboucher sur une image déformée du français
employé par ce journal.
6
Échantillonnage

Pour atteindre une diversité maximale de
situations de communication dans un corpus de
référence on procède souvent à une démarche
d'échantillonnage.
L'échantillonnage touche à la fois
le choix des documents à intégrer et
la partie de ces documents à conserver.
On essaye d'équilibrer en taille les échantillons
retenus -- de taille limitée (de 2'000 à 40'000
mots) --, et à ne pas retenir des empans de texte
continus, de manière à ne pas risquer de
sur-représenter des lieux du texte aux
caractéristiques particulières (l'introduction
par exemple).
Ce saucissonnage rend par contre impossible
l'étude des changements de corrélations de traits
linguistiques au fil des textes (étude
longitudinale).

7
Corpus de contrôle (monitor corpus)

Il existe aussi un autre type de corpus, le
corpus de contrôle, qui n'est pas de taille
finie, mais plutôt il croit au fur et à mesure.
Un corpus de contrôle est un corpus auquel on
ajoute tout le temps des textes. C'est un corpus
ouvert. Cela est très utile en lexicographie pour
chercher les néologismes, mais on ne peut plus
garantir que le corpus restera équilibré. La
recherche scientifique courante où l'on utilise
le Web en tant que corpus rentre dans ce cas de
figure.

8
Corpus de référence

On parle de corpus de référence lorsque un corpus
devient représentatif de la langue - à un certain
moment historique,
- pour une certaine langue,
- dans une certaine modalité.
Un corpus de référence est conçu pour fournir
une information en profondeur sur une langue. Il
vise à être suffisamment grand pour représenter
toutes les variétés pertinentes de cette langue
et son vocabulaire caractéristique, de manière à
pouvoir servir de base à des grammaires, des
dictionnaires et d'autres usuels fiables. Il
s'agit donc d'associer étroitement deux
caractéristiques
une taille suffisante et la diversité des usages
représentés.
Par exemple, le Brown Corpus est le corpus de
référence de l'anglais Américain écrit, le
British National Corpus est le corpus de
référence de l'anglais Britannique écrit et oral.

9
Utilisations en lexicographie

Les lexicographes ont utilisées des corpus, ou
des ensembles de citations, bien avant que la
linguistique de corpus ne se développe (voir par
exemple le célèbre dictionnaire de Samuel
Johnson, de même que lOxford English
Dictionary).
À présent, l'existence de larges collections de
textes et la possibilité de les consulter et
manipuler très rapidement est en train de changer
la pratique de la lexicographie.
D'habitude, les lexicographes compilent les
entrées d'un dictionnaire sur la base de leurs
propres intuitions et d'une collection d'exemples
qu'ils collectent à la main (ils utilisent des
fiches d'exemples). Un corpus peut ajouter de
l'information supplémentaire.

10
Utilisations en lexicographie

Par exemple, Atkins and Levin se sont occupés de
certaines verbes dans la même classes que le
verbe shake (trembler).
Elles ont consulté le LDOCE (Oxford's Advanced
Learner's Dictionary) et COBUILD. Les deux
dictionnaires indiquaient que les verbes quake et
quiver sont toujours intransitifs (n'ont pas de
COD). Par contre, si on consulte un corpus de 50
millions de mots, on trouvera que les deux verbes
peuvent être utilisés dans la forme transitive.

11
Utilisations en théorie linguistique

Les corpus sont important pour la recherche
linguistique au niveau des phrases et de la
syntaxe, car, d'un côté, ils fournissent des
informations quantitatives, et, de l'autre côté,
ils sont des réservoirs d'exemples naturels de
l'usage de la langue. Ils peuvent être utilisés
comme ressources pour tester une théorie
grammaticale donnée.
Pour illustrer le deuxième point, voici un
exemple.

12
Corpus et théorie linguistique

Sampson (1987) analysa manuellement un ensemble
de syntagmes nominaux. Il arriva à la conclusion
qu'une grammaire générative ne pouvait pas être
utilisée pour analyser des données textuelles,
car il y a trop de constructions différentes.
Taylor,Grover et Briscoe (1989) contredirent
cette hypothèse, à l'aide d'un analyseur
syntaxique, basée sur une grammaire. Leur
analyseur marche correctement dans 96.88 de
cas. Les cas incorrectes sont facilement
analysable comme lacune de couverture de la
grammaire, et ils ne sont pas de cas isolés.
La conclusion est que une grammaire générative
peut, en principe, rendre compte des phénomènes
naturels des données textuelles.

13
Le British National Corpus
Plusieurs projets de constitution de corpus de
référence ont été menés à bien aux États-Unis
corpus Brown et en Angleterre corpus
Lancaster-Oslo/Bergen (LOB). Rappel Il s'agit
d'associer étroitement deux caractéristiques une
taille suffisante la diversité des usages
représentés. Le BNC compte 100 millions de mots
étiquetés. Il mêle oral (10 ) et écrit (textes
de fiction à partir de 1960 et textes
informatifs à partir de 1975).
14
The British National Corpus les usages
En ce qui concerne l'écrit, les variables prises
en compte sont le domaine (textes informatifs et
textes de fiction), le support (livres,
périodiques, discours), la datation et la
diffusion (sélection parmi les listes des
meilleures ventes, celles de prix littéraires,
les indications de prêts en bibliothèque, etc.).
L'accent mis sur la diffusion réelle certifie la
représentation d'usages majeurs de l'anglais.
Pour l'oral, des conversations spontanées ont
été recueillies à partir d'un échantillonnage
démographique en termes d'âge, de sexe, de groupe
social et de région. Ont été également intégrées
des transcriptions d'interactions orales typiques
dans divers domaines affaires (réunions, prises
de parole syndicales, consultations médicales ou
légales) éducation et information (cours et
conférences, informations radio-télévisées)
prises de parole publiques (sermons, discours
politiques, discours parlementaires et légaux)
loisirs (commentaires sportifs, réunions de
clubs).
15
The British National Corpus la taille
Le corpus compte 100106008 de mots, et il
occupe 1,5 gigaoctets despace disque. Pour vous
donner une perspective, si on imprimait le corpus
en petite police sur papier très fin (comme livre
de poche) il occuperait 10 mètres détagère. (Un
livre de poche habituel consiste en 250 pages
pour chaque centimètre dépaisseur, et il a 400
mots par page.) Si on le lisait à haute voix, à
la vitesse plutôt rapide de 150 mots par minute,
8 heures par jour, 365 jours par an, il nous
faudrait un peu plus de 4 ans pour le lire
entièrement. Il y a 6 million 250 milles phrase
dans le corpus. La segmentation et létiquetage
ont été fait automatiquement avec le tagger
stochastique CLAWS développé à luniversité de
Lancaster. On utilise 65 partie du discours.
16
The British National Corpus exemple
ltpgt lts n"38"gtltw VVG-NN1gtRaising ltw NN1gtmoney ltw
PRPgtfor ltw DPSgtyour ltw AJ0-NN1gtfavourite ltw
NN1gtcharity ltw VM0gtcan ltw VBIgtbe ltw AJ0gtfunltc
PUNgt. lts n"39"gtltw PNPgtYou ltw VM0gtcan ltw VDIgtdo
ltw PNPgtit ltw PRP-AVPgton ltw DPSgtyour ltw DT0gtown ltw
CJCgtor ltw PNPgtyou ltw VM0gtcan ltw VVIgtget ltw
AV0gttogether ltw PRPgtwith ltw NN1gtfamily ltw CJCgtand
ltw NN2gtfriendsltc PUNgt. lts n"40"gtltw EX0gtThere ltw
VBZgtis ltw AT0gtno ltw NN1gtlimit ltw PRPgtto ltw
AT0gtthe ltw NN1gtnumber ltw PRFgtof ltw NN2gtways ltw
TO0gtto ltw VVIgtraise ltw NN1gtmoneyltc PUNgt. lts
n"41"gtltw CJSgtWhether ltw AT0gtthe ltw AJ0gtfinal ltw
NN1gttotal ltw VBZgtis ltw NN0gtpound5 ltw CJCgtor ltw
NN0gtpound5,000ltc PUNgt, ltw PNPgtit ltw VBZgtis ltw
DT0gtall ltw AV0gtvery ltw AV0gtmuch ltw
VVN-VVDgtneededltc PUNgt. lt/pgt
17
Autres Corpus pour l'anglais
The Bank of English http//titania.cobuild.colli
ns.co.uk/boe_info.html http//titania.cobuild.col
lins.co.uk/direct_info.html The International
Corpus of English (ICE) http//www.ucl.ac.uk/engl
ish-usage/ice.htm
18
Corpus français (projet PAROLE)

Différemment du BNC, les récents projets de
constitution de corpus en France reposent plutôt
sur l'assemblage de données préexistantes.
Exemple corpus réalisé dans le cadre du projet
européen Parole (1996-1998).
Objectif pour 12 langues, dont le français,
fournir
un corpus de 20 millions de mots,
datant pour l'essentiel (80 au moins)
d'après 1980.
250 000 mots étiquetés et vérifiés quant à
la partie du discours,
50 000 mots vérifiés quant à l'ensemble des
traits attribués.
Le corpus devait provenir pour 60 de
journaux,
pour 30 de livres,
pour 10 de périodiques
(les 10 restant pouvant relever de diverses
provenances).

19
Corpus français (projet PAROLE)

Les 20 093 099 mots obtenus se répartissent à
l'issue du projet en
2 025 964 mots de transcriptions de débats au
parlement européen,
3 267 409 mots d'une trentaine d'ouvrages de
disciplines variées
(en sciences humaines) fournis par
CNRS-Éditions,
942 963 mots provenant des notes de
vulgarisation de la revue CNRS Info
et d'articles sur la communication de la
revue Hermès
13 856 763 mots correspondant à 25 654 articles
provenant du choix
aléatoire de numéros entiers parmi ceux
des années
1987, 1989, 1991, 1993 et 1995
du journal Le Monde.
Les données rassemblées sont variées, mais pas
représentatives des emplois principaux du
français un seul journal, quotidien. La presse
régionale, les hebdomadaires, la presse
spécialisée sont absents, ainsi que les langages
techniques et scientifiques. Néanmoins, très
utile en pratique.

20
Corpus français (projet SILFIDE)

Cette perspective d'assemblage est explicite dans
le projet SILFIDE (Serveur Interactif sur la
Langue Française, son Identité, sa Diffusion et
son Étude) de l'AUPELF-UREF (pour 1996-2000) où
il s'agit de rendre accessibles des ressources et
des outils linguistiques pré-existants dans un
cadre logiciel unifié.

21
Corpus Français
University of Virginia Electronic Text Centre
Corpus téléchargeables dans plusieurs langues (y
compris le français) http//etext.lib.virginia.ed
u/uvaonline.html Corpus lexicaux québécois (Onze
corpus (entre autres, le Trésor de la langue
française au Québec) http//www.spl.gouv.qc.ca/ba
nque/banque.html Corpus 56 56 articles de
journaux (français, canadiens, suisses) http//ta
ctweb.chass.utoronto.ca/french/corp_dat.htm InaLF
Institut National de la Langue
Française http//www.inalf.fr/produits.html
22
Corpus arborés
Une collection de textes permet d'engendrer de
multiples corpus distincts. Chacun de ces corpus
peut donner lieu à des annotations variées
étiquetage morpho-syntaxique, projection de
catégories sémantiques, lemmatisation, etc.
Description de corpus arborés http//www.u-gren
oble3.fr/idl/cursus/enseignants/tutin/corpus.htm h
ttp//treebanks/linguist/jussieu/index.html
23
Constitution du Penn Treebank
Le Penn Treebank a été constitué entre 1989 et
1992 (1ère phase). Cest un corpus annoté
denviron 4.5 millions de mots danglais-américain
. Lensemble de ce corpus a presque entièrement
été analysé par arbres. http//www.cis.upenn.edu/
treebank/ Composition résumés du Département
dénergie (230'000 mots)
articles du Dow Jones Newswire (3 mos de mots
dont 1 mo arboré)
bulletins du Département dagriculture (80'000
mots) bibliothèque de
textes américains (105'000 mots)
messages MUC-3 (infos sur les terroristes
en Amérique du Sud) (112K mots)
phrases dATIS (phrases spontanées
transcrites) (20'000 mots)
phrases prononcées en radio (10'000 mots)
Brown Corpus réétiqueté
(1200000 mots) phrases
des manuels IBM (90'000 mots)
24
Étiquetage du Penn Treebank
Le Penn Treebank est en fait un corpus
semi-automatisé car létiquetage et la
parenthétisation sont automatiquement analysés,
mais ensuite corrigés par des annotateurs
humains. Létiquetage du Penn Treebank est basé
sur celui du Brown Corpus qui comportait 87
étiquettes simples. Le nombre détiquettes a été
réduit en éliminant les redondances (c'est-à-dire
en tenant compte des informations lexicales et
syntaxiques), on arrive ainsi à 48 étiquettes (36
étiquettes des parties du discours et 12 autres
pour la ponctuation et les symboles monétaires.
) Lorsque les annotateurs ne réussissent pas à
désambiguïser, ils ont la possibilité de combiner
deux étiquettes. Ainsi, les décisions arbitraires
sont évitées.
25
Étiquetage du Penn Treebank
Exemples Le nombre détiquettes a été réduit. On
a éliminé les distinctions que lon peut déduire
en tenant compte des 1) informations lexicales
2) informations
syntaxiques. (1) Brown PTB sing/VB am/BE
sing/VB am/VB sang/VBD was/BEDZ
sang/VBD was/VBD (2) conjonctions de
subordination et prépositions reçoivent la même
étiquette IN, car les conjonctions précèdent
toujours une phrase tandis que les prépositions
précèdent des SN.
26
Étiquetage du Penn Treebank
Le jeu d'étiquette code la fonction grammatical
si possible afin de faciliter une analyse
syntaxique ultérieure. Exemple
Brown PTB the one/CD the one/NN the
ones/NNS the ones/NNS the fallen/JJ leaf
the fallen/VBN leaf
27
Étiquetage du Penn Treebank
1ère phase l'étiquetage automatique Cet
étiquetage est réalisé par PARTS, un algorithme
développé par les laboratoires ATT. Il s'agit en
fait d'une version modifiée de l'étiquetage du
Brown Corpus, puis de plusieurs étiqueteurs. Le
taux d'erreurs est de 7.9. 2e phase la
correction manuelle Cette correction est réalisée
simplement avec une souris en positionnant le
curseur sur une étiquette fausse et en entrant
l'étiquette souhaitée. Cette donnée entrée
automatiquement est vérifiée afin de voir si elle
appartient bien à la liste d'étiquettes. Si elle
est valide, elle est ajoutée à la paire
mot-étiquette séparée par un astérisque.
L'étiquette fausse n'est pas supprimée afin
d'identifier les erreurs produites à l'étiquetage
automatique des parties du discours. (Dans la
version de distribution du corpus, les étiquettes
fausses de l'étape automatique sont supprimées.)
28
Parenthétisation du Penn Treebank
3e phase la parenthétisation automatique
(réalisé par Fidditch) Fidditch est un analyseur
développé par Donald Hindle (d'abord à
l'université de Pennsylvanie, puis aux
laboratoires de l'ATT), qui est utilisé pour
fournir une analyse initiale. Cet algorithme
laisse beaucoup de constituants non rattachés qui
sont étiquetés "?". Il s'agit des syntagmes
prépositionnels, des propositions relatives et
des compléments circonstanciels. À ce niveau-là,
on n'a pas encore véritablement d'arbre, mais
plutôt plusieurs fragments d'arbres. 4e phase
la parenthétisation simplifiée automatiquement
Les représentations sont simplifiées et aplaties
par la suppression des étiquettes de parties du
discours, des nuds lexicaux non-branchés et de
certains nuds.
29
Parenthétisation du Penn Treebank
5e phase La correction du parenthétisation Cette
correction est aussi réalisée à l'aide d'une
souris. Les annotateurs collent tout d'abord les
fragments ensemble, ils corrigent les analyses
incorrectes et effacent certaines structures. La
correction des structures parenthétisées est plus
difficile à réaliser que la correction de
l'étiquetage des parties du discours. Comme on
veut que le Penn Treebank contienne seulement des
structures certaines , il y a deux façons
d'annoter les structures incertaines
l'étiquette de constituant X et le
"pseudo-attachement". L'étiquette de
constituant X est utilisé si un annotateur est
sûr qu'une séquence de mots est un constituant
majeur, mais pas sûr de sa catégorie syntaxique.
Dans ces cas, l'annotateur parenthèse seulement
la séquence et l'étiquette X. Le
"pseudo-attachement" est utilisé pour annoter
"les ambiguïtés permanentes prévisibles".
L'annotateur indique cela quand une structure est
globalement ambiguë même donnée dans un contexte.
30
Exemple d'arbres du Penn Treebank phase 3
( (S (NP (ADJP Battle-tested industrial)
managers) (? here) (? always)
(VP buck)) (? (PP up (NP nervous
newcomers))) (? (PP with (NP the
tale (PP of (NP
the (ADJP first))))))
(? (PP of (NP their countrymen)))
(? (S (NP ) to (VP visit
(NP Mexico)))) (? ,) (? (NP a
boatload (PP of (NP
warriors)) (VP blown (?
ashore) (NP 375 years)))) (?
ago) (? .))
Battle-tested industrial managers here always
buck up nervous newcomers with the tale of the
first of their countrymen to visit Mexico a
boatload of warriors blown ashore 375 years ago
31
Exemple d'arbres du Penn Treebank phase 5
( (S (NP Battle-tested industrial managers
here) always (VP buck up
(NP nervous newcomers) (PP with
(NP the tale (PP of
(NP (NP the (ADJP
first (PP of
(NP their
countrymen))) (S (NP
) to
(VP visit
(NP Mexico))))
, (NP (NP a boatload
(PP of
(NP (NP warriors)
(VP-1 blown
ashore
(ADVP (NP 375
years)
ago))))) (VP-1
pseudo-attach)))))))) .)
32
Tests comparatifs et évaluation du Penn Treebank
Au tout début du projet, une expérience a été
réalisée concernant deux modes d'annotation
- l'étiquetage manuel des annotateurs ont
étiqueté des textes
entièrement non annotés, à la main
- la "correction" ils ont vérifié et
corrigé la production de PARTS. Ce test a montré
que l'étiquetage manuel est deux fois plus long
que la simple correction (44 min/1000 mots contre
20 minutes) avec deux fois plus de taux de
désaccord (7.2 contre 3.5) et un taux d'erreurs
50 plus élevé. En ce qui concerne la
structure, les annotateurs peuvent corriger la
structure pleine fournie par Fidditch à une
vitesse moyenne d'environ 375 m/h après 3
semaines et d'environ 475 m/h après 6 semaines.
La réduction à une représentation plus
squelettique augmente la productivité de
l'annotateur d'environ 100 à 200 mots/heure.
Après 3 ou 4 mois d'entraînement, les annotateurs
produisent environ 750, voire même pour certains
plus de 1000 mots/heure. Le taux d'erreurs de la
version finale est estimé à environ 1 .
33
Corfrans corpus arboré en français
L'absence de corpus annoté pour la syntaxe freine
le développement dapplications linguistiques, et
empêche les chercheurs en linguistique
informatique dévaluer ou danalyser leurs
outils. L'équipe TaLaNa dirigée par A.Abeillé à
lUniversité Paris 7 a entrepris depuis 1996 la
construction dun corpus textuel annoté pour la
syntaxe, en collaboration avec le LATL (Genève)
et le RALI (Montréal). Objectif produire un
corpus électronique annoté pour la syntaxe en
français, de taille moyenne, et qui représente
les principales difficultés grammaticales
rencontrées en français normé
34
Corfrans corpus arboré en français
Annotation morpho-syntaxique denvirons 400000
mots avec plusieurs variétés de français
(présentés dans le Monde, le Hansard,
lhebdo). Marquage syntaxique automatique avec
lanalyseur Shallow parseur développé par A.
Kinyon qui annote les frontières en minimisant
les cas de rattachement (il se base sur les mots
fonctionnels pour déterminer les frontières de
constituants). Correction manuelle des erreurs
commises lors de lanalyse. Un outil daide à la
correction pour les annotateurs a été
conçu. Définition dun standard dannotation en
constituants qui évite les syntagmes vides, les
syntagmes discontinus qui posent problème lors de
la réalisation darbres syntaxiques. Évaluation
et enrichissement du corpus, dans le but de faire
le point sur les besoins et les outils des
producteurs et utilisateurs de corpus.
35
Corfrans corpus arboré en français
Comment léquipe gère-t-elle le problème de la
discontinuité de la négation ? Ex Jean ne
veut pas venir ne pas pourrait éventuellement
être adverbe continu car il existe des phrases
comme Jean préfère ne pas venir mais pour une
discontinuité avec dautre mots négatifs je ne
veux voir personne on ne peut pas faire un
constituant ne personne car elle ne se trouve
jamais dans une séquence je préfère ne
personne voir. Il ny aura donc pas de syntagmes
discontinues.
36
Corfrans corpus arboré en français
Les solutions Ladverbe négatif "ne" fait
toujours parti du noyau verbal par contre les
forclusifs (mots négatifs pas, jamais, rien )
ne sont pas rattaché au VN sauf sils sont entre
lauxiliaire et le participe passé. Ex Je
ltVNgt ne veux lt/VNgt pas ltVPinfgt ltVNgt venir lt/VNgt
lt/VPinfgt Jean ltVNgt nest pas venu lt/VNgt
Je ltVNgt nai ltNPgt rien Pro lt/NPgt vu lt/VNgt
Ladverbe composé ne-pas (ne-plus, ne-jamais) ne
fait pas parti du VN avec infinitif Ex Je ltVNgt
veux lt/VNgt ltVPinfgt ne-pas Ad ltVNgt venir lt/VNgt
lt/VPinfgt
37
Corfrans corpus arboré en français

Les conséquences de ce projet
Ce projet va permettre
une mise à disposition de la communauté
francophone dun corpus de référence annoté et
corrigé pour la syntaxe
dévaluer les analyseurs des équipes
partenaires
dobtenir une documentation détaillée sur les
annotations attendues pour les principales
constructions rencontrées dans les textes mais
négligées dans les grammaires.

38
Negr_at_ Corpus
Corpus arborés de l'allemand http//www.coli.uni-
sb.de/sfb378/negra-corpus/negra-corpus.html 355,0
96 tokens (20,602 phrases) tirés du quotidien
allemand Frankfurter Rundschau (Multilingual
Corpus 1 de la European Corpus Initiative). Le
corpus est étiqueté et arboré. Le corpus est
entièrement codé dans une base de données SQL.
Les arbres peuvent avoir des branches croisées.
Si l'on désire, on peut transformer les branches
croisés en trace et obtenir le même format du
Penn Treebank.
39
Negr_at_ Corpus
Différents types d'information dans le
corpus Part-of-Speech Tags -- Stuttgart-Tübingen-
Tagset (STTS) Analyse Morphologique (60,000
tokens) Catégories syntaxiques et fonction
grammaticales
40
Negr_at_ Corpus exemple
(CS (S-CJ (PPER-SB Sie)
(VVFIN-HD gehen)
(CNP-OA (NP-CJ
(ADJA-NK gewagte)
(NN-NK Verbindungen)
) (KON-CD
und) (NN-CJ Risiken)
) (PTKVZ-SVP ein)
) (, ,) (S-CJ
(VVFIN-HD versuchen) (VP-OC
(NP-OA
(PPOSAT-NK ihre)
(NN-NK Möglichkeiten)
) (VVIZU-HD
auszureizen) ) )
(. .)
41
Les corpus étiquetés sémantiques
42
Framenet
The Berkeley FrameNet project is creating an
on-line lexical
resource for English,
based on frame semantics and
supported by corpus evidence. The
aim is to document the range of semantic and
syntactic combinatory possibilities (valences) of
each word in each of its senses, through manual
annotation of example sentences and automatic
capture and organization of the annotation
results. So far, 7500 lexical units based
130000 sentences have been annotated. The
FrameNet database is in a platform-independent
format, and can be displayed and queried via the
web and other interfaces.
43
Framenet basic concepts
A lexical unit is a pairing of a word with a
meaning. Typically, each sense of a polysemous
word belongs to a different semantic frame, a
script-like structure of inferences that
characterize a type of situation, object, or
event. Each frame contains a predicates and
what are called frame elements (FEs) -
participants and props in the frame whose
linguistic expressions are syntactically
connected to the target word.
44
Framenet Annotation example
Revenge frame Definition An Avenger performs
some Punishment on an Offender as a response to
an earlier action, the Injury, that was inflicted
on an Injured_party. The Avenger need not be
identical to the Injured_party but needs to
consider the prior action of the Offender a
wrong. Importantly, the punishment of the
Offender by the Avenger is seen as justified by
individual or group opinion rather than by law.
Frame elements in the Revenge frame are Avenger,
Punishment, Offender, Injury, and Injured_party.
45
Framenet Annotation example
Lexical units in this frame include avenge.v,
avenger.n, get even.v, retaliate.v,
retaliation.n, retribution.n, retributive.a,
retributory.a, revenge.v, revenge.n,
revengeful.a, revenger.n, vengeance.n,
vengeful.a, and vindictive.a. Some example
sentences with the lexical unit avenge are given
here. His brothers Avenger avenged him
Injured_party. With this, El Cid Agent at
once avenged the death of his son Injury.
Hook Avenger tries to avenge himself
Injured_party on Peter Pan Offender by
becoming a second and better father Punishment.
46
Framenet Annotation example
Here goes a screen dump
47
Framenet Annotation easy cases
Annotation is easiest when all and only the core
frame elements (the conceptually necessary
participants of the frame that a syntactic
governor evokes) find syntactic expression in the
sentence as separate immediate syntactic
dependents of the governor.
48
Framenet Annotationnot so easy cases
Non-core frame elements are conceptually not
necessary in the sense that they do not uniquely
characterize the frame. Thus, for most frames
standing for events or processes, Time and Place
frame elements are not core, and therefore may
not always be annotated. Similarly, actions
often have a Purpose that the Agent intends to
accomplish by performing the action indicated by
the target word. However, having a purpose
doesn't usually distinguish types of actions and
so Purpose is often a non-core frame element, as
in the following example They wake you up to
give you a sleeping pill Purpose.
49
Framenet Annotationmissing frame elements
Sometimes FEs that are conceptually salient do
not show up as lexical or phrasal material in the
sentence chosen for annotation. They are however
annotated to indicate omissibility
conditions. Constructional Null Instantiation
(CNI) Constructionally omitted constituents
(also called structurally omitted) have their
omission licensed by a grammatical construction
in which the target word appears and are
therefore more or less independent of the LU.
Cases of CNI include the omitted subject of
imperative sentences, the omitted agent of
passive sentences, the omitted subjects of
independent gerunds and infinitives (PRO), and so
on. In each of the following two examples, the FE
Avenger is tagged with the symbol CNI.
50
Framenet Annotationmissing frame lements

Family feuds last for generations, and slurs on
honor Injury are avenged by murder Punishment
. CNI Avenger
Get even with her Offender for this Injury
CNI Avenger
In addition, we use CNI for missing objects in
instructional imperatives such as exemplified
below, even though in this case the omission is
not dependent on a particular construction, but
rather on a genre.
Cook on low heat until done. CNI Food
Tie together loosely. CNI Items

51
Framenet Annotationmissing frame elements
Definite Null Instantiation (DNI) Cases of
definite null (also called anaphoric)
instantiation are those in which the missing
element must be something that is already
understood in the linguistic or discourse
context. In the following example, the Offender
is not expressed overtly in the syntax, but its
referent has to be known in the context. The
monkey Avenger avenged himself Injured_party
by growing to the size of a giant and setting
fire to the city Punishment. Offender DNI
52
Framenet Annotationmissing frame elements
Indefinite Null Instantiation (INI) The
indefinite cases (sometimes also referred to as
existential) are illustrated by the missing
objects of verbs like eat, sew, bake, drink,
etc., that is, cases in which these ordinarily
transitive verbs can be spoken of as used
intransitively. Molly rarely eats alone Granny
begins baking about a month before Christmas Jo
even drinks heavily on weeknights. There are
often special interpretations of the
existentially understood missing objects for
example, with eat the missing entity is likely to
be a meal, with bake it is likely to be
flour-based foods, with drink it is likely to be
alcoholic beverages, etc.
53
Framenet Annotationmissing frame elements
Indefinite Null Instantiation (INI)
continued There is no need to retrieve or
construct a specific discourse referent. For
example, in the Revenge frame, all lexical units
happen to allow the frame element Punishment to
be omitted under indefinite null instantiation.
He took it out on Scarlet in the same way as he
Avenger avenged himself Injured_party on her
Offender for the pressures at work and the
demands of his first wife Injury . INI
Punishment Note that usually verbs in a frame
differ in this respect. For instance, while eat
allows its object to be omitted, devour does not,
even though they are both in the Ingestion frame.
54
Framenet Annotationframe element conflation
In some cases, information about two frame
elements is expressed in a single constituent, a
situation we call conflation. For instance, in
the Revenge frame, the Injured_party may be
contained as a possessive in the phrase that
realizes the Injury frame element as seen in the
following example He Avenger avenged Pedro
's death Injury by taking out the poker-faced
Guards Officer Punishment. In this example, the
possessive Pedro's realizes the frame element
Injured_party, the person who suffered the
Injury. Also, We ousted Jones as mayor vs. We
ousted the mayor, where the direct object stands
for both the office and the incumbent.
55
Proposition Bankall following transparencies on
Proposition Bank from web page of ACE
projecthttp//www.cis.upenn.edu/mpalmer/project_
pages/ACE.htmdirectorProfessor Martha
PalmerUniversity of Pennsylvaniasoon to move
to University of Colorado
56
Proposition Bank
How much can current statistical NLP systems be
made more domain-independent without prohibitive
costs, either in terms of engineering or
annotation? The Proposition Bank is designed as a
broad-coverage resource to facilitate the
development of more general systems. It focuses
on the argument structure of verbs, and provides
a complete corpus annotated with semantic
roles. Correctly identifying the semantic roles
of the sentence constituents is a crucial part of
interpreting text, for information extraction
machine translation or automatic
summarization. http//www.cis.upenn.edu/mpa
lmer/project_pages/ACE.htm
57
PropBank
The Proposition Bank project takes a practical
approach to semantic representation, adding a
layer of predicate-argument information, or
semantic roles, to the syntactic structures of
the Penn Treebank. The resulting resource can
be thought of as shallow, in that it does not
represent coreference, quantification, and many
other higher-order phenomena, but also broad,
in that it covers every verb in the corpus and
allows representative statistics to be
calculated. http//www.cis.upenn.edu/mpalmer/pro
ject_pages/ACE.htm
58
Proposition Bank From Sentences to
Propositionshttp//www.cis.upenn.edu/mpalmer/pro
ject_pages/ACE.htm
meet(Somebody1, Somebody2)
. . .
When Powell met Zhu Rongji on Thursday they
discussed the return of the spy
plane. meet(Powell, Zhu) discuss(Powell,
Zhu, return(X, plane))
59
Capturing semantic roleshttp//www.cis.upenn.edu
/mpalmer/project_pages/ACE.htm
SUBJ

George broke ARG1 the laser pointer.
ARG1 The windows were broken by the hurricane.
ARG1 The vase broke into pieces when it toppled
over.

SUBJ
SUBJ
60
A TreeBanked Sentencehttp//www.cis.upenn.edu/mp
almer/project_pages/ACE.htm
S
VP
NP-SBJ
Analysts
NP
S
VP
NP-SBJ
T-1
would
NP
PP-LOC
61
The same sentence, PropBankedhttp//www.cis.upenn
.edu/mpalmer/project_pages/ACE.htm
have been expecting
Arg1
Arg0
Analysts
62
Frames File Example expect
Roles Arg0 expecter Arg1 thing
expected Example Transitive, active
Portfolio managers expect further declines in
interest rates. Arg0
Portfolio managers REL
expect Arg1 further
declines in interest rates http//www.cis.upenn.ed
u/mpalmer/project_pages/ACE.htm
63
Frames File example give

Roles
Arg0 giver
Arg1 thing given
Arg2 entity given to
Example double object
The executives gave the chefs a standing
ovation.
Arg0 The executives
REL gave
Arg2 the chefs
Arg1 a standing
ovation
http//www.cis.upenn.edu/mpalmer/project_pages/AC
E.htm

64
Word Senses in PropBank

Orders to ignore word sense not feasible for 700
verbs
Mary left the room
Mary left her daughter-in-law her pearls in her
will
Frameset leave.01 "move away from"
Arg0 entity leaving
Arg1 place left
Frameset leave.02 "give"
Arg0 giver
Arg1 thing given
Arg2 beneficiary

http//www.cis.upenn.edu/mpalmer/project_pages/AC
E.htm
65
Annotation procedurehttp//www.cis.upenn.edu/mpal
mer/project_pages/ACE.htm

PTB II - Extraction of all sentences with given
verb
Create Frame File for that verb Paul Kingsbury
(3100 lemmas, 4400 framesets,118K predicates)
Over 300 created automatically via VerbNet
First pass Automatic tagging (Joseph
Rosenzweig)
http//www.cis.upenn.edu/josephr/TIDES/index.html
lexicon
Second pass Double blind hand correction
Paul Kingsbury
Tagging tool highlights discrepancies Scott
Cotton
Third pass Solomonization (adjudication)
Betsy Klipple, Olga Babko-Malaya

66
Trends in Argument Numberinghttp//www.cis.upenn.
edu/mpalmer/project_pages/ACE.htm

Arg0 agent
Arg1 direct object / theme / patient
Arg2 indirect object / benefactive / instrument
/ attribute / end state
Arg3 start point / benefactive / instrument /
attribute
Arg4 end point
Per word vs frame level more general?

67
Additional tags http//www.cis.upenn.edu/mpalmer/
project_pages/ACE.htm(arguments or adjuncts?)

Variety of ArgMs (Arggt4)
TMP - when?
LOC - where at?
DIR - where to?
MNR - how?
PRP -why?
REC - himself, themselves, each other
PRD -this argument refers to or modifies another
ADV others

68
Inflection http//www.cis.upenn.edu/m
palmer/project_pages/ACE.htm

Verbs also marked for tense/aspect
Passive/Active
Perfect/Progressive
Third singular (is has does was)
Present/Past/Future
Infinitives/Participles/Gerunds/Finites
Modals and negations marked as ArgMs

69
Frames Multiple Framesetshttp//www.cis.upenn.edu
/mpalmer/project_pages/ACE.htm

Framesets are not necessarily consistent between
different senses of the same verb
Framesets are consistent between different verbs
that share similar argument structures,
(like FrameNet)
Out of the 787 most frequent verbs
1 FrameNet 521
2 FrameNet 169
3 FrameNet - 97 (includes light verbs)

70
Ergative/Unaccusative Verbs http//www.cis.upenn.e
du/mpalmer/project_pages/ACE.htm

Roles (no ARG0 for unaccusative verbs)
Arg1 Logical subject, patient, thing rising
Arg2 EXT, amount risen
Arg3 start point
Arg4 end point
Sales rose 4 to 3.28 billion from 3.16 billion.

The Nasdaq composite index added 1.01 to
456.6 on paltry volume.
71
Actual data for leave http//www.cis.upenn.edu/m
palmer/project_pages/ACE.htm

http//www.cs.rochester.edu/gildea/PropBank/Sort/
Leave .01 move away from Arg0 rel Arg1 Arg3
Leave .02 give Arg0 rel Arg1 Arg2
sub-ARG0 obj-ARG1 44
sub-ARG0 20
sub-ARG0 NP-ARG1-with obj-ARG2 17
sub-ARG0 sub-ARG2 ADJP-ARG3-PRD 10
sub-ARG0 sub-ARG1 ADJP-ARG3-PRD 6
sub-ARG0 sub-ARG1 VP-ARG3-PRD 5
NP-ARG1-with obj-ARG2 4
obj-ARG1 3
sub-ARG0 sub-ARG2 VP-ARG3-PRD 3

72
PropBank/FrameNet http//www.cis.upenn.edu/mpalm
er/project_pages/ACE.htm
Buy Arg0 buyer Arg1 goods Arg2
seller Arg3 rate Arg4 payment
Sell Arg0 seller Arg1 goods Arg2
buyer Arg3 rate Arg4 payment
More generic, more neutral maps readily to
VN,TR Rambow,
et al, PMLB03
73
Annotator accuracy ITA 84http//www.cis.upenn.
edu/mpalmer/project_pages/ACE.htm
74
Résumé du cours