Traitement Automatique des Langues et Ingnierie terminologique - PowerPoint PPT Presentation

1 / 30
About This Presentation
Title:

Traitement Automatique des Langues et Ingnierie terminologique

Description:

Confident (plus utilis aujourd'hui) Employ qui crit les lettres (et par extension ... attaquer : verbe attaquer un plan de faille : syntagme verbal ... – PowerPoint PPT presentation

Number of Views:80
Avg rating:3.0/5.0
Slides: 31
Provided by: christo114
Category:

less

Transcript and Presenter's Notes

Title: Traitement Automatique des Langues et Ingnierie terminologique


1
Traitement Automatique des Langues et Ingénierie
terminologique
2
Avant de commencer le secrétaire
  • Confident (plus utilisé aujourdhui)
  • Employé qui écrit les lettres (et par extension
    réalise dautres tâches pour la personne qui
    lemploie)
  • Secrétaire dambassade ou du gouvernement écrit
    les dépêches
  • Manuel contenant des modèles de lettres
  • Bureau sur lequel on écrit et dans lequel on
    serre des papiers
  • Oiseau de lordre des rapaces

3
Avant de commencer ISO
  • International Organization for Standardization
  • Création le 23 février 1947
  • Réseau dinstituts nationaux de normalisation de
    156 pays (1 membre par pays)
  • Secrétariat central basé à Genève
  • Sigle
  • Issu de langlais pour éviter les variantes (OIN
    en français)
  • Mot dérivé du grec  isos  signifiant  égal 
  • Organisation non gouvernementale
  • Adresse www.iso.org

4
Avant de commencer possibles lemmatisations de
 sommes 
  • Nom féminin somme
  • Addition
  • Montant
  • Charge portée par un animal (ex. bête de somme)
  • Nom masculin somme
  • Court moment de sommeil
  • Verbe
  • Être
  • Sommer
  • Signifier à quelquun, dans les formes établies,
    quil doit faire telle ou telle chose
  • Faire la somme, le total de plusieurs quantités

5
Avant de commencer exemple de concordancier
  • Lexico (actuellement version 3)
  • Développé par le SYLED (Univ. Paris 3)
  • Possibilités
  • Concordancier
  • Segments répétés
  • Statistiques par parties
  • Recherche de groupes de formes
  • Dictionnaire des termes par fréquence
  • Etc.
  • Version démo
  • http//www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lex
    icoWWW/
  • Lexico 2 est gratuit

6
Interface de Lexico 3
7
Outils de traitement automatique des langues pour
la construction de ressources terminologiques
  • Ressource terminologique (RT)
  • Une description du vocabulaire utilisé par une
    communauté dindividus dans le cadre dune
    pratique (un métier)
  • Exploitée dans une application daccès à
    linformation
  • Le contenu et le mode de description dune RT
    dépendent de lapplication cible.
  • Double pertinence
  • Une RT constitue une représentation des
    connaissances du domaine.
  • Une RT est une ressource pour un système
    informatique de traitement de linformation

8
Modèles de connaissances et points de vue
  • Postulat
  • Soit un domaine .
  • Il nexiste pas UN modèle de connaissances
    (ressource terminologique, ontologie) pour ce
    domaine.
  • Il y a autant de modèles que de type
    dapplications la construction dun modèle de
    connaissances est guidée par un point de vue,
    celui de lapplication cible.
  • Cependant, il est possible de définir une
    approche commune
  • Théorie, méthodes, outils informatiques (dont
    outils de traitement automatique des langues)

9
Ressources terminologiques exemples
  • Application classiques ( papier )
  • Dictionnaire spécialisé pour ingénieur débutant
    ou étudiant
  • Lexique pour les traducteurs spécialisés
  • Thesaurus pour les bases documentaires
  • Index thématique pour ouvrage  papier 
  • Applications informatiques
  • Thesaurus électronique pour système dindexation
    automatique
  • Lexique bilingue pour système daide à la
    traduction
  • Lexique sémantique pour système dextraction
    dinformation
  • Réseau lexical pour système de recherche
    dinformation
  • Index hypertextuel pour documentation
    électronique
  • Ontologie pour système à base de connaissances

10
Ressource terminologique éléments de base
  • Des termes
  • Simples (mots)
  • Complexes (groupe de mot)
  • Des relations
  • est_un, is_a, générique-spécifique
  • voir aussi
  • Autres relations sémantiques , conceptuelles
  • définitions
  • Problème comment trouver ces termes et ces
    relations

11
Partir des textes
  • Les textes, sources dinformation
  • Le vocabulaire partagé par les membres dune
    communauté de praticiens se trouve dans les
    textes quelle produit et/ou utilise.
  • Dans certains domaines (médecine, droit, ), les
    connaissances ne sont accessibles que par leur
    expression linguistique.
  • Partir des textes pour mieux y retourner
  • Quand lapplication qui exploite la RT est un
    système de traitement de linformation textuelle.
  • Autres sources
  • Les experts, les spécialistes
  • Les ressources terminologiques existantes

12
Construire un corpus
  • Corpus
  • Ensemble de textes que lanalyste rassemble pour
    élaborer la RT
  • Type de textes
  • Documentation technique
  • Transcription dentretiens
  • Articles scientifiques, ...
  • Construire le corpus est une tâche délicate
  • Le corpus est construit en fonction de
    lapplication cible
  • Recours aux experts

13
Construire un corpus
  • Importance du balisage
  • Marquer les différentes parties
  • Pour mener des analyses constrastives
  • Termes présents uniquement dans telle ou telle
    partie (titres, conclusions, etc.)
  • Termes repartis sur lensemble du corpus
  • ()

14
Livre I Des personnes Titre I Des droits
civilsChapitre II Du respect du corps
humain Article 16 La loi assure la primauté de
la personne, interdit toute atteinte à la dignité
de celle-ci et garantit le respect de l'être
humain dès le commencement de sa vie. Article
16-1 Chacun a droit au respect de son corps. Le
corps humain est inviolable. Le corps humain, ses
éléments et ses produits ne peuvent faire l'objet
d'un droit patrimonial.
ltCCIVILL-TIT_chap-IIgt Du respect du corps
humain ltCCIVILL-16gt La loi assure la primauté de
la personne, interdit toute atteinte à la dignité
de celle-ci et garantit le respect de l'être
humain dès le commencement de sa vie.
ltCCIVILL-16-1gt Chacun a droit au respect de son
corps. Le corps humain est inviolable. Le corps
humain, ses éléments et ses produits ne peuvent
faire l'objet d'un droit patrimonial.
15
Utiliser des outils informatiques
  • La masse des documents à analyser rend impossible
    une approche entièrement manuelle.
  • Si (puisque) les documents sont sous format
    électronique, on peut (il faut) utiliser des
    outils informatiques
  • Outils de base comptage de mots,
    concordances
  • Outils linguistiques traitement automatique
    des langues

16
Outils de Traitement Automatique des Langues (TAL)
  • TAL discipline à lintersection de la
    linguistique et de linformatique
  • informatique linguistique ou linguistique
    informatique
  • Objectif
  • Mettre au point des systèmes de traitement de
    linformation textuelle (écrit, oral)
  • Qui manipulent, mettent en uvre, exploitent des
    connaissances de type linguistique
  • liées à ce qui fait quune langue naturelle est
    une langue naturelle
  • Applications historiques
  • Traduction automatique, traduction assistée par
    ordinateur
  • Correction orthographique, correction grammaticale

17
Traitements de type linguistique
  • Les outils effectuent des traitements de type
    linguistique (vs. statistique)
  • catégorie grammaticale
  • nom, verbe, adjectif,
  • variation morphologique
  • genre et nombre pour les noms, les adjectifs
  • personne, temps, voie pour les verbes
  • groupe syntaxique
  • syntagme nominal
  • syntagme verbal
  • relation syntaxique
  • sujet de verbe, complément de verbe

morphologie syntaxe (sémantique)
18
Outils de TAL pour la construction de ressources
terminologiques à partir de textes
  • Deux tâches essentielles
  • 1) Extraction de candidats termes
  • 2) Extraction de relations candidates
  • Ces tâches sont réalisées le plus souvent
    conjointement
  • Les outils proposent, la personne (terminologue,
    ingénieur, spécialiste) qui construit la
    ressource terminologique dispose, et modélise
  • Il ne sagit pas de construction automatique

19
Cadre méthodologique
Spécialistes
Ressources existantes
Domaine
Textes
outils
Analyste
Ressource terminologique
Application
Utilisateur
20
Extraction de candidats termes exemple
Articles du livre Ingénierie des connaissances
(Charlet et al. 2000)
Syntagmes nominaux
Noms
connaissance 1757 modèle 924 système
839 concept 771 domaine 713 problème
561 méthodes 530 type 514 cas
513 relation 490 exemple 482 objets
467 niveau 459 tâche 451 terme 436
acquisition des connaissances 133 base de
connaissances 128 résolution de
problème 123 modèle conceptuel 122 ingénierie
des connaissances 105 point de vue
98 système d'information 87 modèle
d'expertise 55 représentation des
connaissances 53 génie logiciel 46 candidat
terme 46 structure prédicative 42 gestion
des connaissances 41 méthode de résolution de
problèmes 40 modélisation des connaissances 40
21
Extraction de candidats termes complexes
  • Deux techniques simples, basées sur la structure
    interne des unités
  • patrons élémentaires
  • NOM de NOM
  • NOM ADJ
  • ADJ NOM
  • Expression maximale
  • ADJ? NOM NOM ADJ de NOM ADJ

() cet outil est un logiciel dextraction de
termes complexes qui ()
logiciel dextraction extraction de termes termes
complexes
logiciel dextraction de termes complexes
22
Extraction de candidats termes complexes
  • Limites analyse étroite
  • Sur-génération, sous-génération, pas de
    structuration
  • Restrictif quant aux structures
  • Prépositions autres que de , déterminants
  • Syntagmes verbaux
  • Nécessité dune analyse syntaxique  large 
  • ? Syntex

23
SYNTEX un analyseur syntaxique de corpus pour
la construction de ressources lexicales
spécialisées
  • En entrée un corpus étiqueté
  • Dans chaque phrase, à chaque mot est associée une
    étiquette morphosyntaxique
  • En sortie 1) un corpus analysé syntaxiquement
  • Dans chaque phrase, Syntex pose des relations de
    dépendance syntaxique (sujet, complément dobjet,
    épithète, ) entre les mots
  • En sortie 2) un réseau de syntagmes
  • 1) De chaque phrase, Syntex extrait des syntagmes
    (verbaux, nominaux, adjectivaux)
  • 2) Pour lensemble du corpus, Syntex construit un
    réseau de syntagmes structuré par les relations
    Tête et Expansion

24
1) Analyse syntaxique
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
Analyse syntaxique
OBJ
SUJ
LeDet chatNom dePrep MarieNomPr mangeVb
uneDet petiteAdj sourisNom.
25
2) Construction dun réseau de syntagmes
SUJ
OBJ
L érosion attaque un plan de faille
Extraction de syntagmes
faille
plan
T
E
plan de faille
attaquer
T tête E expansion
E
attaquer un plan de faille
plan nom ? plan de faille syntagme
nominal attaquer verbe ? attaquer un plan de
faille syntagme verbal
26
2) Construction dun réseau de syntagmes
attaquer pénéplaine pente raide
plan de faille roche sédimentaire
section anticlinale table karstique
plan de cisaillement de diaclase
de faille de glissement de
schistosité de stratification
T
T
faille escarpement
de ligne de plan de
E
27
Utilisation des résultats construction de
ressources terminologiques
  • Le réseau de syntagmes est utilisé
  • par un analyste (terminologue, expert, ingénieur,
    )
  • pour construire une ressource terminologique
    (thesaurus, terminologie, ontologie, )
  • sur un domaine spécialisé (métier, pratique)
  • pour une application cible (traduction
    automatique, recherche dinformation, )
  • Syntex traite des corpus spécialisés
  • Exemples
  • documentation technique
  • textes juridiques
  • compte rendus médicaux
  • articles scientifiques

28
Etudes menées en ergonomie linguistique à laide
de loutil Syntex (1)
  • Contexte projets détudiants Master Pro
    Ergonomie Cognitive et Ingénierie Linguistique
    (Univ. Toulouse le Mirail)
  • Sujets
  • Analyse des expressions de la subjectivité dans
    la rédaction des rapports daccidents et
    dincidents davions
  • Etudier la manière dont sont exprimées les
    circonstances de laccident (ou incident) liées à
    la subjectivité du pilote et des personnes
    impliquées (états mentaux, sentiments,
    connaissance).
  • Analyse linguistique des rapports du bureau
    enquêtes accidents  une étude de lexpertise des
    pilotes daéronefs
  • Etudier la relation entre le niveau
    dexpertise des pilotes (novices vs experts) et 
    la nature et les causes de lévénement.

29
Etudes menées en ergonomie linguistique à laide
de loutil Syntex (2)
  • Classification des évènements et des causes dans
    laviation civile
  • Etudier les possibles liens qui existent entre
    les différents types dévènements et leurs causes
    suivant le type daéronef concerné.
  • Exercice Analyse du lien (des liens) qui
    existe(nt) entre les causes et la gravité des
    accidents et incidents aériens.
  • Constituer une typologie des causes des accidents
    et incidents, une typologie des conséquences
  • Quelques pistes
  • Typologie des causes causes humaines, causes
    techniques, causes météorologiques
  • Typologie des conséquences dégâts matériels,
    dégâts humains

30
Pour finir Information sur le M2 Pro Ergonomie
Cognitive et Ingénierie Linguistique
  • Adresse du Master
  • http//www.univ-tlse2.fr/fi/diplomes/masters-pro/m
    2/ecil.html
  • Contenu
  • Apprentissage, formation multimédia ergonomie
    cognitive systèmes H-M production, gestion et
    exploitation de documents textuels approche
    intégrée des systèmes socio-techniques outils
    et méthodes projet analyse du travail projet
    conception (conception dun outil) gestion de
    carrière apprentissage de techniques
    professionnelles
  • Stage en entreprise confrontation à la réalité
    des besoins
Write a Comment
User Comments (0)
About PowerShow.com