Balisage automatique de dictionnaires anciens : une application dINTEX - PowerPoint PPT Presentation

1 / 12
About This Presentation
Title:

Balisage automatique de dictionnaires anciens : une application dINTEX

Description:

Unit Mixte de Recherche SILEX, CNRS & Universit de Grenoble III ... Le Basnage : Une refonte m connue du Fureti re (1690) Un dictionnaire encyclop dique et ... – PowerPoint PPT presentation

Number of Views:70
Avg rating:3.0/5.0
Slides: 13
Provided by: agnst
Category:

less

Transcript and Presenter's Notes

Title: Balisage automatique de dictionnaires anciens : une application dINTEX


1
Balisage automatique de dictionnaires anciens
une application dINTEX
  • Agnès Tutin
  • Unité Mixte de Recherche SILEX, CNRS Université
    de Grenoble III
  • Chantal Wionet
  • Unité Mixte de Recherche SILEX, CNRS Université
    de Grenoble III

2
Plan
  • Le Basnage et les dictionnaires anciens
  • Pourquoi linformatisation est indispensable
  • Comment baliser le texte
  • Comment Intex peut faciliter la tâche

3
Le Basnage 1702
  • Le Basnage Une refonte méconnue du Furetière
    (1690)
  • Un dictionnaire encyclopédique et un dictionnaire
    de langue.

4
Pourquoi faut-il informatiser ?
  • Conservation de documents fragiles.
  • Disponibilité (diffusion sur Internet).
  • Perspectives nouvelles pour lhistorien de la
    langue, le chercheur en lexicographie,
    lhistorien des idées. - comptages.- repérages
    des patrons.- comparaison des dictionnaires.

5
Mais ce nest pas tâche aisée
  • Coût et difficulté de la saisie OCR exclu,
    orthographe non normalisée.
  • Difficultés à délimiter les champs.
  • Marques formelles (typographie, abréviations)
    souvent peu cohérentes.
  •  Polyphonie  du discours.

6
Pourquoi choisir le balisage comme mode
d informatisation?
  • Balisage insertion de jalons isolant les champs
    du texte.
  • Texte original nest pas altéré.
  • Formalisation minimale.
  • DEBARASSÉ, ÉE. part.pass. adj.
  • ltGramgrpgt
  • ltpos TYPE ppsegtpart. pass. lt/posgt
  • lt/Gramgrpgt
  • ltGramgrpgt
  • ltpos TYPE adjgtadj. lt/posgt
  • lt/Gramgrpgt

7
Principes adoptés pour le balisage
  • Baliser aussi finement que possible.
  • Sappuyer sur des marques formelles.
  • Utiliser des standards SGML et la  Text
    Encoding Initiative .
  • Postuler une structure type la DTD.
  • Automatiser le processus de balisage le plus
    possible à laide dautomates (INTEX)

8
Les standards choisis SGML et la  Text
Encoding Initiative 
  • SGML Standard Generalized Markup Language.
    Norme ISO.
  • Avantages souplesse du balisage, guidage dans
    le processus de balisage.
  • TEI Pour les dictionnaires papier, jeu de
    balises préexistant à adapter.

9
Comment Intex peut faciliter la tâche de balisage
  • Permet de baliser semi-automatiquement le texte à
    laide de transducteurs.
  • Permet de formaliser au plus point la structure
    des champs.
  • Fonctionne bien sur les champs les plus
    structurés.

10
Exemples de graphes
  • Champ grammatical exemple du substantif

11
  • Marques de domaine

12
Conclusion
  • Travail sur une maquette de 350 articles saisis
    manuellement (350 premiers articles de la lettre
    D).
  • Plusieurs transducteurs élaborés à ce jour
    entrées et sous-entrées, zone grammaticale,
    marques de domaines, références aux auteurs,
    renvois.
  • Tous les champs ne se prêtent pas à un balisage
    semi-automatique.
  • Intex est encore sous-utilisé (ressources
    proprement linguistiques ne sont pas vraiment
    exploitées).
Write a Comment
User Comments (0)
About PowerShow.com