Title: INF L11 Langage et informatique 1
1INF L11Langage et informatique 1
Cours 10 Correction orthographique
2Introduction
- Quantité colossale de textes écrits
- Sans doute en très grande progression
- Web
- E-mail
- Chats
- SMS
- Blogs
- La planète na jamais autant écrit !
- Orthographe souvent approximative
3Application
- Pas seulement problème cosmétique
- Exemples
- Recherche dinformation
4488941 britney spears 40134 brittany spears
36315 brittney spears 24342 britany spears
7331 britny spears 6633 briteny spears 2696
britteny spears 1807 briney spears 1635
brittny spears 1479 brintey spears 1479
britanny spears 1338 britiny spears 1211
britnet spears 1096 britiney spears 991
britaney spears 991 britnay spears 811
brithney spears
811 brtiney spears 664 birtney spears
664 brintney spears 664 briteney spears 601
bitney spears 601 brinty spears 544
brittaney spears 544 brittnay spears 364
britey spears 364 brittiny spears 329
brtney spears 269 bretney spears 269
britneys spears 244 britne spears 244
brytney spears 220 breatney spears 220
britiany spears
199 britnney spears 163 britnry spears
147 breatny spears 147 brittiney spears 147
britty spears 147 brotney spears 147
brutney spears 133 britteney spears 133
briyney spears 121 bittany spears 121
bridney spears 121 britainy spears 121
britmey spears 109 brietney spears 109
brithny spears 109 britni spears ... etc.
5(No Transcript)
6Application
- Pas seulement problème cosmétique
- Exemples
- Recherche dinformation
- Traduction automatique
7(No Transcript)
8Application
- Pas seulement problème cosmétique
- Exemples
- Recherche dinformation
- Traduction automatique
- Synthèse de la parole
9(No Transcript)
10Terminologie
- Tradition
- orthographe dusage ou lexicale
- écriture du mot en lui-même, sans considération
des rapports quil entretient avec le reste de la
phrase - ex. fôte, ortografe, lappin, etc.
- orthographe grammaticale
- partie qui dépend des relations grammaticales
- accords des faute dorthographe, nous sommes
venu - conjugaisons je vous aimez, nous avons manger
- homographes grammaticaux cest ces ses, à
a, etc.
11Terminologie
- Jargon informatique
- Correcteur orthographique
- orthographe dusage (lexicale)
- Correcteur grammatical
- orthographe grammaticale
- autres erreurs de grammaire, non
orthographiques
12Orthographe lexicale
- Principe de base
- La machine contient un dictionnaire
- Chaque mot du texte est comparé au dictionnaire
13Deux problèmes différents
- Détecter les erreurs
- Souligner les mots erronés
- Fournir des corrections possibles
14Détection
15Correction
16Problème
... orteil orteils orthodoxe orthodoxe orthodoxes
orthodoxes orthodoxie orthodoxies orthogonal ortho
gonale orthogonales orthogonaux orthographe orthog
raphes orthophonie orthophonies orthopédie orthopé
dies orthopédique orthopédique orthopédiques ortho
pédiques ortie orties ...
ortographe
(loin !)
17Problème
... orteil orteils orthodoxe orthodoxe orthodoxes
orthodoxes orthodoxie orthodoxies orthogonal ortho
gonale orthogonales orthogonaux orthographe orthog
raphes orthophonie orthophonies orthopédie orthopé
dies orthopédique orthopédique orthopédiques ortho
pédiques ortie orties ...
rthographe
(très très loin !)
18Temps de calcul
- Il faudrait parcourir tout le dictionnaire pour
chaque mot - Trop coûteux en temps de calcul
- Donc, méthodes approximatives
- bonnes la plupart du temps
- échouent de temps à autre...
- Il faut avoir un modèle des erreurs
19Modèle des erreurs
- Erreurs de performance
- Lutilisateur sait, mais son doigt glisse...
- brintey spears
- Erreur de compétence
- Lutilisateur ne sait pas et produit une graphie
approximative - brittany spears
20Erreurs de performance
- Catégories les plus fréquentes
- Insertion
- beazcoup
- Suppression
- beauoup
- Substitution
- bezucoup
- Interversion
- baeucoup
- Dans la grande majorité des cas
- une seule erreur
21Diverses techniques
- Exemple clé
- on classe les lettres du mot par ordre
alphabétique et on enlève les doublons - on fait pareil avec le dictionnaire
- On nexamine que les clés de longueur N-1, N ou
N1
22Accidents
- Laffaire Cordial / NPA (mars 2000)
- Anti-stress ? anti-arabes !!!
- scandale, procès...
- Pourtant, lexplication est simple
clés identiques à une lettre près
23Solution Microsoft
- Supprimer le mot anti-arabe du dictionnaire !
- Pourtant cest un mot français, et utile
- Il sert à dénoncer les sentiments anti-arabes
- Faire une recherche Google
- Le premier lien (10/12/2004) pointe sur le site
du MRAP (qui avait porté plainte, puis retiré sa
plaine), qui dénonce le racisme anti-arabe...
24Autre exemple
- Marie-Solange ? marie-salope
- Supprimé du dictionnaire !
- test
- marie-salpe ? ne suggère plus rien
- logiciels politiquement corrects
- mais linguistiquement idiots...
25Erreurs de compétence
- Erreurs phono-graphiques
- eau ? o
- ph ? f
- etc.
- Homographes
- pantoufle de verre, etc.
- Très difficile !
26Un défi...
- Une vraie dictée (V. Rey)
- Un corbeau perche sur lantène d'un batiman piin
dans son bece une souris blésé. Ranu furid par
sept ezo cuèle des anfen lance dé caiou pour
lobijé a canvol. - Original
- Un corbeau perché sur l'antenne d'un bâtiment
tient dans son bec une souris blessée. Rendus
furieux par cet oiseau cruel, des enfants lancent
des cailloux pour l'obliger à s'envoler.
27Autres problèmes
- Le lexique dune langue nest pas clos
- morphologie dérivationnelle
28Dérivation
- Préfixes, suffixes
- Infinité de mots possibles
coller, collable, collabilité, recoller,
recollable, recollabilité, décoller, décollable,
décollabilité, surcoller, surcollable,
surcollabilité, redécoller, redécollable,
redécollabilité, surdécoller, surdécollable,
surdécollabilité, etc.
29Google (10/12/2004)
30Autres problèmes
- Le lexique dune langue nest pas clos
- morphologie dérivationnelle
- emprunts
31Emprunts
- différentes sources
- science
- laser, radar, sonar
- informatique
- bug, mail, blog, SMS
- medias, show business
- casting, zapping, nominer
- francisation
- tagguer, rapper, zapper, bugger (bugguer?)
32Français
- 35 000 mots courants ? 4 200 emprunts
- anglais (25 )
- italien (16,8 )
- francique (13 )
- arabe (5,1 )
33Exemples intégrés...
- Arabe
- alambic, alcool, algèbre, assassin, azur, café,
carafe, chiffre, coton, élixir, épinard,
estragon, gazelle, girafe, goudron, guitare,
harem, hasard, jupe, matraque, momie, nénuphar,
orange, sirop, sucre, zéro - Italien
- arcade, artisan, balcon, banque, banqueroute,
bouffon, burlesque, caleçon, caresse, carnaval,
charlatan, citron, concert, corridor, courtisan,
douche, escadron, faïence, festin, frégate,
gazette, gondole, passager, poltron, porcelaine,
soldat, sonnet - etc.
34Autres problèmes
- Le lexique dune langue nest pas clos
- morphologie dérivationnelle
- emprunts
- néologismes
35Néologismes
- Noms propres
- sarkozien (ou sarkosien ?), benladenisation
- Sciences
- nanotechnologies
- Société
- bioterrorisme, sidologie, insécuritaire,
internaute - etc.
36Evaluation des performances
- Bruit faux positifs / nb total dalertes
- Silence faux négatifs / nb total erreurs
37Exemple
38(No Transcript)