Title: MEMOIRE DE MATRISE
1 MEMOIRE DE MAÎTRISE
- Étude de la structuration des pages Web à travers
- la balise ltFONTgt
Andrea Kuncová Taillefer sous la direction de
Serge Fleury
Maîtrise des Sciences du Langage Mention
Industrie de la langue
2Sommaire
Introduction Projet TyPWeb Hypertexte et
lArchitecture textuelle Constitution du
corpus La balise ltFONTgt dans les pages
personnelles Conclusion
3Introduction
- Lobjectif savoir comment les créateurs des
sites personnels essaient de faciliter la lecture
et la navigation des internautes en se servant de
la balise FONT - Lutilisation de ltFONTgt à des fins divers
- Aider à naviguer plus facilement
- Souligner une information importante
- Structurer la page
4Introduction (schéma)
5Projet TyPWeb
- Le but du projet TyPWeb
- profilage de sites Web et une typologie fine de
ces sites - Moyens dy parvenir
- l'analyse des parcours des internautes
- l'analyse sémantique et structurelle des sites, à
la fois pour donner le sens aux parcours, et pour
montrer comment la structure et les contenus des
sites conditionnent les visites
6Hypertexte
- La plus importante des caractéristiques de
- l'hypertexte est sa non-linéarité.
-
7Architecture textuelle
- L'architecture textuelle est une composante
abstraite du texte, perceptible grâce à sa mise
en forme matérielle - (propriétés syntaxiques, typographiques et
- dispositionnelles) Pascual, Péry-Woodley,
1996. -
- ltFONTgt participe à la mise en forme matérielle
des pages Web. - But lisibilité, meilleure recherche de
linformation -
- Création des conventions ?
8Constitution du corpus (1)
- Corpus
- aspiration des sites Web marchands et
personnels - modélisation des donnés sites
normalisés au format XML - Sous-corpus
- 18 sites portant sur des sujets différents
- concaténation des rapports XML en un seul fichier
MyCorpus.xml - nettoyage et préparation du corpus pour les
traitements avec Lexico3
9Constitution du corpus (2)
- Différentes extractions à partir du corpus
MyCorpus.xml - à laide des programmes Perl
- balises HTML
- balises HTML avec leurs attributs
- balises HTML avec leurs attributs et les valeurs
- balises FONT et tout ce quelles contiennent
- Extrait du fichier XML
- lttagHTML TAGType"FONT" NBATTR"3"gtBEGIN-FONT
- lttagHTMLAttr TAG"FONT" NUM"1"
ATTRType"SIZE" VALUE"6"/gt - lttagHTMLAttr TAG"FONT" NUM"2"
ATTRType"COLOR" VALUE"Red"/gt - lttagHTMLAttr TAG"FONT" NUM"3"
ATTRType"FACE" VALUE"Arial"/gt - lt/tagHTMLgt
- .
- lt tagHTML TAGType"font"gtEND-fontlt/tagHTMLgt
10ltFONTgt
- ltFONTgt est une balise HTML dont on se sert pour
mettre en forme les caractères d'un texte. - C'est une balise qui détermine la police des
caractères. -
- Exemple
- ltFONT COLOR"red" FACE"Arial"gttextelt/FONTgt
- Résultat
11ltFONTgt et ses attributs
- La balise FONT attend un attribut suivi d'une
valeur. - FONT accepte trois attributs
- taille SIZE
- sa valeur est de 1 à 7 et peut être précédé
dun ou -
- couleur COLOR
- sa valeur est un nom de la couleur ou un code
hexadécimal RRVVBB - police FACE
- sa valeur est un nom de la police
12ltFONTgt dans notre corpus
- Nombre de balises HTML 123 732
- Nombre de balises FONT 14 930
- La fréquence du couple FONT-ATTRIBUT
- FONT COLOR 9880
- FONT SIZE 9839
- FONT FACE 4871
-
- Quelle est la fonction de chacun des attributs de
la balise - FONT dans la structuration des pages?
13ltFONTgt FACE
- FACE l'attribut qui reste assez stable et ne
- change que rarement à l'intérieur d'un site.
- Deux cas où FACE peut changer dans une page
- à l'intérieur du même site cohabitent plusieurs
thèmes - à l'intérieur du même site et du même thème
l'énonciateur change - Différentes FACEs dans une même page
- éclatement, brouillon, lecture difficile,
désorientation - FACE la plus fréquemment utilisée dans MyCorpus
Arial
14ltFONTgt SIZE
- SIZE change couramment dans le même site voire
- dans la même page.
- Deux cas où SIZE peut changer dans une page
- hiérarchiser le texte de la page lecture
plus rapide et plus organisée (titres,
sous-titres) - aider à la navigation taille des liens
- Certains faits réguliers
- liens généraux (lt), accueil (gt), dans le
texte () - titres gt sous-titres gt texte
- Préférence pour les tailles absolues, surtout
valeurs 2 et 4.
15ltFONTgt COLOR
- COLOR lattribut de FONT le plus courant et
varié. - Plusieurs couleurs cohabitent dans une page.
- Trois cas où COLOR peut changer dans une page
- Signaler une information importante hors ou à
lintérieur du texte - Démarquer les titres et des sous-titres
- Aider à la navigation signaler les liens
- Certains faits réguliers
- liens et titres COLOR différent du texte de la
page - information importante préférence pour FF0000
(rouge) - Préférence pour les valeurs hexadécimales.
- COLOR le plus utilisé noir suivi de blanc,
gris, bleu et rouge.
16ltFONTgt et son Contexte
- Hypothèse balises participant à la mise en
forme de la page - Concordances avec Lexico3
- Tri avant ltBALISEgtltFONTgtlt/FONTgtlt/BALISEgt
- Résultat
- Tri après ltFONTgtltBALISEgtlt/BALISEgtlt/FONTgt
- Résultat
Surtout les balises définissant la structure de
page (disposition du texte)
Surtout les balises définissant la forme des
caractères
17ltFONTgt et les Mots
- Extraction des suites composées dun, deux et
trois mots - Deux fonctions dans les pages
- mots-liens message explicite pour la
navigation - message du contenu de la page
- mots mis en relief (titres)
- Particularité les majuscules utilisées dans
deux tiers des cas - Catégories grammaticales les plus fréquentes
- Noms propres
- Noms communs
- Peu de verbes
- Grand nombre de mots anglais
18Conclusion
- La balise FONT participe à la structuration des
pages - personnelles.
- Tendances principales
19Perspectives
- Mettre en relation létude de la balise FONT avec
les - études des autres balises de structuration des
- pages Web - FRAME, TABLE, P et dautres.
- Agrandir le corpus de travail
- Comparaison avec les sites marchands
20MEMOIRE DE MAÎTRISE
Étude de la structuration des pages Web à travers
la balise ltFONTgt lt/FINgt