Title: Web Spam Taxonomy (2005)
1Web Spam Taxonomy(2005)
- Par
- Zoltan Gyöngyi Hector Garcia-Molina
Présentation Algorithmique pour le
Web Mirwais TAYEBI 2005-06
2Aperçu
- Introduction
- Définitions
- Boosting Techniques (augmenter le rang)
- Hiding Techniques (dissimulation de signes de
spam) - Statistiques
- Conclusion
- Référence linguistique Le Grand Robert et
Collins électronique
3Introduction
- Web Spam?
- Fourvoyer les moteurs de recherche (MR) pour
augmenter son rang. - Conséquences
- Mauvaise qualité de résultats de recherche
(utilisateurs) - Les indexes de MR sont pleines de pages inutiles
(coût de MR)
4Définitions
- Pertinence similarité textuelle entre les termes
de requête et dune page - Importance popularité globale dune page,
inlinks - Spamming ou Spamdexing toute action humaine pour
augmenter la pertinence ou/et importance dune
page sans que cela correspond à sa vraie valeur - Exemple
- SEOs(Search Engine Optimizers)
5 6Boosting TechniquesTerm Spamming
- Pour déterminer la pertinence textuelle champs
dune page.
ltmeta namekeywords contentbuy,
cheap,cameras, lens, accessories, nikon, canongt
buy-canon-rebel-20d-lens-case.camerasx.com, buy-ni
kon-d100-d70-lens-case.camerasx.com, . . .
lta hreftarget.htmlgtfree, great deals, cheap,
inexpensive,cheap, freelt/agt
7Boosting TechniquesTerm Spamming
- Algorithme cible
- TFIDF (Term Frequency and Inverse Document
Frequency)
Fréquence dun terme dans un champs de document
page requête
terme
total de documents sur de documents
contenant le terme t
8Boosting Techniqueslink Spamming
- Augmenter limportance de son page
- Le modèle quon considère
- 3 types de page pour un spammer
inaccessibles,accessibles et ses propres pages.
Page cible
Ferme de spam
9Boosting Techniqueslink Spamming
- Algorithmes cibles
- HITS
- hubness, authority
- PageRank
Score de outlinks vers exterieur du groupe
Dûe a la distibution statique du score dans le
groupe
Score dû aux liens externes du groupe
Les pages puits dans le groupe
10Boosting Techniqueslink Spamming
Augmenter le hubness dmoz.org, dir.yahoo.com,
11Hiding TechniquesContent Hiding
ltfont colorwhite gthidden text lt/fontgt lta
hreftarget.htmlgtltimg srctinyimg.gifgtlt/agt
ltmeta http-equivrefresh content0urltarget.h
tmlgt ltscript languagejavascriptgtlt!-
-location.replace(target.html) - -gtlt/scriptgt
La page affichée par le browser est différent de
la page retournée au crawler
Le serveur peut distinguer les crawler IP
adresse ou le champs user-agent de message de
HTTP
12Statistiques
13Conclusion
- Cette taxonomie peut aider à combattre le web
spam, ainsi - Les MR peuvent être en mesure de
- Identifier le pages spammées
- Empêcher le spamming