Web Spam Taxonomy (2005) - PowerPoint PPT Presentation

About This Presentation
Title:

Web Spam Taxonomy (2005)

Description:

Web Spam Taxonomy (2005) Par: Zoltan Gy ngyi Hector Garcia-Molina Pr sentation: Algorithmique pour le Web Mirwais TAYEBI 2005-06 Aper u Introduction D finitions ... – PowerPoint PPT presentation

Number of Views:129
Avg rating:3.0/5.0
Slides: 14
Provided by: UniGe
Category:
Tags: spam | taxonomy | web

less

Transcript and Presenter's Notes

Title: Web Spam Taxonomy (2005)


1
Web Spam Taxonomy(2005)
  • Par
  • Zoltan Gyöngyi Hector Garcia-Molina

Présentation Algorithmique pour le
Web Mirwais TAYEBI 2005-06
2
Aperçu
  • Introduction
  • Définitions
  • Boosting Techniques (augmenter le rang)
  • Hiding Techniques (dissimulation de signes de
    spam)
  • Statistiques
  • Conclusion
  • Référence linguistique Le Grand Robert et
    Collins électronique

3
Introduction
  • Web Spam?
  • Fourvoyer les moteurs de recherche (MR) pour
    augmenter son rang.
  • Conséquences
  • Mauvaise qualité de résultats de recherche
    (utilisateurs)
  • Les indexes de MR sont pleines de pages inutiles
    (coût de MR)

4
Définitions
  • Pertinence similarité textuelle entre les termes
    de requête et dune page
  • Importance popularité globale dune page,
    inlinks
  • Spamming ou Spamdexing toute action humaine pour
    augmenter la pertinence ou/et importance dune
    page sans que cela correspond à sa vraie valeur
  • Exemple
  • SEOs(Search Engine Optimizers)

5

6
Boosting TechniquesTerm Spamming
  • Pour déterminer la pertinence textuelle champs
    dune page.

ltmeta namekeywords contentbuy,
cheap,cameras, lens, accessories, nikon, canongt
buy-canon-rebel-20d-lens-case.camerasx.com, buy-ni
kon-d100-d70-lens-case.camerasx.com, . . .
lta hreftarget.htmlgtfree, great deals, cheap,
inexpensive,cheap, freelt/agt
7
Boosting TechniquesTerm Spamming
  • Algorithme cible
  • TFIDF (Term Frequency and Inverse Document
    Frequency)

Fréquence dun terme dans un champs de document
page requête
terme
total de documents sur de documents
contenant le terme t
8
Boosting Techniqueslink Spamming
  • Augmenter limportance de son page
  • Le modèle quon considère
  • 3 types de page pour un spammer
    inaccessibles,accessibles et ses propres pages.

Page cible
Ferme de spam
9
Boosting Techniqueslink Spamming
  • Algorithmes cibles
  • HITS
  • hubness, authority
  • PageRank

Score de outlinks vers exterieur du groupe
Dûe a la distibution statique du score dans le
groupe
Score dû aux liens externes du groupe
Les pages puits dans le groupe
10
Boosting Techniqueslink Spamming
Augmenter le hubness dmoz.org, dir.yahoo.com,
11
Hiding TechniquesContent Hiding
ltfont colorwhite gthidden text lt/fontgt lta
hreftarget.htmlgtltimg srctinyimg.gifgtlt/agt
ltmeta http-equivrefresh content0urltarget.h
tmlgt ltscript languagejavascriptgtlt!-
-location.replace(target.html) - -gtlt/scriptgt
La page affichée par le browser est différent de
la page retournée au crawler
Le serveur peut distinguer les crawler IP
adresse ou le champs user-agent de message de
HTTP
12
Statistiques
13
Conclusion
  • Cette taxonomie peut aider à combattre le web
    spam, ainsi
  • Les MR peuvent être en mesure de
  • Identifier le pages spammées
  • Empêcher le spamming
Write a Comment
User Comments (0)
About PowerShow.com