Technologies de recherche Internet : - PowerPoint PPT Presentation

About This Presentation
Title:

Technologies de recherche Internet :

Description:

Technologies de recherche Internet : un tat des lieux Robert VISEUR Guide technologique CETIC Contexte de l expos Recherches appliqu es men es au Cetic ... – PowerPoint PPT presentation

Number of Views:88
Avg rating:3.0/5.0
Slides: 18
Provided by: fe56
Category:

less

Transcript and Presenter's Notes

Title: Technologies de recherche Internet :


1
  • Technologies de recherche Internet
  • un état des lieux
  • Robert VISEUR
  • Guide technologique
  • CETIC

2
Contexte de lexposé
  • Recherches appliquées menées au Cetic
  • Technologies Open Source de crawl et dindexation
  • Technologies Retroweb dextraction Web (pages
    HTML)
  • Exploration de diverses pistes de valorisation
  • Outils de migration semi-automatique de sites
    Internet statiques
  • Outils personnalisés de veille
  • Moteurs de recherche grand public
  • Moteurs de recherche professionnels (Intranet,
    Extranet, thèmes)
  • Les exposés découlent des travaux en matière de
    développement doutils de recherche sur mesure.

3
De quoi parle-t-on ?
  • Sujet moteurs de recherche Web
  • Assemblages de plusieurs technologies
  • Pour la collecte des données (crawler / spider /
    robot)
  • Pour lindexation
  • Pour linterrogation
  • Pour la présentation des résultats

Source LIFL
4
Le marché de la recherche grand public
  • Acteurs internationaux
  • Google
  • Yahoo
  • MSN
  • Acteurs régionaux
  • Ask Jeeves (en)
  • Seekport (eu)
  • Acteurs locaux (fr-fr)
  • Voilà (lié à France Telecom)
  • Exalead (fonctions sémantiques)
  • Kartoo (cartographie des résultats)
  • Constats
  • La position de Google est très forte auprès du
    grand public... surtout francophone.
  • Des acteurs plus petits peuvent croître et
    prospérer, grâce à de nouveaux angles dattaque
    (techniques et marketing) du marché.

5
Et ses chiffres
  • Part de marché - France
  • Google 69,18
  • Yahoo 7,05
  • Voila 6,05
  • Msn 5,93
  • Part de marché - Monde
  • Google 44.8
  • Yahoo! 23.05
  • MSN 12.09
  • AOL 6.1
  • Ask Jeeves 6.1
  • Part des médias
  • Google 2,28 annonces par semaine
  • Yahoo! 0,96 annonces par semaine
  • MSN Search 0,74 annonces par semaine
  • Exalead 0,07 annonces par semaine
  • Acteur français performant mais trop discret !

6
Spécialisation des outils de recherche
  • Shopping
  • Froogle (développé par Google)
  • Kelkoo (français, acheté par Yahoo!)
  • Gooster (indépendant, initié par Netbooster en
    France)
  • Actualités
  • Google News (développé par Google)
  • Moreover (acheté par MSN)
  • Feedster (USA, indépendant, univers RSS)
  • Livres
  • Google Book (développé par Google, ex-Google
    Print)
  • Amazon A9 (antérieur à Google Print)
  • Quaero (réaction européenne à Google Print)
  • Vidéo / audio
  • Google Vidéo (développé par Google)
  • Blinkx (indépendant, reconnaissance vocale)

7
Apports technologiques des outils spécialisés
  • Intégration de multiples sources d'information
    (Web, XML, RSS, bases de données,...)
  • évolution des méta-moteurs Web
  • demande des entreprises, aussi
  • gt Prise en charge partielle par Retroweb
  • Post-structuration de l'information Web crawlée
  • utilisé par les moteurs dactualités, les
    comparateurs de prix,...
  • gt Pris en charge par Retroweb
  • Extension à de nouveaux types de données (PDF,
    Office , MP3, AVI, PDF,)
  • gt Architecture de greffons (plug-ins)

8
Forces et faiblesses de Google (1)
  • Forces
  • Part de marché dans la recherche Web (visibilité)
  • Couverture médiatique importante, image de marque
  • Forte tradition d'innovation
  • Infrastructure matérielle (réactivité)
  • Faiblesses
  • Fraîcheur et profondeur (dans certains domaines)
  • Manque d'intégration des projets
  • Peu d'innovation sur le moteur Web
  • Exemples
  • Google répond vite à de mauvaises questions (pas
    daide à la formulation de requêtes).
  • Google ne catégorise pas les résultats (pas de
    distinction entre la voiture Jaguar, le Mac OS
    Jaguar, le Jaguar de Francis Weber, le félin
    Jaguar,).

9
Forces et faiblesses de Google (2)
  • Faiblesses (suite)
  • Limites du PageRank atteintes
  • Problèmes de spam (Google bombing, fermes à
    liens)
  • miserable failure donne Biography of
    President George W. Bush
  • Comment ? Coalitions de webmestres !
  • Formes douces échanges de liens massifs,
    fermes à liens,
  • Problèmes liés aux blogs (par exemple)
  • Les moteurs de blogs sont optimisés pour le
    référencement et fortement interconnectés (bon
    pour le Pagerank).
  • Conséquence
  • La pertinence de Google napparaît plus comme une
    référence.
  • Lalgorithme du Pagerank perd sa force en cas de
    maillage faible
  • Conséquence
  • Lalgorithme perd de sa pertinence en entreprise.
  • Par extension inadéquation hors de la structure
    Web classique
  • Problème pour les actualités, le shopping, etc

10
Pourquoi cette domination ?
  • Le moteur reste globalement rapide et pertinent
    (peu de raison de changer)
  • La concurrence se démarque peu
  • Sortie dapplications tendances (blogs, RSS,
    Ajax, etc)
  • Bon en terme dimage
  • Voir lengouement populaire pour lIPO de Google
    !
  • Lenteur des concurrents à attaquer sur le marché
    des liens contextuels
  • Position très forte de Google sur le marché de
    publicité en ligne
  • Valorisation de la publicité contextuelle sur le
    moteur et sur un réseau étendu de sites affiliés
  • Très forte rentabilité, permettant le financement
    du marketing et de la recherche appliquée

11
Exemple doutsiders (1)
  • Clusty
  • fonctionnement en métamoteur
  • catégorisation des résultats
  • Trafic 3.807ème site mondial
  • Exalead
  • requêtes sémantiques
  • catégorisation des résultats
  • Trafic 154.769ème site mondial
  • A9 / Amazon
  • personnalisation de l'interface Ajax
  • recherches dans le contenu des livres
  • Trafic 1.369ème site mondial
  • Blinkx
  • indexation d'audio (dont podcasts) et de vidéo
  • reconnaissance de la parole
  • Trafic 18.060 ème site mondial

12
Exemple doutsiders (2)
  • Ujiko
  • fonctionnement en métamoteur
  • interface riche en Flash
  • personnalisation
  • dimension ludique (niveaux)
  • Trafic 139.612ème site mondial
  • Technorati
  • recherche de blogs
  • tracking des messages
  • Trafic 735ème site mondial
  • Seekport
  • moteur de recherche européen
  • recherche thématique
  • Trafic
  • 67.874ème site mondial (.de)
  • 132.212ème site mondial (.co.uk)

13
Modèles daffaires des moteurs de recherche
  • Positionnement payant
  • Marginal
  • Inclusion XML
  • Marginal
  • Publicité contextuelle
  • Modalité
  • CPClic
  • CPCall (gt VoIP)
  • Appliqué par Google, Yahoo!, MSN, Ask Jeeves,
  • Autres
  • Commissions sur les ventes (produits)
  • Services en entreprise (Exalead, FAST, Antidot,)

14
Quelques perspectives (1)
  • Web sémantique
  • Enjeux
  • comprendre ce que l'utilisateur cherche
  • comprendre ce que contient linformation
  • Formes
  • reformulation des requêtes
  • crawlers intelligents
  • catégorisation automatique
  • Web 2.0
  • Interactivité (Ajax)
  • Exemples
  • A9 (affichage dynamique d'informations sur chaque
    site de résultats)
  • Google Suggest (suggestion de requêtes en temps
    réel)
  • Par extension interfaces riches (Kartoo et,
    surtout, Ujiko)
  • Coopération entre les utilisateurs
  • Ajouter l'intelligence de l'humain à
    l'automatisme du moteur
  • Exemple
  • folksonomies

15
Quelques perspectives (2)
  • Moteurs P2P
  • Exemple JXTA Search (Sun)
  • Questions en suspens
  • Réactivité ?
  • Bonne solution pour du crawl multimédia (partage
    de bande passante et de puissance de calcul) ?
  • Algorithmes Open Source
  • Idée Algorithme de ranking intrinsèquement
    robuste
  • Problème infrastructure
  • Exemple Mozdex.com
  • Personnalisation
  • Personnalisation de linterface
  • Géolocalisation de linternaute gt contenu local
    mis en avant
  • Divers
  • Ouverture (API)
  • Ranking complexe TrustRank, contextualisation,
  • Intégration (avec poste de travail notamment)

16
La suite
  • Présentation des technologies développées et
    maîtrisées par le Cetic dans le domaine de
    lextraction, de la structuration et de
    lindexation de contenus Web
  • Exemples de références et de prototypes
  • La surprise du groupe de discussion le
    moteur de recherche des contacts du Cetic

17
Questions ?
Write a Comment
User Comments (0)
About PowerShow.com