Keuzes%20in%20het%20zoekproces%20en%20structuur%20van%20het%20web - PowerPoint PPT Presentation

About This Presentation
Title:

Keuzes%20in%20het%20zoekproces%20en%20structuur%20van%20het%20web

Description:

Title: vv Author: Jeroen Bosman en Ina de Bruin Last modified by: Jeroen Bosman Created Date: 5/6/2001 2:35:43 PM Document presentation format: Diavoorstelling (4:3) – PowerPoint PPT presentation

Number of Views:95
Avg rating:3.0/5.0
Slides: 32
Provided by: Jeroe58
Category:

less

Transcript and Presenter's Notes

Title: Keuzes%20in%20het%20zoekproces%20en%20structuur%20van%20het%20web


1
Keuzes in het zoekproces en structuur van het web
  • Jeroen Bosman
  • VOGIN, 19 november 2013
  • Wageningen

2
(No Transcript)
3
(No Transcript)
4
(No Transcript)
5
Kenmerken zoekexpert
  • Kennis onderwerp
  • Bronnenkennis
  • Kennis zoektools
  • Talenkennis, taalcreativiteit
  • Logica (verzamelingenleer)
  • Zorgvuldig gebruik zoektools
  • Snelheid (m.n. bij selecteren en evalueren)
  • Reflectie op eigen zoekproces (bv met reverse
    search)

6
Deel I keuzes in het zoekproces
7
Zoeksystematiek
  • Vraaganalyse
  • Wensen opdrachtgever
  • Verkenning
  • Opstellen zoekprofiel waaraan moet de informatie
    voldoen, genereren zoektermen
  • Aanbod
  • Keuze ingang(en) zoekmachines, databases,
    gidsen, bookmarksites
  • Match
  • Daadwerkelijk zoeken (gebruik syntax, opties en
    filters)
  • Selecteren (is het relevant?)
  • Nabewerking per relevante bron
  • Evaluatie (is het goed genoeg?)
  • Opslaan, printen, delen
  • Eventueel doorzoeken via auteurs en verwijzingen
    uit gevonden bronnen
  • Nabewerking zoekactie geheel
  • Bij doorlopende interesse evt. web en page
    alerts/feeds instellen
  • Expliciete reflectie op zoekproces en
    zoekresultaat
  • Vervolg op zoekactie
  • Eventueel andere ingangen of geheel andere typen
    bronnen (gedrukte literatuur, deskundigen)

8
Vraaganalyse 1 wensen opdrachtgever
  • Opdrachtgever wat wil men met de informatie?
  • Voorwaarden aan aard van informatie (onderzoek,
    opinie, peer reviewed, actualiteit etc.)
  • Randvoorwaarden tijd, geld, vertrouwelijkheid
  • Rapportagevorm (inhoudelijk, technisch)

9
Vraaganalyse 2 Verkenning
  • Welke vraag/onderwerp
  • Wat ligt er al, nuttig als uitgangspunt?
  • Inhoudelijk verkennen (via bv Wikipedia of ander
    naslagwerk of via korte zoekactie)
  • Ideeën opdoen qua context, jargon, zoektermen,
    typen bronnen, auteurs

10
Vraaganalyse 3 Zoekprofiel
  • Onderscheiden elementen (variabelen)
  • Welke?
  • Allebei even belangrijk?
  • Vooraf genereren zoektermen
  • Uit reeds gevonden bronnen
  • Uit naslagwerken/zoekacties van verkenningsfase
  • Uit woordenboeken, thesauri (Het juiste woord,
    Rogets Thesaurus)
  • Uit keyword facets in bv. Scopus
  • Afbakening in tijd, ruimte, speciale
    omstandigheden waaronder een proces moet spelen
  • Relevante typen informatie en publicaties
  • Relevante publicatieperiode

11
Aanbod Keuze zoekingang
  • Bepaald door zoekprofiel onderwerp, type
    informatie, type publicatie, relevante
    publicatiejaren, disciplinair perspectief
  • Bepaald door beschikbaarheid toegankelijkheid,
    kosten, licenties
  • Bepaald door extra wensen
  • Zoekmethode catalogus-, bibliografische,
    sneeuwbal(citatie)methode (op het web
    zoekmachines, gidsen/directories, backlinks)
  • Zoeken in full-text, links naar full-text
  • Ook letten op volgorde ingangen (dekking,
    bekendheid, selectiviteit, afh. van doel)
  • Zie voor links naar ingangen de startpagina bij
    deze cursus

12
Match 1 Zoektermen ingeven
  • Let op woordvarianten en spelling
  • Varianten in OR-relatie of
  • Trunceren alles wat met woordstam begint (alleen
    Exalead)
  • Automatische stemming (enkel-/meervoud enz. bij
    Google?)
  • Oxford-English of AmericanEnglish (s/z, ou/o)
  • Samenstellingen in Engels los kwaliteitscontrole
    gt quality control
  • Denken in termen van het te vinden document
    (jargon/slang), gebruik zinsnedes / exact phrase
    met
  • Bij Google wildcard binnen exact phrase
  • Bij Google verbatim/woord-voor-woord zoeken

13
Match 2 zoektermen ingeven, vv.
  • Gebruik termsuggesties
  • voor zoekactie Google, Exalead, Bing, Yahoo
  • termen uit gevonden goede webpaginas
  • hulpmiddelen thesaurus, synoniemenwoordenb.
    (startpag.)

Bing Google Yahoo
14
Match 3 zoektermen ingeven, vv.
  • Gewicht aanbrengen met zoektermherhaling in
    Google
  • Voorbeeldzoeken voor lijstjes
  • Iteratief proces één of meer keren snelle
    beoordeling zoekresultaat en aanpassing
    termen/instellingen
  • Aantallen treffers (in webzoekmachines) wel
    letten op veranderingen, niet op absolute niveau

15
Match 4 Selectie op relevantie
  • Wat voor rangorde hebben de resultaten?
  • De rangorde beïnvloeden, vertrouwen of alles
    bekijken?
  • Kijk naar meer dan titels
  • bij boeken/artikelen
  • samenvattingen
  • citaties
  • omvang (bv LexisNexis)
  • bij web
  • KWIC
  • domein/organisatie
  • wel/niet PDF
  • omvang (bv. bij images en video)
  • preview (niet meer bij Google-web)

16
Nabewerking per bron 1 beoordeling
  • Formeel (vooral bij websites)
  • Aanduiding maker/auteur (about us)
  • Aanduiding postadres, telefoonnummer
  • Aanduiding doel/doelgroep
  • Goede opmaak
  • Geen reclame en pop-ups
  • Heldere navigatie
  • Interne zoekfunctie
  • Voldoende snelheid server
  • Backlinks door gezaghebbende organisaties
  • Up to date?
  • Zinnige datering inhoud
  • Geen grof taalgebruik
  • Geen kinderlijk taalgebruik
  • Geen storende taalfouten
  • Beoordeling door anderen
  • Status bron (peer reviewed, uitgever,
    gezaghebbende instantie)
  • Affiliatie auteur
  • Plaats in citatienetwerk (door wie, hoe vaak)
  • Zelf, inhoudelijk
  • Bronvermelding (voldoende, geen kernpublicaties
    gemist)
  • Opbouw, argumentatie, methode, verantwoording

17
Nabewerking per bron 2
  • opslaan (mail, document, Endnote / Refworks /
    Mendeley / Zotero / Evernote / Diigo e.d.
  • versturen (handmatig, vanuit systeem)
  • bookmark (browser, Delicious, CiteUlike, like,
    )
  • alert/spion (donderdag)
  • RSS-feed )met Feedly, Digg etc. of Outlook

18
Vervolg op zoekactie Reflectie
  • Hoeveel gevonden in hoeveel tijd?
  • Voldoet oogst aan zoekprofiel?
  • Welke aspecten van zoekprofiel waren meest
    selectief?
  • Waren alle vooraf bedachte ingangen even nuttig?
  • Wat was de overlap tussen de ingangen?
  • Goede volgorde ingangen gehanteerd?
  • Wat had de zoekvraag moeten zijn om het beste
    gevonden document direct te vinden (reverse
    earch)
  • Iets geleerd over eigen sterke/zwakke punten?

19
Deel II Structuur van het web
20
Er is wel structuur domeinen
  • soorten top-level-domains (TLD) iso-3166
  • generiek
  • com / org / net (vrij)
  • int / edu / gov / mil / arpa (beperkt)
  • landen nl/be/au/at/de/uk/us (ccTLDs, 34)
  • jump tv / nu / to / tk
  • nieuw biz/info/name/coop/pro/aero/museum/mobi
  • generieke subtopleveldomeinen
  • co / gob / ac / org etc.
  • (zie http//www.iana.org/domains/root/db/
  • en http//www.whois365.com/en/listtld/gtld)
  • per 2009 ook URLs in niet-Latijns schrift

21
opbouw URL
  • protocol // servernaam . subdomein . domein .
    TLD / map / filenaam . extensie
  • http // libguides. library . uu . nl / evalueren

22
URLs van databasepaginas
  • http//aleph.library.uu.nl/F/HDRH5QK8UGC775UMSMU44
    VT2GSG5VD5VKEI6FMCCN7G75L75LG-04490?funcfind-bfi
    nd_codeWRDrequestgeografischehuisadjacentNx
    43y11
  • http//www.google.nl/search?as_qvoginwageningen
    hlnlrlz1R2MEDC_nlNL330num10btnGGooglezoeke
    nas_epqas_oqas_eqlrlang_nlcras_ftias_
    filetypepdfas_qdrallas_occtanyas_dtias_sit
    esearchas_rightssafeimages

23
zoektools wanneer wat?
  • indien zoekvraag feitelijk, specialistisch, met
    voorkennis, onder tijdsdruk
  • zoekmachines
  • indien zoekvraag breed, exploratief,
    inventariserend, met weinig voorkennis, met
    relatief veel tijd
  • onderwerpsgidsen, door mensen gemaakte
    overzichten

24
Onderwerpsgidsen algemeen
  • geen zoektermen nodig
  • vaak actueel
  • annotaties
  • weinig ruis

- onvolledig dode links voorkeur maker houdt
groei niet bij voor homepages
25
Onderwerpsgidsen
  • Alle onderwerpen Open Directory, Yahoo
  • Nederlands startpagina, meta startnederland
  • Breed wetenschappelijk Infomine
  • Web2.0-variant Digg (nieuws)
  • Sociaal met voting Reddit
  • Zoeken
  • via Yahoo (per onderwerp onder webdirectories)
  • via Open Directory
  • via Pinakes (wetenschappelijk)
  • vragen aan collegae
  • vragen via discussielijsten, twitter etc.

26
Zoekmachines dekking
  • gt 15 van de webpaginas in geen enkele van de
    grootste zoekmachines
  • van resterende wel geïndexeerde paginas zelfs
    Google maar 76, Yahoo 69, Live/Bing 62
    (http//www.cs.uiowa.edu/asignori/web-size/)
  • overlap eerste pagina slechts 10 (Spink studie
    2006)
  • dekking zeer ongelijkmatig
  • verschil in actualiteit

27
Zoekmachines ontwikkeling
  • 1994 Webcrawler, Lycos, Alta Vista (10)
  • 1995 concurrentie Hotbot, Excite, Yahoo (50)
  • 1997 Northern Light, MSN, sterke groei web gt 200
  • 1999 opkomst Google en Alltheweb en crisis
    Infoseek, Northern Light, AV, Excite, ILSE o.a.
    (100)
  • 2002 komst Teoma, Wisenut, Gigablast (1000)
  • 2003 renaissance AV, glorietijd Google (3000)
  • 2004 consolidatie/concurrentie (4000)
  • GoogleBlogger, verbreding boeken, kritiek,
    beursgang
  • OvertureAllthewebAVYahoo, ontmanteling AV/ATW
  • Microsoft introductie MSNsearch beta zelf
    indexeren
  • 2005 verbreding/innovatie/content (5000-10000)
  • Samenwerking content providers-zoekmachines?
  • Teoma wordt Ask en opkomst Amazon met A9
  • Doorgroei Gigablast (2000)
  • 2006-2007 puur zoeken raakt op achtergrond
    (20000-40000)
  • Live gelanceerd, YouTube gekocht
  • uploaden, web 2.0
  • gemengde content (Google universal, iGoogle bv.)
  • specifieke diensten (Google CSE bv)

28
Zoekmachines wat vind je niet?
  • recente webpaginas/wijzigingen
  • dynamisch gegenereerde paginas
  • informatie in databases
  • paginas met no robots file
  • paginas met toegangsrestricties
  • verdwenen paginas maar
  • Cache (bij Google link in preview)
  • Wayback Machine archive.org
  • kleinere archiveringsacties KB en BL

29
Zoekmachines beperkingen Google
  • genest Booleaans zoeken gt Bing/Exalead
  • zeer grote paginas soms niet volledig
    geïndexeerd? gt Yahoo
  • niet bruikbaar voor exact search van 1 woord
  • truncatie en fonetisch zoeken gt Exalead?
  • zoekgeschiedenis zonder inloggen Bing
  • webpaginas met audio Exalead

30
Land/taalversies Google
  • Interfacetaal
  • beïnvloedt ook (ranking) resultaat!
  • Taalinstelling zoekactie
  • voorkeuren eenmalig of implied door zoekterm
  • Landsversie
  • beïnvloedt ranking sterk
  • ncr no country redirect
  • Let ook bij Bing op landsinstelling alleen VS
    versie heeft alle functionaliteit

31
Personalisation/localisation
  • Localisatie effect sterker dan personalisatie
  • Effect beperken
  • Voeg "pws0 toe om in Google personalisation
    uit te zetten
  • Gebruik een Chrome incognito window
  • Log niet in
  • Zet locatie in mobiel apparaat uit
Write a Comment
User Comments (0)
About PowerShow.com