Title: Keuzes%20in%20het%20zoekproces%20en%20structuur%20van%20het%20web
1Keuzes in het zoekproces en structuur van het web
- Jeroen Bosman
- VOGIN, 19 november 2013
- Wageningen
2(No Transcript)
3(No Transcript)
4(No Transcript)
5Kenmerken zoekexpert
- Kennis onderwerp
- Bronnenkennis
- Kennis zoektools
- Talenkennis, taalcreativiteit
- Logica (verzamelingenleer)
- Zorgvuldig gebruik zoektools
- Snelheid (m.n. bij selecteren en evalueren)
- Reflectie op eigen zoekproces (bv met reverse
search)
6Deel I keuzes in het zoekproces
7Zoeksystematiek
- Vraaganalyse
- Wensen opdrachtgever
- Verkenning
- Opstellen zoekprofiel waaraan moet de informatie
voldoen, genereren zoektermen - Aanbod
- Keuze ingang(en) zoekmachines, databases,
gidsen, bookmarksites - Match
- Daadwerkelijk zoeken (gebruik syntax, opties en
filters) - Selecteren (is het relevant?)
- Nabewerking per relevante bron
- Evaluatie (is het goed genoeg?)
- Opslaan, printen, delen
- Eventueel doorzoeken via auteurs en verwijzingen
uit gevonden bronnen - Nabewerking zoekactie geheel
- Bij doorlopende interesse evt. web en page
alerts/feeds instellen - Expliciete reflectie op zoekproces en
zoekresultaat - Vervolg op zoekactie
- Eventueel andere ingangen of geheel andere typen
bronnen (gedrukte literatuur, deskundigen)
8Vraaganalyse 1 wensen opdrachtgever
- Opdrachtgever wat wil men met de informatie?
- Voorwaarden aan aard van informatie (onderzoek,
opinie, peer reviewed, actualiteit etc.) - Randvoorwaarden tijd, geld, vertrouwelijkheid
- Rapportagevorm (inhoudelijk, technisch)
9Vraaganalyse 2 Verkenning
- Welke vraag/onderwerp
- Wat ligt er al, nuttig als uitgangspunt?
- Inhoudelijk verkennen (via bv Wikipedia of ander
naslagwerk of via korte zoekactie) - Ideeën opdoen qua context, jargon, zoektermen,
typen bronnen, auteurs
10Vraaganalyse 3 Zoekprofiel
- Onderscheiden elementen (variabelen)
- Welke?
- Allebei even belangrijk?
- Vooraf genereren zoektermen
- Uit reeds gevonden bronnen
- Uit naslagwerken/zoekacties van verkenningsfase
- Uit woordenboeken, thesauri (Het juiste woord,
Rogets Thesaurus) - Uit keyword facets in bv. Scopus
- Afbakening in tijd, ruimte, speciale
omstandigheden waaronder een proces moet spelen - Relevante typen informatie en publicaties
- Relevante publicatieperiode
11Aanbod Keuze zoekingang
- Bepaald door zoekprofiel onderwerp, type
informatie, type publicatie, relevante
publicatiejaren, disciplinair perspectief - Bepaald door beschikbaarheid toegankelijkheid,
kosten, licenties - Bepaald door extra wensen
- Zoekmethode catalogus-, bibliografische,
sneeuwbal(citatie)methode (op het web
zoekmachines, gidsen/directories, backlinks) - Zoeken in full-text, links naar full-text
- Ook letten op volgorde ingangen (dekking,
bekendheid, selectiviteit, afh. van doel) - Zie voor links naar ingangen de startpagina bij
deze cursus
12Match 1 Zoektermen ingeven
- Let op woordvarianten en spelling
- Varianten in OR-relatie of
- Trunceren alles wat met woordstam begint (alleen
Exalead) - Automatische stemming (enkel-/meervoud enz. bij
Google?) - Oxford-English of AmericanEnglish (s/z, ou/o)
- Samenstellingen in Engels los kwaliteitscontrole
gt quality control - Denken in termen van het te vinden document
(jargon/slang), gebruik zinsnedes / exact phrase
met - Bij Google wildcard binnen exact phrase
- Bij Google verbatim/woord-voor-woord zoeken
13Match 2 zoektermen ingeven, vv.
- Gebruik termsuggesties
- voor zoekactie Google, Exalead, Bing, Yahoo
- termen uit gevonden goede webpaginas
- hulpmiddelen thesaurus, synoniemenwoordenb.
(startpag.)
Bing Google Yahoo
14Match 3 zoektermen ingeven, vv.
- Gewicht aanbrengen met zoektermherhaling in
Google - Voorbeeldzoeken voor lijstjes
- Iteratief proces één of meer keren snelle
beoordeling zoekresultaat en aanpassing
termen/instellingen - Aantallen treffers (in webzoekmachines) wel
letten op veranderingen, niet op absolute niveau
15Match 4 Selectie op relevantie
- Wat voor rangorde hebben de resultaten?
- De rangorde beïnvloeden, vertrouwen of alles
bekijken? - Kijk naar meer dan titels
- bij boeken/artikelen
- samenvattingen
- citaties
- omvang (bv LexisNexis)
- bij web
- KWIC
- domein/organisatie
- wel/niet PDF
- omvang (bv. bij images en video)
- preview (niet meer bij Google-web)
16Nabewerking per bron 1 beoordeling
- Formeel (vooral bij websites)
- Aanduiding maker/auteur (about us)
- Aanduiding postadres, telefoonnummer
- Aanduiding doel/doelgroep
- Goede opmaak
- Geen reclame en pop-ups
- Heldere navigatie
- Interne zoekfunctie
- Voldoende snelheid server
- Backlinks door gezaghebbende organisaties
- Up to date?
- Zinnige datering inhoud
- Geen grof taalgebruik
- Geen kinderlijk taalgebruik
- Geen storende taalfouten
- Beoordeling door anderen
- Status bron (peer reviewed, uitgever,
gezaghebbende instantie) - Affiliatie auteur
- Plaats in citatienetwerk (door wie, hoe vaak)
- Zelf, inhoudelijk
- Bronvermelding (voldoende, geen kernpublicaties
gemist) - Opbouw, argumentatie, methode, verantwoording
17Nabewerking per bron 2
- opslaan (mail, document, Endnote / Refworks /
Mendeley / Zotero / Evernote / Diigo e.d. - versturen (handmatig, vanuit systeem)
- bookmark (browser, Delicious, CiteUlike, like,
) - alert/spion (donderdag)
- RSS-feed )met Feedly, Digg etc. of Outlook
18Vervolg op zoekactie Reflectie
- Hoeveel gevonden in hoeveel tijd?
- Voldoet oogst aan zoekprofiel?
- Welke aspecten van zoekprofiel waren meest
selectief? - Waren alle vooraf bedachte ingangen even nuttig?
- Wat was de overlap tussen de ingangen?
- Goede volgorde ingangen gehanteerd?
- Wat had de zoekvraag moeten zijn om het beste
gevonden document direct te vinden (reverse
earch) - Iets geleerd over eigen sterke/zwakke punten?
19Deel II Structuur van het web
20Er is wel structuur domeinen
- soorten top-level-domains (TLD) iso-3166
- generiek
- com / org / net (vrij)
- int / edu / gov / mil / arpa (beperkt)
- landen nl/be/au/at/de/uk/us (ccTLDs, 34)
- jump tv / nu / to / tk
- nieuw biz/info/name/coop/pro/aero/museum/mobi
- generieke subtopleveldomeinen
- co / gob / ac / org etc.
- (zie http//www.iana.org/domains/root/db/
- en http//www.whois365.com/en/listtld/gtld)
- per 2009 ook URLs in niet-Latijns schrift
21opbouw URL
- protocol // servernaam . subdomein . domein .
TLD / map / filenaam . extensie - http // libguides. library . uu . nl / evalueren
22URLs van databasepaginas
- http//aleph.library.uu.nl/F/HDRH5QK8UGC775UMSMU44
VT2GSG5VD5VKEI6FMCCN7G75L75LG-04490?funcfind-bfi
nd_codeWRDrequestgeografischehuisadjacentNx
43y11 - http//www.google.nl/search?as_qvoginwageningen
hlnlrlz1R2MEDC_nlNL330num10btnGGooglezoeke
nas_epqas_oqas_eqlrlang_nlcras_ftias_
filetypepdfas_qdrallas_occtanyas_dtias_sit
esearchas_rightssafeimages
23zoektools wanneer wat?
- indien zoekvraag feitelijk, specialistisch, met
voorkennis, onder tijdsdruk - zoekmachines
- indien zoekvraag breed, exploratief,
inventariserend, met weinig voorkennis, met
relatief veel tijd - onderwerpsgidsen, door mensen gemaakte
overzichten
24Onderwerpsgidsen algemeen
-
- geen zoektermen nodig
- vaak actueel
- annotaties
- weinig ruis
- onvolledig dode links voorkeur maker houdt
groei niet bij voor homepages
25Onderwerpsgidsen
- Alle onderwerpen Open Directory, Yahoo
- Nederlands startpagina, meta startnederland
- Breed wetenschappelijk Infomine
- Web2.0-variant Digg (nieuws)
- Sociaal met voting Reddit
- Zoeken
- via Yahoo (per onderwerp onder webdirectories)
- via Open Directory
- via Pinakes (wetenschappelijk)
- vragen aan collegae
- vragen via discussielijsten, twitter etc.
26Zoekmachines dekking
- gt 15 van de webpaginas in geen enkele van de
grootste zoekmachines - van resterende wel geïndexeerde paginas zelfs
Google maar 76, Yahoo 69, Live/Bing 62
(http//www.cs.uiowa.edu/asignori/web-size/) - overlap eerste pagina slechts 10 (Spink studie
2006) - dekking zeer ongelijkmatig
- verschil in actualiteit
27Zoekmachines ontwikkeling
- 1994 Webcrawler, Lycos, Alta Vista (10)
- 1995 concurrentie Hotbot, Excite, Yahoo (50)
- 1997 Northern Light, MSN, sterke groei web gt 200
- 1999 opkomst Google en Alltheweb en crisis
Infoseek, Northern Light, AV, Excite, ILSE o.a.
(100) - 2002 komst Teoma, Wisenut, Gigablast (1000)
- 2003 renaissance AV, glorietijd Google (3000)
- 2004 consolidatie/concurrentie (4000)
- GoogleBlogger, verbreding boeken, kritiek,
beursgang - OvertureAllthewebAVYahoo, ontmanteling AV/ATW
- Microsoft introductie MSNsearch beta zelf
indexeren - 2005 verbreding/innovatie/content (5000-10000)
- Samenwerking content providers-zoekmachines?
- Teoma wordt Ask en opkomst Amazon met A9
- Doorgroei Gigablast (2000)
- 2006-2007 puur zoeken raakt op achtergrond
(20000-40000) - Live gelanceerd, YouTube gekocht
- uploaden, web 2.0
- gemengde content (Google universal, iGoogle bv.)
- specifieke diensten (Google CSE bv)
28Zoekmachines wat vind je niet?
- recente webpaginas/wijzigingen
- dynamisch gegenereerde paginas
- informatie in databases
- paginas met no robots file
- paginas met toegangsrestricties
- verdwenen paginas maar
- Cache (bij Google link in preview)
- Wayback Machine archive.org
- kleinere archiveringsacties KB en BL
29Zoekmachines beperkingen Google
- genest Booleaans zoeken gt Bing/Exalead
- zeer grote paginas soms niet volledig
geïndexeerd? gt Yahoo - niet bruikbaar voor exact search van 1 woord
- truncatie en fonetisch zoeken gt Exalead?
- zoekgeschiedenis zonder inloggen Bing
- webpaginas met audio Exalead
30Land/taalversies Google
- Interfacetaal
- beïnvloedt ook (ranking) resultaat!
- Taalinstelling zoekactie
- voorkeuren eenmalig of implied door zoekterm
- Landsversie
- beïnvloedt ranking sterk
- ncr no country redirect
- Let ook bij Bing op landsinstelling alleen VS
versie heeft alle functionaliteit
31Personalisation/localisation
- Localisatie effect sterker dan personalisatie
- Effect beperken
- Voeg "pws0 toe om in Google personalisation
uit te zetten - Gebruik een Chrome incognito window
- Log niet in
- Zet locatie in mobiel apparaat uit