© University of Oulu

Skip to end of metadata
Go to start of metadata

The license could not be verified: License Certificate has expired!

Hakuprofiilia suunniteltaessa haettava aihe jaetaan osiin ja näitä osia kuvataan hakusanoin.
Hakusanoina käytetään yleisesti

  • ongelman keskeisiä käsitteitä
  • käsitteiden synonyymeja ja vieraskielisiä vastineita
  • rinnakkaisia, laajempia ja suppeampia termejä
  • luokituskoodeja

Hakusanojen ideointiin saa apua kohdasta 1.1.1 Tiedonhaun valmistelu
Hakusanojen yksikkö- ja monikkomuodot, muut taivutukset, erilaiset kirjoitustavat ja sanaliitot huomioidaan tietokannoissa eri tavoin, ja käytännöt on aina tarkistettava tietokannan ohjeista. Tavallisimpia keinoja ovat erilaiset katkaisu- ja korvausmerkit, läheisyysoperaattorit sekä fraasien kirjoittaminen esimerkiksi lainausmerkkien sisään. Tietokannoissa on yhä useammin myös erilaisia automaattisia toimintoja, joiden toimintaperiaatteet on hyvä tuntea.

Hakusanojen katkaisu

Katkaisumerkit

Hakusanojen katkaisulla saadaan mukaan sanan eri taivutusmuodot. Katkaisuun on tietokannoissa eri käytäntöjä. Monet tietokannat vaativat erityisen katkaisumerkin käyttämistä. Yleensä katkaisumerkkiä käytetään sanavartalon lopussa, mutta joissakin tietokannoissa sen voi laittaa myös sanan alkuun. Katkaisumerkki vaihtelee tietokannoittain ja se tulee tarkistaa aina ohjeista. Tavallisimmin käytetyt katkaisumerkit ovat: asteriski *, kysymysmerkki ?, dollari $, risuaita #, huutomerkki !

Kovin lyhyellä sanarungolla ei kannata hakea, sillä saman merkkijonon sisältäviä merkitykseltään erilaisia sanoja on silloin todennäköisesti enemmän, ja hakutulokseen tulee helposti mukaan epärelevantteja viitteitä. Joissakin tietokannoissa sanarungolle onkin asetettu vähimmäispituus.

Oulassa katkaisumerkki on kysymysmerkki ?, joka korvaa hakusanasta joko ei yhtään tai yhdestä useampaan merkkiä. Sitä voi käyttää myös sanan alussa.
Kuvan lähde: Oula kokoelmatietokanta <https://oula.linneanet.fi/vwebv/searchBasic?dbCode=LOCAL&sk=fi_FI> 21.10.2009

Automaattinen sanankatkaisu

Joissakin tietokannoissa on käytössä automaattinen sanankatkaisu, joka hakee kaikki sanat, jotka sisältävät tai alkavat hakulaatikkoon kirjoitetulla merkkijonolla.

Automaattinen sanarunkohaku

Joissakin tietokannoissa on käytössä automaattinen sanarunkohaku (stemming), joka tunnistaa sanojen rungon ja hakee kaikki kyseisen rungon sisältävät sanat. Jos esimerkiksi haetaan sanalla viewer, hakukone antaa tulokseksi viitteet, jotka sisältävät view -runkoisia sanoja, kuten view, viewing, preview jne. Joissakin tietokannoissa sana on kirjoitettava perusmuodossa, jotta automaattinen sanarunkohaku toimii. Jotkut tietokannat vertaavat sanarunkoja vain omaan tesaurukseensa, eivätkä siten löydä kaikkia mahdollisia taivutusmuotoja. Mikäli haluaa etsiä sanaa ainoastaan täsmälleen kirjoitetussa muodossa, automaattinen sanarunkohaku on kytkettävä pois päältä käytettävän tietokannan ohjeiden mukaan.

arXiv -tietokannassa hakukone etsii automaattisesti hakulaatikkoon kirjoitetun sanan eri kirjoitusmuodoilla.
Kuvan lähde: arxiv.org <http://arxiv.org> 12.12.2008.

PubMed -tietokannassa hakukone vertaa oletusarvoisesti annettua hakusanaa lääketieteen asiasanaston MeSHin termeihin. Details -välilehdeltä voi tarkistaa, millä sanoilla haku on lopulta tehty.
Kuvan lähde: PubMed <http://www.ncbi.nlm.nih.gov/pubmed/> 28.6.2011.

Kirjaimien korvausmerkit

Korvausmerkki korvaa tietokannasta riippuen joko yhden merkin tai 0-1 merkkiä. Korvausmerkkiä käyttämällä välttyy kirjoittamasta erikseen sanojen eri kirjoitusmuotoja (color-colour) ja epäsäännöllisiä taivutuksia (woman-women). Joissakin tietokannoissa korvausmerkin voi toistaa. Korvausmerkki on tietokantakohtainen ja sen käyttö tulee tarkistaa tietokannan ohjeista. Automatisoitu versio korvausmerkeille on sumea haku, joka hakee toisiaan läheisesti muistuttavia sanoja verraten samalla viitteiden muutakin sisältöä toisiinsa hyvän relevanssin säilyttämiseksi, mutta se on käytössä vielä hyvin harvoissa hakukoneissa.

Web of Science -tietokannassa yhden merkin korvaa ? kun taas $ voi korvata yhden tai puuttuvan merkin. Tässä on huomioitu amerikanenglannin ja brittienglannin mukaiset kirjoitusmuodot behavior ja behaviour sekä woman -sanan epäsäännöllinen monikko.
Kuvan lähde: Thomson Reuters - Web of Knowledge (Web of Science) <http://apps.webofknowledge.com> 19.7.2013.

Usein korvausmerkin voi myös toistaa, kuten tässä Web of Sciencen esimerkissä.
Kuvan lähde: Thomson Reuters - Web of Knowledge (Web of Science) <http://apps.webofknowledge.com> 19.7.2013.

Fraasihaku

Fraasi- eli sanaliittohaussa edellytetään hakusanojen esiintyvän peräkkäin annetussa järjestyksessä, eli hakukone etsii viitteistä täsmällen annettua merkkijonoa. Joissakin tietokannoissa fraasin käsitettä voidaan tulkita löyhemmin, eikä sanojen tarvitse olla juuri määrätyssä järjestyksessä, ainoastaan peräkkäin. Fraasihaun esitystapa on tietokantakohtainen.

Monet hakukoneet jättävät huomioimatta hakuun kirjoitetut prepositot, konjunktiot yms. hyvin yleiset ns. "stop word" -sanat, joilla ei yleensä ole merkitystä hakutuloksen relevanssille. Tietokantojen ohjeista löytyy lista näistä sanoista, samoin kuin ohjeistus siitä miten tulee toimia, jos stop word on jostain syystä liitettävä hakuun esim. fraasin osana.

Usein fraasit kirjoitetaan lainausmerkkien väliin, kuten tässä Web of Science -esimerkissä. Ilman lainausmerkkejä hakusanat yhdistetään tässä tietokannassa AND-operaattorilla.
Kuvan lähde: Thomson Reuters - Web of Knowledge (Web of Science) <http://apps.webofknowledge.com> 23.7.2013.

Oulassa valitaan alasvetovalikosta periaate, jolla hakuohjelma yhdistää tämän rivin hakusanat.
Kuvan lähde: Oula kokoelmatietokanta <https://oula.linneanet.fi/vwebv/searchBasic?dbCode=LOCAL&sk=fi_FI> 21.10.2009.

Läheisyysoperaattorit

Läheisyysoperaattoreita käytetään silloin, kun haetaan kahdella termillä, joiden ei tarvitse olla peräkkäin, mutta kuitenkin tietyllä etäisyydellä toisistaan. Läheisyysoperaattori on hyödyllinen, kun etsitään termiä tietyssä asiayhteydessä tai kun haettava asia voidaan ilmaista useammalla samankaltaisella fraasilla (esim. energy policy, policy on energy). Läheisyysoperaattorit ovat tietokantakohtaisia eikä niitä ole käytössä kaikissa tietokannoissa. Läheisyysoperaattoreiden toiminta on tarkistettava käytettävän tietokannan ohjeista.

Esimerkiksi ProQuest-käyttöliittymässä near/3 hakee viitteet, joissa hakusanat esiintyvät enintään kolmen sanan päässä toisistaan missä järjestyksessä tahansa. Muita eri tietokannoissa käytetyjä läheisyysoperaattoreita: w/3, within 3, adj, sentence (termit samassa lauseessa).
Kuvan lähde: ProQuest <http://search.proquest.com> 10.7.2013.