Skip to end of metadata
Go to start of metadata

Hakusanojen yksikkö- ja monikkomuodot, muut taivutukset, erilaiset kirjoitustavat ja sanaliitot huomioidaan tietokannoissa eri tavoin, ja käytännöt on aina tarkistettava tietokannan ohjeista. Tavallisimpia keinoja ovat erilaiset katkaisu- ja korvausmerkit, läheisyysoperaattorit sekä fraasien kirjoittaminen esimerkiksi lainausmerkkien sisään. Tietokannoissa on yhä useammin myös erilaisia automaattisia toimintoja, joiden toimintaperiaatteet on yhtä lailla tunnettava.

Automaattinen sanarunkohaku

Joissakin tietokannoissa on käytössä automaattinen sanarunkohaku (stemming), joka tunnistaa sanojen rungon ja hakee kaikki kyseisen rungon sisältävät sanat. Jos esimerkiksi haetaan sanalla viewer, hakukone antaa tulokseksi viitteet, jotka sisältävät view --runkoisia sanoja, kuten view, viewing, preview jne. Joissakin tietokannoissa sana on kirjoitettava perusmuodossa, jotta automaattinen sanarunkohaku toimii.

Stemming käytännöt ovat kuitenkin tietokantakohtaisia ja ne on hyvä tarkistaa käytettävästä tietokannasta. Joissakin tietokannoissa stemming ominaisuus on rajattu koskemaan vain yksikkö- ja monikkomuotoja, useissa tietokannoissa ominaisuus ei toimi fraasissa, ja jotkut tietokannat vertaavat sanarunkoja vain omaan tesauruksensa, eivätkä siten löydä kaikkia mahdollisia taivutusmuotoja. Mikäli haluaa etsiä sanaa ainoastaan täsmälleen kirjoitetussa muodossa, automaattinen sanarunkohaku on kytkettävä pois päältä käytettävän tietokannan ohjeiden mukaan.

arXiv --tietokannassa hakukone etsii automaattisesti hakulaatikkoon kirjoitetun sanan eri kirjoitusmuodoilla.
Kuvan lähde: arxiv.org <http://arxiv.org> 12.12.2008

PubMed --tietokannassa hakukone vertaa oletusarvoisesti annettua hakusanaa lääketieteen asiasanaston MeSHin termeihin. Tulosjoukon oikealta puolelta Search details -kohdasta voi tarkistaa, millä sanoilla haku on lopulta tehty.
Kuvan lähde: PubMed <http://www.ncbi.nlm.nih.gov/pubmed> 28.6.2011

Katkaisumerkit

Hakusanojen katkaisulla saadaan mukaan sanan eri taivutusmuodot. Katkaisuun on tietokannoissa eri käytäntöjä. Monet tietokannat vaativat erityisen katkaisumerkin käyttämistä. Yleensä katkaisumerkkiä käytetään sanan lopussa, mutta joissakin tietokannoissa sen voi laittaa myös sanan alkuun. Katkaisumerkki vaihtelee tietokannoittain ja se tulee tarkistaa aina ohjeista.

Kovin lyhyellä sananrungolla ei kannata hakea, sillä saman merkkijonon sisältäviä merkitykseltään erilaisia sanoja on silloin todennäköiseti enemmän, ja hakutulokseen tulee helposti mukaan epärelevantteja viitteitä. Joissakin tietokannoissa sanarungolle onkin asetettu vähimmäispituus.

Joissakin tietokannoissa on käytössä automaattinen sanankatkaisu, joka hakee kaikki sanat, jotka sisältävät tai alkavat hakulaatikkoon kirjoitetulla merkkijonolla. Automaattinen katkaisu ei ole niin hienostunut kuin automaattinen sanarunkohaku, sillä se ei tunnista annetun hakusanan runkoa; hakusanalla viewer löytyy sana viewers, mutta ei esim viewing.

Scopus --tietokannassa yksikkömuotoinen hakusana hakee useimmille sanoille automaattisesti myös sanojen monikko- ja possessiivimuodot, mutta ei muita sanarungon omaavia sanoja. Varsinainen katkaisumerkki on *.
Kuvan lähde: Scopus <http://www.scopus.com> 22.7.2015

Oulassa katkaisumerkki on kysymysmerkki (?), joka korvaa hakusanasta joko ei yhtään tai yhdestä useampaan merkkiä. Sitä voi käyttää myös sanan alussa.
Kuvan lähde: Oula kokoelmatietokanta <https://oula.linneanet.fi/> 22.7.2015

Korvausmerkit

Korvausmerkki korvaa yleensä tasan yhden merkin. Jotkut tietokannat tarjoavat myös 0-1 merkkiä korvaavaa symbolia. Korvausmerkkiä käyttämällä välttyy kirjoittamasta erikseen sanojen eri kirjoitusmuotoja (organization-organisation) ja epäsäännöllisiä taivutuksia (woman-women). Korvausmerkin voi yleensä myös toistaa. Myös korvausmerkki on tietokantakohtainen, ja tietokannan ohjeista on myös tarkistettava, missä kohdassa sanaa sitä voi käyttää. Joskus myös katkaisumerkkiä voi käyttää korvausmerkin tapaan sanan keskellä, jolloin se korvaa tietokannasta riippuen 0-n merkkiä. Automatisoitu versio korvausmerkeille on sumea haku, joka hakee toisiaan läheisesti muistuttavia sanoja verraten samalla viitteiden muutakin sisältöä toisiinsa hyvän relevanssin säilyttämiseksi, mutta se on käytössä vielä hyvin harvoissa hakukoneissa.

Web of Science --tietokannassa yhden merkin korvaa ? kun taas $ voi korvata yhden tai puuttuvan merkin. Tässä on huomioitu amerikanenglannin ja brittienglannin mukaiset kirjoitusmuodot behavior ja behaviour sekä woman --sanan epäsäännöllinen monikko.
Kuvan lähde: Thomson Reuters - Web of Knowledge (Web of Science) <http://apps.webofknowledge.com> 19.7.2013.

Usein korvausmerkin voi myös toistaa, kuten tässä Web of Sciencen esimerkissä fib?? hakee sekä fiber että fibre.
Kuvan lähde: Thomson Reuters - Web of Knowledge (Web of Science) <http://apps.webofknowledge.com> 19.7.2013.

Fraasihaku

Fraasi- eli sanaliittohaussa edellytetään hakusanojen esiintyvän peräkkäin annetussa järjestyksessä, eli hakukone etsii viitteistä täsmällen annettua merkkijonoa. Joissakin tietokannoissa fraasin käsitettä voidaan tulkita löyhemmin, eikä sanojen tarvitse olla juuri määrätyssä järjestyksessä, ainoastaan peräkkäin.

Fraasihaun esitystapa on tarkistettava aina käytettävästä tietokannasta. Kannattaa myös tarkistaa tietokannan ohjeista, miten sanojen taivutusmuodot huomioidaan ja toimiiko esim. automaattinen sanarunkotoiminto fraasissa. Useimmissa tietokannoissa peräkkäin kirjoitetut sanat eivät ole fraaseja, vaan ohjelmä laittaa automaattisesti AND-operaattorin sanojen väliin. Tällöin on syytä huomioida myös tietokannan operaattorien suoritusjärjestys.

Monet hakukoneet jättävät huomioimatta hakuun kirjoitetut prepositot, konjunktiot yms. hyvin yleiset ns. “stop word” --sanat, joilla ei yleensä ole merkitystä hakutuloksen relevanssille. Tietokantojen ohjeista löytyy lista näistä sanoista, samoin kuin ohjeistus siitä miten tulee toimia, jos stop word on jostain syystä liitettävä hakuun esim. fraasin osana.

Usein fraasit kirjoitetaan lainausmerkkien väliin, kuten tässä Web of Science --esimerkissä. Ilman lainausmerkkejä hakusanat yhdistetään tässä tietokannassa AND-operaattorilla.
Kuvan lähde: Thomson Reuters - Web of Knowledge (Web of Science) <http://apps.webofknowledge.com> 23.7.2013.

Oulassa valitaan alasvetovalikosta periaate, jolla hakuohjelma yhdistää tämän rivin hakusanat.
Kuvan lähde: Oula kokoelmatietokanta <https://oula.linneanet.fi/> 26.7.2013

Läheisyysoperaattorit

Läheisyysoperaattoreita käytetään silloin, kun haetaan kahdella termillä, joiden ei tarvitse olla peräkkäin, mutta kuitenkin tietyllä etäisyydellä toisistaan. Läheisyysoperaattori on hyödyllinen, kun etsitään termiä tietyssä asiayhteydessä tai kun haettava asia voidaan ilmaista useammalla samankaltaisella fraasilla (esim. energy policy, policy on energy). Läheisyysoperaattorit ovat tietokantakohtaisia eikä niitä ole käytössä kaikissa tietokannoissa. Läheisyysoperaattoreiden toiminta on tarkistettava käytettävän tietokannan ohjeista.

Esimerkiksi ProQuest-käyttöliittymässä near/3 hakee viitteet, joissa hakusanat esiintyvät enintään kolmen sanan päässä toisistaan missä järjestyksessä tahansa. Muita eri tietokannoissa käytetyjä läheisyysoperaattoreita: w/3, within 3, adj, sentence (termit samassa lauseessa)
Kuvan lähde: ProQuest <http://search.proquest.com> 10.7.2013

  • No labels