Iskanje izrazov v korpusu

To je mogoče storiti na dva načina: na začetni strani je okence za preprosto iskanje, pod njim pa kazalec na izpopolnjeno iskanje.
Preprosto iskanje
Iskano besedo (ali več besed) v slovenščini ali angleščini/francoščini/italijanščini/nemščini/španščini vpišite v iskalno okence. Program deluje takole: Da bi povečali hitrost iskanja, smo sredi februarja 2012 podatke v Evrokorpusu uredili nekoliko drugače in s tem se je spremenil tudi način iskanja (iskanje po Evrotermu se ni spremenilo). Poenostavljeno povedamo: v Evrokorpusu iščete podobno kot z iskalnikom Google.
Iskanje ene besede
Ko vpišete iskano besedo, jo program poišče v izbranem korpusu. Nadomestni znak * lahko uporabite na koncu besede, da poiščete besedne oblike z različnimi končnicami (npr. vpišete financ*, pa dobite med zadetki (v EN-SL korpusu) naslednje besede: finance, financed, financial, financially, financing in morda še kaj).

Če znak * uporabite na začetku besede, dobite enako število zadetkov, kot če zvezdice ne napišete (torej je v začetku besede ni smiselno uporabljati). Če znak * napišete sredi besede, bo program iskal dve besedi: tisto, ki je levo od zvezdice, in tisto, ki je desno od nje (torej zvezdice tudi v takem primeru ni smiselno uporabljati).

Zvezdico je smiselno uporabljati samo na koncu iskanega izraza, če napišete začetni del besede in želite videti vse njene možne oblike.

Beseda z vezajem se obravnava kot dve besedi, zato je treba tako besedo dati med narekovaja, npr. "self-employed".

Znakov %, _, . in ? ne uporabljajte, ker nimajo več funkcije nadomestnih znakov.

Zelo pogostih besed (npr. off, one, the) ni možno iskati in v tem primeru dobite kot rezultat iskanja 0 zadetkov.
Iskanje dveh ali več besed
Iskanje dveh ali več besed se bistveno razlikuje od prejšnje verzije Evrokorpusa. Veljajo naslednja pravila: Nekaj primerov: Posebnost: beseda z vezajem se obravnava kot dve besedi, zato je treba tako besedo dati med narekovaja, npr. "self-employed".
Kako stare izraze z nadomestnimi znaki prevesti v novo obliko?
Pri starem načinu iskanja je bilo možno v iskalno okence napisati organi?ation, pa ste z enim iskanjem dobili segmente, v katerih se je pojavila beseda organisation ali organization. Po novem enak učinek dosežete, če v iskalno okence napišete organisation organization (obvezno brez narekovajev!).

Če želite dobiti zadetke, ki poleg illicit drug vsebujejo tudi besedne zveze, pri katerih je med besedama še en ali več drugih izrazov (npr. illicit manufacture of narcotic drugs, illicit export of drugs, illicit traficking in narcotic drugs ipd.), ste pri starem načinu iskanja to dosegli z iskalnim nizom illicit*drug. Če ta iskani niz napišete zdaj, dobite zadetke, v katerih se pojavi beseda illicit ali drug ali obe. Če želite dobiti enak tip zadetkov kot prej, morate kot iskalni pogoj uporabiti izraz: +illicit +drug*.

Če se pogoste besede pojavijo v besednih zvezah (npr. "in the future"), jih program poišče pravilno, če je v besedni zvezi vsaj ena "nepogosta" beseda, sicer pa ne (za "the act" program ne prikaže nobenega zadetka).

Ker prevajalci dvojezični korpus praviloma uporabljajo za iskanje ustreznic v drugem jeziku, je pri večbesednih izrazih najbolj smiselno napisati iskani niz med narekovajema.

Glede rabe velikih ali malih črk velja enako kot prej: iskanje ni občutljivo na velike ali male črke (ali drugače: število zadetkov je enako, če v iskalno okence napišete United ali united ali UNITED).

Izpopolnjeno iskanje
Pri izpopolnjenem iskanju lahko vpišete iskani niz v slovenščini ali/in tujem jeziku, obenem pa omejite iskanje na: Po želji lahko izberete dvojezični izpis (poravnan izvirnik in prevod), enojezični izpis (konkordančnik – bližnja okolica iskane besede) ali pa samo število zadetkov.

Izpis je naveden po kakovosti prevodov (kakovostnejši so bolj na začetku seznama zadetkov). Desno zgoraj nad posameznim zadetkom se pokaže oznaka predpisa, iz katerega je bil vzet izpisani stavek – če želite videti celoten dokument, kliknite na to oznako, kadar je povezava dana. Pri predpisih EU lahko izberete tudi poravnavo angleškega besedila s katerimkoli drugim navedenim jezikom.

Pri obeh načinih iskanja lahko uporabljate dva nadomestna znaka: V nasprotju s preprostim iskanjem program pri izpopolnjenem iskanju išče tudi dele besed (npr. če iščete besedo "kovanec", dobite med zadetki tudi "evrokovanec", "preiskovanec" ipd. Če želite iskati le cele besede, morate pred besedo narediti presledek.
Poleg tega pri izpopolnjenem iskanju dobite sklanjane slovenske besede, ki so daljše od štirih črk in se končajo na samoglasnik ali pa imajo kot predzadnjo črko "e", kot zadnjo črko pa soglasnik (c, g, k, l, m, n, r ali v).
Kaj pomeni, da je korpus lematiziran?
Slovenski del korpusa je lematiziran. Z vidika uporabnika je največja korist takega korpusa ta, da v iskalno okence vpiše osnovno (lematizirano) obliko besede, pa bo dobil med rezultati zadetke z različnimi obrazili - tudi take, pri katerih se spremeni osnova.

Pravila za zapis lematiziranih oblik: Zadeve se nekoliko zakomplicirajo pri večbesednih izrazih, če pridevnik ali samostalnik v takem izrazu ni v ednini ali moškega spola. Nekaj primerov:
Nekaj nasvetov za uporabo korpusa
Če želite preveriti, kolikokrat se pojavlja neka različica prevoda, lahko pri izrazih, ki so v Evrotermu, samo poklikate na vse prevodne možnosti (npr. za besedo sustainable je navedenih pet prevodov v slovenščino, vendar kaže, da se večinoma uporablja le eden: trajnosten). Če iskanega izraza v Evrotermu ni, za preverjanje pogostosti rabe pri izpopolnjenem iskanju v Evrokorpusu vpišite iskano besedo v enem jeziku in vse mogoče prevode v drugem jeziku (vsako kombinacijo posebej).

Če želite imeti poravnan neki predpis (angleško besedilo ob slovenskem), v polje ID dokumenta vpišite ustrezno oznako (npr. številko Celex), v okence iskani niz v angleščini pa vpišite čim pogostejšo angleško besedo (npr. the). Dobiti bi morali velik del predpisa, v katerem sta poravnana angleški in slovenski del besedila – je pa res, da zaporedje navadno ni povsem tako kakor v izvirniku.
Druga možnost (pri predpisih EU) je, da kliknete na oznako predpisa, potem pa oznako jezika; če izberete SL, boste dobili poravnano angleško in slovensko besedilo.

Korpus vam včasih lahko odgovori tudi na vprašanja o slovničnih pravilih. Če bi npr. želeli preveriti, ali je pred angleško besedo unless vejica ali ne, vam program pomaga tako, da vam najprej prešteje vse zadetke (v iskalno okence vpišite " unless" (brez narekovajev; presledek pred besedo je pomemben, ker tako izločite primere z unless na začetku stavka), potem pa še zadetke, v katerih je pred to besedo vejica (v iskalno okence vpišite ", unless" (brez narekovajev)) – razlika med dobljenima številoma vam pove, kolikokrat je bila iskana beseda uporabljena brez vejice.
Hitro iskanje med prevajanjem


Komentarje o korpusu pošljite glavni pisarni GSV.