“Ereduzko prosa gaur” corpusaren azterketa

Naroa Perez eta Esti Blancoren Corpusaren azterketa

 

Sarrera
Orotariko Euskal Hiztegiak gure tradizioko idazle ereduzkoen ondarea jasotzen du, hiztegiaren nahiz gramatikaren aldetik. Baina gaur egun euskararen normalizazioak dituen premiei erantzuteko, eta ondare horren osagarri, nahitaezkoa da egungo idazle ereduzkoen idazlanen bilketa egitea.

Bada korpus bat, XX. mendeko Euskararen Korpus Estatistikoa izenekoa (lehen “Egungo Euskararen Bilketa-lan Sistematikoa” deitua), euskarazko produkzioaren erakusgarri bat urtero jasotzen duena. Baina bilketa hori estatistikoa da, eta berdin jasotzen ditu idazle “onen” nahiz “ez hain onen” testuak. Nahiz bilketa estatistikoak beharrezkoak diren hizkuntzaren zenbait alderdi aztertzeko, dudarik gabeko kontua da mundu guztian hizkuntza ereduak ereduzko idazleen azterketatik eratortzen direla. Hortaz, guk ere kalitatea kontuan hartzen duen korpusa aztertzea erabaki dugu.

Guk aukeratutako korpusean testu jakin bat “eredugarritzat” jotzeko erabili diren irizpideak oso zabalak dira: prestigio nabarmeneko sariak, lexiko-sorkuntzaren aldetik eta literatura-balioaren aldetik interesgarriak diren liburuak, salmenten arabera arrakasta nabarmena izan dutenak…Gainera, 2000. urtea hartu da biltze-lanaren abiatze-puntutzat, izan ere, urte horretan Hiztegi Batuaren lehen argitalpenarekin euskara estandarraren nolakotasuna bideratu zen. Hortaz, korpusa 2000 urtetik aurrerako testu eredugarriez osatzen da.

Hasieran 2000, 2001 eta 2002 urteetako testuez osatu zen eta batez ere literatur testuak erabili ziren, jatorrizkoak nahiz itzulpenak baina guk zenbait urte pasatu eta gero aztertzerakoan, proiektu hau behategi moduko bat bihurtu dela uste dugu, urtez urte euskal idazketaren bilakabidearen berri ematen baitu gure ustetan.

Corpusaren zenbait datu orokor aurkitu ditugu hurrengo lerroetan aurkezten direnak. Hala ere, aipatu behar dugu azken eguneratzea 2009koa dela, beraz, azken bi urteetako materiala falta da. Datuak ondorengoak dira:

Denera: 25,1 milioi hitz

Liburuak

13,1 milioi hitz

2000-2006 bitarteko 287 liburu

Prentsa

12 milioi hitz

2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

2001-2005 bitarteko Herria astekaria (2 milioi hitz)

Beraz, eta laburbilduz, Ereduzko Prosa Gaur ekimenean gaur egungo hainbat idazle ereduzkoren azken urteotako testuak bildu dira, horiekin korpus aski zabal bat eratuz. Korpus horri etekinik onena ateratzeko aztergailu ahaltsu eta erabilterraz bat erantsi zaio. Gauzak horrela, tresna egokia da gaurko euskal autore eredugarriek euskaraz idazterakoan guztioi sortzen zaizkigun duda-mudei eman dizkieten irtenbideak ezagutzeko.

Azterketarekin hasi aurretik aipatu behar dugun azkeneko datua proiektu honen atzean dauden pertsonei dagokie. Egitasmo hau EHUko Euskara Zerbitzuaren proiektuen barruan kokatzen da eta arduraduna Ibon Sarasola da, berak egiten batitu proiektuaren antolatze, garatze eta zuzentze lanak. Laguntzaileak Xabier Alberdi, Jesus Mari Makazaga, Iñaki Ugarteburu eta Juan Garzia dira eta proiektuaren babesle Donostiako Udala da, Euskararen Udal Patronatuaren bidez. Era berean, aipatu behar dugu “kontsultako interfaze zaharra” aukera hartu dugula bertsio berrian egin ezin diren zenbait aukera egiteko aukera ematen digulako.

Bilaketarako Lagungarri

corpusa murriztu
Corpusa murriztu

Euskal Herriko Unibertsitateak eskaintzen duen zerbitzu honetan bilaketak egiten hasteko, lehendabizi, bilaketarako corpusa definitu behar dugu. Horretarako, Corpusa murriztu botoia klikatuz agertuko zaigun menua erabiliko dugu.Menu honetan, nahi adina obra aukeratu daitezke, ezkerretara aurkitzen dugun laukitxoan klik eginez. Guztiak aukeratu nahi izanez gero, Osoa botoia klikatu beharko genuke. Aukera egin eta gero, Ezarri eta Itxi botoiak sakatu beharko ditugu.

Bigarrenik, lortu nahi dugun emaitza nola bistaratu aukeratuko dugu. Emaitza osoa bistaratu aukera aktibatzen badugu, zuzenean, bilatutako hitzen agerpenak ikusi ahal izango ditugu. Aukeratzen ez badugu berriz, obra bakoitzeko zenbat agerpen dagoen ikusiko dugu. Bestalde, emaitza osoak bistaratzen ditugunean, bilatutako forma azpimarratuta agertuko zaigu. Bertan klik eginez, formari buruzko informazioa aurkituko dugu (izan ditzakeen kategoriak, etab.) Obren izenburuetan klikatzen badugu berriz, jaso ditugun emaitzak beste leiho batean ikusi ahal izango ditugu.

Behin hauek guztiak erabakita ditugula, prest gaude nahi dugun forma idazteko. Honetarako eskaintzen zaigun kutxan, letrez aparte,karaktereak ere erabili ditzakegu (, ? #). Honela, ikurra erabiltzen badugu, edozein karaktere edo karaktere segida definitzen ariko gara.

Adibidez, *tasun lema bilatzen badugu, askatasun, maiztasun, aberastasun, larritasun, etab. aurkitu ahal izango ditugu. ? ikurra erabiltzen badugu aldiz, edozein karaktere (baino bat bakarra) definitzen ariko gara eta azkenik # ikurra zenbakiak adierazteko erabili ahal izango dugu.

Erabiltzeko zenbait argibide

Ereduzko Prosa Gaur orrialdean, “Corpus arakatzailea” aukeratu eta zenbait hitzen bilaketa egin dugu. Ondoren

liburuetan/prentsan
liburuetan/prentsan

adibide hauen berri emango dugu.

1- Ezker aldean bilatu nahi dugun hitza edo lema idatziko dugu.

Aukeran izango dugu, bilaketa era zehartzago baten bidera dadin, liburuak edota prentsak barne hartzen duen korpusa.

“Haize” hitza idatzita, ondoko datuak agerrtuko zaizkigu:

Emaitza 2165 agerraldi / 2093 esaldi

Liburuak 1500 / 226 liburu

Prentsan 593 esaldi / 457 artikulu

     
bilaketaren emaitzak
emaitzen hurrenkera

Ondoren, emaitzen kopuruaren araberako lista bat agertzen zaigu. Goiko partean, agertzen diren ataleko izenak datoz (kirolak, kultura, Euskal Herria etab) eta beheko partean, liburuka agertzen dira emaitzak. Liburuen araberako sailkapenean, ezkerraldean liburuaren izenburua eta egilearen izena agertzen dira eta eskuinean, aurkitutako hitz kopurua eta hauek dautzan esaldi kopurua agertuko zaizkigu, gehienetik gutxienengorako sailkapenean.

Behin liburua aukeratuta, hitza kolorez nabarmendurik ageriko da zenbakiz dieraziriko orrialdearen esaldi barruan.

Esan dugu “haize” izena bilatzen hasi garela. Hainbat idazleren artean Joan Mari Irigoienen Lur bat haratago aukeratzean ondoko emaitzak agertuko zaizkigu:

1. Orr.: 33

barrenean animalien spiritu-en airea edo haize mehea gordetzen duten,

2. Orr.: 93

gauzak gehiegi ez lotzearen aldekoa, airearekin aire eta haizearekin haize, eta zeren halakoak ere izan

3. Orr.: 110

gure mundu ilun eta zurrun hartan haize freskoaren antzera, nola sartu baitzen ene belarri-zuloetarik umetako asmakizun hura, osabari aditua, zeinak baitzioen:

4. Orr.: 120

Eta Pedroren hitzak eta Pedroren erabakia haize-bildu bat bezala sartu zitzaizkidaan, ustekabean, bihotzean, halako tailuz, non zainetako su tipia su handi bihurtu, eta suak arras hartu baininduen.

Liburuen emaitzak

Beste hainbeste orrialdeetan agertzen da hitza, eta ezkerreko irudian ikus daitezke kasu hauek denak (ez ditugu azalpenean denak gehitu luzeegi eta astunegia gertutako zelakoan).

 

 

 

 

Korpus Arakatzailearen Bilaketa Motak

Bilaketa Arrunta
Kontsultatu nahi dugun hitza edo lema idatzi beharko dugu aurkezten zaigun kutxan. Hitza aukeratzen badugu, idazten duguna bere horretan bakarrik bilatzen ariko gara. Bestela, lema aukeratzen badugu, izan dezakeen edozein formatan aurkitu ahal izango dugu idazten duguna.

• Adibideak

Eskaintzen zaigun kutxan “etxe” hitza idazten badugu eta Bilatu botoia sakatzen badugu, Fantasiazko ipuinak obran adibidez, “68 hitz / 66 esaldi” emaitza lortuko dugu. Honek esan nahi du, aipatutako liburuaren 66 esalditan agertzen dela bilatzen ari garen hitza eta, era berean, esaldiren batean gure hitza behin baino gehiagotan azaltzen dela.

 Bestalde, “etxe” lema bilatzen badugu, lehen aipatutako corpus berean “239 hitz / 232 esaldi” emaitza lortuko dugu. Non dago aldea? Oraingoan adibideei begiratzen badiegu, honako formak aurkituko ditugu: etxean, etxera, etxetik, etxe, etxerantz, etab.

Bilaketa Aurreratua

Bilaketa aurreratuen kasuan aukera gehiago eskaintzen zaizkigu. Bilaketa arruntetan bezala, hitz bat idatziko dugu kutxan baina bilaketa aurreratuak egiteko, “Lema” bilatu beharko dugu eta ez hitza. Ondoren, Morfologia botoian klikatuta, leiho berri bat irekiko zaigu Leiho honetan, hainbat ezaugarri morfologiko zehaztu ditzakegu: bilatzen ari garen hitzaren kategoria, aditz-mota, atzizki edo aurrizkiak, deklinabide zehatz batekin, edota numeroa (singularra, plurala, mugagabea…) Leiho honetan eskaintzen zaizkigun aukerak erabilita, gure bilaketek emaitza zehatzagoak izango dituzte. Beti ere, nahi dugun aukera egindakoan, Ezarri eta Itxi botoiak sakatu behako ditugu.

    Adibideak:

Demagun “gizon” Lemaren agerpenak aurkitu nahi ditugula pluralez eta NORI kasua dutenean. Morfologiako botoia sakatu eta agertuko zaigun leihotxoan Deklinabidean NORI eta Numeroan Plurala aukeratuko dugu. Ondoren, Ezarri eta Itxi botoiak sakatu beharko ditugu. Hortaz: gizonei ( KAS:nori+NUM:p+)

Bilaketa Konbinatuak
Kutxa bat baino gehiago erabiliz, bi hitz edo gehiago bilatu ahal izango dugu, eta guk nahi dugun distantziara agertuko dira. Beraz, hiru kutxa erabilita, adibidez, hain zuzen ere bilatu ahal izango dugu; eta era berean, 4ko distantzia jartzen badugu, “etxe handi zuri bat” aurkitu ahal izango dugu “etxe bat” bilatuta.

• Adibideak

Lehen aipatutako bilaketak egin nahi baditugu, honako pausuak eman beharko ditugu:

Bestalde, hitzak eta lemak konbina ditzakegu bilaketak egiteko. Honela, adibidez, “lo” hitza eta “egin” lema bilatuko bagenu, honako emaitzak lortuko genituzke:

Adibidea: lo egin. Bertan “lo gutxi egiten” edo “lo ondo egiteak” bezalako formak sartzen dira, beraz, hitz lokuzioak bilatu nahi ditugunean, gure ustetan, hau da gomendagarriena den bilaketa mota. Era berean 3290 agerraldi daudela 1612 esalditan banatuta jakin dezakegu eta aurreko kasu guztietan bezala, bilaketaren emaitzak gaika edo atalka bilatu daitezke.

Azkenik, aipatu nahiko genuke gure ustetan Corpus hau oso ondo burututa dagoela eta azaldu ditugun bilaketa mota ezberdinek nabarmen errazten dutela ikertzailearen lana, izan ere, multzoka, maiztasunaren arabera edo lokuzioka bilatzeko aukera emateak hizkuntzaren gaineko ikerketari bide zabala irekitzen baitiote.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s