The British National Corpus

I am going to write this article about the British National Corpus, but as I’m sure many people won’t know what a corpus is, I think it is important that I give an explanation. That is why I am going to start by writing a few lines on corpora in general, and then I will focus my article on the British National Corpus, trying to explain how it works.

CORPUS

What is a corpus?

According to the Oxford Dictionary, a corpus is “a collection of written or spoken material in machine-readable form, assembled for the purpose of linguistic research”.

The plural word to corpus is usually “corpora”.

What are they used for?

They are used to store words, whose features can be analyzed by means of tagging and use of concordancing programs, and they help studying linguistic competence. They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe.

Continue reading

Advertisements

COCA-Corpus of Contemporary American English

Nowadays, students of foreign languages, teachers or linguists have many tools available for learning new languages or improving their knowledge of that specific language they are studying. However, many people do not know of the existence of these tools and they cannot take advantage of them. Students can use translators, dictionaries, grammars… One tool that can be very useful when studying a language at a high level and how this language is structured is corpus linguistics. On the following lines, it will be described what is corpus linguistics and one specific corpus that has become very popular. This corpus is called The Corpus Of Contemporary American English (COCA) made by the important professor of Corpus Linguistics Mark Davies at Brighman Young University.

For instance, What do we understand by Corpus linguistics? The definition by Wikipedia is the following:

Corpus Linguistics is the study of language as expressed in samples (corpora) or “real world” text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally done by hand, corpora are now largely derived by an automated process.

At first sight, it can seem that Corpus Linguistics is better to the study of a language rather than grammars because in Corpus samples we have how the language is really used by native speakers. However, this system can also have some disadvantages. For example, as Noam Chomsky said, real language is also riddled with performance-related errors and that is why it is needed careful analysis of small speech samples , but this is not included in Corpus Linguistics because Linguists only include big examples. Nevertheless, this field has been improving and,nowadays, we have very good Corpus which include may samples and very well structured. One Corpus that has to be mentioned is the COCA one.

The Corpus Of Contemporary American English is a free on-line corpus that has 425 million words and 160,000 different texts that come from a variety of sources and genres. It is the largest corpus of American English currently available.Moreover, it has been including 20 million words each year since 1990. More than 40,000 users visit this corpus each month. The different genres or sources are, firstly, spoken (85 million words) from 150 TV and radio programmes.Secondly, fiction (81 million words) from short stories and plays and, then, popular magazines (86 million words), newspapers (81 million words) and academic journals (81 million words). Furthermore, users can search the frequency of a word in each genre which help us to know, for example, if a word is used in academic writing or not. It is also possible to compare how the use of certain words has changed over time from 1990 to present time and to ignore one specific genre when we think that it is not going to be useful.

But, why is this Corpus so good? There are many reasons. For instance, researches of this corpus have been working many years to improve this corpus and their work is also connected to other important Corpus such as the British International Corpus, Time Corpus or the Corpus of Historical American English (COHA). There are also updates with new words from time to time; the last one has been in 2011. Users can search many things within the interface. For example, exact words (e.g: mysterious), part of speech, lemmas which are all the forms of a word (e.g: sing which is the base can have many forms such as singer, song, singing…), wildcard which is an option that gives you the system when you do not know exactly how a word is written( e.g: un*ly; the system’s answers would be unlikely, unusually…) It is also possible to search for collocates within a ten-word window (e.g. all nouns somewhere near faint, all adjectives near woman, or all verbs near feelings)

Other good points are: the possibility to compare the collocates of two related words (e.g banana and apple or little and small; thanks to this we can know the difference in meaning of these words and how each word is used) , to find the frequency and distribution of synonyms for nearly 60,000 words and that we can create our own list of related words.

Take the following example that illustrates how this interface works. In this case, we will analyze the collocates that precede the nouns apple and banana.In the first chart, we can see the answers for apple. It can be seen that there are many times that apple is preceded by an article such as the or an.

WORD 1 (W1): APPLE (3.95)

  WORD W1 W2 W1/W2 SCORE
1 THE 1648 445 3.7 0.9
2 AN 1325 0 2,650.0 671.6

However, banana has less cases. It could be said that apple takes normally determiners and banana not.

WORD 2 (W2): BANANA(0.25)

  WORD W2 W1 W2/W1 SCORE
1 A 602 8 75.3 296.9
2 THE 445 1648 0.3 1.1

Finally, it has to be said that if you use many times this interface, you will have to Log in. Do not hesitate to use this corpus and find attach here a video done by the Emerald Cultural Institute that shows very well how to use COCA .

References:

Euskal Corpusak (talde lana)

Corpusak hizkuntza guztiek behar duten baliabidea dira eta, gaur egun, hizkuntzaren ikerketan eta hizkuntza-teknologien garapenean asko erabiltzen dira. Corpusak formatu elektronikoan eta linguistikoki etiketatuta (hau da, hitz bakoitzari dagokion lema, kategoria, etab. emanda) dauden testu-bildumak dira. Oso baliabide garrantzitsua dira hizkuntza-teknologiak garatzeko, hiztegiak egiteko, hizkuntza bera arautzeko, itzulpenetan laguntzeko, eta hainbat gauzatarako. Azken finean, corpusek hitzen erabilera errealaren inguruko informazioa ematen digute.

Corpusen azterketa hau egiteko aukeratu ditugun corpusak Corpeus, internet euskarazko corpus gisa eta Euskararen Corpusa izan dira, euskal corpus orokorrak direlako aukeratu ditugu, hau da ez dira gai zehatz bati buruzko corpusak. Corpeus corpusa Elhuyar Fundazioko I+G taldeak garatua da, EHUko Informatika Fakultateko IXA Taldearen laguntzarekin, eta honek egiten duena Internet euskarazko corpus gisa erabiltzeko aukera ematea da, corpus hau beti ari da eguneratzen eta edukia gehitzen; beraz, hitz berrienak ere kontsulta daitezke. Euskararen Corpusa UZEI elkarteak egindako XX. mendeko euskararen corpus estatistikoa da. Corpus estatistikoaren oinarria, hainbat irizpideen arabera sailkatutako XX. mendeko euskal argitalpenen inbentario osoa da. Esan beharra dago, euskara idatzia dela hemen jasotzen dena, ez ahozkoa. Bi corpusak pixka bat aurkeztu ondoren, has gaitezen azterketarekin.

 

CORPEUS, internet euskarazko corpus gisa

1. IZEN BATEN BILKAETA

Etxe izena aukeratu dugu corpusetan bilaketa egiteko, izan ere, oso erabilia eta emankorra da. Hauek dira etxe izena sartuta bilaketak egiteko modu desberdinak:

  • 1. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan,  guk nahi dugun izena jarriko dugu, kasu honetan, etxe.

c) “Analisia” atalean, izena dela argi utzi behar dugu.

d) “Motorra” laukitxoan, non bilatu nahi dugun jarriko dugu. Lehenengo saiakera honetan Google markatu dugu bilaketa egiteko.

Emaitzak:

Lehenik eta behin esan behar dugu bilaketa guztien emaitzak alda daitezkeela bilaketa egiten dugun bakoitzean, corpusa etengabe berritzen delako. Ematen duen informazioa oso ugaria da, ez baikara etxe hitzera soilik mugatzen, etxe daukaten hitz guztiak agertu zaizkigu: hitz eratorriak, hitz elkartuak edota izena deklinatuta. Corpusa gai da guk etxe hitza sartuta honen forma deklinatu eta barianteak emateko. Oso emaitza zabala lortu dugu:

-8 orrialde etxe izenarekin

-114 agerpen

-71 baliozkoak

Hauek dira formaren arabera kopuruari buruzko datuak:

etxe 22
etxeko 21
etxea 12
etxeen 4
etxeak 4
etxearen 3
etxeei 2
etxez 1
etxeari 1
etxeekin 1
Guztira 71

Honen adibideak ikusteko: http://www.corpeus.org/cgi-bin/kontsulta.py

  • 2. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan etxe idatziko dugu.

c) “Analisia” atalean, izena dela markatuko dugu.

d) “Motorra” laukitxoan, bigarren saiakera honetan Bing markatu dugu Google beharrean.

Emaitzak:

Kasu honetan ere, ez gara etxe hitzera soilik mugatzen eta honen deklinazioak etab. agertzen zaizkigu.

-10 orrialde

-163 agerpen

-51 baliozkoak

Hona hemen formaren arabera kopuruari dagozkion datuak,  ikus daiteke Bing bilatzaileak formei dagozkienez ematen dituen emaitzak  ez direla Google-k ematen dituenak bezain ugariak:

etxe 18
etxeak 13
etxea 10
etxeko 8
etxearen 1
etxeek 1
Guztira 51

Honen adibideak ikusi ahal izateko hemen klikatu: http://www.corpeus.org/cgi-bin/kontsulta.py

  • 3. modua

a) Kasu honetan, “Zer” atalean lema markatu beharrean, forma jarriko dugu.

b) “Bilatu” jartzen duen laukitxoan etxe idatziko dugu.

c) “Analisia” atalean, izena dela markatuko dugu.

d) “Motorra” laukitxoan, bilaketa Google-k egitea eskatuko dugu.

Emaitzak:

Etxe hitzaren forma daukaten sarrerak agertu zaizkigu, hau da, deklinatu gabe.

-8 orrialde

-54 agerpen

-22 baliozkoak

Honen adibiderik ikusi nahi izatekotan, hona hemen orrialdera eramaten duen esteka: http://www.corpeus.org/cgi-bin/kontsulta.py

  • 4. modua

a) Kasu honetan, “Zer” atalean lema markatu beharrean, forma jarriko dugu.

b) “Bilatu” jartzen duen laukitxoan etxe idatziko dugu.

c) “Analisia” atalean, izena dela markatuko dugu.

d) “Motorra” laukitxoan, orain Bing-en egingo dugu bilaketa.

Emaitzak:

-10 orri

-106 agerpen

-23 baliozkoak

Saiakera honen emaitzak orrialdean ikusi ahal izateko esteka hau jarraitu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

2. ADITZ BATEN BILAKETA

Jakin aditza aukeratu dugu bilaketa egiteko. Hemen ere modu ezberdinetan egingo dugu bilaketa:

  • 1. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan,  guk nahi dugun aditza jarriko dugu, kasu honetan, jakin.

c) “Analisia” atalean, jakin aditza jarri dugu.

d) “Motorra” laukitxoan, non bilatu nahi dugun jarriko dugu. Lehenengo saiakera honetan Google markatu dugu bilaketa egiteko.

Emaitzak:

-8 orrialde

-58 agerpen

-51 baliozkoak

Hemen forma bakoitzeko kopuruak agertzen zaizkigu:

jakin 23
jakitea 9
jakiteko 9
jakina 7
jakite 2
jakipen 1
Guztira 51

Honen adibideak ikusi ahal izateko: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 2. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan,  guk nahi dugun aditza jarriko dugu, kasu honetan, jakin.

c) “Analisia” atalean, jakin aditza markatu dugu.

d) “Motorra” laukitxoan, non bilatu nahi dugun jarriko dugu. Bigarren bilaketa honetan Google-n ordez Bing-en egingo dugu bilaketa.

Emaitzak: argi ikusten da bilaketa Bing-en eginez gero emaitzak ugariagoak direla.

-10 orrialde

-342 agerpen

-325 baliozkoak

Jakin aditza deklinaturik agertutako kopuruak:

jakin 282
jakina 14
jakiteko 9
jakitea 7
jakiten 3
jakinda 3
jakinik 2
jakingo 2
jakitean 1
jakiteak 1
beste guztiak 1
Guztira 325

Honen adibideak ikusteko, klikatu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 3. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza jarri dugu.

c) “Analisia” atalean, jakin aditz trinko gisa bilatuko dugu.

d) “Motorra” laukitxoan, kasu honetan Google-n egingo dugu bilaketa.

Emaitzak:

-8 orrialde

-72 agerpen

-53 baliozkoak

Forma bakoitzeko kopuruei dagokionez:

dakit 24
jakin 10
dakigu 7
daki 6
dakite 3
dakizu 2
dakizki 1
Guztira 53

Saiakera honen adibideak ikusteko: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 4. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza idatziko dugu.

c) “Analisia” atalean, jakin aditz trinko gisa bilatuko dugu.

d) “Motorra” laukitxoan, laugarren bilaketa honetan Google-n ordez Bing-en egingo dugu bilaketa.

Emaitzak:

-10 orrialde

-52 agerpen

-46 baliozkoak

Aditz forma ezberdinen kopurua:

dakit 21
jakin 9
daki 7
dakigu 6
dakite 2
dakizu 1
Guztira 46

Honen adibideak hemen ikus daitezke: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 5. modua

a) “Zer” atalean lema beharrean forma markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza idatziko dugu.

c) “Analisia” atalean, jakin aditza bilatuko dugu.

d) “Motorra” laukitxoan, bilaketa honetan Google erabiliko dugu.

Emaitzak:

-8 orrialde

-20 agerpen

-20 baliozkoak

Kasu honen adibideak ikusteko esteka hau jarraitu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 6. modua

a) “Zer” atalean lema beharrean forma markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza idatziko dugu.

c) “Analisia” atalean jakin aditza bilatuko dugu.

d) “Motorra” laukitxoan, bilaketa honetan Bing erabiliko dugu Google-n ordez.

Emaitzak: Bing-ek eskeintzen dituen emaitzak Google-k eskeintzen dituenak baino ugariagoak dira.

-10 orrialde

-433 agerpen

-395 baliozkoak

Honen adibideak ikusi nahi izatekotan hemen klikatu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

EUSKARAREN CORPUSA

Corpus hau euskaltzaindiaren corpus bat da eta 2002. urtekoa da egin zaion azken modifikazioa.  Corpus honek testu- hitzak edo lemak bilatzeko aukera ematen du. Esan beharreko gauza da corpusak ez duela hitzen kategorien arteko bereizketarik egiteko baliabiderik, berak hitzaren kategoria zein den berdin izango zaigu bilaketa egiterako orduan. Hala ere, beste corpusean erabilli dugun metodologia jarraituz, honetan ere bilaketa bi ataletan banatuko dugu.

1. IZEN BATEN BILAKETA

  • 1. aukera

Lema(k)” aukera hautatu eta ”Hitz bat” jartzen duen lekuan klikatzen badugu eta etxe izena bilatzen badugu, hurrengo hau izango litzateke emaitza:

1.  1900-1939  Bizkaiera  Ikasliburuak  Euskeraz irakurteko 0042 Gure amak yosten diardu etxean.

2.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0083 Urijaz aiztu zan, eta azkenez, bere etxian baxen pozik eguan.

3.  1900-1939  Bizkaiera  Ikasliburuak  Euskeraz irakurteko 0046 Andoni’k.- Etxe osteko lizarretan.

4.  1900-1939  Bizkaiera  Saio-liburuak  K. Basabe 0063 – “Suaz, ba, ezquer asco zor deutsaguz eche orrerita”.

5.  1900-1939  Bizkaiera  Literatur prosa  Or Tormes 0011 Abade ta praille, batak txiroai ostuten deutse, ta besteak etxetik atsotxuentzat ataraten dabe.

6.  1900-1939  Bizkaiera  Literatur prosa  E. Bengoa 0003 Biyen bittartian, echeko guztiak maiyen alderdi biyetan zutunik dagoz ichoroten arik eta asabak eurena jan deiyen artian.

7.  1900-1939  Bizkaiera  Literatur prosa  E. Bengoa 0003 Orduen echeko guztiak belaunikoturik egiten deutzee asaben arimari adoraziñoia, eta eurak ill-errira utsik biurtu ezteizen, erreten deutzeez (au da illen giro-mutuo) diru-paperak (olan derichoe, baia eztira benetakoak) oneen ustez, andikaldian be dirudunak obeto bizi eidiralako.

8.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0538 Biotz-biotzez maite du euskaldunak bere etxea.

9.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0539 Elizanburu’k ere maite zuan bere etxea.

10.  1900-1939  Gipuzkera  Saio-artikuluak  A Lamiak 0101 Etxera itzultzean eztezanala gibela begiratu

Adibide guzti hauetan, etxe izena agertzen den liburu, artikulu edota testuan agertzen zaizkigu. Izena bere horretan, deklinaturik edota forma zaharrean ere bilatzen du corpus honek.

Aipatutako adibideez gain beste asko daude, gehiago ikusi nahi izatekotan hemen klikatu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 2. aukera

Beste aukera bat, lema bilatu beharrean testu- hitzak bilatzea da. Honetarako, lehenengo laukitxoan “Testu- hitza(k)” aukeratu eta lehengo moduan, “Hitz bat” jartzen duen laukitxoa berdin utziko dugu. Hurrengo hau da lortutako emaitza:

1.  1900-1939  Bizkaiera  Saio-artikuluak  Euzkadi 1908 0081 ¡A! ¡duinge zantarrak eta duinge zantarrak! ¡Jagiko alda aberrtzale arrtetik etxe-arerijo orrei lepasur diru-aurrian duingero makurrtu ori zigorr gogorraz auzi ta trisketan dautsenen bat! Orren okerrez, atsebakotu gadixan Aberrijaren atze baga-aldijetan, eta atseginez bete gadixan bere atsegin-aldijetan.

2.  1900-1939  Bizkaiera  Ikasliburuak  Euskeraz irakurteko 0046 Andoni’k.- Etxe osteko lizarretan.

3.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0031 Aldi atan Marte bere guraso ta nebearekin bixi-zan iturrmendi zarran, gaurr etxe-ondakiñak baño eztan Iurrmendi zarran.

4.  1900-1939  Bizkaiera  Literatur prosa  Ag Kr 0117 Benetan egoan ondo, ta neskame izatekotan, ezeukean egundo etxe atatik beste batera urtengo.

5.  1900-1939  Bizkaiera  Literatur prosa  Ag Kr 0117 – Ementxe bertan, aurreko etxe onetantxe.

6.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0539 ¿Nork ez dakizki buruz neurtitz aiek?¿Nork ez ditu bein baño geiagotan erestu?¿Nor ez da neurtitz aiezaz oroitu etxetik urruti gogoa etxe aldera biurtzean?¡Etxea! Izen dontsu-dontsu ta gozoa.

7.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0539 Bi idi aundi mendian, bildotxak, beiak, auntzak, ardiak… Etxe ura ordea, bere-berea zuan, bere sorlekua, aiten-aitak autatua.

8.  1900-1939  Gipuzkera  Saio-artikuluak  F. Urkia 0007 Etxe askotan labeko atakak sukaldean jotzen du.

9.  1900-1939  Gipuzkera  Saio-artikuluak  F. Urkia 0007 Beste batzuk etxe-ondoko legorpetxo batean.

10.  1900-1939  Gipuzkera  Saio-artikuluak  JBDei 1922 0253 – Asarre zeuden igeltzeroak, lanian ari ziran etxe arretako etxeko-andreak, amarretakorik etzietela ematen eta.

Kasu honetan, etxe izena agertzen den testuak aipatzen dira adibide hauetan baina bere horretan soilik egiten da bilaketa; ez da izen hau deklinatuta agertzen bilaketa honetan.

Adibide guztiak ikusi ahal izateko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 3. aukera

Bestalde, corpus honek izena esaldiaren hasieran, amaieran edo tartean bilatzeko aukera ere ematen du. Horretarako, bilaketa egiterakoan lehen “Hitz-bat” aukeratu dugun lekuan, orain “Hasieran”, “Bukaeran” edo “Tartean” aukeratuko dugu. “Lema(k)” hautaturik, (gauza berbera egin daiteke “Testu hitza(k)” aukeratzen badugu ere) esaldiaren hasieran aukeratzerakoan hauek dira emaitzetako batzuk:

1.  1900-1939  Gipuzkera  Saio-artikuluak  F. Urkia 0007 Etxe askotan labeko atakak sukaldean jotzen du.

2.  1900-1939  Bizkaiera  Literatur prosa  Echta Jos 0035 Etxe onek eukazan eskaratz edo sukalde ona, iru logela nasaiak, berbaleku txikitxo bat, sabai ta goianengo zabalak eta korta eder bi, abelgorri ta ardientzat; baita etxe aurrean egozan laba-gela ta oillatoki onak euren teillatuakaz.

3.  1900-1939  Gipuzkera  Literatur prosa  Elizondo Loretegi 0186 Etxe batekoak, gosaria egiteko esnea egunero erosten zioten, eta neskamea zintzo-zintzo etortzen zan, garai jakiñean, esne billa.

4.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – Baietz, lapurra! Nik ikusi det sartzen-da.

5.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – (igesi itzuliaz) Ai! ai!.

6.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – Nik ez ba.

7.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – Ni ametsetan eta lapurra or barruan.

8.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – (Aundi-mandi’ri besotik elduta) Ez zabaldu ez!.

9.  1900-1939  Gipuzkera  Antzerkia  Alz Osaba 0015 Etxe au izan danarekin….

10.  1900-1939  Sailkatu gabeak  Egunkariak  El Día 1934 0001 Etxe gutxitan utzi zayote pakian ta ortatik dator oyen igas egitea gure aldetik.

Adibide guztiak ikusteko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Esaldiaren bukaeran etxe hitza bilatzerakoan hurrengo hauek lirateke emaitzetako batzuk:

1.  1969-1990  Gipuzkera  Saio-liburuak  D. Garmendia 0106 Gaurko Arantzazu bere pelota-leku, automobillentzako leku zabal, prailegaien etxe….

2.  1969-1990  Euskara Batua  Saio-liburuak  NekazArkit 0500 <hi type=”caption”>Lasernan altxatzen diren zenbait etxe</hi>.

3.  1991-1999  Sailkatu gabeak  Aldizkariak  A. Loidi 0018 ETXERIK ETXE

4.  1991-1999  Sailkatu gabeak  Aldizkariak  E. Otamendi 0006 Gainera, hiru polikiroldegiren eraikuntza jarri dugu martxan, zaharrentzat lau egoitza eta bi zahar etxe.

5.  1991-1999  Bizkaiera  Literatur prosa  J.M. Etxebarria 0036 Orduan, herriko gazteak eta, alkar hartu, eta etxe-errearena batzen joaten ginen etxerik etxe.

6.  1991-1999  Euskara Batua  Saio-artikuluak  Peillen 0015 Turismoaren aldetik duela hogei bat urte Zuberoako Sindikatak mendi-herrixka bat eraiki zuen Iratin, orain mozkinemaile dena, asko iretsi ondoren (50. bat etxe).

7.  1991-1999  Euskara Batua  Saio-artikuluak  J. Cillero 0023 Eta etxekoiak gezalagoak, ordea: Steve, Darrel, Bryon, Charlie (taberna du etxe)…

8.  1991-1999  Sailkatu gabeak  Aldizkariak  Aretxagazeta 1996 0012 <head>Zazpi mendi etxe</head>

9.  1991-1999  Bizkaiera  Literatur prosa  L. Ayesta 00099 Urtearen asierako lenengo egunean, Urte Barri goxean, eguna zabalduaz beste barik, soñeko arropa barriak jantzirik, oñetako eta guzti, joaten ginean umezko guztiak iru-lau moltsotan, ze orduko sasoian famili andiak ginean danok, eta esate baterako amar urtetik berakoak, limosna bila etxerik etxe.

10.  1991-1999  Sailkatu gabeak  Egunkariak  Euskadi Inf 1999 00005 Irungo lurretan hasitako sute batek arriskuan jarri zituen bertako zenbait baserri eta etxe.

Adibide guztiak ikusteko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Eta azkenik, esaldiaren tartean bilatzerakoan, ez da emaitzik ageri, izan ere, hitz bat baino gehiago idatzi behar dira koma bidez banatuak emaitzen bat lortu ahal izateko.

  • 4. aukera

Corpus honek bilaketak ordenatuta edo ordenatu gabe egiteko baliabideak ere eskaintzen ditu. Horretarako egin beharrekoa, “Ordenatuta” jartzen duen laukitxoan klikatzea izango litzateke eta kontrako bilaketa egiteko, “Ordenatu gabe” dakarren laukitxoan klikatzea.

  • 5. aukera

Beste baliabide bat idatzitako hitza garbitzeko aukera ematen duela da. Honetarako ere, “Garbitu” jartzen duen laukitxoa dugu eta hor klikatzeaz batera, lehenago bilaketa egiteko idatzitako hitza garbitu egingo da hitz berria idazteko laukitxoa garbi utziz.

  • 6. aukera

Aukera bezala jarri ditugun adibideetan “Epea“, “Euskalkia” eta “Testu-mota” aukeretan guztia da guk markatuta eduki duguna, baina aukera gehiago daude. Bilaketak epe baten barruan egitea ere ahalbidetzen du corpus honek. Ezkerreko lehenengo laukian urte tarte batzuk ageri dira eta horietako batean klikatuz, bilaketa zehatzago bat egitea ahalbidetzen du. Honez gain, lauki honen beheko aldean beste bat dago eta hemen euskalkia zehazteka ahalbidetzen da eta azkenik, hirugarren laukiak testu-motak zehazteko aukera ematen du, hala nola, testu artikuluak, saio-liburuak… etab.

2. ADITZ BATEN BILAKETA

Jakin aditza aukeratu dugu bilaketa hau egiteko eta aurreko izenarekin konparatzeko.

  • 1. aukera

Lema moduan bilaketa eginez hauek dira jasotako emaitza batzuk:

1.  1900-1939  Bizkaiera  Saio-artikuluak  Eguzk ItzBik 0595 Erronkarin-edo izan ezik (eta an be -d-, -r- ala besterik dan ziur ez dakigu) euskal-itzen amayan -d- rik ez datorr: -t, ostera, sarritan: augaitik euskaldunak, euren aboskiñen azturari jarraituaz beste barik, azken gediña kendu ezkero, gelditzen ziran -d oro -t izatera itzuli ebezan.

2.  1900-1939  Bizkaiera  Literatur prosa  E. Bengoa 0003 Oiñ kontu gero zeure berbakin; gaurko arratsaldian da gabian, eta biyer, etzi ta etzigaramon itz eztitsuak eta atsegiñez betiak baño ezin esan leizela biarbada zuek eztozue jakingo-ta.

3.  1900-1939  Bizkaiera  Administrazio-idazkiak  Jauparijak 0008 c) Bere GUDAL-JAUPARIEN aldentzeko baimenak jakin bear dauz, geiegi ugaritu ezdaitezan, eta beti, aldendu danaren ordezkoa jarriaz.

4.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0025 <head>¡JAKIN BANEU..!</head>.

5.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0027 Ainbeste adiskide daukadaz, alkarregaz, neuk jakin barik, aide edo senide diranak, ze….

6.  1900-1939  Bizkaiera  Saio-artikuluak  JBDei 1923 0097 – Gizona! Nondik nora ezer be jakin barik, griego edo ijito usaña susmaten neutzen nik.

7.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0058 Arrantza-salletan beste edozeñek baño geyago edo-daki.

8.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0083 ¿Zelan ixan leike ori, bere atteak euzkeraz ekijan-eta?.

9.  1900-1939  Bizkaiera  Saio-artikuluak  Euzkadi 1908 0080 Ez dakit onddiño selango azazkundia emongo dautsedan idazkun onei, baña beti ixango dira, bilddurr barik, Euzkadi-mattetasunaren inddarrez neure buruban sorrtu ta errniak.

10.  1900-1939  Bizkaiera  Saio-liburuak  Eguzk GizAuz 0130 An naste-borraste andia dabillela badakigu-ta, gizartekeri ta baltsakeria be nastean dabiltzala esango neuke.

Gainontzeko adibideak ikusteko hemen klikatu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 2. aukera

Testu-hitza(k)” moduan bilatzerakoan, hauek izan dira lortutako emaitzak:

1.  1900-1939  Bizkaiera  Administrazio-idazkiak  Jauparijak 0008 c) Bere GUDAL-JAUPARIEN aldentzeko baimenak jakin bear dauz, geiegi ugaritu ezdaitezan, eta beti, aldendu danaren ordezkoa jarriaz.

2.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0025 <head>¡JAKIN BANEU..!</head>.

3.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0027 Ainbeste adiskide daukadaz, alkarregaz, neuk jakin barik, aide edo senide diranak, ze….

4.  1900-1939  Bizkaiera  Saio-artikuluak  JBDei 1923 0097 – Gizona! Nondik nora ezer be jakin barik, griego edo ijito usaña susmaten neutzen nik.

5.  1900-1939  Bizkaiera  Saio-artikuluak  A. Urrutia 0147 Eztakizu zelako poza arrtu dodan euzkeraz autorrtuten dozula jakin dodanian.

6.  1900-1939  Bizkaiera  Literatur prosa  Ibarg 0036 Baña jakin ez dauana, neke edo zigorra dagokion zerbait egiñarren be, ez da ain zigorrtua izango. (Luk. XIII-17).

7.  1900-1939  Bizkaiera  Literatur prosa  Echta JayM 0145 Agaton, oneik berbok esaten eguanarte, bere emaste ta lagunak ito-biarrik egozan barreka, ta Amele’k erantzun eutsan: – ¿Nun jakin dok Hamburg’on ainbeste korkoch dagozana?.

8.  1900-1939  Bizkaiera  Literatur prosa  Echta JayM 0145 – ¿Nun jakin dodan? Onutz ekarri genduzan ontziko nagosiak esan yeustanan.

9.  1900-1939  Gipuzkera  Saio-artikuluak  EE 1914 0194 Bere lenbiziko maisutzat, beste donostiar asko jakin bat izan zuben: Bizente Manterola argidotarra.

10.  1900-1939  Gipuzkera  Saio-artikuluak  JAg 0018 Lenengo aldiz jakin zituanean A. Iñazio’k Gandia’ko Dukea’ren jesuita izateko asmo onak esan zuan: “Oraindik isillik gorde bearko degu berri au; ez dira bada gauza mundutarren belarriak orrelako otsaundi edo tumpadarik aditzeko”.

Emaitza guztiak ikusteko esteka hau jarraitu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 3. aukera

Hasieran“, “Bukaeran” eta “Tartean” aukerak, adibide hauetan “Testu hitza(k)” izan da markatuta eduki duguna, baina “Lema(k)” aukeratuta ere egin daiteke. Bestalde, “Epea“, “Euskalkia” eta “Testu-mota” aukeretan guztia da markatuta eduki duguna. Esaldiaren hasieran jakin aditzaren bilaketa egiterakoan, askoz ere emaitza gutxiago agertzen dira. Hona hemen emaitza hauen adibide batzuk:

1.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0025 <head>¡JAKIN BANEU..!</head>.

2.  1900-1939  Gipuzkera  Saio-artikuluak  Inzag 0130 Jakin nai nuke nondik ote datozen emen bertan Zumaya’n: Txotxa-apaindu, Urtaingoa, Kaldes ta Tantanenekoa.

3.  1900-1939  Sailkatu gabeak  Egunkariak  El Día 1933 0001 Jakin dezala mundu guziak, nola garabizkiten.

4.  1900-1939  Sailkatu gabeak  Egunkariak  El Día 1931 0001 Jakin zazute gañera gorago aitatutako oyek, guztiyak itz egiteko errextasunik ez badute ere, idazteko beintzat idazle koxkor onek baño geyagokoa dutela.

5.  1940-1968  Gipuzkera  Saio-artikuluak  K. Enbeita 0076 <bibl>JAKIN</bibl>

6.  1940-1968  Gipuzkera  Saio-artikuluak  Vill 0178 Jakin beharrekoa dela uste dut Lafitte jaunak Euskaltzaindiko batzarre batean gogoratu zigun harako hura.

7.  1940-1968  Gipuzkera  Literatur prosa  Ugalde Iltz 0024 – Jakin al’dezu, Joxepa? -esan zion, aulki, Inaxi’k-.

8.  1940-1968  Sailkatu gabeak  Bertsoak  BerTxapel 1962 0049 Mattinek 
Jakin beauzu ni haur oiekin 
arras kontentu nagola, 
eta nai nuke luzaro bizi 
segur oino hola-hola, 
ta gero ere zabalduko da 
Mattin gaizoaren odola, 
eta hau berriz zertarako da 
fruitu gabeko arbola?.

9.  1969-1990  Gipuzkera  Saio-liburuak  A. Elustondo 0019 Jakin! Asko jakin! Gizon argien otsa entzun.

10.  1969-1990  Gipuzkera  Antzerkia  Onaind 0092 – Jakin nahi nuke, ba!.

Adibide guztiak ikusteko hemen sakatu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Esaldiaren bukaeran aditz hau bilatzerakoan, hurrengoak dira agertutako emaitza batzuk:

1.  1900-1939  Lapurtera-Nafarrera  Saio-artikuluak  Zerb Metsiko 0054 Ez da harritzeko: hamabi kilometra ondo… eta iherika guk ez jakin!.

2.  1900-1939  Sailkatu gabeak  Aldizkariak  Eskual 1904 0001 Aberats okhitu handi zenbeit othe zen, ala segurrago ez hango berekoa; gu bezala hura ere arrotza othe? Ez jakin.

3.  1940-1968  Gipuzkera  Saio-artikuluak  Jaunaren Deia 1965 0054 Jainkoak agertu ezik, gizonak ezin du bere indarrez txirotasunaren barne-muña soilki jakin.

4.  1940-1968  Bizkaiera  Saio-artikuluak  C. Jemein 0052 Nik askori itandu dautset eta erantzuten eztabe jakin.

5.  1940-1968  Gipuzkera  Saio-artikuluak  K. Enbeita 0076 <bibl>JAKIN</bibl>

6.  1940-1968  Gipuzkera  Saio-artikuluak  Lfn 0003 Bestalde, olako lanen egiteko, bear da zerbaitetaraño euskeraz mintzatzen eta izkiriatzen jakin.

7.  1940-1968  Gipuzkera  Literatur prosa  Gure mixioak 0012 Nola jakin?

8.  1969-1990  Gipuzkera  Saio-artikuluak  Onaind 0060 Ikasi ezik, nola jakin?.

9.  1969-1990  Gipuzkera  Saio-liburuak  A. Arrinda 0105 – Ilko ote dute…? – Ez ba jakin….

10.  1969-1990  Gipuzkera  Literatur prosa  B. Latiegi 0224 Gauza bat bakarrik nai du Luter`ek: salbatuko dala seguru jakin.

Emaitza guztiak ikusteko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Azkenik, hitz biren artean aditz honen bilaketa egiterakoan ere, hitz bi bilatu beharko lirateke komen bidez banaturik aurreko kasuan gertatu den bezala.

Hona hemen ondorioei dagokienez esan beharreko gauza batzuk: Corpeusek emaitzak ematerakoan grafikoa eta hitzen testuingurua batera ematen digu, eta horrek ulermenari lagun diezaioke; Euskararen Corpusak, ordea, hitzen testuingurua besterik ez digu ematen. Bestalde, Euskararen Corpusak ez du hitzen kategoriaren bereizketarik egitea ahalbidetzen, eta era berean, bakarrik “Testu-hitza(k) sakatzen badugu agertuko zaigu hitza bere horretan; Corpeusean, ordea, forma sakatuz gero, emaitzetan hitza bere horretan emango zaigu, eta ez da zertan testu-hitz izan behar.  Corpeusak daukan beste gauza on bat etengabe berritzen dela da, izan ere, internet da erabiltzen duen baliabidea, Euskararen Corpusak, ordea, ez du zertan aldaketarik eduki behar, izan ere, XX. mendeko testuen gaineko corpusa da, eta jadanik XXI. mendean gaude.

Euskararen Corpusak bilaketak egiterakoan zehatzagoak izatea ahalbidetzen digu; izan ere, bilatu nahi dugun hitza, testuaren hasieran, bukaeran edo tartean topatzeko eska diezaiokegu. Era berean, hainbat hitz konbinatuta bilatzea ere posible da corpus honetan, eta hori ez dauka Corpeusek. Honez gain, epea, euskalkia eta testu-mota zehaztu nahi badugu, egin dezakegu, eta horrek bilaketa zehatzagoak egitea posible egingo luke.

Honez gain esan behar dugu, guk egindako bilaketak “Bilaketa arrunta” moduan egin ditugula, baina garrantzitsua da azpimarratzea, hiztegi biek ahalbidetzen dutela bilaketa askoz ere zehatzago bat egitea “Bilaketa aurreratua”ren bitartez. Gure ustez corpus biak dira onak, egin beharreko gauza bakarra gure nahien arabera bata edo bestea aukeratzea da, biak izan daitezke egoki egin nahi dugun bilaketa motaren arabera.

Iturriak:

Egileak: Ainhoa Causo, Jone Flores eta Leire Zamalloa

GOTZON GARATEREN ATSOTITZAK (taldeko lana)

Egileak: Irati Garaioa, Idoia Ibarluzea eta Amaia Navarro

 

Sarrera

Gotzon Garatek (1934-2008) egindako bilketa-lan honetan 27.000tik gora atsotitz aurki ditzakegu lau hizkuntza desberdinetan: euskara, gaztelania, ingelesa eta latina. Atsotitz-bilduma hau egiteko Gotzon Garate 30 urtez Euskal Herriko hainbat baserritan bildutako informazioaz baliatu da, eta Bilbao Bizkaia Kutxa Fundazioaren laguntzari esker argitara eman zuen 1998.urtean. Corpus hau Interneten eskuragarri daukagu orrialde honetan: http://www.ametza.com/bbk/htdocs/hasiera.htm 

  

Euskarari eta euskal kulturari egindako ekarpena

Atsotitzen corpus hau aurki dezakegun atsotitz bildumarik onenetarikoa eta osoena da era ukaezin batean aberasten baitu euskera eta honen ezagutza. Gotzon Garateren hitzetan: “Atsotitzak oso onak dira gure hizkuntza eta kultura ezagutzeko”. Azken batez, lexikoa ez ezik, esaldi osoak ere badaudelako, bizitza osoan euskaraz hitz egin izan dutenek esandakoak. Lehen esan dugun bezala, Gotzon Garate 30 urtez ibili zen baserriz baserri corpus hau osatzeko atsotitzak biltzen. Horregatik diogu bildumarik oneneratikoa eta errepikaezina dela, gaur egun gero eta gazte gutxiago bizi direlako baserrietan eta beraz, gero eta atsotitz gutxiago dakitelako.

  

Atsotitzen sailkapena

Esan bezala, lau hizkuntzatan agertzen zaizkigu corpus honetako atsotitzak. Euskarazko atsotitzak 14.458 dira, eta gehienak zazpi probintzietako 23 baserritan bildu dira. Euskal atsotitz hauen gaztelaniazko, ingelesezko eta latinezko ordainak agertzen zaizkigu. Gauza bera gertatzen da beste hizkuntzetako atsotitzekin: gaztelaniaz 5.208 esaera zahar daude eta hauek beste hizkuntzetan zelan esaten diren aurki dezakegu; eta sail hau osatuena eta garrantzitsuena da euskal atsotitzekin batera. Ingelesez, 4.045 atsotitz eta latinez 3.462 atsotitz daude, eta hauen baliokideak ere agertzen dira beste hiru hizkuntzetan. Hau guztia era argiago batean ikusiko dugu esaera zahar batzuen adibideak ematean.

Hala ere, ez dira agertzen frantsesezko atsotitzak, eta liburuaren sarreran honen azalpena ematen zaigu: “Frantsesez ez. Zergatik? Gure Iparraldeko haurrideek lan hori hobeki egingo dutelako, nire aldean frantsesez hobeki baitakite“.

 

Atsotitzek biltzen dituzten eremuak

Atsotitzen corpus honetan hauexek dira lantzen diren eremu esanguratsuenak:

  • Animalien eremu semantikoak leku handia hartzen du corpus honetan. Zakurren, ardien, zerrien, astoen, azerien gainean esandako atsotitzak aurki ditzakegu. Esaterako: “Edonon dauz txakurrek agiñek zabalik”.
  • Euskal Herriko ohiturei buruzko atsotitzak: zerri-hiltzea, euskal ezkontzak, etab. Hau da, “San Antonio, jentia ezkontzeko beti pronto”.
  • Euskal Herriaren filosofia eta morala. Adibidez: “Filosofia baiño, oillozopia obe”
  • Euskal gizarteari buruzko informazioa ere ematen digute atsotitzek; hala nola, familia, lana, erlijioa. Hala nola, “Familia, erriaren mintegia” eta “Ama Birjiñia martxoko, ni mendian gaillurrerako”.
  • Mitologia eta naturarekin lotutako siniskerak ditugu. Esate baterako, “Sustraiak barrenago, zuhaitzak gorago”.
  • Otoitzak, sorginkeriaren gaineko atsotitzak, Euskal Herriko jaiak eta arbasoengandik jaso ditugun ipuinak. Hots, “Zelako gizona, alako otoitza” eta “Sorginak sasien gainetik eta odeien azpitik”.
  • Folklorea eta etnologiari buruzkoak ere badira, herriaren antzinateko uste, jokamolde eta tradizioak azaltzen dituztenak.

 

Corpusaren funtzionamendua

Corpus hau nola funtzionatzen duen azalduko dizuegu orain eman beharreko pausu guztiak banan-banan azalduz.

1. Behin orrialde honetan gaudela (http://www.ametza.com/bbk/htdocs/hasiera.htm) goiko aldean agertzen den kontsulta botoia klikatu behar da.

2. Ondoren, bilatu nahi dugun hitza jartzeko aukera daukagu. Gainera, hitz bat baino gehiago kontsulta dezakegu. Kontuan hartu beharrekoa da hitzak mugagabean idatzi behar direla; hau da, zuhaitz eta ez zuhaitza, eta ireki eta ez irekitzeko.

3. Hurrengo pausua hitzaren kontsulta egitea da. Gure kasuan, eguzki hitza daramaten atsotitzak zeintzuk diren ikusi nahi dugu. 74 atsotitz agertzen dira zerrendatuta, eta irudi honetan lehenengo hamarrak ikus daitezke.

 

4. Atsotitz bakoitzaren baliokidea beste hiru hizkuntzetan ikusi ahal izateko, nahikoa da atsotitz bakoitzaren ezkerretara dagoen gezia klikatzea. Hau egitean, eskuineko aldean agertuko zaizkigu baliokideak euskaraz, gaztelaniaz eta latinez. Hala ere, gerta daiteke atsotitz batek baliokiderik ez izatea. Guk aukeratu dugun atsotitza hau da: “han ere ogia ez da eguzkitan erretzen”.

Ikus daitekeen bezala, aukeratu dugun atsotitz honek ez dauka baliokiderik. Gaztelaniaren kasuan, berriz, hiru; ingelesaren kasuan, bost eta latinez bakarra.

Prozesu hau berriro egingo dugu baina gaztelaniazko bilatzailearekin. Oraingo honetan vergüenza hitza jarri dugu bilatzailean eta hamahiru atsotitz agertu zaizkigu, eta baliokideak ikusteko guk atsotitz hau aukeratu dugu: “Quien tiene vergüenza, ni come ni almuerza”.

Ikus dezakegunez, atsotitz honek euskarazko bederatzi baliokide ditu eta gaztelaniazko beste hiru. Latinaren eta ingelesaren kasuan, aldiz, ez du kidekorik.

Bibliografia

Tatoeba Project

In linguistics, corpora (plural form of “corpus”) are large sets of language samples taken from real-life texts in a given context. Usually, they attempt to capture everyday speech in ordinary situations (although they can be more specific, e.g. samples of English essays written by non-native students), and thus can then be studied to analyze the characteristics of natural language, to extract statistics on the use of certain expressions or common errors, or to guide learners of a particular language by representing how native speakers would generally express themselves.

Tatoeba (Japanese for “for example”) is an ongoing non-commercial collaborative project to collect sentences from and translated into many different languages. Started in 2006, it currently serves as a cross-lingual aligned corpus with more than 750000 sentences distributed among more than 80 languages.

Tatoeba is an online and open language resource, whose data is available to anyone and can be accessed through the website’s multilingual interface (e.g. Japanese homepage, Basque homepage, Arabic homepage). Sentences are released under the Creative Commons license and can be downloaded as a .csv file, so that they can be freely incorporated into other sites or even textbooks. Users can register to contribute either by providing written or audio-recorded sentences, new translations, comments, or correcting mistakes in spelling, grammar, etc.

Nevertheless, in order to make sure that the contents offered are of sufficient good quality to be employed educationally, Tatoeba has a few moderators that review user activity. In addition, not every person is immediately given the right to make any type of edit, and only those members who accumulate reliability through positive participation become “trusted users”.

How to use Tatoeba

Clicking on the “browse” tab, you can perform sentence searches in different ways:

1. By words:

Using Boolean logic operators, you can perform queries to look for sentences including a specific word, two or more specific words, some word among more than one alternative, only certain words but not others, exact matches of a string of words, etc.


2. By language:

You can look for a sentence in the language you want and decide whether to see all of its translations or only those appearing in a specific language.

National flags are used as symbols to indicate which language a sentence is written in.

If a single sentence can be translated into a language in many ways, users are allowed to submit all the translations they consider necessary. Tatoeba allows for near-duplicates as long as their presence is assistive.

You can also indicate whether you want to find a direct translation or an indirect one. Indirect translations are those that occur when a translation is again translated, and thus this 2nd translation is no longer directly connected with the original sentence.

Indirectly translated sentences could lose some nuances and might not be as accurate, but Tatoeba nevertheless accepts their submission.

As of March, 2011, the three top languages with most sentences on the database are (in order) English, Japanese and Esperanto.

3. By list:
Users can create public or private lists to group sentences within a category. Public lists are accessible to everyone, and include examples such as “tourist sentences (all languages)“, “sayings & idioms (all languages)“, “natural-sounding Spanish sentences“, etc.

4. By tag:
Many types of tags can be attached to sentences in order to help classify or define them. Tags are used to mark different aspects of a sentence, from semantic qualities (related to topics such as “weather“, “family“, etc.) to notes concerning usage (“female speaker“, “colloquial“, etc.). However, because there is currently no uniform tagging system, some tags are unnecessarily repetitive (e.g. “Plato“, “by Plato” and “By-Plato“), others are almost or completely unused (e.g. “quotation“, “most important“), and a few do not seem transparent enough (e.g. “651884“, “@©hange“).

5
. By user:

Sentences added or “owned” by a member can be found on their profiles.



Because not all users are as reliable or experienced, this feature helps you locate the most trusted contributions.

6. By audio:

Only those sentences for which an audio recording is available are displayed (at present totaling up to more than 9500).

Evolution

The enormous amount of sentences already submitted in less than 5 years proves Tatoeba‘s success. Although the database was at first taken from the Tanaka Corpus of parallel Japanese-English sentences, the collection has been widely modified, corrected, and expanded to include many more new sentences and other languages. While the project was started by a single person (who is still the only administrator on the site), there are now several moderators that also share the power to take care of the database through editing or deleting erroneous sentences.

Pageview statistics and the number of sentences submitted during the whole year of 2010 show that Tatoeba has seen a huge increase in popularity and activity in the span of a few months.

Tatoeba is currently a language resource checked by tens of thousands of people every day, but with its constantly growing community, we can be confident that the project will achieve much more in the course of time.

References:

  • Tanaka Corpus (February 3, 2011). In EDRDG Wiki. Retrieved March 13, 2011

Dictionary Review

The Oxford English Dictionary (OED), published by the Oxford University Press, is a comprehensive dictionary of the English language.

In the same way, it leads to a complete and definite explanation of its syntax and grammar to the same 30th of November 2005, it includes about 301, 000 main entries, over 350 million characters. In addition to the main entries, it contains 157,000 combinations and derivatives in bold type, and 169,000 phrases and combinations in bold italic, for a total of 616, 500 expressions. there are 137, 000 pronunciations, 249,000 etymologies, 557,000 cross-references, and 2,412,400 illustrative quotations.

The intention of the work is to collect all known uses and variants of each word in all varieties of English around the world, past and present, and their etymology, history, pronunciation, etc. It is the starting point of many studies on the English language, and the order in which different spellings of the words are listed there, have much influence on written English in many countries.

The third edition presents over 260,000 entries and over 450,000 translated senses. The bilingual introduction is a very important part of the dictionary, for it contains a Guide to the use of the Dictionary with a long sketch of the entries, notes on the pronunciation, translations and collocators, phrases and cross-references.

I would like to give some examples of what the online dictionary can offer to all users:

 Verb

1. follow

  Noun

1.link

Preposition

1.between

Adjective

1. great

 

As we can see, firstly, we can find all the results related to the word that the user wants. Besides, categories helps the user to find easier his search.

 

 

Sources:

American National Corpus Review

The American National Corpus (ANC) is more or less like the British one, both work in a very similar way.

American National Corpus (ANC) project creates a huge electronic collection of American English,that include texts of all types of genres and transcripts of spoken American English from 1990 to the actual date. Anyone can contribute to the system adding text and transcripts. The American National Corpus is created to provide a more comprehensive picture of the American English, and to serve as a resource for students, linguistic and lexicographic research, and technology development.

It  is a text corpus of American English currently containing 22 million words written and spoken data produced since 1990. The ANC includes a range of genres comparable to the British National Corpus and is annotated for part of speech and lemma, shallow parse, and named entities. The ANC will contain a core corpus of at least 100 million words, including both written and spoken data comparable across genres to the BNC.

Its First Release was published in 2003, which includes over 11 million words. Nevertheless, it is not a balanced corpus. The Second Release  contains over 22,000,000 words with annotated for lemma, part of speech, noun and verb chunks.

Randi Reppen, professor at the University of Arizona, is the project manager. he is helped by a group of nine advisors and a Steering Committee.The Technical Director is Nancy Ide and the Research Associate is Keith Suderman.

Source:

Third Review: Text Corpuses

INTRODUCTION:

The Corpus diacrónico del español (CORDE) is a textual corpus of all the times and places where the Spanish language has been spoken, since the very beginning of the language until the year 1975, when the Corpus de referencia del español actual (CREA) was created. The CORDE is designed to extract information to study words and their meanings, as well as the grammar and its use over time.

The CORDE started to be used in 1994, when the Academy brought up the possibility of applying the new technologies of information in order to create a data bank which improved the quality of their working materials and made data access easier. Currently, it has about 250 millon registers. This volume of information is the biggest set of lexical registers of the history of Spanish language.

The corpus collects written texts of very different kinds. These are distributed in prose and poetry and, inside each modality, in narrative, lyrical, dramatic, scientific-technic, historical, juidical, religious, journalistic and so on. The aim is to collect all geographical, historical and generical so that the whole is representative enough.

Today, CORDE is a necessary tool for any diachronical study that is related to the Spanish language. The Academy uses the CORDE systematically to document words, to classify some of them as old-fashioned or obsolete, to know the origin of some terms, their tradition in the language, the first appearing of words…

But one of the most important objectives of the diachronic corpus is to serve as a basic material for the production of the Nuevo diccionario histórico.

TEXT ACQUISITION:

The origin or source of the texts which arrive to CORDE is diverse:

– Books which are scanned through a program of optical character recognition.
– other books obtained in electronical format.
– some are typed in digital format, beacuse there was no modern edition of some pieces which have been decided to be included for the peculiarity of their language.

SIZE AND SELECTION CRITERIA:

http://www.rae.es/rae/gestores/gespub000019.nsf/(voAnexos)/arch475E744872738671C125716500381CF8/$FILE/TamanoycriteriosCORDE.htm

ENCODING:

To all the materials processed in the CORDE, a series of textual mark-ups have been added, established according to the international standard of SGML (Standard General Markup Language) and according to the recommendations of TEI (Text Encoding Initiative), which will permit many possibilities of recuperation of information and the option to exchange texts with another corpus.

The diachronic corpus includes texts in verse; for these, a set of marks have been selected which collect the basic aspects of these texts.

Textual problems such as preliminary compositions, taxes, censorship, approvals, licenses and the intervention of different authors have been marked with several tags that will make it possible to differentiate between the main author and the rest of authors intervening.

MAINTENANCE AND CURRENT STATE:

The new version of CORDE contains 250 million forms belonging to texts of all periods of the history of Spanish language until 1974. This new version enhances the volume of texts that can be consulted. New works have been included and some others have been completed.

However, this new burden of works brings about a great amount of revision and a substitution of the editions included before for other more updated ones. Detected errors must also be corrected, which requires constant work.

The query system has three main windows. The first of them deals with the query profile construction. For that, we have a section aiming at writing the word we are looking for, and some selective criteria to make easier the dynamic selection of documentary subset of the corpus.

EXAMPLE WITH THE WORD “NACIÓN”:

The results offer statistical information about the query and offers the possibility to establish document reducing filters of documents and examples, just in case the number of documents exceeds the limits or becomes excessive for the purposes of the one who is consulting. As an example, I have looked up the word “nación”. The first thing it says is “13097 casos en 1867 documentos”.

If you click in “Ver Estadística”, some basic statistical data about the query will appear in a general view that is very useful to distinguish the appearance scope, thematic directions and the chronological distribution of the offered examples. Through the usage of charts, we are shown the number of cases and the absolute percentages of the obtained cases, classified according to subject, chronological or geographical criteria.

As we can see, the term “nación” appears most in documents of “historical prose”. Most documents containing the word “nación” are from the year 1820 (9502 cases) and most of the texts are from Spain.

This makes a lot of sense, mainly because of these reasons:

  1. The author of the book from which most of the examples come from is “Satiras y panfletos del Trienio Constitucional (1820-1823)”.
  2. The “Trienio Liberal” or “Trienio Constitucional” took place at that date, those three years.
  3. It was the kingdom of Fernando VII, “El Deseado”.
  4. The first of January 1820, the “pronunciamiento” of Colonel Rafael de Diego took place in the sevillian locality of Las Cabezas de San Juan.
  5. Although he had little success at the beginning, Riego immediately proclaimed the restoration of The Cadiz Constitution (1812, La Pepa) and the re-establishment of constitutional authorities.
  6. The support of the militar coup grew stronger and made the uprising last until March 10.
  7. That date, a manifest was published by Fernando VII respecting the Cadiz Constitution, which established a parliamentary monarchy.

 Rafael de Diego

Therefore, this was a date of great importance and no wonder why it appears that much in documents of that time.

As mentioned before, the documents can be seen as a whole (normal) or in a summarized version (resumido), depending on the objectives of the researcher. If you want the results to be more precise, you can always insert data in “Agrupación” and “Marcas”.

To obtain examples, the clasification is varied. Thus, we can search the word or expression by cases, authors, year, country, subject or title.

If we click in “Recuperar”, in the section of “Obtención de Ejemplos”, we will see the first page of results of documents containing the word “nación”. But, as indicated above the chart, this is only the first page of results out of 38. The first document is anonymous, from the year 1910, from the Spanish work “Solidaridad Obrera. Periódico sindicalista, 4 de noviembre de 1910”.

If we select some of the results above and press the option “Concordancias”, some examples of the uses of the word “nación” will show up with the reference of the work that the fragments belong to and the year:

If we take another corpus as an example, for example, the British National Corpus, we will see that it is very different from the CORDE in some respects. I find more disadvantages in the BNC than in the CORDE.

ABOUT THE BNC:

Firstly, because it shows no statistical charts, which is a very useful data to see the term we are searching as a whole. Secondly, the BNC shows the information at random and without any order, so it makes the research more complicated and less accurate.

The British National Corpus (BNC) is a 100 million word collection of samples of written and spoken language from a wide range of sources, designed to represent a wide cross-section of British English from the later part of the 20th century, both spoken and written.

The written part of the BNC (90%) includes, for example, extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text.

The spoken part (10%) consists of orthographic transcriptions of unscripted informal conversations (recorded by volunteers selected from different age, region and social classes in a demographically balanced way) and spoken language collected in different contexts, ranging from formal business or government meetings to radio shows and phone-ins.

PURPOSES OF THE BNC

The purpose of a language corpus is to provide language workers with evidence of how language is really used, evidence that can then be used to inform and substantiate individual theories about what words might or should mean. nTraditional grammars and dictionaries tell us what a word ought to mean, but only experience can tell us what a word is used to mean. This is why dictionary publishers, grammar writers, language teachers, and developers of natural language processing software alike have been turning to corpus evidence as a means of extending and organizing that experience.


SELECTION CRITERIA

Domain: The domain of a text indicates the kind of writing it contains.

•75% of the written texts were to be chosen from informative writings: of which roughly equal quantities should be chosen from the fields of applied sciences, arts, belief & thought, commerce & finance, leisure, natural & pure science, social science, world affairs.

•25% of the written texts were to be imaginative, that is, literary and creative works.

Medium: The medium of a text indicates the kind of publication in which it occurs. The classification used is quite broad.

•60% of written texts were to be books

•25% were to be periodicals (newspapers etc.)

•5 and 10% should come from other kinds of miscellaneous published material (brochures, advertising leaflets, etc)

•5 and 10% should come from unpublished written material such as personal letters and diaries, essays and memoranda, etc

•Small amount (less than 5%) should come from material written to be spoken (for example, political speeches, play texts, broadcast scripts, etc.)

LOOKING FOR EXAMPLES IN THE BNC

The corpus gives a random selection of 50 solutions among all the results of “nation”. Unlike the CORDE, it does not show any statistic charts and it does not give the option to specify authors or dates. You just enter a text or phrase.

Searching the corpus

CONCLUSION

I did not find any relevant information about the term “nation” in the BNC corpus, because the results are shown at random and are not organized in a chronological way. Therefore, the first result was from the book “The Tragedy of Belief”, by John Fulton, about whom I did not find any relevant information, apart from the fact that it is a text about Irish politics from the year 1991. Instead, the CORDE allowed me to do a quite complete research about the term “nación” and it let me know the reason why the results of the term were abundant in the year 1820.


Sources: