El corpus lingüístico

Si buscamosla palabra “corpus” como tal en un diccionario como “El Larousse”, encontraremos como significado “recopilación de materiales, datos, etc,…sobre una materia” o “fiesta religiosa”.

Sin embargo muchos de nosotros todavia no sabemos que este término tambien se utiliza para nombrar a un conjunto de textos almacenados en formato electrónico o html y utilizados para estudiar una lengua o una variedad lingüística mediante el empleo de las modernas tecnologías de la información.
Los corpus tienen que ser creados para poder ser utilizados en el medio informático. Primero tienen que ser analizados para que tras este análisis se pueda relacionar una palabra mediante una entrada y tras esto deben ser etiquetados, es decir, se tiene que tomar la categoria y los rasgos sintácticos significativos de cada palabra.

Hay dos tipos de corpus:
-Corpus textuales: Estos se clasifican según la razón por la que han sido creados y segun su contenido.

-Corpus de la lengua general con fines generales, como son ( CREA), ( CORDE), ( ARTHUS), ETC…; estos pretenden dar respuesta a un proposito con creto como puede ser el estudio de ciertos aspectos de la gramática o el léxico de la lengua o incluso de las diversas variedades linguisticas.

Los fines específicos del corpus son los creados para que se utilicen en textos técnicos, son elaborados por empresas. Un ejemplo de ellos es el llamado “LAN”.

– Corpus orales:se clasifican en dos categorias: corpus para el estudiao de la lengua oral y corpus para el desarrollo de aplicaciones en tecnologias del habla.

El corpus utilizado para el estudio de la lengua oral tiene como fin caracterizar desde un punto de vista linguistico la lengua hablada, aqui encontramos los corpus generales y los especificos.

-El corpus utilizado para el desarrollo de aplicaciones en la tecnologia del habla tiene como objetivo desarrollar aplicaciones para el entrenamiento y evaluación de los sistemas de reconocimiento.

Utilizando todos estos mecanismos creados en 1967 por Nelson Francis y Henry Kucera , podemos estudiar la lengua y todas sus variedades. El lingüísta que más ha utilizado esta técnica fue Chomski y desde entonces hasta nuestros dias esta técnica ha seguido siendo utilizada por la mayor parte de los lingüístas.

En conclusión, la linguística del corpus ha sido y sigue siendo utilizada para intentar analizar e identificar las estructuras y los rasgos linguísticos de cada idioma.Para ello se emplean analisis cuantitativos y cualitativos, en estos analisis se bucan:
las concordancias, las categorias gramaticales, los rasgos linguisticos de cada categoria:adverbios, vervos, pronombres, adjetivos, sustantivos.. tras el analisis exaustivo de todos estos rasgos se procede en segundo lugar a desarrollar un programa que identifique cada rasgo y que tras ello realice agrupamientos de los rasgos linguisticos.
Los ordenadores e Internet han sido lo suficientemente inteligentes como para poder archivar numerosos textos electronicos, descargados de la Web y elaborar un corpur de los mismos.
Hoy en día, con las herramientas que están dentro de nuestro sistema operativo cualquier persona puede crear corpus lingüísticos.

href=”http://sircana.files.wordpress.com/2011/04/piramide_traducciones.png”>

BIBLIOGRAFIA:

  1. LINGüISTICA, http://aportes.educ.ar/lengua/nucleo-teorico/influencia-de-las-tic/tecnologias-de-la-informacion-y-la-comunicacion-tic-y-lingueistica/lingueistica_de_corpus.php, 2010
  2. Conrad, S. y D. Biber (eds.) (2001) Variation in English: Multi-dimensional studies. London: Longman.
  3. Biber, D., S. Conrad y R. Reppen (1998) Corpus Linguistics: Investigating Language Structure and Use. Cambridge: Cambridge University Press.
  4. Kennedy, Graeme (1998) An Introduction of Corpus Linguistics. London: Longman.
  5. Mc Carthy, M. (1998) Spoken Language & Applied Linguistics. Cambridge: Cambridge University Press.
  6. Stubbs, M. (1996) Text and Corpus Analysis. Computer assisted Studies of Language and Culture. Oxford: Blackwell Publishers.
  7. Corpus lingüisticos, http://lorien.die.upm.es/juancho/pfcs/AJP/cap4.pdf

Advertisements

The British National Corpus

I am going to write this article about the British National Corpus, but as I’m sure many people won’t know what a corpus is, I think it is important that I give an explanation. That is why I am going to start by writing a few lines on corpora in general, and then I will focus my article on the British National Corpus, trying to explain how it works.

CORPUS

What is a corpus?

According to the Oxford Dictionary, a corpus is “a collection of written or spoken material in machine-readable form, assembled for the purpose of linguistic research”.

The plural word to corpus is usually “corpora”.

What are they used for?

They are used to store words, whose features can be analyzed by means of tagging and use of concordancing programs, and they help studying linguistic competence. They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe.

Continue reading

COCA-Corpus of Contemporary American English

Nowadays, students of foreign languages, teachers or linguists have many tools available for learning new languages or improving their knowledge of that specific language they are studying. However, many people do not know of the existence of these tools and they cannot take advantage of them. Students can use translators, dictionaries, grammars… One tool that can be very useful when studying a language at a high level and how this language is structured is corpus linguistics. On the following lines, it will be described what is corpus linguistics and one specific corpus that has become very popular. This corpus is called The Corpus Of Contemporary American English (COCA) made by the important professor of Corpus Linguistics Mark Davies at Brighman Young University.

For instance, What do we understand by Corpus linguistics? The definition by Wikipedia is the following:

Corpus Linguistics is the study of language as expressed in samples (corpora) or “real world” text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally done by hand, corpora are now largely derived by an automated process.

At first sight, it can seem that Corpus Linguistics is better to the study of a language rather than grammars because in Corpus samples we have how the language is really used by native speakers. However, this system can also have some disadvantages. For example, as Noam Chomsky said, real language is also riddled with performance-related errors and that is why it is needed careful analysis of small speech samples , but this is not included in Corpus Linguistics because Linguists only include big examples. Nevertheless, this field has been improving and,nowadays, we have very good Corpus which include may samples and very well structured. One Corpus that has to be mentioned is the COCA one.

The Corpus Of Contemporary American English is a free on-line corpus that has 425 million words and 160,000 different texts that come from a variety of sources and genres. It is the largest corpus of American English currently available.Moreover, it has been including 20 million words each year since 1990. More than 40,000 users visit this corpus each month. The different genres or sources are, firstly, spoken (85 million words) from 150 TV and radio programmes.Secondly, fiction (81 million words) from short stories and plays and, then, popular magazines (86 million words), newspapers (81 million words) and academic journals (81 million words). Furthermore, users can search the frequency of a word in each genre which help us to know, for example, if a word is used in academic writing or not. It is also possible to compare how the use of certain words has changed over time from 1990 to present time and to ignore one specific genre when we think that it is not going to be useful.

But, why is this Corpus so good? There are many reasons. For instance, researches of this corpus have been working many years to improve this corpus and their work is also connected to other important Corpus such as the British International Corpus, Time Corpus or the Corpus of Historical American English (COHA). There are also updates with new words from time to time; the last one has been in 2011. Users can search many things within the interface. For example, exact words (e.g: mysterious), part of speech, lemmas which are all the forms of a word (e.g: sing which is the base can have many forms such as singer, song, singing…), wildcard which is an option that gives you the system when you do not know exactly how a word is written( e.g: un*ly; the system’s answers would be unlikely, unusually…) It is also possible to search for collocates within a ten-word window (e.g. all nouns somewhere near faint, all adjectives near woman, or all verbs near feelings)

Other good points are: the possibility to compare the collocates of two related words (e.g banana and apple or little and small; thanks to this we can know the difference in meaning of these words and how each word is used) , to find the frequency and distribution of synonyms for nearly 60,000 words and that we can create our own list of related words.

Take the following example that illustrates how this interface works. In this case, we will analyze the collocates that precede the nouns apple and banana.In the first chart, we can see the answers for apple. It can be seen that there are many times that apple is preceded by an article such as the or an.

WORD 1 (W1): APPLE (3.95)

  WORD W1 W2 W1/W2 SCORE
1 THE 1648 445 3.7 0.9
2 AN 1325 0 2,650.0 671.6

However, banana has less cases. It could be said that apple takes normally determiners and banana not.

WORD 2 (W2): BANANA(0.25)

  WORD W2 W1 W2/W1 SCORE
1 A 602 8 75.3 296.9
2 THE 445 1648 0.3 1.1

Finally, it has to be said that if you use many times this interface, you will have to Log in. Do not hesitate to use this corpus and find attach here a video done by the Emerald Cultural Institute that shows very well how to use COCA .

References:

UZEI- XX. mendeko euskararen corpus estatistikoa

SARRERA

Corpus bat, egituratutako testu sorta handi bat da hizkuntzalaritzan. Hizkuntza baten deskribatzeko eta ikertzeko baliatzen den hizkuntza-datu bilduma da, edo baliabide elektronikoak erabiltzen eta eskaintzen dituena.

  • Corpusa bilduma berezi bat da.
  • Latinetik datorren hitza da. Latinez gorputza esan nahi du.
  • Datu ala testu literarioak, edo zientifikoak, konposatua.
  • Zenbat eta zabal eta txukunago egin hainbat eta hobeto ikerketa batentzat baliagarria izateko.

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da. Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

SAILKAPEN-IRIZPIDEAK

  • Epea, garaia:lau garai nagusitan banatzen dira XX. mendeko argitalpenak:
    • 1900-1939: mende-hasieratik gerrak artekoa.
    • 1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
    • 1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegiaargitaratu artekoa).
    • 1991-1999: araugintza berriaren ondokoa.
  • Euskalkia:
    • Bizkaiera
    • Gipuzkera
    • Zuberera
    • Lapurtera-Nafarrera: biak bakarrean bilduta
    • Euskara batua
    • Sailkatu gabeak: atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.
  • Testu-mota:
    • Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakinbezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.
    • Administrazio-idazkiak
    • Ikasliburuak
    • Saio-liburuak
    • Literatura-prosa
    • Poesia
    • Antzerkia
    • Bertsoak
    • Ikerketa-lanak
    • Haur- eta gazte-literatura
    • Ahozkoak: ahozko jardunen transkripzioak
    • Liturgia
    • Egunkariak
    • Aldizkariak

Sailkapen hauek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan.

101.585 lema desberdin aurkituko ditu erabiltzaileak bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

ERABILERA

Edozein kontsulta egiteko, pantailaren ezkerreko aldean lema zein testu-hitza idatzi eta, dagokiona aukeratuta, hauen zerrenda eta forma bakoitzaren agerraldi-kopurua azaltzen dira.

Trunkatzeko, bi karaktere erabil ditzakegu, % hitzaren edozein posiziotan ezar daiteke, idatzitakoaren aurreko, tarteko zein atzeko edozein osagai zerrendaratzeko:

1. Aukera: hartu%

  aditz soilaz gain, horren eratorri guztiak ikusiko ditugu:

 

 Testuetan zer erabili den ikusi nahi bada edo formarik erabiliena zein den jakin nahi badugu ere balia dezakegu aukera hau, % karakterearekin konbinatuz gainera: o_ar%raz% testu-hitza idatzi eta hau lortuko dugu:

 Zerrenda lortutakoan, horrela, lema edo testu-hitz bakoitzaren agerraldi-kopurua ikusiko dugu eta, zenbaki horretan klik eginda, forma horren erabilera-esparruen hainbat datu adierazgarri eskuratuko ditugu: 

 

 Datuok ikusi ondoren, bi kontsulta-modu egin ditzakegu:

1. Kontsulta Arrunta

 

  •  Hitz bat: forma bakarra idatzi eta Bilatu botoia sakatu.
  • ETA: forma bat baino gehiago galdetu, koma bidez banatuak (zuriunerik ez komaren ondoren), ETA botoia sakatu eta gero Bilatu-ri eman.
  • Tartean: Forma horiek elkarren segidan edo bien artean gehienez hainbat hitz dituztela idatziak egotea eska ditzakegu: ETAren ordez Tartean aukeratuko dugu eta forma bien tartean egon daitezkeen hitzen kopurua zehaztuko.
  • EDO: idatzitako formetako batek behintzat azaldu behar du bilaketaren emaitzan. Hemen ere koma bidez banatuko ditugu lemak edo testu-hitzak.
  • Hasieran: idatzi dugun formak (edo lehen formak, bat baino gehiago direnean) paragrafoaren lehen hitza izan behar du.
  • Bukaeran: idatzi dugun formak (edo lehen formak, bat baino gehiago direnean) paragrafoaren azken hitza izan behar du.

Emaitzak honela agertuko zaizkigu:

Autorearen edo/eta idazlanaren erreferentzia laburtuan klik eginez, erreferentzia bibliografiko zabalagoa ikusiko dugu: autorea, obraren izenburua (gehi aldizkaria, artikulu bat denean) eta urtea.

Orrialde-zenbakian klik eginez, berriz, orrialde osoa ikusteko aukera izango dugu:

2. Kontsulta Aurreratua

Bilaketa konplexuagoak egiteko aukera ere bada. Gramatikari dagozkion galderak bideratzeko edo lema batek biltzen dituen aldaeren berri izateko modua eskaintzen du kontsulta-modu honek. Esate baterako: lemak eta testu-hitzak batera galde daitezke, bakoitzean nahi beste murriztapen ezarrita.

 

 

ESTEKAK

UZEI, http://www.uzei.com/home.asp?sesion=14

EUSKALTZAINDIA, http://www.euskaltzaindia.net/

Euskaltzaindia, wikipedia entziklopedia askea, (2011,05,02). Bildua: apirilak 28,2011)  http://eu.wikipedia.org/wiki/Euskaltzaindia

EUSKARA CORPUSA, http://www.euskaracorpusa.net/

EHU, http://www.ehu.es/

TRADUCCIÓN AUTOMÁTICA

La traducción automática (TA), o la llamada en ingles MT (de Machine Translation), a sido una gran creación en nuestra historia. Esta invención se lleva usando desde el SXVII hasta nuestros dias y ha servido desde entonces para reducir e incluso derrotar la barrera del idioma en campos tan importantes como son el científico y el técnologico.

La traducción automática es un campo de la lingüística computacional en el cual se utiliza un software para traducir un texto, una palabra o una frase de un idioma a otro. En un nivel primario, la traducción unicamente traduce las palabras de un lenguaje a otro,sin embargo,por medio del uso de corpora lingüísticos(conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación.) se pueden hacer traducciones más complejas, lo que facilita una traduccion más apropiada de las diferencias lingüísticas, el reconocimiento de frases hechas, la traducción de expresiones, palabras coloquiales, etc.

Quizás la mayor parte de nosotros pensamos que la traducción automática comenzó a finales del siglo XX o principios del XXI pero no: la TA comenzó en el siglo XVII con las propuestas de Descartes y Liebniz. Descartes proponia un lenguaje universal a traves de un código, asi se dio el “diccionario mecanizado” y Liebniz propuso el uso de dispositivos mecanicos con la finalidad de salvar la barrera del idioma, en esos años se uso el Lation como lengua universal.Las siguientes TA son las hechas en:

En 1668 cuando Wilkins, J.; publicó su obra, “An Essay towards a real character and Philosophical Language”. En esa misma obre Wilkins expuso sus ideas acerca de las bases lógico-racionales para establecer equivalencias inter-lingüísticas (bases teóricas bajo las cuales se inician los trabajos de clasificación universal de los conceptos y entidades). 

Con la aparición de la computadora digital-electrónica, llegaron a los Estados Unidos los primeros intentos de trabajo en la traducción automática.Aqui hay que mencionar la investigación realizada por W. Wearever y A. D. Booth en 1947, para la Fundación Rockefeller, cuyo resultado es el famoso documento conocido como Wearever’s Memorandum (1949), presentado en la primera conferencia sobre Machine Translation.

En 1950, Edwin Reifler presento algunos avances en el campo de la traducción automática, al introducir conceptos de trabajo para la “pre-edición” y la “post-edición”,es aquí donde empiezaron a verse las dificultades que resultan de la traducción palabra por palabra, olvidándose del contexto en que están inscritas.

En el año 1966 aparece el informe ALPAC (Comité Consultivo para el Procesamiento Automático del Lenguaje), el cual supuso la parada en la investigación de la T.A. Durante la década siguiente se continuó la búsqueda en este campo sobre todo al Canadá y en Europa.

El año 1976 aparece el sistema MATEO que traducía informes meteorológicos del inglés al francés. Éste y otras sistemas como el sistema METAL representaron la consolidación de los sistemas basados en transferencia y la aparición de sistemas basados en técnicas de interlingua.

Cuando finalizó la Segunda Guerra Mundial, el interes por la traduccion automatica creció considerablemente, algunos factores fueron:
-Proomocionar la paz y la coopereción internacional
-Motivos comerciales y economicos
-Transmitir informacion medica, técnica, etc.

Durante los 90 salieron programas como el PC-translator que tenían muy poca potencia lingüística y los resultados por lo que respecta a la traducción eran bastante pobres. Actualmente, se utilizan sistemas más potentes y la traducción automática ha ganado posiciones dentro de Internet.Veamos algunos programas de traducción y la manera de funcionar que tienen:

Uno de los que más me gustan a mi es el OESI, creado por el Instituto Cervantes, aqui adjunto un poco información sobre este programa:

“El Instituto Cervantes ha desarrollado a través de su portal de las Tecnologías Lingüisticas en España, un servicio gratuito de traducción automática, patrocinado por telefonica, cuyo objetivo es facilitar el acceso en español a aquellos contenidos de la Sociedad de la Información que están desarrollados en otros idiomas y que los hablantes de otras lenguas puedan acceder a los contenidos que sólo están disponibles en nuestro idioma.
Este servicio permite traducir textos y páginas web, del español al catalán, francés, gallego, inglés o portugués y viceversa, así como del español al euskera.
Si se desea traducir una página web, sólo hay que introducir la dirección en la casilla correspondiente, o elegir una de las direcciones que figuran en el menú desplegable, seleccionar el par de lenguas (idioma de origen y de destino) y pulsar el botón “Enviar”. Asi se obtiene como resultado la página web traducida al idioma seleccionado aunque respetando su diseño original.
Si, por el contrario, desea traducir un texto, sólo tiene que pegarlo o introducirlo manualmente en la casilla correspondiente, elegir el par de lenguas y, tras pulsar el botón “enviar”, obtendrá el texto en el idioma de destino seleccionado.”

Otro muy famoso debido a que es muy practico es el Reverso, en el cual puedes traducir textos o paginas web simplemente copiando la URL o copiando el texto entero.Una imagen de este:

Como podemos ver en la imagen en este traductor hay un cuadro en blanco en el cual se escribe el texto que se desea traducir, una vez escrito, elegimos el idioma al que queremos traducirlo y le damos a continuar, en unos segundos el texto está traducido.

¡Pero cuidado! Como bien he comentado al principio, no siempre la traducción es perfecta puede que haya ciertas expresiones, frases hechas, terminos coloquiales o incluso técnicos que no se asemejan con la traducción que se quiere recivir; esto es debido al amplio campo de vocabulario que existe en cada idioma.

En el Reverso hay traducciones de:

Español- Inglés       Ingés – Español

Español- Francés    Francés- Español

Inglés- Alemán        Alemán- Inglés

Inglés- Italiano      Italiano-Inglés

Inglés- Ruso      Ruso- Inglés

Aparte de traducir textos, este programa es muy util ya que tambien tiene un diccionario, en la siguiente imagen podemos ver que todas las utilidades del Reverso están situadas en la parte superior del programa.

Como vemos en esta imagen, este programa es muy completo, con el podemos traducir, buscar palabras en distintos idiomas, mirar la conjugacion de los verbos e incluso solucionar problemas gramaticales, ya que tiene un apartado en el cual se explican los problemas gramaticales más usuales.

En conclusión, en la actualidad se obtienen altos niveles de calidad para la traducción entre lenguas romances.Sin embargo, los resultados empeoran  cuanto más  alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e inglés o alemán.Otro factor muy influyente en la calidad de la traducción es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecúan al tipo de texto y vocabulario que se vaya a traducir.

La traducción es una de las artes más elevadas y que requiere más talento y dedicación. No basta sólo con sustituir una palabra por otra, sino que también se ha de ser capaz de reconocer todas las palabras de una frase y la influencia que tienen las unas sobre las otras. Los lenguajes humanos constan de morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado). Hasta el texto más simple puede estar plagado de ambigüedades. También hay que considerar cuestiones de estilo y de discurso o pragmáticas.

Sin embargo, hay métodos estadísticos que realizan traducciones sin reparar en cuestiones gramaticales. En la actualidad la tendencia es a integrar todo tipo de metodologías: lingüísticas, estadísticas, u otras, a la base de datos de un corpus.Por ello hay que fijarse bien en que traductor escoger dependiendo de lo que se necesite.

REFERENCIAS:

Corpus Diacrónico del Español

What is a text corpus? A corpus or text corpus is a large and structured set of text. What are they used for? They are used to do statistical analysis and hypothesis testing, checking occurrences and validating linguistic rules in a specific universe. Nowadays, they are usually electronically structured and processed. A corpus may contain text in a single language or text data in multiple languages. Corpora are very useful for linguistic research. What is CORDE? The Corpus Diacrónico del Español (CORDE) is a textual corpus of all the times and places where the Spanish language has been spoken (since 1975). But, what is its aim? CORDE is designed to extract information to study words and their meanings, as well as its grammar and its use over time. It was first used in 1994 when RAE brought u the possibility of applying the new technologies of information with the ain of creating a data bank which improved the quality of their working materials and made date access easier. The Corpus collects written texts of different kinds (narrative, dramatic, lyrical, scientifical, technical…) The aim is to collect all geographical , historical and generical so that the whole is representative enough. One of the most important targets of the diachronic corpus is to serve as a basic material for the production of the “NUEVO DICCIONARIO HISTÓRIC”. Sources for the CORDE:

  • Books which are scanned through a programm of optical character recognition.
  • Other books in electronical formats.

Resources:

Review: BRITISH NATIONAL CORPUS

 

 

 The British National Corpus (BNC) is one of the most important corpuses in the field of linguistics. The content of BCN contains British English data from the late twentieth century. This corpus covers a variety of different genres.

Creation of the British National Corpus (BCN)

The project was developed by an academic consortium called the BCN Consortium. The Bristish Library and the British Academy. In addition, some other academic research centres are the the University Centre for Computer Corpus Research on Language and the Oxford University Computing Services.

The construction of the corpus began in 1991 and it was finished in 1994. Although no more texts were added to the corpus, there was a revision of this work carried out in 2001 with the publication of the BNC World and again in 2007 with a new edition called BNC XML Edition . The corpus is divided into two types of different type of corpora which are:

● The BCN Sampler is a collection of one million written words.
● The BNC Baby collects about four one-million word samples which belong to different genres

The British National Corpus follows the Guidelines of the Text Encoding Initiative (TEI) . There are two different parts which constitute the corpus:

● Written part: (90%). It covers data from several sources like books, periodicals, brochures and leaflets. In addition the written part covers regional and national newspapers, journals for all ages and interests, academic books, popular fiction, university essays etc
● Spoken part (10%): That part extracts information from orthographic transcriptions of informal conversations and spoken language collected in different contexts. The first part is made up of a 50% of transcriptions of natural conversations. The transcriptions come from conversation in which 124 people have taken part; all of them belonged to the United Kingdom. The participants in the conversations were represented in a 50% by women and the other 50% by men. The second part is made up of a 50% of some recordings which were extracted from a specific moment in a event from different nature: business events, leisure events, educational events etc…

Why to use British National Corpus?

The BNC can be used to know about aspects we did not know about a word and to check our thoughts about its meaning. Moreover, the corpus can help to find out the meaning of a word not just what we think it means. The BNC offers many options like for instance to know if a word can collocate with other set of words, if it is grammatically right in some specific contexts.

If we look for the word the word “bent” plus the preposition “on” the BNC indicates that this combination of words appear together in a specific context. From a grammatical point of view, the British National Corpus determines that “Bent to” can only be followed by a noun or noun phrase, or by verb plus the suffix- ing.

How to use the British National Corpora

There exists two ways of using the British National Corpus according to its complexity:
● Xaira: It can be used to check the spelling of a word, compare different variants to measure the frequency of use and if a certain word is part of the BCN.
● The BNC Simple Search: It is a quick way of searching a word / phrase. This type of search can be used to check the spelling of a word and also to compare the frequency and variants of a word.

If we use the BNC Simple search, it is necessary to type the word or phrase in the search box that the person wants to find. Once the word/ phrase has been search a list of up to 50 selected instances headed by a note of the total frequency of use of them appears on the screen. If we want to look for more complex queries we should add the following characters to the words. The _ character is used to match single words, while the = character allows the restriction of chains of speech and the use of braces {} helps to define a certain expressions.

In addition, in the screen, four options are part of the option “display” of the corpus when we are looking for a word: LIST, CHART, KWIC and COMPARE. Then there are three more options under the label of search string which are: word, collocation and pos list. In addition, there is a section called “sorting and limits”. The sorting can be looked in terms frequency, relevance and alphabetical order.

The corpus includes several categories or labels of texts from different nature which are “spoken”, “fiction”, “magazine”, “newspaper” or “non- academic texts”. For instance, if we look for the word “couch”, the corpus shows us that this word collocates with different words: lying, lay, room, potato etc. After having clicking on one of this word several examples will appear on the screen. The corpus allows looking for a word or phrase but at the same time the possibility of finding collocations. To look for a collocation is as easier as to type the word which wants to be searched and automatically an asterisk will appear on the box of collocation. Once the search has been produced the corpus displays a list of words which collocates with the word.

The KWIC search enriches the corpus because it helps the person which is looking for the word to know in which grammatical structures and contexts the word appears. For example, if we look for the word: “shoes” the corpus shows in colours the different words which can be used with this word. “A new pair of”, “the soles of our”, “the second hand”, “new polished”, or “thousands of” etc.

Comparison between the British National Corpora and the COCA

In terms of size there is a huge difference between both corpuses as the COCA is four times bigger than the BNC. The COCA is made up of 410 + million words in opposition to the BNC which covers 100 million words. In relation to the composition of both corpuses the COCA focuses on spoken, popular magazines, academic texts and each of those genres means a 20% of the total. However, the BNC is strictly divided in a 90% which is written while the other 10% is spoken English. As a result the COCA deals with more recent information as the corpus was updated while BNC focuses more on everyday language.

I have included a SlideShare presentation which explains in more detail and with images the British National Corpus. You can have access to it if you click in the link below:

INFORMATION SOURCES

“Ereduzko prosa gaur” corpusaren azterketa

Naroa Perez eta Esti Blancoren Corpusaren azterketa

 

Sarrera
Orotariko Euskal Hiztegiak gure tradizioko idazle ereduzkoen ondarea jasotzen du, hiztegiaren nahiz gramatikaren aldetik. Baina gaur egun euskararen normalizazioak dituen premiei erantzuteko, eta ondare horren osagarri, nahitaezkoa da egungo idazle ereduzkoen idazlanen bilketa egitea.

Bada korpus bat, XX. mendeko Euskararen Korpus Estatistikoa izenekoa (lehen “Egungo Euskararen Bilketa-lan Sistematikoa” deitua), euskarazko produkzioaren erakusgarri bat urtero jasotzen duena. Baina bilketa hori estatistikoa da, eta berdin jasotzen ditu idazle “onen” nahiz “ez hain onen” testuak. Nahiz bilketa estatistikoak beharrezkoak diren hizkuntzaren zenbait alderdi aztertzeko, dudarik gabeko kontua da mundu guztian hizkuntza ereduak ereduzko idazleen azterketatik eratortzen direla. Hortaz, guk ere kalitatea kontuan hartzen duen korpusa aztertzea erabaki dugu.

Guk aukeratutako korpusean testu jakin bat “eredugarritzat” jotzeko erabili diren irizpideak oso zabalak dira: prestigio nabarmeneko sariak, lexiko-sorkuntzaren aldetik eta literatura-balioaren aldetik interesgarriak diren liburuak, salmenten arabera arrakasta nabarmena izan dutenak…Gainera, 2000. urtea hartu da biltze-lanaren abiatze-puntutzat, izan ere, urte horretan Hiztegi Batuaren lehen argitalpenarekin euskara estandarraren nolakotasuna bideratu zen. Hortaz, korpusa 2000 urtetik aurrerako testu eredugarriez osatzen da.

Hasieran 2000, 2001 eta 2002 urteetako testuez osatu zen eta batez ere literatur testuak erabili ziren, jatorrizkoak nahiz itzulpenak baina guk zenbait urte pasatu eta gero aztertzerakoan, proiektu hau behategi moduko bat bihurtu dela uste dugu, urtez urte euskal idazketaren bilakabidearen berri ematen baitu gure ustetan.

Corpusaren zenbait datu orokor aurkitu ditugu hurrengo lerroetan aurkezten direnak. Hala ere, aipatu behar dugu azken eguneratzea 2009koa dela, beraz, azken bi urteetako materiala falta da. Datuak ondorengoak dira:

Denera: 25,1 milioi hitz

Liburuak

13,1 milioi hitz

2000-2006 bitarteko 287 liburu

Prentsa

12 milioi hitz

2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

2001-2005 bitarteko Herria astekaria (2 milioi hitz)

Beraz, eta laburbilduz, Ereduzko Prosa Gaur ekimenean gaur egungo hainbat idazle ereduzkoren azken urteotako testuak bildu dira, horiekin korpus aski zabal bat eratuz. Korpus horri etekinik onena ateratzeko aztergailu ahaltsu eta erabilterraz bat erantsi zaio. Gauzak horrela, tresna egokia da gaurko euskal autore eredugarriek euskaraz idazterakoan guztioi sortzen zaizkigun duda-mudei eman dizkieten irtenbideak ezagutzeko.

Azterketarekin hasi aurretik aipatu behar dugun azkeneko datua proiektu honen atzean dauden pertsonei dagokie. Egitasmo hau EHUko Euskara Zerbitzuaren proiektuen barruan kokatzen da eta arduraduna Ibon Sarasola da, berak egiten batitu proiektuaren antolatze, garatze eta zuzentze lanak. Laguntzaileak Xabier Alberdi, Jesus Mari Makazaga, Iñaki Ugarteburu eta Juan Garzia dira eta proiektuaren babesle Donostiako Udala da, Euskararen Udal Patronatuaren bidez. Era berean, aipatu behar dugu “kontsultako interfaze zaharra” aukera hartu dugula bertsio berrian egin ezin diren zenbait aukera egiteko aukera ematen digulako.

Bilaketarako Lagungarri

corpusa murriztu
Corpusa murriztu

Euskal Herriko Unibertsitateak eskaintzen duen zerbitzu honetan bilaketak egiten hasteko, lehendabizi, bilaketarako corpusa definitu behar dugu. Horretarako, Corpusa murriztu botoia klikatuz agertuko zaigun menua erabiliko dugu.Menu honetan, nahi adina obra aukeratu daitezke, ezkerretara aurkitzen dugun laukitxoan klik eginez. Guztiak aukeratu nahi izanez gero, Osoa botoia klikatu beharko genuke. Aukera egin eta gero, Ezarri eta Itxi botoiak sakatu beharko ditugu.

Bigarrenik, lortu nahi dugun emaitza nola bistaratu aukeratuko dugu. Emaitza osoa bistaratu aukera aktibatzen badugu, zuzenean, bilatutako hitzen agerpenak ikusi ahal izango ditugu. Aukeratzen ez badugu berriz, obra bakoitzeko zenbat agerpen dagoen ikusiko dugu. Bestalde, emaitza osoak bistaratzen ditugunean, bilatutako forma azpimarratuta agertuko zaigu. Bertan klik eginez, formari buruzko informazioa aurkituko dugu (izan ditzakeen kategoriak, etab.) Obren izenburuetan klikatzen badugu berriz, jaso ditugun emaitzak beste leiho batean ikusi ahal izango ditugu.

Behin hauek guztiak erabakita ditugula, prest gaude nahi dugun forma idazteko. Honetarako eskaintzen zaigun kutxan, letrez aparte,karaktereak ere erabili ditzakegu (, ? #). Honela, ikurra erabiltzen badugu, edozein karaktere edo karaktere segida definitzen ariko gara.

Adibidez, *tasun lema bilatzen badugu, askatasun, maiztasun, aberastasun, larritasun, etab. aurkitu ahal izango ditugu. ? ikurra erabiltzen badugu aldiz, edozein karaktere (baino bat bakarra) definitzen ariko gara eta azkenik # ikurra zenbakiak adierazteko erabili ahal izango dugu.

Erabiltzeko zenbait argibide

Ereduzko Prosa Gaur orrialdean, “Corpus arakatzailea” aukeratu eta zenbait hitzen bilaketa egin dugu. Ondoren

liburuetan/prentsan
liburuetan/prentsan

adibide hauen berri emango dugu.

1- Ezker aldean bilatu nahi dugun hitza edo lema idatziko dugu.

Aukeran izango dugu, bilaketa era zehartzago baten bidera dadin, liburuak edota prentsak barne hartzen duen korpusa.

“Haize” hitza idatzita, ondoko datuak agerrtuko zaizkigu:

Emaitza 2165 agerraldi / 2093 esaldi

Liburuak 1500 / 226 liburu

Prentsan 593 esaldi / 457 artikulu

     
bilaketaren emaitzak
emaitzen hurrenkera

Ondoren, emaitzen kopuruaren araberako lista bat agertzen zaigu. Goiko partean, agertzen diren ataleko izenak datoz (kirolak, kultura, Euskal Herria etab) eta beheko partean, liburuka agertzen dira emaitzak. Liburuen araberako sailkapenean, ezkerraldean liburuaren izenburua eta egilearen izena agertzen dira eta eskuinean, aurkitutako hitz kopurua eta hauek dautzan esaldi kopurua agertuko zaizkigu, gehienetik gutxienengorako sailkapenean.

Behin liburua aukeratuta, hitza kolorez nabarmendurik ageriko da zenbakiz dieraziriko orrialdearen esaldi barruan.

Esan dugu “haize” izena bilatzen hasi garela. Hainbat idazleren artean Joan Mari Irigoienen Lur bat haratago aukeratzean ondoko emaitzak agertuko zaizkigu:

1. Orr.: 33

barrenean animalien spiritu-en airea edo haize mehea gordetzen duten,

2. Orr.: 93

gauzak gehiegi ez lotzearen aldekoa, airearekin aire eta haizearekin haize, eta zeren halakoak ere izan

3. Orr.: 110

gure mundu ilun eta zurrun hartan haize freskoaren antzera, nola sartu baitzen ene belarri-zuloetarik umetako asmakizun hura, osabari aditua, zeinak baitzioen:

4. Orr.: 120

Eta Pedroren hitzak eta Pedroren erabakia haize-bildu bat bezala sartu zitzaizkidaan, ustekabean, bihotzean, halako tailuz, non zainetako su tipia su handi bihurtu, eta suak arras hartu baininduen.

Liburuen emaitzak

Beste hainbeste orrialdeetan agertzen da hitza, eta ezkerreko irudian ikus daitezke kasu hauek denak (ez ditugu azalpenean denak gehitu luzeegi eta astunegia gertutako zelakoan).

 

 

 

 

Korpus Arakatzailearen Bilaketa Motak

Bilaketa Arrunta
Kontsultatu nahi dugun hitza edo lema idatzi beharko dugu aurkezten zaigun kutxan. Hitza aukeratzen badugu, idazten duguna bere horretan bakarrik bilatzen ariko gara. Bestela, lema aukeratzen badugu, izan dezakeen edozein formatan aurkitu ahal izango dugu idazten duguna.

• Adibideak

Eskaintzen zaigun kutxan “etxe” hitza idazten badugu eta Bilatu botoia sakatzen badugu, Fantasiazko ipuinak obran adibidez, “68 hitz / 66 esaldi” emaitza lortuko dugu. Honek esan nahi du, aipatutako liburuaren 66 esalditan agertzen dela bilatzen ari garen hitza eta, era berean, esaldiren batean gure hitza behin baino gehiagotan azaltzen dela.

 Bestalde, “etxe” lema bilatzen badugu, lehen aipatutako corpus berean “239 hitz / 232 esaldi” emaitza lortuko dugu. Non dago aldea? Oraingoan adibideei begiratzen badiegu, honako formak aurkituko ditugu: etxean, etxera, etxetik, etxe, etxerantz, etab.

Bilaketa Aurreratua

Bilaketa aurreratuen kasuan aukera gehiago eskaintzen zaizkigu. Bilaketa arruntetan bezala, hitz bat idatziko dugu kutxan baina bilaketa aurreratuak egiteko, “Lema” bilatu beharko dugu eta ez hitza. Ondoren, Morfologia botoian klikatuta, leiho berri bat irekiko zaigu Leiho honetan, hainbat ezaugarri morfologiko zehaztu ditzakegu: bilatzen ari garen hitzaren kategoria, aditz-mota, atzizki edo aurrizkiak, deklinabide zehatz batekin, edota numeroa (singularra, plurala, mugagabea…) Leiho honetan eskaintzen zaizkigun aukerak erabilita, gure bilaketek emaitza zehatzagoak izango dituzte. Beti ere, nahi dugun aukera egindakoan, Ezarri eta Itxi botoiak sakatu behako ditugu.

    Adibideak:

Demagun “gizon” Lemaren agerpenak aurkitu nahi ditugula pluralez eta NORI kasua dutenean. Morfologiako botoia sakatu eta agertuko zaigun leihotxoan Deklinabidean NORI eta Numeroan Plurala aukeratuko dugu. Ondoren, Ezarri eta Itxi botoiak sakatu beharko ditugu. Hortaz: gizonei ( KAS:nori+NUM:p+)

Bilaketa Konbinatuak
Kutxa bat baino gehiago erabiliz, bi hitz edo gehiago bilatu ahal izango dugu, eta guk nahi dugun distantziara agertuko dira. Beraz, hiru kutxa erabilita, adibidez, hain zuzen ere bilatu ahal izango dugu; eta era berean, 4ko distantzia jartzen badugu, “etxe handi zuri bat” aurkitu ahal izango dugu “etxe bat” bilatuta.

• Adibideak

Lehen aipatutako bilaketak egin nahi baditugu, honako pausuak eman beharko ditugu:

Bestalde, hitzak eta lemak konbina ditzakegu bilaketak egiteko. Honela, adibidez, “lo” hitza eta “egin” lema bilatuko bagenu, honako emaitzak lortuko genituzke:

Adibidea: lo egin. Bertan “lo gutxi egiten” edo “lo ondo egiteak” bezalako formak sartzen dira, beraz, hitz lokuzioak bilatu nahi ditugunean, gure ustetan, hau da gomendagarriena den bilaketa mota. Era berean 3290 agerraldi daudela 1612 esalditan banatuta jakin dezakegu eta aurreko kasu guztietan bezala, bilaketaren emaitzak gaika edo atalka bilatu daitezke.

Azkenik, aipatu nahiko genuke gure ustetan Corpus hau oso ondo burututa dagoela eta azaldu ditugun bilaketa mota ezberdinek nabarmen errazten dutela ikertzailearen lana, izan ere, multzoka, maiztasunaren arabera edo lokuzioka bilatzeko aukera emateak hizkuntzaren gaineko ikerketari bide zabala irekitzen baitiote.