REVIEW: Google Translate

GOOGLE TRANSLATOR

In this review, I will make a detailed description of one of the most famous online translators in Internet, that is to say Google translator. Then, we will compare it with other three translators: Yahoo Babel Fish and Reverso.

Google Translate is a language resource which is able to translate texts, web pages and documents into different languages. This online linguistic tool appeared on 2006 and it is one of the most used translators around the world. It was created by Google Inc. There are two versions available of Google Translate.  The first one was designed for iPhone users in 2008 and this translator cover about 23 different languages. Then, the second one was developed as an Android version which was divided mainly into two options: “ SMS translation” and “History”.

The incorporation of languages available in the translators was progressive. There were 23 stages. The first combinations were English- French, English- German, and English- Spanish. Nowadays it is possible to find a different translation for the word.

METHODOLOGY

The method used by Google Translator is statistical method translation.  This statistical method translation was created due to a bilingual text corpus which contained about a million words. In addition, a second corpora of a billion words is incorporated in the statistical method and the technology which supports this translation tool is SYSTRAN.

USING THE TRANSLATOR

The use of Google Translator is very easy. To start with, we have to choose the languages we want to work with. There are 52. Then we have to paste the text we have chosen to translate and paste on the box. Once we have done it, we press the button “translate” we wait until the translation appears on an open window with the translated version. If we want to translate a document, we simply press the option “translate a document”. It will appear a box with the option “examinar”. Then we have to choose the document and automatically the translator will do its job.

TRANSLATING DIFFERENT TYPES OF TEXTS

When we are working with an online translator, we have to take into account that as an automatic tool it has its advantages as for instance: speed and an easy use when we want to work with a text. However, as it is not a human translation, usually the translations of the original texts are far from being precise, accurate and above they are characterized by a lack of naturalness and coherence.

In order to check the competence of the translator, we have decided to translate two texts of different nature. The first one is a literary text, particularly a poem, in this case a sonnet written by William Shakespeare in 1609. The title of the poem is “ Shall I compare thee to a summer’s day?”. In the next slides we can see the original text, the translated version and my own translation.

LITERARY TEXT

ORIGINAL TEXT

SONNET 18

Shall I compare thee to a summer’s day?
Thou art more lovely and more temperate:              
Rough winds do shake the darling buds of May,
And summer’s lease hath all too short a date:
Sometime too hot the eye of heaven shines,
And often is his gold complexion dimm’d;
And every fair from fair sometime declines,
By chance or nature’s changing course untrimm’d;
But thy eternal summer shall not fade
Nor lose possession of that fair thou owest;
Nor shall Death brag thou wander’st in his shade,
When in eternal lines to time thou growest:
So long as men can breathe or eyes can see,
So long lives this and this gives life to thee.

TRANSLATED VERSION

Voy a compararte con un día de verano?
Tú eres más hermoso y más templado de arte:
Vientos ásperos agitan los capullos favorito de mayo,
Y el arrendamiento de verano tiene todo demasiado corta una fecha:
En algún momento muy caliente el ojo del cielo brilla,
Y a menudo es su tez de oro dimm’d;
Y todas las ferias de la disminución razonable en algún momento,
Por casualidad o cambiando el rumbo de la naturaleza untrimm’d;
Pero tu eterno verano no se marchitará
Tampoco pierde la posesión de ese owest eres justo;
Tampoco se aplicará la Muerte jactarse wander’st tú en su sombra,
Cuando en las líneas eterna a growest tú tiempo:
Mientras los hombres pueden respirar o los ojos pueden ver,
En tanto esta vida y esto le da vida a ti.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Due to the automatic nature of the translator, there is a group of errors which are repeated along the poem. When we are working with a translation tool, we have to keep in mind that it will never be the same as a human translation. In addition, it is not the same to translate a short text with easy grammatical structures and phrases than translating a long text with rhetorical figures. In this particular case, I have chosen a poem from the 15th– 16th century to prove the limitations that translators like Google Translate offer. We have to consider that languages evolve and this particular translator we are commenting on, was created in 2009 so the translation is going to be difficult. In the Basically the main mistakes made by the translator were:

Lack of translation of certain words. Probably the main reason to these mistakes was the “apostrophe”. In Spanish, “apostrophes” do not exist, so it is probable that MT is not able to recognize the words in Spanish, so it is impossible to translate them. We are talking for instance about words like “dimm´d”, “untrimm´d”, “wander’st”.

Word order. Long sentences tend to be translated in a wrong way. For example “And summer’s lease hath all too short a date” or “And every fair from fair sometime declines” which have been changed due to the leghtening of the sentences if we compare Spanish (long sentences) versus English (short sentences). In addition, we have to take in mind that the text translated is poetry so the work done by the translator is more difficult even.

Punctuation. This translator has not made many errors of punctuation. However, we can tell one which is meaningful. This is the case of the interrogative sign, which in English only appears one in opposition to Spanish which is used twice. For example, we have: “Shall I compare thee to a summer’s day? Which appears as “Voy a compararte con un día de verano?

Lack of natural language. Although the text translated is a literary text, the tone and the lexicon used is not appropriate, especially the word order.

The other text we have chosen is a journalistic text. We have decided to select this kind of text to compare the translation given by Google Translate according to the nature of texts. The text we have chosen is an article entitled:  from the magazine HELLO! written in English entitled: “Pippa Middleton unwinds with former friend in Madrid”. I have also provided the translated text and my own version:

PERIODISTIC TEXT

ORIGINAL TEXT

Pippa Middleton unwinds with former flame in Madrid

16 MAY 2011

After her starring role in the wedding of the century, it was a well-deserved break.

While her newly-married sister jetted off the to the Seychelles for her honeymoon, Pippa Middleton flew to Madrid for some downtime with a group of friends that included former flame George Percy, the heir to the Duke of Northumberland.

Escaping the media frenzy surrounding her since the big day, the brunette beauty relaxed in the capital’s biggest park – the Retiro.

And she took to the water for a boat trip with the eligible aristocrat, whom she dated whilst at Edinburgh University.

But it was not all rest for party girl Pippa, who was keen to sample some of the Spanish city’s nightlife.
She partied in one of the most exclusive nightclubs, Fortuny, where she was spotted with a bottle of champagne in her bag.

And there was no let-up for the party planner the following evening, as she enjoyed an evening at swanky bar The Penthouse, dressed to the nines in a beige peplum skirt and fitted black blazer.

When the 26-year-old emerged the next day, she sported sunglasses as she made her way around the tourist sights with the group.

Pippa and George were flatmates in Edinburgh whilst they were in a relationship, and the pair have been friends for nearly ten years.

Her current boyfriend, broker Alex Loudon, stayed in Britain during her trip.

TRANSLATED VERSION

 Pippa Middleton se desenvuelve con la llama antigua en Madrid
16 MAY 2011
 
Después de su papel protagónico en la boda del siglo, fue un bien merecido descanso.

Mientras que su hermana recién casados ​​de hidromasaje de la de las Seychelles para su luna de miel, Pippa Middleton viajó a Madrid para un tiempo de inactividad con un grupo de amigos que incluyó al ex la llama George Percy, el heredero del duque de Northumberland.
Escapar de la histeria mediática que rodea a su puesto el gran día, la belleza morena relajado en el mayor parque de la capital – el Retiro.

Y se llevó al agua para un viaje en barco con el aristócrata elegibles, a quien de fecha, mientras que la Universidad de Edimburgo.
Pero no todo fue descanso para chica fiestera Pippa, que estaba dispuesto a probar algunos de la vida nocturna de la ciudad española.

Ella fiesta en una de las discotecas más exclusivas, Fortuny, donde fue visto con una botella de champán en su bolso.

Y no había tregua para el planificador del partido la noche siguiente, mientras disfrutaba de una tarde en el bar chic El Penthouse, vestido de punta en blanco con una falda peplum beige y blazer negro puesto.

Cuando el jugador de 26 años de edad, salió el día siguiente, ella lucía gafas de sol como hizo su camino alrededor de los lugares de interés turístico con el grupo.

Pippa y George fueron compañeros de piso en Edimburgo, mientras se encontraban en una relación, y los dos han sido amigos durante casi diez años.
Su actual novio, el corredor Alex Loudon, una estancia en Gran Bretaña durante su viaje.

MY OWN VERSION

 Pippa Middleton se relaja en Madrid con su nuevo novio en Madrid

Mientras que su hermana recién casada volaba rumbo a las Seychelles para disfrutar de su luna de miel, Pippa Middleton volaba hacia Madrid por unos días de descanso con un grupo de amigos entre los que se incluía su antiguo novio, el heredero del ducado de Northumberland.

Tratando de escapar de la hysteria de los medios de comunicación que la perseguian desde el gran día, la belleza morena se relajó en el parque más grande de la capital, El Retiro.

Y se metió en el agua durante un viaje en barca con el aristócrata casadero con el que estuvo saliendo mientras estaba en la Universidad de Edimburgo.

Sin embargo, no todo fue descanso para la fiestera Pippa, quién estaba deseosa de disfrutar de la fiesta nocturna de España.

Disfrutó de la fiesta en uno de los clubs más exclusivas, llamado “Fortuny”, donde se la pudo ver con una botella de champán en su bolso.

Y no hubo ninguna interrupción para la planificadora de la fiesta a la tarde siguiente, ya que se divirtió en el bar pijo “The Penthouse” vestida de punta en blanco con una falda plisada beige y una americana negra que le quedaba como a un guante.

Al día siguiente, cuando la chica de 26 de años apareció llevaba puestas unas gafas de sol para disfrutar de las vistas con el resto del grupo.

Pippa y George fueron compañeros de piso en Edimburgo mientras que fueron novios y la pareja ha seguido siendo amiga desde hace diez años.

Su actual novio, el bróker Alex Loudon, se quedó en Gran Bretaña durante el viaje.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Lack of agreement. In the text translated there is a problem with agreement, maybe due to the fact, that in English there are no visible marks which express agreement in gender and number except in the third person singular present. Even though, in third person singular the “s” does not indicate if we are talking about a woman or a man.  We find many exampleslike “While her newly-married sister jetted off the to the Seychelles” translated as “Mientras que su hermana recién casados” o “the brunette beauty relaxed in the capital’s biggest park” translated as “la belleza morena relajado en el mayor parque de la ciudad”

Confusion between categories. The translator does not recognize words which can be used in two categories. For instance, verbs and nouns. That is the case of the word “party” in “she partied in one of the most exclusive nightclubs” translated as “ella fiesta en uno de los clubs nocturnes más exclusivos”

False friends. The translator has not made a good translation of some words like the adjective “eligible”. In English, the sense of the adjective eligible is ”somebody wealthy”, “a good person to marry with” . However, “eligible” in Spanish means “somebody who can be chosen”.

Problems with the translations of compounds and adjectives. The translator does not make a good job when it has to translate compounds. For instance, “party planner” which means “somebody who loves parties” is translated as “el jugador”.

Punctuation. In Spanish, “dashes” are only used when we want to reproduce a direct speech or a dialogue written. In English, they use a  dash in the place of a “comma” so maybe the translator has not been able to reproduce it. For instance, “the capital’s biggest park”- the Retiro” translated as “el mayor parque de la capital- el Retiro”

Lack of certain words: The translator has not been able to translate some words like “peplum”. In addition, proper nouns like “The Penthouse” or “Fortuny” do not appear translated

REVERSO

Reverso is an online free translator which can be only used to translate short texts.In the same webpage there is a dictionary and a conjugation tool. This translator tool uses Reverso Intrenet which has been developed by PROjectMT and Softtisimo. The Reverso translator is a very useful tool for instance, to look for words when somebody receives an e-mail instead of using dictionaries or to eliminate the barriers of language when we are abroad

Reverso online translator offers several language to work with.Basically the most used are the following combinations:  English- Spanish, Espanish- English, French- Spanish, Spanish- French, Spanish- German, German- Spanish, Portuguese – Spanish, English- Japanese,  Rusian- Spanish etc .

How to translate a short text?

 In order to translate we have to follow three different steps. Firstly, we have to  paste the text on the translation box and then we choose the language in which we want to translate the text. Once we have made our choice, we press the button “TRANSLATE” and wait until a new window is open with the translation.

TRANSLATED VERSION

SONETO 18

¿Compararé thee hasta el día de un verano?

Thou arte más encantador y más templado:              

Vientos ásperos realmente sacuden los brotes queridos de mayo,

Y el arriendo del verano hath todo una fecha demasiado corta:

Algún día demasiado caliente el ojo de brillos de cielo,

Y a menudo es su tez de oro dimm’d;

Y cada feria de la feria algún día disminuye,

Por casualidad o el curso de cambio de la naturaleza untrimm’d;

Pero el verano thy eterno no se descolorará

Ni pierda la posesión de aquella feria thou owest;

Tampoco la Muerte se jactará thou wander’st en su sombra,

Cuando en líneas eternas a tiempo thou growest:

Mientras que los hombres pueden respirar o los ojos pueden ver,

Tan vidas largas esto y esto dan la vida a thee.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

 Personal Pronouns: Contrary to Google translate which has been able to translate pronouns from other century, Reverso has not translated personal pronouns. For instance, “thee” which means “you” in modern English, and “thou” in the following sentences: “Shall I compare thee with a summer’s day?” and “Thou art more lovely and more temperate” translated as ¿Compararé thee hasta un día de verano? And “Thou arte más encantador”.

Incorrect use of past subjunctive. This translator is not able to use the subjunctive in Spanish.In the poem there are several examples which show this problem, like for instance “So long as men can breathe or eyes can see” translated as “mientras que los hombres puedan respirar o los ojos puedan ver”.

Lack of agreement subject- verb. Reverso is not able to translate in a coherent way structures in which agreement is present. For instance, “So long lives this and this gives life to thee” translated as “tan vidas largas esto y esto dan la vida a thee”. “Esto” is a third person singular pronoun in Spanish so it should be followed by a verb in third person singular, not plural.

Problems with words which can be different categories.  Again we find problems with words which act as several categories like for instance “shine” which means “to glow”. In this case “the eye of heaven shines” is translated as “el ojo de brillos de cielo”. We have to assume that shines referring to the verb “to shine”

 TRANSLATED VERSION

Pippa Middleton desenrolla con la antigua llama en Madrid 16 MAYO 2011

Después de su papel estrellado en la boda del siglo, esto era una rotura bien merecida.

Mientras su hermana recién casada jetted del a las Seychelles para su luna de miel, Pippa Middleton voló a Madrid durante algún tiempo de inactividad con un grupo de los amigos que incluyeron la antigua llama Jorge Percy, el heredero del Duque de Northumberland.

Evitando el frenesí de medios de comunicación que la rodea desde el día grande, la belleza de morena relajada en el parque más grande de la capital – el Retiro.

Y ella tomó al agua para un viaje del barco con el aristócrata eligible, quien ella dató mientras en Edinburgo la Universidad.

Pero esto no era todo el resto para la muchacha de partido(parte) Pippa, que era penetrante para probar un poco de la vida nocturna de la ciudad española.

Ella celebró una fiesta en uno de los clubs de noche más exclusivos, Fortuny, donde ella fue manchada(descubierta) con una botella de champán en su bolsa.

Y no había ninguna calma para el planificador de partido(parte) la tarde siguiente, como ella disfrutó de una tarde en la barra de lujo

FAILURES AND PROBLEMS WITH THE TRANSLATOR

 Literal translation. The translator has used literal translation in some of the words as “date” which means “go out with somebody when you are in a relationship”. In Spanish, “datar” is accepted but now commonly used so it sounds a bit awkward in natural speech.

Use of brackets. This translator uses brackets to explain the meaning of some words which are not very clear. For instance, “she was spotted” translated as “ella fue manchada (descubierta) or “and there was not let-up for the party planner” as “y no había ninguna calma para el planificador de partido (parte).

Context of translation. The translator is not able to select the appropriate meaning of a certain word. It is necessary that a human brain participates in the process of translation, In this text, the word “flame” is used but not with the meaning of “llama” but with the definition of “boyfriend” or “lover”.  In this text, the mistake is made in “Pippa Middleton unwinds with former flame in Madrid” as “Pippa Middleton se relaja en Madrid con su nuevo novio”

Confusing translations and change of meaning. This translator tends to change the meaning of sentences and the tone of the context of the text. For instance, in the sentence “after her starring role” where “starring” means something positive, “somebody who has been seen as an important figure” is translated as “estrellado” which means quite the opposite, that is to say, “somebody who is not lucky”.

Misinterpretations of common expressions. In all languages there are certain expressions which are constructed in a particular way depending on their origin. For example, in the this text, the expression “and she took to the water for a boat trip” which means that “somebody has sailed in a boat” has been translated as “y ella tomo el agua” which in Spanish means to “drink water”

Yahoo Bable Fish

This translator is an online language resource which allows to translate short texts (150 characters) and web pages. SYSTRAN is the technologycal system upon which Yahoo Babel Fish is built. The languages of translation are for instance: French, German, Italian, English, Japanese etc

We select the languages we want to work with and then we paste the text in the box. Then we press the button “translate”.

TRANSLATED VERSION

Pippa Middleton desenrolla con la llama anterior en Madrid 16 de mayo de 2011 Después de su papel starring en la boda del siglo, era una rotura merecida. Mientras que su hermana nuevo-casada echó en chorro de a las Seychelles para su luna de miel, Pippa Middleton voló a Madrid para un cierto tiempo muerto con un grupo de amigos que incluyeron la llama anterior George Percy, el heredero al duque de Northumberland. Escapando el frenesí de los medios que la rodeaba desde el día grande, la belleza triguena se relajó en el capital’ el parque más grande de s – el Retiro. Y ella llevó el agua para un viaje del barco con el aristócrata elegible, que ella fechó mientras que en la universidad de Edimburgo. Pero no era todo el resto para la muchacha de partido Pippa, que era afilada muestrear algo del city’ español; vida nocturna de s. Ella partied en uno de los clubs nocturnos más exclusivos, Fortuny, donde la mancharon con una botella de champán en su bolso. Y no había descanso para el planificador del partido la tarde siguiente, pues ella disfrutó de una tarde en la barra ostentosa el ático, vestido a los nines en una falda amarillenta del peplum y una chaqueta negra cabida. Cuando emergieron los 26 años el next day, ella se divirtió las gafas de sol mientras que ella hizo su manera alrededor de las vistas turísticas con el grupo. Pippa y George eran flatmates en Edimburgo mientras que estaban en una relación, y los pares han sido amigos por casi diez años. Su novio actual, corredor Alex Loudon, permanecía en Gran Bretaña durante su viaje.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Lack of division into paragraphs. The translator makes its job as a block. The original text was divided into lines or small paragraphs but the translated versions is translated together.

Problems with the Saxon genitive. This translator is unable to translate the saxon genitive which is typical of English language in to Spanish. As a consequence, the text has not translated the following expression right: “some of the Spanish city’s nightlife”. The result has been “el capital parque más grande de s- el Retiro”.

Inappropriate translation of verbs. This translator has not done a good job because it has translated “she was spotted with a bottle of champagne in her bag”  which mean that “she was observed or seen while she had a bottle in her bag as “ donde la mancharon con una botella de champán” which means “to get dirty”

False friends. The same as Google Translate and Reverso translator has not made a good translation of some words like the adjective “eligible”. In English, the sense of the adjective eligible is ”somebody wealthy”, “a good person to marry with” . However, “eligible” in Spanish means “somebody who can be chosen”.

Lack of translations of certain words. The translator does not work with certain words as “the next day” which should be translated as “el próximo día” o “flatmates” as “compañeros de piso”.

TRANSLATED VERSION

SONETO 18 Compararé thee a un summer’ ¿día de s? Arte de mil más encantador y más templado: Los vientos ásperos sacuden los brotes queridos de mayo, Y summer’ hath del arriendo de s toda la fecha demasiado corta: Alguna vez demasiado caliente el ojo del cielo brilla, Y está a menudo su tez dimm’ del oro; d; Y cada feria de la feria de declinaciones alguna vez, Por casualidad o nature’ curso cambiante untrimm’ de s; d; Pero thy verano eterno no se descolorará Ni pierda la posesión de ese mil justo más owest; Ni mil wander’ del brag de la muerte; st en su cortina, cuando en las líneas eternas para medir el tiempo de mil más growest: Siempre y cuando los hombres pueden respirar o los ojos pueden ver, Tan las largas vidas esto y éste da vida al thee.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Problems with the Saxon genitive. Again as in the previous example “Shall I compare thee to a summer’s day?” as “Compararé thee a un summer ¿Día de s?.

Personal Pronouns: Contrary to Google translate which has been able to translate pronouns from other century, Reverso has not translated personal pronouns. For instance, “thee” which means “you” in modern English, “thou” and “thy”

Confusion of word categories. This translator has a problem with the translation of archaic forms like the verb “art” which in the 16th century was used as the 2nd person singular/plural in “Thou art more lovely and more temperate” because it has been translated as the noun “arte” in “Arte de mil encantador”

I have done an slideshare presentation with images which explains better my analysis:

IN CONCLUSION

Although, I am not an expert in the field of translations I think the three translators I have mentioned before offer great advantages and disadvantages. Undoubtedly, each of the translators is an automatic linguistic tool so we assume that they will probably be imperfect. As we have seen in the examples of the review, all of them show a lot of mistakes which can only be improved by the human brain. The object of our analysis, that is Google Translate, makes a lot of mistakes because it does not apply grammatical rules and change words which seem to be equivalent but they have a different meaning. However, if I had to choose one of the translators we have talked about, I think Google translator is the best. Basically, because the translation which offers can be understood as the mistakes made do not prevent from catch the general meaning. We have analysed both texts and the majority of problematic errors appeared in Yahoo Babel Fish and Reverso. These kinds of errors have made almost impossible for a person who does not have a sound knowledge of English to understand the version which came from the original text. This review shows why I have to this conclusion, with all the examples I have used

SOURCES

Google Translate

On the following lines, it will be analyzed one of the most succesful translators of this century-Google Translate. This translator is a free on-line statistical machine service owned by Google Inc that translates immediately a lot of different languages (57) such as Polish, German, Dutch, Spanish… However, it has to be said that some languages are better translated than others, in other words, some languages are supported by Google translate and others languages are called by the company “alpha languages”, this is to say that these languages have lower quality in their translations.

It is possible to translate long texts, but the system limits the number of paragraphs. Nevertheless, if the user wants to translate completely a website, Google Translate gives him or her the opportunity to use Google chrome which is a fast free browser that translates websites automatically in many languages. Not only does Google translate give you the opportunity to use Google chrome, but also other tools such as to the Google translated search (the information that you are searching probably will not be in your own language; the system searches the best contribution and translates it to your own language) or the iphone version which allows voice input.

The aim of this enterprise is “to make information universally accessible, regardless of the language in which it is written” That is why it has been improving since it started. Nowadays, it can be done many things that could not be done at the beginning. For example, in the first version, only English could be translated to some other languages, now it can be done the other way round. Moreover, it is also possible to have the romanization written for languages such as Chinese or Greek and, in the last version launched in January 2011, it is also possible to see different possible translations for a specific word. A good way that helps this translator to improve is that the user himself can increase the quality of translations by suggesting improvements or uploading his translations memories into Google Translate’s Translator Toolkit. Furthermore, the service itself asks the user sometimes alternate translations for technical terms.

But, how does this translator work? As it has been said, Google Translate is a Statistical Machine Translator (SMT) which is a way of translating texts completely different from the traditional rule-based translations. The rule-based machine translations were used some years ago and they applied the rules and grammars of the language that was being translated. However, Linguists knew that not all languages had the same rules (e.g the order of some languages is subject- verb-object but in others is verb- subject-object) that is why the translations were not very good.

Then, it began statistical machine translations where the computer looks for patterns in millions of documents. This documents had already been translated by human beings and thanks to them the computer can know more or less how the translation should be. However, the translations are not always perfect and the quality of them depends mainly on the number of documents that the computer can analyze to see patterns. That is why Google Translate can translate better, for example, German than Basque, it has more German documents than Basque Documents. Franz Josef Och is the main head in Google and he is in favour of Statistical machine translators. The documents that are available for the machine are taken from United Nations documents.

Finally, this way to translate texts has advantages. For instance, the quality is better than in rule-based translations, also, the translations are more natural and we have better use of resources. But, there are some disadvantages and problems with: sentence alignment, different word orders, compound words, idioms, morphology

Do not hesitate to see the following video that explains how SMT works . If you are interested in knowing more about the problems Google Translate has, you can see the portfolio I did commenting the main problems here: http://wiki.littera.deusto.es/en/index.php/User:1adcaden/trans0910/Portfolio


References:

COCA-Corpus of Contemporary American English

Nowadays, students of foreign languages, teachers or linguists have many tools available for learning new languages or improving their knowledge of that specific language they are studying. However, many people do not know of the existence of these tools and they cannot take advantage of them. Students can use translators, dictionaries, grammars… One tool that can be very useful when studying a language at a high level and how this language is structured is corpus linguistics. On the following lines, it will be described what is corpus linguistics and one specific corpus that has become very popular. This corpus is called The Corpus Of Contemporary American English (COCA) made by the important professor of Corpus Linguistics Mark Davies at Brighman Young University.

For instance, What do we understand by Corpus linguistics? The definition by Wikipedia is the following:

Corpus Linguistics is the study of language as expressed in samples (corpora) or “real world” text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally done by hand, corpora are now largely derived by an automated process.

At first sight, it can seem that Corpus Linguistics is better to the study of a language rather than grammars because in Corpus samples we have how the language is really used by native speakers. However, this system can also have some disadvantages. For example, as Noam Chomsky said, real language is also riddled with performance-related errors and that is why it is needed careful analysis of small speech samples , but this is not included in Corpus Linguistics because Linguists only include big examples. Nevertheless, this field has been improving and,nowadays, we have very good Corpus which include may samples and very well structured. One Corpus that has to be mentioned is the COCA one.

The Corpus Of Contemporary American English is a free on-line corpus that has 425 million words and 160,000 different texts that come from a variety of sources and genres. It is the largest corpus of American English currently available.Moreover, it has been including 20 million words each year since 1990. More than 40,000 users visit this corpus each month. The different genres or sources are, firstly, spoken (85 million words) from 150 TV and radio programmes.Secondly, fiction (81 million words) from short stories and plays and, then, popular magazines (86 million words), newspapers (81 million words) and academic journals (81 million words). Furthermore, users can search the frequency of a word in each genre which help us to know, for example, if a word is used in academic writing or not. It is also possible to compare how the use of certain words has changed over time from 1990 to present time and to ignore one specific genre when we think that it is not going to be useful.

But, why is this Corpus so good? There are many reasons. For instance, researches of this corpus have been working many years to improve this corpus and their work is also connected to other important Corpus such as the British International Corpus, Time Corpus or the Corpus of Historical American English (COHA). There are also updates with new words from time to time; the last one has been in 2011. Users can search many things within the interface. For example, exact words (e.g: mysterious), part of speech, lemmas which are all the forms of a word (e.g: sing which is the base can have many forms such as singer, song, singing…), wildcard which is an option that gives you the system when you do not know exactly how a word is written( e.g: un*ly; the system’s answers would be unlikely, unusually…) It is also possible to search for collocates within a ten-word window (e.g. all nouns somewhere near faint, all adjectives near woman, or all verbs near feelings)

Other good points are: the possibility to compare the collocates of two related words (e.g banana and apple or little and small; thanks to this we can know the difference in meaning of these words and how each word is used) , to find the frequency and distribution of synonyms for nearly 60,000 words and that we can create our own list of related words.

Take the following example that illustrates how this interface works. In this case, we will analyze the collocates that precede the nouns apple and banana.In the first chart, we can see the answers for apple. It can be seen that there are many times that apple is preceded by an article such as the or an.

WORD 1 (W1): APPLE (3.95)

  WORD W1 W2 W1/W2 SCORE
1 THE 1648 445 3.7 0.9
2 AN 1325 0 2,650.0 671.6

However, banana has less cases. It could be said that apple takes normally determiners and banana not.

WORD 2 (W2): BANANA(0.25)

  WORD W2 W1 W2/W1 SCORE
1 A 602 8 75.3 296.9
2 THE 445 1648 0.3 1.1

Finally, it has to be said that if you use many times this interface, you will have to Log in. Do not hesitate to use this corpus and find attach here a video done by the Emerald Cultural Institute that shows very well how to use COCA .

References:

Opentrad itzultzaile automatikoa (taldeko lana)

Egileak: Irati Garaioa, Idoia Ibarlucea eta Amaia Navarro

Sarrera

Opentrad itzulpen automatikoko sistema da eta 2006ko maiatzean aurkeztu zen Kataluniako Unibertsitate Politeknikoan. 20 hizkuntza-bikote baino gehiagoren arteko itzulpenak egiten ditu. Gero eta erabilera zabalagoa dauka Opentrad itzultzaile automatikoak, eta  erabiltzaile, enpresa eta erakunde publikoek zeregin hauetarako erabiltzen dute: testuak eta dokumentuak itzultzeko, Interneten hizkuntza desberdinetan nabigatzeko, eta abar. Itzultzaile automatiko honek beste aukera batzuk ere eskaintzen dizkie zenbait erabiltzaileri, hala nola, beren web-orri pertsonalak, enpresako web-orriak, blogak, eta abar ingelesez, gaztelaniaz, galegoz, portugesez, katalanez, eta abarrez jartzea.

 

Helburua

Opentrad proiektuaren helburu nagusia itzulpen automatikoko bi gailu edo motor garatzea izan da. Horietako bat hizkuntza ahaideko bikoteentzat da, transferentzia sintaktiko partziala egiteko; bestea berriz, transferentzia sintaktiko osokoa, elkarrengandik urrutiago dauden hizkuntz bikoteentzat. Beraz, proiektuaren azken helburua eskaintzen dituen hizkuntza-bikoteen arteko itzulpenak egiteko gai den sistema-prototipoa sortzea da.

 

Babeslea eta bultzatzailea

2004.urtean hasi zituzten sistema honen sortze-lanak. Garai honetan proiektu honek zazpi partaide zituen: Eleka Ingeniaritza Linguistikoa, Vigoko Unibertsitateko Informatika Hizkuntzalaritzako Mintegia, Alakanteko Unibertsitateko Transducens taldea, Kataluniako Unibertsitate Politeknikoa (TALP), Euskal Herriko Unibertsitateko Ixa taldea, Imaxin Software eta Elhuyar Fundazioa.

Gaur egun, Opentrad Partzuergoa imaxin software eta Eleka Ingeniaritza Linguistikoa enpresek osatzen dute. Imaxin Software software eta multimediako I+G+b arloko soluzio eta zerbitzu aurreratuak eskaintzen dituen enpresa da eta ingeniaritza linguistikoan, lokalizazioan eta hezkuntzarako multimedia produktuetan aditua da. Eleka Ingeniaritza Linguistikoa ingeniaritza linguistikoaren arloan I+G+b proiektuak lantzen dituen enpresa da, batez ere garapen eta berrikuntza arloetan.

 

Hizkuntzak

Aipatu bezala, Opentrad sistemak 20 hizkuntza-bikote baino gehiago itzultzen ditu. Opentrad Partzuergoari, unibertsitateei edota komunitateei esker lortu da  hizkuntza desberdin hauetara itzuli ahal izatea. Hona hemen horietako batzuk:

  • Gaztelania-Errumaniera
  • Gaztelania-Ingelesa
  • Gaztelania-Frantsesa
  • Gaztelania-Katalana
  • Gaztelania-Galegoa
  • Gaztelania-Portugesa
  • Gaztelania-Euskara
  • Frantsesa-Katalana
  • Okzitanoa-Katalana
  • Okzitanoa-Gaztelania
  • Ingelesa-Katalana
  • Ingelesa-Esperantoa
  • Ingelesa-Galegoa
  • Galesa-Ingelesa
  • Esperantoa-Gaztelania
  • Esperantoa-Katalana
  • Bretoia-Frantsesa
  • Portugesa-Katalana
  • Portugesa-Galegoa
  • Norvegiera Nynorsk- Norvegiera Bokmal

Abantailak

 Ugariak dira Opentrad itzultzaile automatikoak eskaintzen dizkigun abantailak. Hauexek dira aipagarrienak:

  • Opentrad, integratzen erraza: edozein sistemarekin integratzeko aukera ematen du, eta itzultzaile hau darabilen bezero bakoitzaren beharretara egokitzen da. Dokumentu asko, hainbat hizkuntzatakoak, erabiltzen dituzten erakundeei zuzendua dago.
  • Opentrad, kalitatea eta pertsonalizazioa: Opentrad, bezero bakoitzaren terminologia-beharretara pertsonalizatu eta egokitu daiteke. Eskaintzen duen hizkuntza-kalitatea dela eta, enpresa eta erakunde publiko gehiagok darabilte sistema hau.
  • Opentrad, azkartasuna itzulpenetan: itzultzaile automatiko honek berehala itzultzen ditu testuak, dokumentuak, web-orriak eta abar.
  • Opentrad, lizentziarik gabe: teknologia-inbertsioak optimizatzeko aukera ematen du. Kostuak aholkularitzatik eta bezero bakoitzaren beharretara pertsonalizatu eta egokitzetik eratorritakoak dira.

 

Erabilera gomendioak

Opentrad itzultzaile automatikoaren Web orrialdean ondorengo gomendio hauek aurki ditzakegu sistema hau ahalik eta hoberen erabiltzeko:

  1. Itzulpena egin aurretik testu originala zuzendu, testu originalean dauden akatsek itzulpenaren kalitatean eragina izan dezaketelako.
  2. Esaldi laburrak eta sinpleak erabiltzea komeni da hauek itzulpenak zuzenak izaten laguntzen dutelako, horrela esaldi anbiguoak ere saihestuz.
  3. Puntuazioa eta sintaxia zaindu egin behar dira, azken batez, adierazi nahi dena ongi ulertzeko eta transmititzeko ezinbesteko elementuak dira
  4. Itzultzaile automatikoak testua ongi ulertu dezan lagunarteko esamoldeak eta esaera idiomatikoak saihestu behar dira, nahasmena sor dezaketelako.
  5. Funtsezkoa da itzulpena berrikustea prozesu automatizatuek hizkuntza soildu egin dezaketelako.

 

Adibideak

Opentrad itzultzaile automatikoaren funtzionamenduan sortzen diren akatsak frogatzeko zenbait artikulu hartuko ditugu. Lehenengo eta behin, bi artikulurekin egingo dugu froga, lehenengoa gaztelaniatik euskarara eta bigarrena euskaratik gaztelaniara itzuliz.  Azkenik, gaztelaniazko abesti bat euskaratu egin dugu.

1. Lehenengo testua Gara egunkaritik (2011-04-13) hartu dugu, eta hau da:

“El seísmo ha tenido lugar a las 10:08 hora local (02:08 GMT) con su epicentro localizado a diez kilómetros de profundidad en el sur de Fukushima, donde ha alcanzado una intensidad de grado 4 en la escala japonesa de siete puntos, que se centra más en las zonas afectadas. El terremoto no ha obligado a evacuar la planta nuclear de Fukushima Daiichi ni ha detenido las labores de enfriamiento de sus reactores, según ha informado la televisión pública NHK. Parte de los operarios de Fukushima se concentran hoy en drenar el agua contaminada que inunda varias zonas de las instalaciones del reactor 2, según NHK”.

“Seismoa gertatu da 10:08 ordu lokal (02:08 GMT) sakontasunaren 10km-ri Fukushimaren hegoaldean haren epizentro aurkituarekin, intentsitate bat lortu duen leku gogoz lau zazpi puntutako japoniar eskalan, gehiago erdiratzen den inguru eragin. Lurrikarak Fukushima Daiichiren planta nuklearra ebakuatzera ez du behartu ere haren erreaktoreen hoztearen lanak gelditu ditu, NHK telebista publikoa informatu du. Fukushimaren langileetako batzuk gaur kontzentratzen dira erreaktorearen instalazioen bi zenbait inguru urpetzen duen ura, drainatu kutsatuta NHK-ren arabera”.

Egin diren akatsak aztertzeko maila morfosintaktikoa eta maila lexikoa hartuko ditugu kontuan.

Maila morfosintaktikoa:

  • Euskarazko itzulpenak gaztelaniazko artikuluaren orden bera jarraitzen du, lehenengo esaldi honetan argi ikus daitekeenez: el seísmo ha tenido lugar a las 10:08 hora local (S-V-O) eta seismoa gertatu da 10:08 ordu lokal (S-V-O). Baina euskarazko ordenak S-O-V izan beharko luke.
  • Ezagutzen ez dituen hitzak bere horretan itzuli ditu, hitza deklinatu barik, adibidez: a las 10:08 hora local eta 10:08 ordu lokal.
  • Deklinabide kasuak ez ditu bereizten:

                          -Adlatibo eta datiboaren arteko bereizketarik ez du egiten adibide honetan: a diez kilómetros eta 10km-ri.  Adlatiboak egon beharko lukeen tokian, 10km-ra, datiboa erabiltzen du.

                          -Ondorengo adibide honetan ere itzultzaile honek akats bat egin du hitz bat deklinatzerako orduan: con su epicentro localizado epizentro aurkituarekin itzuli du, hau da, soziatibo kasua aditzari gehitu dio.

                          -Genitiboa eta leku-genitiboa nahastu dira adibide honetan: Fukushimaren langileetako erabili du Fukushimako langileetako erabili ordez.

                          -Kasu batzuetan ergatibo kasua ez da agertzen. Esaterako, NHK telebista publikoa informatu du.

  • Labores de enfriamiento, hoztearen lanak gisa itzuli du. Euskaraz hitz elkartu baten bidez adieraziko genukeena (hozte-lanak)itzultzeko, egitura sintaktiko batez baliatu da sistema hau.
  • Ezezko esaldiak sortzeko egitura sintaktikoan egokia ez den partikula bat erabili du: ere partikula ezta partikularen ordez: ez du behartu ere haren erreaktoreen hoztearen lanak.
  • Egitura aldetik, erreaktorearen instalazioen bi zenbait inguru urpetzen duen ura, drainatu kutsatuta esaldia guztiz okerra da eta ezinezkoa da esaldiaren zentzua ulertzea.

Maila lexikoa:

  • Zenbait hitz itzultzerakoan aukeraketa okerra egin da; izan ere testuinguru batzuetan sinonimoak diren hitzak erabili dira baina testu honetarako egokiak ez direnak. Adibidez: erdiratu eta centrar (areagotu izango lizateke aukerarik egokiena); afectadas eta eragin (kaltetuak) ; evacuar eta ebakuatu (hustu).
  • Euskarazko itzulpenean leku gogoz  hitzak erabiltzen dira baina ez dakigu zeri egiten dioten erreferentzia gaztelaniazko testuan.

2. Bigarren testua Berria egunkaritik (2011-04-17) hartu dugu:

“Donostiako Bulebarrean amaituko da gaur Korrika, auzo guztiak igaro ondoren. Milaka euskaltzalek espero duten unea iritsiko da: Korrika osoan zehar lekukoaren barruan joan den leloa irakurtzekoa. Aldi guztietan bezala, festari amaiera emateko, egun osoko jaia izango da ondoren”.

“Donostiako el próximo día bulebarrean hoy ha después de pasar, corriendo todos los barrios. Miles de euskaltzalek se espera año: el momento por todo el corriendo dentro del testigo el lema que se ir irakurtzekoa. , como en todos tiempo el final festari para dar fiesta de todo el día después de será”.

Aurreko adibidean bezalaxe, akatsak aztertzeko maila morfosintaktikoa eta maila lexikoa erabiliko ditugu:

Maila morfosintaktikoa:

  • Deklinatuta dauden hitzak ez ditu gaztelaniara itzultzen, ez dituelako ezagutzen. Esaterako: Donostiako, bulebarrean, euskaltzalek, irakurtzekoa, festari.
  • Amaituko da eta iritsiko da aditzak ez dira gaztelaniazko testuan itzulita agertzen.
  • Badira ere zenbait elementu euskarazko testuan agertzen ez direnak eta gaztelaniazko itzulpenean badaudenak: hoy ha después de pasar eta se espera año.
  • Gaztelaniazko itzulpenean ir aditza ez dago jokatua. Erlatibozko esaldia zuzena da, baina aditz nagusia ez: joan den leloa -> el lema que se ir.
  • Esaldiak ez daude ondo egituratua eta horrek ulermena zailtzen du. Esate baterako: para dar fiesta de todo el día después de será.

Maila lexikoa:

  • Korrika hitza ondo itzulita dago, itzultzaileak aditzondo gisa antzeman eta horrela itzuli duelako (corriendo) baina itzultzaile automatikoa ez da gai izan lexikalizatutako eta izen berezi bihurtutako aditzondoa dela antzemateko. Ezin du jakin Korrika zer den eta horregatik itzuli du aditzondo gisa.
  • Aldi itzultzerakoan aukeraketa okerra egin du, tiemporen ordez beste hitz bat aukeratu beharko zuelako testuinguru horretarako egokiagoa izango litzatekeena.

3. Hirugarren testua Los Ronaldos taldearen “No puedo vivir sin ti” abestitik atera dugun zati bat da:

 ”Llevas años enredada en mis manos,
en mi pelo, en mi cabeza,
y no puedo más, no puedo más.
Debería estar cansado de tus manos,
de tu pelo, de tus rarezas,
pero quiero más, yo quiero más.

No puedo vivir sin ti,
no hay manera,
no puedo estar sin ti,
no hay manera”.

“Urteetan daramazu nire eskuetan korapilatua,
nire ilean, nire buruan,
eta gehiago ez ahal dut, gehiago ez ahal dut.
Zure eskuetatik nekatu,
zure ilearen, zure arrarotasun,
baina nahiago naiz, nik nahiago naiz.

Zu gabe ez dut bizi izan ahal,
era ez dago,
zu gabe ez naiz egon ahal,
era ez dago”.

Oraingo honetan akatsak maila morfosintaktikoan baino ez dira ematen.

Maila morfosintaktikoa:

  • Lehenengo akatsa (urteetan daramazu) gramatikalki zuzena da baina ulermen eta erabilera aldetik egokiagoa izango litzateke ondorengo hau: urteak daramatzazu.
  • Bigarren akatsa guztiz gramatikala da : no puedo más itzultzeko ezin dut gehiago beharrean ez ahal dut itzuli du.
  • Hirugarrena deklinabide-akatsa da:  cansado de tus manos itzultzeko zure eskuez nekatuta izango litzateke egokiena, baina zure eskuetatik nekatuta itzuli du. Hau da, ablatiboa erabili du kasu hau erabili behar ez zuenean.
  • Gaztelaniazko testuan deberia estar azaltzen da, ez, ordea, euskarazkoan. Hots, ezabatu egin dute.
  • Bosgarren akatsa aditzean ematen da: alde batetik, aditza dago gaizki itzulita testuinguru honetan ez baitu eman nahi izan dioten zentzua: quiero más esateko gehiago nahi dut izango litzateke egokia eta ez nahiago naiz. Bestalde, aditz-laguntzailea ere gaizki erabilita dago: nahiago dut izan beharko litzateke eta ez nahiago naiz. Azkenik, aditzarekiko komunztadura ere hautsi egiten da: ergatibo kasua erabili da beharrezkoa ez denean: nik nahiago naiz.
  • Seigarren akatsean gramatika aldetik daude arazoak: no puedo vivir itzultzeko ez dut bizi ahal erabili dute eta ezin dut bizi litzateke forma egokia.
  • Azken akats honetan arazoa ordenarekin eta deklinabidearekin dago, partitiboarekin zehazki. No hay manera esateko ez dago erarik izango litzateke itzulpen egokiena baina era ez dago itzuli da.

 

Bibliografia

Review: BRITISH NATIONAL CORPUS

 

 

 The British National Corpus (BNC) is one of the most important corpuses in the field of linguistics. The content of BCN contains British English data from the late twentieth century. This corpus covers a variety of different genres.

Creation of the British National Corpus (BCN)

The project was developed by an academic consortium called the BCN Consortium. The Bristish Library and the British Academy. In addition, some other academic research centres are the the University Centre for Computer Corpus Research on Language and the Oxford University Computing Services.

The construction of the corpus began in 1991 and it was finished in 1994. Although no more texts were added to the corpus, there was a revision of this work carried out in 2001 with the publication of the BNC World and again in 2007 with a new edition called BNC XML Edition . The corpus is divided into two types of different type of corpora which are:

● The BCN Sampler is a collection of one million written words.
● The BNC Baby collects about four one-million word samples which belong to different genres

The British National Corpus follows the Guidelines of the Text Encoding Initiative (TEI) . There are two different parts which constitute the corpus:

● Written part: (90%). It covers data from several sources like books, periodicals, brochures and leaflets. In addition the written part covers regional and national newspapers, journals for all ages and interests, academic books, popular fiction, university essays etc
● Spoken part (10%): That part extracts information from orthographic transcriptions of informal conversations and spoken language collected in different contexts. The first part is made up of a 50% of transcriptions of natural conversations. The transcriptions come from conversation in which 124 people have taken part; all of them belonged to the United Kingdom. The participants in the conversations were represented in a 50% by women and the other 50% by men. The second part is made up of a 50% of some recordings which were extracted from a specific moment in a event from different nature: business events, leisure events, educational events etc…

Why to use British National Corpus?

The BNC can be used to know about aspects we did not know about a word and to check our thoughts about its meaning. Moreover, the corpus can help to find out the meaning of a word not just what we think it means. The BNC offers many options like for instance to know if a word can collocate with other set of words, if it is grammatically right in some specific contexts.

If we look for the word the word “bent” plus the preposition “on” the BNC indicates that this combination of words appear together in a specific context. From a grammatical point of view, the British National Corpus determines that “Bent to” can only be followed by a noun or noun phrase, or by verb plus the suffix- ing.

How to use the British National Corpora

There exists two ways of using the British National Corpus according to its complexity:
● Xaira: It can be used to check the spelling of a word, compare different variants to measure the frequency of use and if a certain word is part of the BCN.
● The BNC Simple Search: It is a quick way of searching a word / phrase. This type of search can be used to check the spelling of a word and also to compare the frequency and variants of a word.

If we use the BNC Simple search, it is necessary to type the word or phrase in the search box that the person wants to find. Once the word/ phrase has been search a list of up to 50 selected instances headed by a note of the total frequency of use of them appears on the screen. If we want to look for more complex queries we should add the following characters to the words. The _ character is used to match single words, while the = character allows the restriction of chains of speech and the use of braces {} helps to define a certain expressions.

In addition, in the screen, four options are part of the option “display” of the corpus when we are looking for a word: LIST, CHART, KWIC and COMPARE. Then there are three more options under the label of search string which are: word, collocation and pos list. In addition, there is a section called “sorting and limits”. The sorting can be looked in terms frequency, relevance and alphabetical order.

The corpus includes several categories or labels of texts from different nature which are “spoken”, “fiction”, “magazine”, “newspaper” or “non- academic texts”. For instance, if we look for the word “couch”, the corpus shows us that this word collocates with different words: lying, lay, room, potato etc. After having clicking on one of this word several examples will appear on the screen. The corpus allows looking for a word or phrase but at the same time the possibility of finding collocations. To look for a collocation is as easier as to type the word which wants to be searched and automatically an asterisk will appear on the box of collocation. Once the search has been produced the corpus displays a list of words which collocates with the word.

The KWIC search enriches the corpus because it helps the person which is looking for the word to know in which grammatical structures and contexts the word appears. For example, if we look for the word: “shoes” the corpus shows in colours the different words which can be used with this word. “A new pair of”, “the soles of our”, “the second hand”, “new polished”, or “thousands of” etc.

Comparison between the British National Corpora and the COCA

In terms of size there is a huge difference between both corpuses as the COCA is four times bigger than the BNC. The COCA is made up of 410 + million words in opposition to the BNC which covers 100 million words. In relation to the composition of both corpuses the COCA focuses on spoken, popular magazines, academic texts and each of those genres means a 20% of the total. However, the BNC is strictly divided in a 90% which is written while the other 10% is spoken English. As a result the COCA deals with more recent information as the corpus was updated while BNC focuses more on everyday language.

I have included a SlideShare presentation which explains in more detail and with images the British National Corpus. You can have access to it if you click in the link below:

INFORMATION SOURCES

Review: MERRIAM WEBSTER’S COLLEGIATE DICTIONARY ONLINE

Merriam-Webster’s Collegiate Dictionary online is a language resource available in the webpage: http://www.merriam-webster.com/. This version online is based on the latest edition of Merriam- Webster’s Collegiate Dictionary.The producer company of the dictionaries, Merriam Webster Inc is a subsidiary company of the Encyclopædia Britannica, Inc.

This dictionary is a very complete language resource. Every lexical item includes the first time the word was used, the historial and etymological origins, orthographical notes, function of the the words and regional varieties.

Merriam Webster’s has 225,000 entries, 115,000 audio pronunciations, 340,000 synonyms and related words and 1,300 illustrations.

What can we find in the dictionary?

There are four different types of dictionaries: the monolingual dictionary, a Thesaurus dictionary, a bilingual dictionary Spanish- English and a Medical Dictionary.

It includes 4 additional sections: word games, word of the day, new words and slang and videos.

a) DICTIONARY: Using the dictionary

In order to look for a word, we have to type the word, we are looking for in the search box. Let’s use the word “light”. The dictionary presents several entries according to different categories such as “noun”, “verb”, “adjectives”, “adverb” etc. In this example there are 219 entries.

The dictionary includes a pronunciation device where the word (in this case “light”) is written in phonetical and phonological symbols and if you click on the audio device, the word can be listened to get a better pronunciation.

Then the dictionary collects different definitions of the word “light”. What is more, it adds words which are synonyms or which are part of the semantic field of “light”. The dictionary also includes different contexts and examples in which, for instance, the word “light” can appear and compounds. It also includes a set of idiomatic expressions and collocations which also define the words.Lastly, there is a list of examples of the words, the origin of the word and its historical review, different synonyms and antonyms and even “rhymes” with a certain word.

b) THESAURUS

The Merriam Webster’s dictionary offers a Thesaurus dictionary, that is to say, a list of words which have share a similarity in their meanings.To look for a word is as simple as typing the word we want to look for in the search box. Take for example, the word: “plant”.After the word (plant), the dictionary shows the different entries it has found. In this example: “plant” as a noun, and “plant”as a verb.

Once we have looked for the word (plant), the first option that appears is the word “plant”with the category of noun. The dictionary offers a definition of the word “a building or a set of buildings for the manufaturing of goods”. Then there are several synonyms and finally related words. A second category is the word “plant” as a verb.

c) SPANISH- ENGLISH DICTIONARY

Again, we have to type the word we are looking for in the search box. In this case, we will choose the word “table”. Then we will press “ENTER” to start the search. Once, the search has finished, the word “table” presents four entries.

The dictionary shows the translation of the word “table”, that is to say “mesa” in Spanish. Then the word is used in a particular context and several examples are used to do it, like “multiplication table”(tabla de multiplicar) or “table of contents”(tabla de materias).

d)MEDICAL

Merriam Webster’s dictionary is a linguistic resource also for medical purposes. It contains thousands of words related to the world of medicine.The way of looking for a word is the same than with the other three dictionaries. We have to type the word in the search box and press “enter”. Let’s look for the word “surgery”.

FOUR OPTIONS MERRIAM WEBSTER’S DICTIONARY

a) WORD GAMES

The Merriam Webster dictionary contributes to the enrichment of the learner’s vocabulary by offering different word games. All of them are thought to be an alternative and dynamic tool which can be used as an entertainment but also as a learning instrument. Basically, the main aims of these games are the improvement of spelling and pronunciation like in the case of the game Bee cubed. Moreover, the word order is one of the main objectives in these games , like L.A. Times Daily Crossword.

b) WORD OF THE DAY

Everyday a new word is added to the dictionary. It helps to the introduction of new lexical items to the English language. The dictionary shows the pronunciation of the word (using the phonetic and phonological symbols). For instance, on the 23, February 2011 the word of the day was “edacious”.
Firstly, these “words of the day” are categorised as “nouns, adjectives, “adverbs” etc… Then, they are defined in a similar way that the “Thesaurus dictionary” uses. Similar meanings and synonyms are selected to define the word.

Secondly, these new words are exemplified with several sentences and it is common the use of a quotation from a literary source to explain whether or not the word can be used in different backgrounds. In addition, this section adds a section called : Did you know? which presents the historical origin of the new word and generally the etymology. Moreover, it describes the distinct meanings which have been atributed to the word through different ages in history.To finish the section, the dictionary offers a family quiz which deals with the word described everyday.

c) NEW WORDS AND SLANG

This section is a group of new words which have been included in the dictionary thanks to the collaboration of the users. The dictionary allows the introduction of new words which are part of “everyday’s life” and also the “most colloquial English”.

d) VIDEOS

This is an alternative and modern tool in which several editors explain the meaning or origin of a word.

IN CONCLUSION

Merriam Webster’s dictionary offers a wide variety of options according to several needs. It is one of the most complete dictionaries because it includes: definitions, synonyms and antonyms, origin and etymology of the words, spelling and pronunciation devices, phonological and phonetic transcriptions and content of use of the words.In the online version, there are four different dictionaries which help several specific needs.

I have done an Slideshare presentation which makes a more deep review about the dictionary. If you click in the link below you could see it:

Information sources

3000 HIZTEGIA (talde lana)

3000 HIZTEGIA da guk aztertuko duguna, horrela hiztegi honek dituen alde positiboak eta negatiboak ikusi ahal izango ditugu. Jorratuko ditugun puntuen artean hiztegiak eskaintzen dituen hizkuntzak, sorreraren gorabeherak eta beste hiztegiekiko konparaketak aurkituko dira. Hau da 3000 HIZTEGIAren orrialdea: http://www1.euskadi.net/hizt_3000/

Hiztegi hau Bostak Bat lantaldearen Adorez sortako itzulpenezko hiztegia da. Lehen argitalpena 1996. urtean egin zen Aurten Bai Fundazioa eta Bass S.L– ren laguntzarekin; lehen bertsioa 2001. urtean eguneratu zen. Hiztegi hau Eusko Jaurlaritzak babesten du eta Euskaltzaindiaren arauen arabera moldatuta dago.

3000 HIZTEGIAk bi hizkuntza erabiltzen ditu: euskara eta gaztelania. Arrazoi honengatik esan dezakegu hiztegi hau elebiduna dela. Hiztegiari alor honetan egin beharreko kritika bat web orrialdeak bilaketak alemanez, frantsesez eta ingelesez egiteko aukera ematen digula da, baina aukera hauek klikatzerakoan baliabidea ez dago eskuragarri.

3000 HIZTEGIAn Euskaltzaindiaren Hiztegi Batua-n (2000.eko abenduko bertsioa, Euskera 45-2) agertzen diren sarrera, azpi-sarrera eta adiera guztiak aurkituko ditugu sarrera eta azpi-sarrera bakoitzari dagozkion erdal kide eta adibideez horniturik.

Bilaketak egiteko modu diferenteak

Hitzen bilaketa egiteko hiztegi honek bide bi proposatzen ditu hizkuntza aukeratu ostean:

Bata, hitzaren bilaketa egitea da. Horretarako hitzari dagokion laukitxoan idatzi behar da bilatu nahi dena, ilun hitza, adibidez. Bestea, hitz zerrenda bat aurkitzea da, horretarako “Aurkitu nahi den hitza eta ondorengoak” jartzen duen laukitxoan idatzi behar dira hitz-zerrendaren hasierako karaktereak edo hitza osorik eta 20 hitzen zerrenda eskainiko da. Honez gain, aurreko zein ondorengo 20 hitzak ikusteko aukera ere izango dugu eta zerrendako edozein hitzen gainean sakatuz gero, hitz horri buruzko informazioa pantailaratuko da. Min hitza sartzen badugu, esaterako, hitz honen aurreko eta ondorengo 20 hitzak alfabetikoki ordanaturik azalduko zaizkigu paperezko hiztegi bat izango balitz bezala. Azalpen honen adibidea ikus daiteke argazki hauetan:

1. aukera:

2. aukera:

 

 

 

 

 

 

Sarrerei buruzko informazioa

Bilatu dugun hitza pantailaren erdian agertuko da. Sarrera bakoitzean kategoria gramatikala agertuko da, bilatutako hitza aditza bada, hiru formatan emango da: partizipioa, erroa eta gerundioa. Honez gain, jakintza arloa (Bot., Zool., Geol., Inform., Hizk., etab.) eta izendapen zientifikoa (otso hitza sartzean Canis lupus, adibidez) ere agertuko dira.

Erdal kideak adieraka sailkatuta eta zenbaki gorriz adierazita agertuko dira, eta adibideak zenbaki urdinez adierazita. Sarrerako aldaera forma onartua ez denean hiru aukera aurkezten dira forma egokia aurkitzeko:

1. Euskaltzaindiaren Hiztegi Batuan “h.” (hobe) dutenak alboan dute forma onartua.

2. Euskaltzaindiaren Hiztegi Batuan “e.” (erabili) dutenak alboan dute forma onartua. Adibidez, haundi hitza sartzen bada, hiztegiak handi hitza erabiltzeko proposatuko digu.

3. Gainerakoetan ikus-en bidez forma onartu edo estandarragoetara bidaltzen da eta gainean sakatuz forma horretako informazioa eskaintzen da. Esaterako, emon aditza sartzen badugu, eman aditza ikusteko gomendioa ematen digu.

 

Hitzak aurkitzeko moduak

3000 HIZTEGIAN bilaketa bat egitea oso erraza da, behin orrialdean sarturik euskera-gaztelania edo gaztelania-euskera aukeren artean bat hautatu behar dugu eta “hitza“/”palabra” jartzen duen lekuan bilatu nahi dugun hitza idaztea da egin beharreko gauza bakarra, honen ondoren “bilatu“/”buscar” botoia sakatu, eta listo.

Hauek dira 3000 HIZTEGIAk hitzak aurkitzeko eskaintzen dituen hiru modu desberdinak:

1. Hitza txarto idazten bada edo hiztegian ez dagoen hitz bat sartzen bada, sistemak zerrenda bat proposatuko du horietatik bat aukeratzeko eta Buscar/Bilatu botoia sakatuz gero, hitz horri dagokion informazioa pantailaratuko da.

2. Hitz onartuaren aldaera bat idatzita ere, sistema prest dago gura den hitzaren forma desberdinak aurkitzeko. Adibidez, hitza “h” nahiz “h”-rik gabe idatzi arren aldaera zuzena edo estandarra agertuko da, hau da, andi idatzi arren handi forma onartua agertuko da. Berdin gertatzen da hitz elkartuetan gidoiarekin, loturik nahiz banaturik idazten bada. Adibidez arto(-)buru aurkitzeko ondoko aukerak ditu erabiltzaileak: artoburu, arto(-)buru, arto-buru eta arto buru. Denetatik arto(-)buru sarrera agertuko da.

3. Hitzaren lehen hizkiak idazten badira, adibidez buru idazten bada bi sarrera eskaintzen ditu sistemak: buru eta burutu, baina bur, bur-, nahiz bur& idazten bada, hizki horiekin hasten diren hitzen zerrenda bat proposatzen da. Zerrenda horretako hitz bat markatu eta Bidali botoia sakatzean (adibidez buraso) hitz horri dagokion informazioa eskuratuko da (buraso h. guraso).

4. Bilaketa gaztelaniaz egiterakoan, hitza azentuarekin nahiz azentu gabe idatzi daiteke. Modu batera edo bestera bilatuz 3000 HIZTEGIAk hitzaren forma akademikoa aurkituko du; adibidez, cabezon idazten bada pantailan cabezón berba azalduko da. Gauza bera gertatzen da dieresiarekin, bai pingüino idatziz bai pinguino idatziz, 3000 HIZTEGIAk pingüino formara bideratuko du bilaketa.

Beste hiztegi batzuekin konparatuta

Hiztegi honen antzeko beste bat Elhuyar Hiztegia da. Hiztegi honek bilatu nahi dugun euskal edo erdal hitza itzultzeaz gain, aurrizki zein atzizki bat sartuz gero hau darabilten hitzen zerrenda eskainiko digu. 3000 HIZTEGIAk, ordea, ez du baliabide hau eskaintzen.

Adibide bat jartzearren, 3000 HIZTEGIAn buru hitza sartzen bada hiru aukeretatik bat hartzeko proposatzen du hiztegiak, bata gaztelaniazko abad izango litzatekeena, bestea gaztelaniazko cabeza (honen barruan hamaika adiera), eta azkena gaztelaniazko espigar edo granar izango litzatekeena (honen barruan 3 adiera). Elhuyar Hiztegian buru bilatuz gero, aukerak askoz ere ugariagoak dira: hamalau adiera desberdin eskaintzen dizkigu hiztegiak, eta honez gain, lexi eta lokuzio ugari azpizarrera moduan ere.

Ikus dezakegunez hiztegi biek eskaintzen dituzten baliabideak nahiko antzekoak dira; hala ere, bi hiztegiak erabili ditugu eta gure ustez Elhuyar Hiztegiak ematen dituen itzulpenak eta sarrera aukerak 3000 HIZTEGIAk eskaintzendituenak baino hobeak dira, aurrizkien eta atzizkien baliabidea izateaz gain.

3000 HIZTEGIA Labayru Ikastegiak interneten eskuragarri duen hiztegiarekin ere konpara dezakegu. Hiztegi honen sarrera orrian euskera/gaztelania edo castellano/euskera hiztegien artean aukeratu behar da, eta bietako bat hautatu dugunean bilaketa egiteko hiru modu proposatzen dira: “berbea osorik“/”palabra completa“, “-(e)tik hasita“/”comienza por” eta “daukala“/”contiene“. Hiru modu hauen artean aukeratzeko ideia ona dela pentsatzen dugu eta 3000 HIZTEGIAk ez daukan baliabide bat da. Labayru Hiztegian buru hitza “berbea osorik” aukeraren barruan bilatzen badugu hamar adiera azaltzen dira, baina 3000 HIZTEGIAn ez bezala buru-rekin aurki daitezkeen hainbat eta hainbat hitzen, lokuzioen, etab.-rren zerrenda bat daukagu eskuragarri.

Laburbilduz, 3000 HIZTEGIA kontsulta azkar eta ez oso sakon bat egiteko egokia izango litzateke. Baina gure ustez, sakonagoa, zehatzagoa eta kalitate handiagokoa den bilaketa bat egiterako orduan beste hiztegi mota batzuetara jo beharko litzateke; Orotariko Euskal Hiztegia adibidez, hiztegi egokia da bilaketa espezializatuagoak egiteko. Orotariko Euskal Hiztegiaz aparte aipatutako beste bi hiztegiak (Elhuyar eta Labayru) ere nahiko onak dira horren espezializatuak ez diren bilaketak egiteko, baina bai bilaketa sakonak eta kalitatezkoak egin ahal izateko.

Iturriak:

Egileak: Ainhoa Causo, Jone Flores eta Leire Zamalloa

Euskal Corpusak (talde lana)

Corpusak hizkuntza guztiek behar duten baliabidea dira eta, gaur egun, hizkuntzaren ikerketan eta hizkuntza-teknologien garapenean asko erabiltzen dira. Corpusak formatu elektronikoan eta linguistikoki etiketatuta (hau da, hitz bakoitzari dagokion lema, kategoria, etab. emanda) dauden testu-bildumak dira. Oso baliabide garrantzitsua dira hizkuntza-teknologiak garatzeko, hiztegiak egiteko, hizkuntza bera arautzeko, itzulpenetan laguntzeko, eta hainbat gauzatarako. Azken finean, corpusek hitzen erabilera errealaren inguruko informazioa ematen digute.

Corpusen azterketa hau egiteko aukeratu ditugun corpusak Corpeus, internet euskarazko corpus gisa eta Euskararen Corpusa izan dira, euskal corpus orokorrak direlako aukeratu ditugu, hau da ez dira gai zehatz bati buruzko corpusak. Corpeus corpusa Elhuyar Fundazioko I+G taldeak garatua da, EHUko Informatika Fakultateko IXA Taldearen laguntzarekin, eta honek egiten duena Internet euskarazko corpus gisa erabiltzeko aukera ematea da, corpus hau beti ari da eguneratzen eta edukia gehitzen; beraz, hitz berrienak ere kontsulta daitezke. Euskararen Corpusa UZEI elkarteak egindako XX. mendeko euskararen corpus estatistikoa da. Corpus estatistikoaren oinarria, hainbat irizpideen arabera sailkatutako XX. mendeko euskal argitalpenen inbentario osoa da. Esan beharra dago, euskara idatzia dela hemen jasotzen dena, ez ahozkoa. Bi corpusak pixka bat aurkeztu ondoren, has gaitezen azterketarekin.

 

CORPEUS, internet euskarazko corpus gisa

1. IZEN BATEN BILKAETA

Etxe izena aukeratu dugu corpusetan bilaketa egiteko, izan ere, oso erabilia eta emankorra da. Hauek dira etxe izena sartuta bilaketak egiteko modu desberdinak:

  • 1. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan,  guk nahi dugun izena jarriko dugu, kasu honetan, etxe.

c) “Analisia” atalean, izena dela argi utzi behar dugu.

d) “Motorra” laukitxoan, non bilatu nahi dugun jarriko dugu. Lehenengo saiakera honetan Google markatu dugu bilaketa egiteko.

Emaitzak:

Lehenik eta behin esan behar dugu bilaketa guztien emaitzak alda daitezkeela bilaketa egiten dugun bakoitzean, corpusa etengabe berritzen delako. Ematen duen informazioa oso ugaria da, ez baikara etxe hitzera soilik mugatzen, etxe daukaten hitz guztiak agertu zaizkigu: hitz eratorriak, hitz elkartuak edota izena deklinatuta. Corpusa gai da guk etxe hitza sartuta honen forma deklinatu eta barianteak emateko. Oso emaitza zabala lortu dugu:

-8 orrialde etxe izenarekin

-114 agerpen

-71 baliozkoak

Hauek dira formaren arabera kopuruari buruzko datuak:

etxe 22
etxeko 21
etxea 12
etxeen 4
etxeak 4
etxearen 3
etxeei 2
etxez 1
etxeari 1
etxeekin 1
Guztira 71

Honen adibideak ikusteko: http://www.corpeus.org/cgi-bin/kontsulta.py

  • 2. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan etxe idatziko dugu.

c) “Analisia” atalean, izena dela markatuko dugu.

d) “Motorra” laukitxoan, bigarren saiakera honetan Bing markatu dugu Google beharrean.

Emaitzak:

Kasu honetan ere, ez gara etxe hitzera soilik mugatzen eta honen deklinazioak etab. agertzen zaizkigu.

-10 orrialde

-163 agerpen

-51 baliozkoak

Hona hemen formaren arabera kopuruari dagozkion datuak,  ikus daiteke Bing bilatzaileak formei dagozkienez ematen dituen emaitzak  ez direla Google-k ematen dituenak bezain ugariak:

etxe 18
etxeak 13
etxea 10
etxeko 8
etxearen 1
etxeek 1
Guztira 51

Honen adibideak ikusi ahal izateko hemen klikatu: http://www.corpeus.org/cgi-bin/kontsulta.py

  • 3. modua

a) Kasu honetan, “Zer” atalean lema markatu beharrean, forma jarriko dugu.

b) “Bilatu” jartzen duen laukitxoan etxe idatziko dugu.

c) “Analisia” atalean, izena dela markatuko dugu.

d) “Motorra” laukitxoan, bilaketa Google-k egitea eskatuko dugu.

Emaitzak:

Etxe hitzaren forma daukaten sarrerak agertu zaizkigu, hau da, deklinatu gabe.

-8 orrialde

-54 agerpen

-22 baliozkoak

Honen adibiderik ikusi nahi izatekotan, hona hemen orrialdera eramaten duen esteka: http://www.corpeus.org/cgi-bin/kontsulta.py

  • 4. modua

a) Kasu honetan, “Zer” atalean lema markatu beharrean, forma jarriko dugu.

b) “Bilatu” jartzen duen laukitxoan etxe idatziko dugu.

c) “Analisia” atalean, izena dela markatuko dugu.

d) “Motorra” laukitxoan, orain Bing-en egingo dugu bilaketa.

Emaitzak:

-10 orri

-106 agerpen

-23 baliozkoak

Saiakera honen emaitzak orrialdean ikusi ahal izateko esteka hau jarraitu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

2. ADITZ BATEN BILAKETA

Jakin aditza aukeratu dugu bilaketa egiteko. Hemen ere modu ezberdinetan egingo dugu bilaketa:

  • 1. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan,  guk nahi dugun aditza jarriko dugu, kasu honetan, jakin.

c) “Analisia” atalean, jakin aditza jarri dugu.

d) “Motorra” laukitxoan, non bilatu nahi dugun jarriko dugu. Lehenengo saiakera honetan Google markatu dugu bilaketa egiteko.

Emaitzak:

-8 orrialde

-58 agerpen

-51 baliozkoak

Hemen forma bakoitzeko kopuruak agertzen zaizkigu:

jakin 23
jakitea 9
jakiteko 9
jakina 7
jakite 2
jakipen 1
Guztira 51

Honen adibideak ikusi ahal izateko: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 2. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan,  guk nahi dugun aditza jarriko dugu, kasu honetan, jakin.

c) “Analisia” atalean, jakin aditza markatu dugu.

d) “Motorra” laukitxoan, non bilatu nahi dugun jarriko dugu. Bigarren bilaketa honetan Google-n ordez Bing-en egingo dugu bilaketa.

Emaitzak: argi ikusten da bilaketa Bing-en eginez gero emaitzak ugariagoak direla.

-10 orrialde

-342 agerpen

-325 baliozkoak

Jakin aditza deklinaturik agertutako kopuruak:

jakin 282
jakina 14
jakiteko 9
jakitea 7
jakiten 3
jakinda 3
jakinik 2
jakingo 2
jakitean 1
jakiteak 1
beste guztiak 1
Guztira 325

Honen adibideak ikusteko, klikatu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 3. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza jarri dugu.

c) “Analisia” atalean, jakin aditz trinko gisa bilatuko dugu.

d) “Motorra” laukitxoan, kasu honetan Google-n egingo dugu bilaketa.

Emaitzak:

-8 orrialde

-72 agerpen

-53 baliozkoak

Forma bakoitzeko kopuruei dagokionez:

dakit 24
jakin 10
dakigu 7
daki 6
dakite 3
dakizu 2
dakizki 1
Guztira 53

Saiakera honen adibideak ikusteko: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 4. modua

a) “Zer” atalean lema markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza idatziko dugu.

c) “Analisia” atalean, jakin aditz trinko gisa bilatuko dugu.

d) “Motorra” laukitxoan, laugarren bilaketa honetan Google-n ordez Bing-en egingo dugu bilaketa.

Emaitzak:

-10 orrialde

-52 agerpen

-46 baliozkoak

Aditz forma ezberdinen kopurua:

dakit 21
jakin 9
daki 7
dakigu 6
dakite 2
dakizu 1
Guztira 46

Honen adibideak hemen ikus daitezke: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 5. modua

a) “Zer” atalean lema beharrean forma markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza idatziko dugu.

c) “Analisia” atalean, jakin aditza bilatuko dugu.

d) “Motorra” laukitxoan, bilaketa honetan Google erabiliko dugu.

Emaitzak:

-8 orrialde

-20 agerpen

-20 baliozkoak

Kasu honen adibideak ikusteko esteka hau jarraitu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

  • 6. modua

a) “Zer” atalean lema beharrean forma markatuko dugu.

b) “Bilatu” jartzen duen laukitxoan jakin aditza idatziko dugu.

c) “Analisia” atalean jakin aditza bilatuko dugu.

d) “Motorra” laukitxoan, bilaketa honetan Bing erabiliko dugu Google-n ordez.

Emaitzak: Bing-ek eskeintzen dituen emaitzak Google-k eskeintzen dituenak baino ugariagoak dira.

-10 orrialde

-433 agerpen

-395 baliozkoak

Honen adibideak ikusi nahi izatekotan hemen klikatu: http://corpeus.elhuyar.org/cgi-bin/kontsulta.py

EUSKARAREN CORPUSA

Corpus hau euskaltzaindiaren corpus bat da eta 2002. urtekoa da egin zaion azken modifikazioa.  Corpus honek testu- hitzak edo lemak bilatzeko aukera ematen du. Esan beharreko gauza da corpusak ez duela hitzen kategorien arteko bereizketarik egiteko baliabiderik, berak hitzaren kategoria zein den berdin izango zaigu bilaketa egiterako orduan. Hala ere, beste corpusean erabilli dugun metodologia jarraituz, honetan ere bilaketa bi ataletan banatuko dugu.

1. IZEN BATEN BILAKETA

  • 1. aukera

Lema(k)” aukera hautatu eta ”Hitz bat” jartzen duen lekuan klikatzen badugu eta etxe izena bilatzen badugu, hurrengo hau izango litzateke emaitza:

1.  1900-1939  Bizkaiera  Ikasliburuak  Euskeraz irakurteko 0042 Gure amak yosten diardu etxean.

2.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0083 Urijaz aiztu zan, eta azkenez, bere etxian baxen pozik eguan.

3.  1900-1939  Bizkaiera  Ikasliburuak  Euskeraz irakurteko 0046 Andoni’k.- Etxe osteko lizarretan.

4.  1900-1939  Bizkaiera  Saio-liburuak  K. Basabe 0063 – “Suaz, ba, ezquer asco zor deutsaguz eche orrerita”.

5.  1900-1939  Bizkaiera  Literatur prosa  Or Tormes 0011 Abade ta praille, batak txiroai ostuten deutse, ta besteak etxetik atsotxuentzat ataraten dabe.

6.  1900-1939  Bizkaiera  Literatur prosa  E. Bengoa 0003 Biyen bittartian, echeko guztiak maiyen alderdi biyetan zutunik dagoz ichoroten arik eta asabak eurena jan deiyen artian.

7.  1900-1939  Bizkaiera  Literatur prosa  E. Bengoa 0003 Orduen echeko guztiak belaunikoturik egiten deutzee asaben arimari adoraziñoia, eta eurak ill-errira utsik biurtu ezteizen, erreten deutzeez (au da illen giro-mutuo) diru-paperak (olan derichoe, baia eztira benetakoak) oneen ustez, andikaldian be dirudunak obeto bizi eidiralako.

8.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0538 Biotz-biotzez maite du euskaldunak bere etxea.

9.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0539 Elizanburu’k ere maite zuan bere etxea.

10.  1900-1939  Gipuzkera  Saio-artikuluak  A Lamiak 0101 Etxera itzultzean eztezanala gibela begiratu

Adibide guzti hauetan, etxe izena agertzen den liburu, artikulu edota testuan agertzen zaizkigu. Izena bere horretan, deklinaturik edota forma zaharrean ere bilatzen du corpus honek.

Aipatutako adibideez gain beste asko daude, gehiago ikusi nahi izatekotan hemen klikatu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 2. aukera

Beste aukera bat, lema bilatu beharrean testu- hitzak bilatzea da. Honetarako, lehenengo laukitxoan “Testu- hitza(k)” aukeratu eta lehengo moduan, “Hitz bat” jartzen duen laukitxoa berdin utziko dugu. Hurrengo hau da lortutako emaitza:

1.  1900-1939  Bizkaiera  Saio-artikuluak  Euzkadi 1908 0081 ¡A! ¡duinge zantarrak eta duinge zantarrak! ¡Jagiko alda aberrtzale arrtetik etxe-arerijo orrei lepasur diru-aurrian duingero makurrtu ori zigorr gogorraz auzi ta trisketan dautsenen bat! Orren okerrez, atsebakotu gadixan Aberrijaren atze baga-aldijetan, eta atseginez bete gadixan bere atsegin-aldijetan.

2.  1900-1939  Bizkaiera  Ikasliburuak  Euskeraz irakurteko 0046 Andoni’k.- Etxe osteko lizarretan.

3.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0031 Aldi atan Marte bere guraso ta nebearekin bixi-zan iturrmendi zarran, gaurr etxe-ondakiñak baño eztan Iurrmendi zarran.

4.  1900-1939  Bizkaiera  Literatur prosa  Ag Kr 0117 Benetan egoan ondo, ta neskame izatekotan, ezeukean egundo etxe atatik beste batera urtengo.

5.  1900-1939  Bizkaiera  Literatur prosa  Ag Kr 0117 – Ementxe bertan, aurreko etxe onetantxe.

6.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0539 ¿Nork ez dakizki buruz neurtitz aiek?¿Nork ez ditu bein baño geiagotan erestu?¿Nor ez da neurtitz aiezaz oroitu etxetik urruti gogoa etxe aldera biurtzean?¡Etxea! Izen dontsu-dontsu ta gozoa.

7.  1900-1939  Gipuzkera  Saio-artikuluak  Muj 0539 Bi idi aundi mendian, bildotxak, beiak, auntzak, ardiak… Etxe ura ordea, bere-berea zuan, bere sorlekua, aiten-aitak autatua.

8.  1900-1939  Gipuzkera  Saio-artikuluak  F. Urkia 0007 Etxe askotan labeko atakak sukaldean jotzen du.

9.  1900-1939  Gipuzkera  Saio-artikuluak  F. Urkia 0007 Beste batzuk etxe-ondoko legorpetxo batean.

10.  1900-1939  Gipuzkera  Saio-artikuluak  JBDei 1922 0253 – Asarre zeuden igeltzeroak, lanian ari ziran etxe arretako etxeko-andreak, amarretakorik etzietela ematen eta.

Kasu honetan, etxe izena agertzen den testuak aipatzen dira adibide hauetan baina bere horretan soilik egiten da bilaketa; ez da izen hau deklinatuta agertzen bilaketa honetan.

Adibide guztiak ikusi ahal izateko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 3. aukera

Bestalde, corpus honek izena esaldiaren hasieran, amaieran edo tartean bilatzeko aukera ere ematen du. Horretarako, bilaketa egiterakoan lehen “Hitz-bat” aukeratu dugun lekuan, orain “Hasieran”, “Bukaeran” edo “Tartean” aukeratuko dugu. “Lema(k)” hautaturik, (gauza berbera egin daiteke “Testu hitza(k)” aukeratzen badugu ere) esaldiaren hasieran aukeratzerakoan hauek dira emaitzetako batzuk:

1.  1900-1939  Gipuzkera  Saio-artikuluak  F. Urkia 0007 Etxe askotan labeko atakak sukaldean jotzen du.

2.  1900-1939  Bizkaiera  Literatur prosa  Echta Jos 0035 Etxe onek eukazan eskaratz edo sukalde ona, iru logela nasaiak, berbaleku txikitxo bat, sabai ta goianengo zabalak eta korta eder bi, abelgorri ta ardientzat; baita etxe aurrean egozan laba-gela ta oillatoki onak euren teillatuakaz.

3.  1900-1939  Gipuzkera  Literatur prosa  Elizondo Loretegi 0186 Etxe batekoak, gosaria egiteko esnea egunero erosten zioten, eta neskamea zintzo-zintzo etortzen zan, garai jakiñean, esne billa.

4.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – Baietz, lapurra! Nik ikusi det sartzen-da.

5.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – (igesi itzuliaz) Ai! ai!.

6.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – Nik ez ba.

7.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – Ni ametsetan eta lapurra or barruan.

8.  1900-1939  Gipuzkera  Antzerkia  Lab 0019 Etxe. – (Aundi-mandi’ri besotik elduta) Ez zabaldu ez!.

9.  1900-1939  Gipuzkera  Antzerkia  Alz Osaba 0015 Etxe au izan danarekin….

10.  1900-1939  Sailkatu gabeak  Egunkariak  El Día 1934 0001 Etxe gutxitan utzi zayote pakian ta ortatik dator oyen igas egitea gure aldetik.

Adibide guztiak ikusteko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Esaldiaren bukaeran etxe hitza bilatzerakoan hurrengo hauek lirateke emaitzetako batzuk:

1.  1969-1990  Gipuzkera  Saio-liburuak  D. Garmendia 0106 Gaurko Arantzazu bere pelota-leku, automobillentzako leku zabal, prailegaien etxe….

2.  1969-1990  Euskara Batua  Saio-liburuak  NekazArkit 0500 <hi type=”caption”>Lasernan altxatzen diren zenbait etxe</hi>.

3.  1991-1999  Sailkatu gabeak  Aldizkariak  A. Loidi 0018 ETXERIK ETXE

4.  1991-1999  Sailkatu gabeak  Aldizkariak  E. Otamendi 0006 Gainera, hiru polikiroldegiren eraikuntza jarri dugu martxan, zaharrentzat lau egoitza eta bi zahar etxe.

5.  1991-1999  Bizkaiera  Literatur prosa  J.M. Etxebarria 0036 Orduan, herriko gazteak eta, alkar hartu, eta etxe-errearena batzen joaten ginen etxerik etxe.

6.  1991-1999  Euskara Batua  Saio-artikuluak  Peillen 0015 Turismoaren aldetik duela hogei bat urte Zuberoako Sindikatak mendi-herrixka bat eraiki zuen Iratin, orain mozkinemaile dena, asko iretsi ondoren (50. bat etxe).

7.  1991-1999  Euskara Batua  Saio-artikuluak  J. Cillero 0023 Eta etxekoiak gezalagoak, ordea: Steve, Darrel, Bryon, Charlie (taberna du etxe)…

8.  1991-1999  Sailkatu gabeak  Aldizkariak  Aretxagazeta 1996 0012 <head>Zazpi mendi etxe</head>

9.  1991-1999  Bizkaiera  Literatur prosa  L. Ayesta 00099 Urtearen asierako lenengo egunean, Urte Barri goxean, eguna zabalduaz beste barik, soñeko arropa barriak jantzirik, oñetako eta guzti, joaten ginean umezko guztiak iru-lau moltsotan, ze orduko sasoian famili andiak ginean danok, eta esate baterako amar urtetik berakoak, limosna bila etxerik etxe.

10.  1991-1999  Sailkatu gabeak  Egunkariak  Euskadi Inf 1999 00005 Irungo lurretan hasitako sute batek arriskuan jarri zituen bertako zenbait baserri eta etxe.

Adibide guztiak ikusteko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Eta azkenik, esaldiaren tartean bilatzerakoan, ez da emaitzik ageri, izan ere, hitz bat baino gehiago idatzi behar dira koma bidez banatuak emaitzen bat lortu ahal izateko.

  • 4. aukera

Corpus honek bilaketak ordenatuta edo ordenatu gabe egiteko baliabideak ere eskaintzen ditu. Horretarako egin beharrekoa, “Ordenatuta” jartzen duen laukitxoan klikatzea izango litzateke eta kontrako bilaketa egiteko, “Ordenatu gabe” dakarren laukitxoan klikatzea.

  • 5. aukera

Beste baliabide bat idatzitako hitza garbitzeko aukera ematen duela da. Honetarako ere, “Garbitu” jartzen duen laukitxoa dugu eta hor klikatzeaz batera, lehenago bilaketa egiteko idatzitako hitza garbitu egingo da hitz berria idazteko laukitxoa garbi utziz.

  • 6. aukera

Aukera bezala jarri ditugun adibideetan “Epea“, “Euskalkia” eta “Testu-mota” aukeretan guztia da guk markatuta eduki duguna, baina aukera gehiago daude. Bilaketak epe baten barruan egitea ere ahalbidetzen du corpus honek. Ezkerreko lehenengo laukian urte tarte batzuk ageri dira eta horietako batean klikatuz, bilaketa zehatzago bat egitea ahalbidetzen du. Honez gain, lauki honen beheko aldean beste bat dago eta hemen euskalkia zehazteka ahalbidetzen da eta azkenik, hirugarren laukiak testu-motak zehazteko aukera ematen du, hala nola, testu artikuluak, saio-liburuak… etab.

2. ADITZ BATEN BILAKETA

Jakin aditza aukeratu dugu bilaketa hau egiteko eta aurreko izenarekin konparatzeko.

  • 1. aukera

Lema moduan bilaketa eginez hauek dira jasotako emaitza batzuk:

1.  1900-1939  Bizkaiera  Saio-artikuluak  Eguzk ItzBik 0595 Erronkarin-edo izan ezik (eta an be -d-, -r- ala besterik dan ziur ez dakigu) euskal-itzen amayan -d- rik ez datorr: -t, ostera, sarritan: augaitik euskaldunak, euren aboskiñen azturari jarraituaz beste barik, azken gediña kendu ezkero, gelditzen ziran -d oro -t izatera itzuli ebezan.

2.  1900-1939  Bizkaiera  Literatur prosa  E. Bengoa 0003 Oiñ kontu gero zeure berbakin; gaurko arratsaldian da gabian, eta biyer, etzi ta etzigaramon itz eztitsuak eta atsegiñez betiak baño ezin esan leizela biarbada zuek eztozue jakingo-ta.

3.  1900-1939  Bizkaiera  Administrazio-idazkiak  Jauparijak 0008 c) Bere GUDAL-JAUPARIEN aldentzeko baimenak jakin bear dauz, geiegi ugaritu ezdaitezan, eta beti, aldendu danaren ordezkoa jarriaz.

4.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0025 <head>¡JAKIN BANEU..!</head>.

5.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0027 Ainbeste adiskide daukadaz, alkarregaz, neuk jakin barik, aide edo senide diranak, ze….

6.  1900-1939  Bizkaiera  Saio-artikuluak  JBDei 1923 0097 – Gizona! Nondik nora ezer be jakin barik, griego edo ijito usaña susmaten neutzen nik.

7.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0058 Arrantza-salletan beste edozeñek baño geyago edo-daki.

8.  1900-1939  Bizkaiera  Literatur prosa  BAizk Ipuin 0083 ¿Zelan ixan leike ori, bere atteak euzkeraz ekijan-eta?.

9.  1900-1939  Bizkaiera  Saio-artikuluak  Euzkadi 1908 0080 Ez dakit onddiño selango azazkundia emongo dautsedan idazkun onei, baña beti ixango dira, bilddurr barik, Euzkadi-mattetasunaren inddarrez neure buruban sorrtu ta errniak.

10.  1900-1939  Bizkaiera  Saio-liburuak  Eguzk GizAuz 0130 An naste-borraste andia dabillela badakigu-ta, gizartekeri ta baltsakeria be nastean dabiltzala esango neuke.

Gainontzeko adibideak ikusteko hemen klikatu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 2. aukera

Testu-hitza(k)” moduan bilatzerakoan, hauek izan dira lortutako emaitzak:

1.  1900-1939  Bizkaiera  Administrazio-idazkiak  Jauparijak 0008 c) Bere GUDAL-JAUPARIEN aldentzeko baimenak jakin bear dauz, geiegi ugaritu ezdaitezan, eta beti, aldendu danaren ordezkoa jarriaz.

2.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0025 <head>¡JAKIN BANEU..!</head>.

3.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0027 Ainbeste adiskide daukadaz, alkarregaz, neuk jakin barik, aide edo senide diranak, ze….

4.  1900-1939  Bizkaiera  Saio-artikuluak  JBDei 1923 0097 – Gizona! Nondik nora ezer be jakin barik, griego edo ijito usaña susmaten neutzen nik.

5.  1900-1939  Bizkaiera  Saio-artikuluak  A. Urrutia 0147 Eztakizu zelako poza arrtu dodan euzkeraz autorrtuten dozula jakin dodanian.

6.  1900-1939  Bizkaiera  Literatur prosa  Ibarg 0036 Baña jakin ez dauana, neke edo zigorra dagokion zerbait egiñarren be, ez da ain zigorrtua izango. (Luk. XIII-17).

7.  1900-1939  Bizkaiera  Literatur prosa  Echta JayM 0145 Agaton, oneik berbok esaten eguanarte, bere emaste ta lagunak ito-biarrik egozan barreka, ta Amele’k erantzun eutsan: – ¿Nun jakin dok Hamburg’on ainbeste korkoch dagozana?.

8.  1900-1939  Bizkaiera  Literatur prosa  Echta JayM 0145 – ¿Nun jakin dodan? Onutz ekarri genduzan ontziko nagosiak esan yeustanan.

9.  1900-1939  Gipuzkera  Saio-artikuluak  EE 1914 0194 Bere lenbiziko maisutzat, beste donostiar asko jakin bat izan zuben: Bizente Manterola argidotarra.

10.  1900-1939  Gipuzkera  Saio-artikuluak  JAg 0018 Lenengo aldiz jakin zituanean A. Iñazio’k Gandia’ko Dukea’ren jesuita izateko asmo onak esan zuan: “Oraindik isillik gorde bearko degu berri au; ez dira bada gauza mundutarren belarriak orrelako otsaundi edo tumpadarik aditzeko”.

Emaitza guztiak ikusteko esteka hau jarraitu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

  • 3. aukera

Hasieran“, “Bukaeran” eta “Tartean” aukerak, adibide hauetan “Testu hitza(k)” izan da markatuta eduki duguna, baina “Lema(k)” aukeratuta ere egin daiteke. Bestalde, “Epea“, “Euskalkia” eta “Testu-mota” aukeretan guztia da markatuta eduki duguna. Esaldiaren hasieran jakin aditzaren bilaketa egiterakoan, askoz ere emaitza gutxiago agertzen dira. Hona hemen emaitza hauen adibide batzuk:

1.  1900-1939  Bizkaiera  Saio-artikuluak  Zam 0025 <head>¡JAKIN BANEU..!</head>.

2.  1900-1939  Gipuzkera  Saio-artikuluak  Inzag 0130 Jakin nai nuke nondik ote datozen emen bertan Zumaya’n: Txotxa-apaindu, Urtaingoa, Kaldes ta Tantanenekoa.

3.  1900-1939  Sailkatu gabeak  Egunkariak  El Día 1933 0001 Jakin dezala mundu guziak, nola garabizkiten.

4.  1900-1939  Sailkatu gabeak  Egunkariak  El Día 1931 0001 Jakin zazute gañera gorago aitatutako oyek, guztiyak itz egiteko errextasunik ez badute ere, idazteko beintzat idazle koxkor onek baño geyagokoa dutela.

5.  1940-1968  Gipuzkera  Saio-artikuluak  K. Enbeita 0076 <bibl>JAKIN</bibl>

6.  1940-1968  Gipuzkera  Saio-artikuluak  Vill 0178 Jakin beharrekoa dela uste dut Lafitte jaunak Euskaltzaindiko batzarre batean gogoratu zigun harako hura.

7.  1940-1968  Gipuzkera  Literatur prosa  Ugalde Iltz 0024 – Jakin al’dezu, Joxepa? -esan zion, aulki, Inaxi’k-.

8.  1940-1968  Sailkatu gabeak  Bertsoak  BerTxapel 1962 0049 Mattinek 
Jakin beauzu ni haur oiekin 
arras kontentu nagola, 
eta nai nuke luzaro bizi 
segur oino hola-hola, 
ta gero ere zabalduko da 
Mattin gaizoaren odola, 
eta hau berriz zertarako da 
fruitu gabeko arbola?.

9.  1969-1990  Gipuzkera  Saio-liburuak  A. Elustondo 0019 Jakin! Asko jakin! Gizon argien otsa entzun.

10.  1969-1990  Gipuzkera  Antzerkia  Onaind 0092 – Jakin nahi nuke, ba!.

Adibide guztiak ikusteko hemen sakatu: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Esaldiaren bukaeran aditz hau bilatzerakoan, hurrengoak dira agertutako emaitza batzuk:

1.  1900-1939  Lapurtera-Nafarrera  Saio-artikuluak  Zerb Metsiko 0054 Ez da harritzeko: hamabi kilometra ondo… eta iherika guk ez jakin!.

2.  1900-1939  Sailkatu gabeak  Aldizkariak  Eskual 1904 0001 Aberats okhitu handi zenbeit othe zen, ala segurrago ez hango berekoa; gu bezala hura ere arrotza othe? Ez jakin.

3.  1940-1968  Gipuzkera  Saio-artikuluak  Jaunaren Deia 1965 0054 Jainkoak agertu ezik, gizonak ezin du bere indarrez txirotasunaren barne-muña soilki jakin.

4.  1940-1968  Bizkaiera  Saio-artikuluak  C. Jemein 0052 Nik askori itandu dautset eta erantzuten eztabe jakin.

5.  1940-1968  Gipuzkera  Saio-artikuluak  K. Enbeita 0076 <bibl>JAKIN</bibl>

6.  1940-1968  Gipuzkera  Saio-artikuluak  Lfn 0003 Bestalde, olako lanen egiteko, bear da zerbaitetaraño euskeraz mintzatzen eta izkiriatzen jakin.

7.  1940-1968  Gipuzkera  Literatur prosa  Gure mixioak 0012 Nola jakin?

8.  1969-1990  Gipuzkera  Saio-artikuluak  Onaind 0060 Ikasi ezik, nola jakin?.

9.  1969-1990  Gipuzkera  Saio-liburuak  A. Arrinda 0105 – Ilko ote dute…? – Ez ba jakin….

10.  1969-1990  Gipuzkera  Literatur prosa  B. Latiegi 0224 Gauza bat bakarrik nai du Luter`ek: salbatuko dala seguru jakin.

Emaitza guztiak ikusteko: http://www.euskaracorpusa.net/XXmendea/Konts_arrunta_fr.html

Azkenik, hitz biren artean aditz honen bilaketa egiterakoan ere, hitz bi bilatu beharko lirateke komen bidez banaturik aurreko kasuan gertatu den bezala.

Hona hemen ondorioei dagokienez esan beharreko gauza batzuk: Corpeusek emaitzak ematerakoan grafikoa eta hitzen testuingurua batera ematen digu, eta horrek ulermenari lagun diezaioke; Euskararen Corpusak, ordea, hitzen testuingurua besterik ez digu ematen. Bestalde, Euskararen Corpusak ez du hitzen kategoriaren bereizketarik egitea ahalbidetzen, eta era berean, bakarrik “Testu-hitza(k) sakatzen badugu agertuko zaigu hitza bere horretan; Corpeusean, ordea, forma sakatuz gero, emaitzetan hitza bere horretan emango zaigu, eta ez da zertan testu-hitz izan behar.  Corpeusak daukan beste gauza on bat etengabe berritzen dela da, izan ere, internet da erabiltzen duen baliabidea, Euskararen Corpusak, ordea, ez du zertan aldaketarik eduki behar, izan ere, XX. mendeko testuen gaineko corpusa da, eta jadanik XXI. mendean gaude.

Euskararen Corpusak bilaketak egiterakoan zehatzagoak izatea ahalbidetzen digu; izan ere, bilatu nahi dugun hitza, testuaren hasieran, bukaeran edo tartean topatzeko eska diezaiokegu. Era berean, hainbat hitz konbinatuta bilatzea ere posible da corpus honetan, eta hori ez dauka Corpeusek. Honez gain, epea, euskalkia eta testu-mota zehaztu nahi badugu, egin dezakegu, eta horrek bilaketa zehatzagoak egitea posible egingo luke.

Honez gain esan behar dugu, guk egindako bilaketak “Bilaketa arrunta” moduan egin ditugula, baina garrantzitsua da azpimarratzea, hiztegi biek ahalbidetzen dutela bilaketa askoz ere zehatzago bat egitea “Bilaketa aurreratua”ren bitartez. Gure ustez corpus biak dira onak, egin beharreko gauza bakarra gure nahien arabera bata edo bestea aukeratzea da, biak izan daitezke egoki egin nahi dugun bilaketa motaren arabera.

Iturriak:

Egileak: Ainhoa Causo, Jone Flores eta Leire Zamalloa

GOTZON GARATEREN ATSOTITZAK (taldeko lana)

Egileak: Irati Garaioa, Idoia Ibarluzea eta Amaia Navarro

 

Sarrera

Gotzon Garatek (1934-2008) egindako bilketa-lan honetan 27.000tik gora atsotitz aurki ditzakegu lau hizkuntza desberdinetan: euskara, gaztelania, ingelesa eta latina. Atsotitz-bilduma hau egiteko Gotzon Garate 30 urtez Euskal Herriko hainbat baserritan bildutako informazioaz baliatu da, eta Bilbao Bizkaia Kutxa Fundazioaren laguntzari esker argitara eman zuen 1998.urtean. Corpus hau Interneten eskuragarri daukagu orrialde honetan: http://www.ametza.com/bbk/htdocs/hasiera.htm 

  

Euskarari eta euskal kulturari egindako ekarpena

Atsotitzen corpus hau aurki dezakegun atsotitz bildumarik onenetarikoa eta osoena da era ukaezin batean aberasten baitu euskera eta honen ezagutza. Gotzon Garateren hitzetan: “Atsotitzak oso onak dira gure hizkuntza eta kultura ezagutzeko”. Azken batez, lexikoa ez ezik, esaldi osoak ere badaudelako, bizitza osoan euskaraz hitz egin izan dutenek esandakoak. Lehen esan dugun bezala, Gotzon Garate 30 urtez ibili zen baserriz baserri corpus hau osatzeko atsotitzak biltzen. Horregatik diogu bildumarik oneneratikoa eta errepikaezina dela, gaur egun gero eta gazte gutxiago bizi direlako baserrietan eta beraz, gero eta atsotitz gutxiago dakitelako.

  

Atsotitzen sailkapena

Esan bezala, lau hizkuntzatan agertzen zaizkigu corpus honetako atsotitzak. Euskarazko atsotitzak 14.458 dira, eta gehienak zazpi probintzietako 23 baserritan bildu dira. Euskal atsotitz hauen gaztelaniazko, ingelesezko eta latinezko ordainak agertzen zaizkigu. Gauza bera gertatzen da beste hizkuntzetako atsotitzekin: gaztelaniaz 5.208 esaera zahar daude eta hauek beste hizkuntzetan zelan esaten diren aurki dezakegu; eta sail hau osatuena eta garrantzitsuena da euskal atsotitzekin batera. Ingelesez, 4.045 atsotitz eta latinez 3.462 atsotitz daude, eta hauen baliokideak ere agertzen dira beste hiru hizkuntzetan. Hau guztia era argiago batean ikusiko dugu esaera zahar batzuen adibideak ematean.

Hala ere, ez dira agertzen frantsesezko atsotitzak, eta liburuaren sarreran honen azalpena ematen zaigu: “Frantsesez ez. Zergatik? Gure Iparraldeko haurrideek lan hori hobeki egingo dutelako, nire aldean frantsesez hobeki baitakite“.

 

Atsotitzek biltzen dituzten eremuak

Atsotitzen corpus honetan hauexek dira lantzen diren eremu esanguratsuenak:

  • Animalien eremu semantikoak leku handia hartzen du corpus honetan. Zakurren, ardien, zerrien, astoen, azerien gainean esandako atsotitzak aurki ditzakegu. Esaterako: “Edonon dauz txakurrek agiñek zabalik”.
  • Euskal Herriko ohiturei buruzko atsotitzak: zerri-hiltzea, euskal ezkontzak, etab. Hau da, “San Antonio, jentia ezkontzeko beti pronto”.
  • Euskal Herriaren filosofia eta morala. Adibidez: “Filosofia baiño, oillozopia obe”
  • Euskal gizarteari buruzko informazioa ere ematen digute atsotitzek; hala nola, familia, lana, erlijioa. Hala nola, “Familia, erriaren mintegia” eta “Ama Birjiñia martxoko, ni mendian gaillurrerako”.
  • Mitologia eta naturarekin lotutako siniskerak ditugu. Esate baterako, “Sustraiak barrenago, zuhaitzak gorago”.
  • Otoitzak, sorginkeriaren gaineko atsotitzak, Euskal Herriko jaiak eta arbasoengandik jaso ditugun ipuinak. Hots, “Zelako gizona, alako otoitza” eta “Sorginak sasien gainetik eta odeien azpitik”.
  • Folklorea eta etnologiari buruzkoak ere badira, herriaren antzinateko uste, jokamolde eta tradizioak azaltzen dituztenak.

 

Corpusaren funtzionamendua

Corpus hau nola funtzionatzen duen azalduko dizuegu orain eman beharreko pausu guztiak banan-banan azalduz.

1. Behin orrialde honetan gaudela (http://www.ametza.com/bbk/htdocs/hasiera.htm) goiko aldean agertzen den kontsulta botoia klikatu behar da.

2. Ondoren, bilatu nahi dugun hitza jartzeko aukera daukagu. Gainera, hitz bat baino gehiago kontsulta dezakegu. Kontuan hartu beharrekoa da hitzak mugagabean idatzi behar direla; hau da, zuhaitz eta ez zuhaitza, eta ireki eta ez irekitzeko.

3. Hurrengo pausua hitzaren kontsulta egitea da. Gure kasuan, eguzki hitza daramaten atsotitzak zeintzuk diren ikusi nahi dugu. 74 atsotitz agertzen dira zerrendatuta, eta irudi honetan lehenengo hamarrak ikus daitezke.

 

4. Atsotitz bakoitzaren baliokidea beste hiru hizkuntzetan ikusi ahal izateko, nahikoa da atsotitz bakoitzaren ezkerretara dagoen gezia klikatzea. Hau egitean, eskuineko aldean agertuko zaizkigu baliokideak euskaraz, gaztelaniaz eta latinez. Hala ere, gerta daiteke atsotitz batek baliokiderik ez izatea. Guk aukeratu dugun atsotitza hau da: “han ere ogia ez da eguzkitan erretzen”.

Ikus daitekeen bezala, aukeratu dugun atsotitz honek ez dauka baliokiderik. Gaztelaniaren kasuan, berriz, hiru; ingelesaren kasuan, bost eta latinez bakarra.

Prozesu hau berriro egingo dugu baina gaztelaniazko bilatzailearekin. Oraingo honetan vergüenza hitza jarri dugu bilatzailean eta hamahiru atsotitz agertu zaizkigu, eta baliokideak ikusteko guk atsotitz hau aukeratu dugu: “Quien tiene vergüenza, ni come ni almuerza”.

Ikus dezakegunez, atsotitz honek euskarazko bederatzi baliokide ditu eta gaztelaniazko beste hiru. Latinaren eta ingelesaren kasuan, aldiz, ez du kidekorik.

Bibliografia