Google Translate

There are dozens of machine translators on the web, but probably none of them is as used as Google Translate. This does not necessarily mean that this machine translation is the best one created, but it is a good choice for someone who is looking for a free translator. Of course, we should always bear in mind that a machine is never as precise  as a human, so we can never totally rely on the translation given. There are always quite a lot of mistakes, especially in long sentences and texts.

To begin with this article,  I think it is quite interesting to know a little bit more about machine translation, so before continuing reading, you should take a look at this article I wrote some time ago. As I assume that you already know a little bit about machine translation, I will start talking about Google Translate.

Continue reading

Advertisements

REVIEW: Google Translate

GOOGLE TRANSLATOR

In this review, I will make a detailed description of one of the most famous online translators in Internet, that is to say Google translator. Then, we will compare it with other three translators: Yahoo Babel Fish and Reverso.

Google Translate is a language resource which is able to translate texts, web pages and documents into different languages. This online linguistic tool appeared on 2006 and it is one of the most used translators around the world. It was created by Google Inc. There are two versions available of Google Translate.  The first one was designed for iPhone users in 2008 and this translator cover about 23 different languages. Then, the second one was developed as an Android version which was divided mainly into two options: “ SMS translation” and “History”.

The incorporation of languages available in the translators was progressive. There were 23 stages. The first combinations were English- French, English- German, and English- Spanish. Nowadays it is possible to find a different translation for the word.

METHODOLOGY

The method used by Google Translator is statistical method translation.  This statistical method translation was created due to a bilingual text corpus which contained about a million words. In addition, a second corpora of a billion words is incorporated in the statistical method and the technology which supports this translation tool is SYSTRAN.

USING THE TRANSLATOR

The use of Google Translator is very easy. To start with, we have to choose the languages we want to work with. There are 52. Then we have to paste the text we have chosen to translate and paste on the box. Once we have done it, we press the button “translate” we wait until the translation appears on an open window with the translated version. If we want to translate a document, we simply press the option “translate a document”. It will appear a box with the option “examinar”. Then we have to choose the document and automatically the translator will do its job.

TRANSLATING DIFFERENT TYPES OF TEXTS

When we are working with an online translator, we have to take into account that as an automatic tool it has its advantages as for instance: speed and an easy use when we want to work with a text. However, as it is not a human translation, usually the translations of the original texts are far from being precise, accurate and above they are characterized by a lack of naturalness and coherence.

In order to check the competence of the translator, we have decided to translate two texts of different nature. The first one is a literary text, particularly a poem, in this case a sonnet written by William Shakespeare in 1609. The title of the poem is “ Shall I compare thee to a summer’s day?”. In the next slides we can see the original text, the translated version and my own translation.

LITERARY TEXT

ORIGINAL TEXT

SONNET 18

Shall I compare thee to a summer’s day?
Thou art more lovely and more temperate:              
Rough winds do shake the darling buds of May,
And summer’s lease hath all too short a date:
Sometime too hot the eye of heaven shines,
And often is his gold complexion dimm’d;
And every fair from fair sometime declines,
By chance or nature’s changing course untrimm’d;
But thy eternal summer shall not fade
Nor lose possession of that fair thou owest;
Nor shall Death brag thou wander’st in his shade,
When in eternal lines to time thou growest:
So long as men can breathe or eyes can see,
So long lives this and this gives life to thee.

TRANSLATED VERSION

Voy a compararte con un día de verano?
Tú eres más hermoso y más templado de arte:
Vientos ásperos agitan los capullos favorito de mayo,
Y el arrendamiento de verano tiene todo demasiado corta una fecha:
En algún momento muy caliente el ojo del cielo brilla,
Y a menudo es su tez de oro dimm’d;
Y todas las ferias de la disminución razonable en algún momento,
Por casualidad o cambiando el rumbo de la naturaleza untrimm’d;
Pero tu eterno verano no se marchitará
Tampoco pierde la posesión de ese owest eres justo;
Tampoco se aplicará la Muerte jactarse wander’st tú en su sombra,
Cuando en las líneas eterna a growest tú tiempo:
Mientras los hombres pueden respirar o los ojos pueden ver,
En tanto esta vida y esto le da vida a ti.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Due to the automatic nature of the translator, there is a group of errors which are repeated along the poem. When we are working with a translation tool, we have to keep in mind that it will never be the same as a human translation. In addition, it is not the same to translate a short text with easy grammatical structures and phrases than translating a long text with rhetorical figures. In this particular case, I have chosen a poem from the 15th– 16th century to prove the limitations that translators like Google Translate offer. We have to consider that languages evolve and this particular translator we are commenting on, was created in 2009 so the translation is going to be difficult. In the Basically the main mistakes made by the translator were:

Lack of translation of certain words. Probably the main reason to these mistakes was the “apostrophe”. In Spanish, “apostrophes” do not exist, so it is probable that MT is not able to recognize the words in Spanish, so it is impossible to translate them. We are talking for instance about words like “dimm´d”, “untrimm´d”, “wander’st”.

Word order. Long sentences tend to be translated in a wrong way. For example “And summer’s lease hath all too short a date” or “And every fair from fair sometime declines” which have been changed due to the leghtening of the sentences if we compare Spanish (long sentences) versus English (short sentences). In addition, we have to take in mind that the text translated is poetry so the work done by the translator is more difficult even.

Punctuation. This translator has not made many errors of punctuation. However, we can tell one which is meaningful. This is the case of the interrogative sign, which in English only appears one in opposition to Spanish which is used twice. For example, we have: “Shall I compare thee to a summer’s day? Which appears as “Voy a compararte con un día de verano?

Lack of natural language. Although the text translated is a literary text, the tone and the lexicon used is not appropriate, especially the word order.

The other text we have chosen is a journalistic text. We have decided to select this kind of text to compare the translation given by Google Translate according to the nature of texts. The text we have chosen is an article entitled:  from the magazine HELLO! written in English entitled: “Pippa Middleton unwinds with former friend in Madrid”. I have also provided the translated text and my own version:

PERIODISTIC TEXT

ORIGINAL TEXT

Pippa Middleton unwinds with former flame in Madrid

16 MAY 2011

After her starring role in the wedding of the century, it was a well-deserved break.

While her newly-married sister jetted off the to the Seychelles for her honeymoon, Pippa Middleton flew to Madrid for some downtime with a group of friends that included former flame George Percy, the heir to the Duke of Northumberland.

Escaping the media frenzy surrounding her since the big day, the brunette beauty relaxed in the capital’s biggest park – the Retiro.

And she took to the water for a boat trip with the eligible aristocrat, whom she dated whilst at Edinburgh University.

But it was not all rest for party girl Pippa, who was keen to sample some of the Spanish city’s nightlife.
She partied in one of the most exclusive nightclubs, Fortuny, where she was spotted with a bottle of champagne in her bag.

And there was no let-up for the party planner the following evening, as she enjoyed an evening at swanky bar The Penthouse, dressed to the nines in a beige peplum skirt and fitted black blazer.

When the 26-year-old emerged the next day, she sported sunglasses as she made her way around the tourist sights with the group.

Pippa and George were flatmates in Edinburgh whilst they were in a relationship, and the pair have been friends for nearly ten years.

Her current boyfriend, broker Alex Loudon, stayed in Britain during her trip.

TRANSLATED VERSION

 Pippa Middleton se desenvuelve con la llama antigua en Madrid
16 MAY 2011
 
Después de su papel protagónico en la boda del siglo, fue un bien merecido descanso.

Mientras que su hermana recién casados ​​de hidromasaje de la de las Seychelles para su luna de miel, Pippa Middleton viajó a Madrid para un tiempo de inactividad con un grupo de amigos que incluyó al ex la llama George Percy, el heredero del duque de Northumberland.
Escapar de la histeria mediática que rodea a su puesto el gran día, la belleza morena relajado en el mayor parque de la capital – el Retiro.

Y se llevó al agua para un viaje en barco con el aristócrata elegibles, a quien de fecha, mientras que la Universidad de Edimburgo.
Pero no todo fue descanso para chica fiestera Pippa, que estaba dispuesto a probar algunos de la vida nocturna de la ciudad española.

Ella fiesta en una de las discotecas más exclusivas, Fortuny, donde fue visto con una botella de champán en su bolso.

Y no había tregua para el planificador del partido la noche siguiente, mientras disfrutaba de una tarde en el bar chic El Penthouse, vestido de punta en blanco con una falda peplum beige y blazer negro puesto.

Cuando el jugador de 26 años de edad, salió el día siguiente, ella lucía gafas de sol como hizo su camino alrededor de los lugares de interés turístico con el grupo.

Pippa y George fueron compañeros de piso en Edimburgo, mientras se encontraban en una relación, y los dos han sido amigos durante casi diez años.
Su actual novio, el corredor Alex Loudon, una estancia en Gran Bretaña durante su viaje.

MY OWN VERSION

 Pippa Middleton se relaja en Madrid con su nuevo novio en Madrid

Mientras que su hermana recién casada volaba rumbo a las Seychelles para disfrutar de su luna de miel, Pippa Middleton volaba hacia Madrid por unos días de descanso con un grupo de amigos entre los que se incluía su antiguo novio, el heredero del ducado de Northumberland.

Tratando de escapar de la hysteria de los medios de comunicación que la perseguian desde el gran día, la belleza morena se relajó en el parque más grande de la capital, El Retiro.

Y se metió en el agua durante un viaje en barca con el aristócrata casadero con el que estuvo saliendo mientras estaba en la Universidad de Edimburgo.

Sin embargo, no todo fue descanso para la fiestera Pippa, quién estaba deseosa de disfrutar de la fiesta nocturna de España.

Disfrutó de la fiesta en uno de los clubs más exclusivas, llamado “Fortuny”, donde se la pudo ver con una botella de champán en su bolso.

Y no hubo ninguna interrupción para la planificadora de la fiesta a la tarde siguiente, ya que se divirtió en el bar pijo “The Penthouse” vestida de punta en blanco con una falda plisada beige y una americana negra que le quedaba como a un guante.

Al día siguiente, cuando la chica de 26 de años apareció llevaba puestas unas gafas de sol para disfrutar de las vistas con el resto del grupo.

Pippa y George fueron compañeros de piso en Edimburgo mientras que fueron novios y la pareja ha seguido siendo amiga desde hace diez años.

Su actual novio, el bróker Alex Loudon, se quedó en Gran Bretaña durante el viaje.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Lack of agreement. In the text translated there is a problem with agreement, maybe due to the fact, that in English there are no visible marks which express agreement in gender and number except in the third person singular present. Even though, in third person singular the “s” does not indicate if we are talking about a woman or a man.  We find many exampleslike “While her newly-married sister jetted off the to the Seychelles” translated as “Mientras que su hermana recién casados” o “the brunette beauty relaxed in the capital’s biggest park” translated as “la belleza morena relajado en el mayor parque de la ciudad”

Confusion between categories. The translator does not recognize words which can be used in two categories. For instance, verbs and nouns. That is the case of the word “party” in “she partied in one of the most exclusive nightclubs” translated as “ella fiesta en uno de los clubs nocturnes más exclusivos”

False friends. The translator has not made a good translation of some words like the adjective “eligible”. In English, the sense of the adjective eligible is ”somebody wealthy”, “a good person to marry with” . However, “eligible” in Spanish means “somebody who can be chosen”.

Problems with the translations of compounds and adjectives. The translator does not make a good job when it has to translate compounds. For instance, “party planner” which means “somebody who loves parties” is translated as “el jugador”.

Punctuation. In Spanish, “dashes” are only used when we want to reproduce a direct speech or a dialogue written. In English, they use a  dash in the place of a “comma” so maybe the translator has not been able to reproduce it. For instance, “the capital’s biggest park”- the Retiro” translated as “el mayor parque de la capital- el Retiro”

Lack of certain words: The translator has not been able to translate some words like “peplum”. In addition, proper nouns like “The Penthouse” or “Fortuny” do not appear translated

REVERSO

Reverso is an online free translator which can be only used to translate short texts.In the same webpage there is a dictionary and a conjugation tool. This translator tool uses Reverso Intrenet which has been developed by PROjectMT and Softtisimo. The Reverso translator is a very useful tool for instance, to look for words when somebody receives an e-mail instead of using dictionaries or to eliminate the barriers of language when we are abroad

Reverso online translator offers several language to work with.Basically the most used are the following combinations:  English- Spanish, Espanish- English, French- Spanish, Spanish- French, Spanish- German, German- Spanish, Portuguese – Spanish, English- Japanese,  Rusian- Spanish etc .

How to translate a short text?

 In order to translate we have to follow three different steps. Firstly, we have to  paste the text on the translation box and then we choose the language in which we want to translate the text. Once we have made our choice, we press the button “TRANSLATE” and wait until a new window is open with the translation.

TRANSLATED VERSION

SONETO 18

¿Compararé thee hasta el día de un verano?

Thou arte más encantador y más templado:              

Vientos ásperos realmente sacuden los brotes queridos de mayo,

Y el arriendo del verano hath todo una fecha demasiado corta:

Algún día demasiado caliente el ojo de brillos de cielo,

Y a menudo es su tez de oro dimm’d;

Y cada feria de la feria algún día disminuye,

Por casualidad o el curso de cambio de la naturaleza untrimm’d;

Pero el verano thy eterno no se descolorará

Ni pierda la posesión de aquella feria thou owest;

Tampoco la Muerte se jactará thou wander’st en su sombra,

Cuando en líneas eternas a tiempo thou growest:

Mientras que los hombres pueden respirar o los ojos pueden ver,

Tan vidas largas esto y esto dan la vida a thee.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

 Personal Pronouns: Contrary to Google translate which has been able to translate pronouns from other century, Reverso has not translated personal pronouns. For instance, “thee” which means “you” in modern English, and “thou” in the following sentences: “Shall I compare thee with a summer’s day?” and “Thou art more lovely and more temperate” translated as ¿Compararé thee hasta un día de verano? And “Thou arte más encantador”.

Incorrect use of past subjunctive. This translator is not able to use the subjunctive in Spanish.In the poem there are several examples which show this problem, like for instance “So long as men can breathe or eyes can see” translated as “mientras que los hombres puedan respirar o los ojos puedan ver”.

Lack of agreement subject- verb. Reverso is not able to translate in a coherent way structures in which agreement is present. For instance, “So long lives this and this gives life to thee” translated as “tan vidas largas esto y esto dan la vida a thee”. “Esto” is a third person singular pronoun in Spanish so it should be followed by a verb in third person singular, not plural.

Problems with words which can be different categories.  Again we find problems with words which act as several categories like for instance “shine” which means “to glow”. In this case “the eye of heaven shines” is translated as “el ojo de brillos de cielo”. We have to assume that shines referring to the verb “to shine”

 TRANSLATED VERSION

Pippa Middleton desenrolla con la antigua llama en Madrid 16 MAYO 2011

Después de su papel estrellado en la boda del siglo, esto era una rotura bien merecida.

Mientras su hermana recién casada jetted del a las Seychelles para su luna de miel, Pippa Middleton voló a Madrid durante algún tiempo de inactividad con un grupo de los amigos que incluyeron la antigua llama Jorge Percy, el heredero del Duque de Northumberland.

Evitando el frenesí de medios de comunicación que la rodea desde el día grande, la belleza de morena relajada en el parque más grande de la capital – el Retiro.

Y ella tomó al agua para un viaje del barco con el aristócrata eligible, quien ella dató mientras en Edinburgo la Universidad.

Pero esto no era todo el resto para la muchacha de partido(parte) Pippa, que era penetrante para probar un poco de la vida nocturna de la ciudad española.

Ella celebró una fiesta en uno de los clubs de noche más exclusivos, Fortuny, donde ella fue manchada(descubierta) con una botella de champán en su bolsa.

Y no había ninguna calma para el planificador de partido(parte) la tarde siguiente, como ella disfrutó de una tarde en la barra de lujo

FAILURES AND PROBLEMS WITH THE TRANSLATOR

 Literal translation. The translator has used literal translation in some of the words as “date” which means “go out with somebody when you are in a relationship”. In Spanish, “datar” is accepted but now commonly used so it sounds a bit awkward in natural speech.

Use of brackets. This translator uses brackets to explain the meaning of some words which are not very clear. For instance, “she was spotted” translated as “ella fue manchada (descubierta) or “and there was not let-up for the party planner” as “y no había ninguna calma para el planificador de partido (parte).

Context of translation. The translator is not able to select the appropriate meaning of a certain word. It is necessary that a human brain participates in the process of translation, In this text, the word “flame” is used but not with the meaning of “llama” but with the definition of “boyfriend” or “lover”.  In this text, the mistake is made in “Pippa Middleton unwinds with former flame in Madrid” as “Pippa Middleton se relaja en Madrid con su nuevo novio”

Confusing translations and change of meaning. This translator tends to change the meaning of sentences and the tone of the context of the text. For instance, in the sentence “after her starring role” where “starring” means something positive, “somebody who has been seen as an important figure” is translated as “estrellado” which means quite the opposite, that is to say, “somebody who is not lucky”.

Misinterpretations of common expressions. In all languages there are certain expressions which are constructed in a particular way depending on their origin. For example, in the this text, the expression “and she took to the water for a boat trip” which means that “somebody has sailed in a boat” has been translated as “y ella tomo el agua” which in Spanish means to “drink water”

Yahoo Bable Fish

This translator is an online language resource which allows to translate short texts (150 characters) and web pages. SYSTRAN is the technologycal system upon which Yahoo Babel Fish is built. The languages of translation are for instance: French, German, Italian, English, Japanese etc

We select the languages we want to work with and then we paste the text in the box. Then we press the button “translate”.

TRANSLATED VERSION

Pippa Middleton desenrolla con la llama anterior en Madrid 16 de mayo de 2011 Después de su papel starring en la boda del siglo, era una rotura merecida. Mientras que su hermana nuevo-casada echó en chorro de a las Seychelles para su luna de miel, Pippa Middleton voló a Madrid para un cierto tiempo muerto con un grupo de amigos que incluyeron la llama anterior George Percy, el heredero al duque de Northumberland. Escapando el frenesí de los medios que la rodeaba desde el día grande, la belleza triguena se relajó en el capital’ el parque más grande de s – el Retiro. Y ella llevó el agua para un viaje del barco con el aristócrata elegible, que ella fechó mientras que en la universidad de Edimburgo. Pero no era todo el resto para la muchacha de partido Pippa, que era afilada muestrear algo del city’ español; vida nocturna de s. Ella partied en uno de los clubs nocturnos más exclusivos, Fortuny, donde la mancharon con una botella de champán en su bolso. Y no había descanso para el planificador del partido la tarde siguiente, pues ella disfrutó de una tarde en la barra ostentosa el ático, vestido a los nines en una falda amarillenta del peplum y una chaqueta negra cabida. Cuando emergieron los 26 años el next day, ella se divirtió las gafas de sol mientras que ella hizo su manera alrededor de las vistas turísticas con el grupo. Pippa y George eran flatmates en Edimburgo mientras que estaban en una relación, y los pares han sido amigos por casi diez años. Su novio actual, corredor Alex Loudon, permanecía en Gran Bretaña durante su viaje.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Lack of division into paragraphs. The translator makes its job as a block. The original text was divided into lines or small paragraphs but the translated versions is translated together.

Problems with the Saxon genitive. This translator is unable to translate the saxon genitive which is typical of English language in to Spanish. As a consequence, the text has not translated the following expression right: “some of the Spanish city’s nightlife”. The result has been “el capital parque más grande de s- el Retiro”.

Inappropriate translation of verbs. This translator has not done a good job because it has translated “she was spotted with a bottle of champagne in her bag”  which mean that “she was observed or seen while she had a bottle in her bag as “ donde la mancharon con una botella de champán” which means “to get dirty”

False friends. The same as Google Translate and Reverso translator has not made a good translation of some words like the adjective “eligible”. In English, the sense of the adjective eligible is ”somebody wealthy”, “a good person to marry with” . However, “eligible” in Spanish means “somebody who can be chosen”.

Lack of translations of certain words. The translator does not work with certain words as “the next day” which should be translated as “el próximo día” o “flatmates” as “compañeros de piso”.

TRANSLATED VERSION

SONETO 18 Compararé thee a un summer’ ¿día de s? Arte de mil más encantador y más templado: Los vientos ásperos sacuden los brotes queridos de mayo, Y summer’ hath del arriendo de s toda la fecha demasiado corta: Alguna vez demasiado caliente el ojo del cielo brilla, Y está a menudo su tez dimm’ del oro; d; Y cada feria de la feria de declinaciones alguna vez, Por casualidad o nature’ curso cambiante untrimm’ de s; d; Pero thy verano eterno no se descolorará Ni pierda la posesión de ese mil justo más owest; Ni mil wander’ del brag de la muerte; st en su cortina, cuando en las líneas eternas para medir el tiempo de mil más growest: Siempre y cuando los hombres pueden respirar o los ojos pueden ver, Tan las largas vidas esto y éste da vida al thee.

FAILURES AND PROBLEMS WITH THE TRANSLATOR

Problems with the Saxon genitive. Again as in the previous example “Shall I compare thee to a summer’s day?” as “Compararé thee a un summer ¿Día de s?.

Personal Pronouns: Contrary to Google translate which has been able to translate pronouns from other century, Reverso has not translated personal pronouns. For instance, “thee” which means “you” in modern English, “thou” and “thy”

Confusion of word categories. This translator has a problem with the translation of archaic forms like the verb “art” which in the 16th century was used as the 2nd person singular/plural in “Thou art more lovely and more temperate” because it has been translated as the noun “arte” in “Arte de mil encantador”

I have done an slideshare presentation with images which explains better my analysis:

IN CONCLUSION

Although, I am not an expert in the field of translations I think the three translators I have mentioned before offer great advantages and disadvantages. Undoubtedly, each of the translators is an automatic linguistic tool so we assume that they will probably be imperfect. As we have seen in the examples of the review, all of them show a lot of mistakes which can only be improved by the human brain. The object of our analysis, that is Google Translate, makes a lot of mistakes because it does not apply grammatical rules and change words which seem to be equivalent but they have a different meaning. However, if I had to choose one of the translators we have talked about, I think Google translator is the best. Basically, because the translation which offers can be understood as the mistakes made do not prevent from catch the general meaning. We have analysed both texts and the majority of problematic errors appeared in Yahoo Babel Fish and Reverso. These kinds of errors have made almost impossible for a person who does not have a sound knowledge of English to understand the version which came from the original text. This review shows why I have to this conclusion, with all the examples I have used

SOURCES

Google Translate

On the following lines, it will be analyzed one of the most succesful translators of this century-Google Translate. This translator is a free on-line statistical machine service owned by Google Inc that translates immediately a lot of different languages (57) such as Polish, German, Dutch, Spanish… However, it has to be said that some languages are better translated than others, in other words, some languages are supported by Google translate and others languages are called by the company “alpha languages”, this is to say that these languages have lower quality in their translations.

It is possible to translate long texts, but the system limits the number of paragraphs. Nevertheless, if the user wants to translate completely a website, Google Translate gives him or her the opportunity to use Google chrome which is a fast free browser that translates websites automatically in many languages. Not only does Google translate give you the opportunity to use Google chrome, but also other tools such as to the Google translated search (the information that you are searching probably will not be in your own language; the system searches the best contribution and translates it to your own language) or the iphone version which allows voice input.

The aim of this enterprise is “to make information universally accessible, regardless of the language in which it is written” That is why it has been improving since it started. Nowadays, it can be done many things that could not be done at the beginning. For example, in the first version, only English could be translated to some other languages, now it can be done the other way round. Moreover, it is also possible to have the romanization written for languages such as Chinese or Greek and, in the last version launched in January 2011, it is also possible to see different possible translations for a specific word. A good way that helps this translator to improve is that the user himself can increase the quality of translations by suggesting improvements or uploading his translations memories into Google Translate’s Translator Toolkit. Furthermore, the service itself asks the user sometimes alternate translations for technical terms.

But, how does this translator work? As it has been said, Google Translate is a Statistical Machine Translator (SMT) which is a way of translating texts completely different from the traditional rule-based translations. The rule-based machine translations were used some years ago and they applied the rules and grammars of the language that was being translated. However, Linguists knew that not all languages had the same rules (e.g the order of some languages is subject- verb-object but in others is verb- subject-object) that is why the translations were not very good.

Then, it began statistical machine translations where the computer looks for patterns in millions of documents. This documents had already been translated by human beings and thanks to them the computer can know more or less how the translation should be. However, the translations are not always perfect and the quality of them depends mainly on the number of documents that the computer can analyze to see patterns. That is why Google Translate can translate better, for example, German than Basque, it has more German documents than Basque Documents. Franz Josef Och is the main head in Google and he is in favour of Statistical machine translators. The documents that are available for the machine are taken from United Nations documents.

Finally, this way to translate texts has advantages. For instance, the quality is better than in rule-based translations, also, the translations are more natural and we have better use of resources. But, there are some disadvantages and problems with: sentence alignment, different word orders, compound words, idioms, morphology

Do not hesitate to see the following video that explains how SMT works . If you are interested in knowing more about the problems Google Translate has, you can see the portfolio I did commenting the main problems here: http://wiki.littera.deusto.es/en/index.php/User:1adcaden/trans0910/Portfolio


References:

Machine Translation: Google Translator

“Machine translation, sometimes referred to by the abbreviation MT, also called computer-aided translation, machine-aided human translation MAHT and interactive translation, is a sub-field of computational linguistics that investigates the use of computer software to translate text or speech from one natural language to another.” The aim of the Mt is to perform simple substitutions of words in one natural language for words in another. But only that is not possible for a good translation of a text. The reason is that the recognition of whole phrases and their closest counterparts in the target language is needed. To solve this problem nowadays corpus and statistical techniques is starting to be used, with this translation will improve. Current machine translation software often allows for customisation by domain or profession (such as weather reports), improving output by limiting the scope of allowable substitutions. This technique is particularly effective in domains where formal or formulaic language is used. It follows that machine translation of government and legal documents more readily produces usable output than conversation or less standardised text. Improved output quality can also be achieved by human intervention: for example, some systems are able to translate more accurately if the user has unambiguously identified which words in the text are names. With the assistance of these techniques, MT has proven useful as a tool to assist human translators and, in a very limited number of cases, can even produce output that can be used as is (e.g., weather reports). The progress and potential of machine translation has been debated much through its history. Since the 1950s, a number of scholars have questioned the possibility of achieving fully automatic machine translation of high quality.[1] Some critics claim that there are in-principle obstacles to automatizing the translation process. We have been using the google trasnlator for the translation class, and that is why I decided to write this post on it: Google says about their blog that: At Google, we consider translation a key part of making information universally accessible to everyone around the world. While we think Google translate, our automatic translation system, is pretty neat, sometimes machine translation could use a human touch. Yesterday, we launched Google Translator Toolkit, a powerful but easy-to-use editor that enables translators to bring that human touch to machine translation. For example, if an Arabic-speaking reader wants to translate a Wikipedia™ article into Arabic, she loads the article into Translator Toolkit, corrects the automatic translation, and clicks publish. By using Translator Toolkit’s bag of tools — translation search, bilingual dictionaries, and ratings, she translates and publishes the article faster and better into Arabic. The Translator Toolkit is integrated with Wikipedia, making it easy to publish translated articles. Best of all, our automatic translation system “learns” from her corrections, creating a virtuous cycle that can help translate content into 47 languages, or over 98% of the world’s Internet population. Taking that class on translation, one realises that it is one of the best machine translator (at least for English) but of course a knowleadge on the language you are working is needed. But why? Well, Altough it gives a general idea of the translation itself it is necessary to correct the text because the tranaltor is not able to recognize the subejct and sometimes it even confuses some terms. So if you have an idea of the language it is easy to correct them, but if not, if you are not able to see the mistakes the text is quite a disaster. Apart from that I have to say that using the translator is a firt step to end up with a profesional translator. It gives you the general idea, and from that it is possible to improve it. Resources:

Itzultzaile automatikoak (erdaratu.eu)

Naroa Perez eta Esti Blanco

Guk aztertuko dugun itzultzaile automatikoak “Erdaratu.eu” izena dauka. Orain dela gutxi sareratu zen eta apertium-eu-es sistema erabiltzen du, hortaz, euskaratik espainierarako Apertium plataforman oinarritutako itzultzaile automatiko librearen lehenengo bertsioa dugu: eta erdaratu.eu webgunean probatu daiteke.

Lehenik eta behin, proiektuari buruzko informazio orokorra eskainiko dugu, gure ustetan garrantzitsua baita honen funtzionamendua ulertzeko. Apertium-eu-es itzulpen automatiko proiektu handiago baten parte da: Apertium (www.apertium.org ) izeneko proiektuaren parte, hain zuzen. Apertium proiektuak, hizkuntza batetik bestera testuak itzultzeko softwarea garatzen du.

Azken hilabeteetan, Mireia Ginest aritu da Apertium-eu-es garatzen, Alacanteko Unibertsitateak, eta, batez ere, Prompsit Language Engineering (www.prompsit.com) enpresak finantzatuta. Prompsit-eko Sergio Ortizek eta Francis Tyersek eta Alacanteko Unibertsitateko Mikel Forcadak lagundu diote. Une honetan, apertium-eu-es itzulpen automatikoak gutxi gora behera 6.000 hitz eta 250 gramatika-arau dauzka. Hiztegiaren zati handi bat beste proiektu libre batetik hartua da, Matxin espainiera-euskara itzultzaile-prototipotik. Erregela guztiak Apertiumen idatzi dira.

Apertium-eu-es testu baten esanahi orokorrari buruzko ideia bat egiteko balio dezake (baldin eta sistemak hitz ezezagun gehiegi aurkitzen ez badu testuan).

Behin informazio hau eskaini eta gero, guk egindako proba ezberdinen berri emango dugu. Guk zenbait esaldi itzultzen saiatu ginen emaitzak zelangoak ziren ikusteko eta ondorengo emaitzak ikusi genituen:

– “nik ez dut pentsatzen bihar eguraldi ona egingo duenik”

– “Yo no pienso mañana el tiempo bueno hará que”

Hauek dira itzultzaileak ematen dituen emaitzak. Hitz ordena nabari ez zuzena dela jarraian ikus dezakegu, beraz, pentsa genezake sintaxiaren arazo bat daukala. “Pentsatzen” hitza “uste”rengatik aldatuz gero (nik ez dut uste bihar eguraldi ona egingo duenik) jartzen badugu hain zuzen ere, emaitzaren hitz ordena berdina izaten jarraituko du:

– Yo no tengo suposición mañana el tiempo bueno hará que

Eta “nik” beharrean “zuk” jarriz gero ere, emaitza berdina izango da baina “Tú no tienes suposición mañana el tiempo bueno hará que” jarriko du. Beraz, adibide honetako gure ondorioa da itzultzaileak badakiela izenordainak bereizten (ni eta zu bereizten baititu itzulpenean) eta bada gai era berean “pentsatzen” eta “uste” artean desberdintzeko, baina bi arazo daude:

1- Batetik itzultzaileak ez du ondo harrapatzen “uste”  hitzaren zentzua. Berak “tener suposición de” bezala itzultzen du eta hiztunarentzako “creer” zentzua dauka kasu horretan.

2- Hitz orden erratua. Hitzak gaztelerara ez ditu dagozkion lekuan kokatzen. Elementuak dauden horretan kokatzen ditu, ordena euskeraz ondorengoa da:

Izord (zuk) + ez + adlag (duzu) + adnag (uste) + denbora adond (bihar)+ izena (eguraldi) + izlag (ona) + adnag (egingo) + adilag (duenik).

eta gazteleraz ere, orden hori mantentzen du, baina gaztelerazko hurrenkera errespetatu barik hortaz.

Izord (tú) + no + adlag (tienes) + adnag (suposición) + denbora adond (mañana) + izena (tiempo) + izlag (buen) + adnag (hará)

Beste adibide bat jarriko dugu lehenengo bidetik jarraituz.

“Zuk uste duzu bihar eguraldi ona egingo duela?” Hau jarritakoan, lehenengo esaldia galdera bihurtu dugu eta itzulpena honakoa izan da: “Tú crees mañana el tiempo bueno hará ,?”. Adibide honetatik atera dezakegun ondorioa da “uste + izan” aditz osoa jarriz gero itzultzaileak harrapatzen duela aditz baten aurrean gaudela (creer) eta ez izen baten aurrean aurreko kasuan bezala (suposición), beraz, zerbait hobetu da egoera. Gainontzeko elementuek aldiz, orden ez egoki horretan mantentzen dira.

Gure ustetan, aurretiaz azaldutako guztia dela eta, itzultzaile hau erabilgarria izan daiteke batez ere euskara ikasten ari diren pertsonentzat, testuari zertaz ari den antzemateko, zehazki aztertu baino lehen eta euskaraz ez dakitenentzat, nahi izanez gero euskarazko komunikabideen albisteak ulertu ahal izateko

Apertium proiektua irekia denez (Apertium-en garatzen den software guztia GPL lizentzia librea du), era askotan lagundu dezakegu Apertium-eu-es hobetzeko. Honaino egindako aurrerapenei buruzko iruzkinak egiteko aukera dago eta bertsio berriak probatzen ere lagun diezaiekegu. Era beran, hiztegietan hitzak sar daitezke, eta gramatika-erregelak sortzen lagundu, irteeran hitz-ordena zuzenagoa lortzeko. Gure ustetan, hau da batez ere, itzultzaile honek eskaintzen duen abantailarik handiena, itxi ez denez etengabe hobetzen joateko aukera dago eta gainera, erabiltzaileari parte hartzeko eta amaierako produktuaren parte izateko aukera eskaintzen ere bai. Hau da gure ustetan etorkizuna izan beharko lukeena, software librearen eta jendearen asmo onez eta ekarpenez funtzionatuko duten proiektuak.

Google itzultzaile automatikoa

Google itzultzaile automatikoa Google Inc-ek erabilgarri jarritako software-a da, itzultzeko zerbitzu doain bat da eta momentuan, 58 hizkuntzatara egiten ditu itzulpenak. Sistema honekin, hitzak, esaldiak, dokumentuak eta web orrialdeak itzuli daitezke. Zure helburua testu bat beste hizkuntza batetan edukitzea bada, itzultzaile honekin posible duzu eta honez gain, beste hizkuntza batean dagoen testu batek zer dioen jakin nahi baduzu, testua itzultzailean kopiatu eta zeuk aukeratutako hizkuntzan irakurtzea besterik ez duzu. Google itzultzailearen helburua mundu guztiak informazioa edozein hizkuntzatan eskuragarri eta erabilgarri izatea da.

Google itzultzaileak funtzionatzeko modu berezi bat du. Itzulpen guztiak “Itzulpen automatiko estadistikoa” izendatzen den prozesua erabiltzen duten ordenagailuetatik datoz; hau da, itzulpenak sortzeko testu askotan topatzen diren patroietan oinarritzea da egiten dena. Google itzultzaileak erabiltzen duen metodoaren azalpena hurrengoa da: ordenagailuei hizkuntza guztien arau guztiak zeintzuk diren irakatsi beharrean, ordenagailuek haien kabuz horietaz jabetu daitezen uzten du. Horretarako, ordenagailuek gizakiek itzulitako milioika eta milioka dokumentu aztertzen dituzte; testu hauek liburuetatik, NBE (Nazio Batuen Erankundea) bezalako erakundeetatik eta mundu osoko web orrialdeetatik ateratzen dira. Ordenagailuek testu hauek aztertzen dituzte estadistikoki esanguratsuak diren patroien bila; hau da, itzulpenetan eta jatorrizko testuetan aurkitutako eta kasualitatezkoak ez diren patroien bila. Modu honetan, patroi bat topatzen denean, etorkizunean antzekoak diren testuak itzultzeko erabili daiteke. Prozesu hau milioika bider errepikatzen bada, milioka patroi izango ditugu, eta oso programa azkarra eta ona sortzen da. Arazoak sor daitezke, ordea, itzulpen asko ez daukaten hizkuntzekin; izan ere, kasu hauetan patroi askoz ere gutxiago topatzen dira, eta horrek itzulpenaren kalitatea txikiagoa izatea sor dezake. Googlek ekoizten dituen itzulpenak ez dira beti onak eta zehatzak, horregatik ari dira etengabe testu berriak sartzen, itzultzailearen kalitatea handitzeko.

ESKURAGARRI DAUDEN HIZKUNTZAK

Hizkuntzak etapa desberbinetan joan dira Google itzultzailean sartzen, eta gaur egun 58 hizkuntzetara itzultzeko gai da. Hona hemen momentu honetan aukeratzeko ditugun zenbait hizkuntza:

Afrikaans, Albaniera, Alemanera, Arabiarrera, Armeniera, Azerbaijani, Bielorrusiera, Bulgariera, katalanera, txekera, Txinera, Kroata, Danesera, Eslovaco, Esloveno, Gazteleraz, Estonieraz, Euskaraz, Finlandieraz, Frantsesera, Galesera, Gailegora, etab.

Hurrengo argazkian hizkuntza aukeratzerakoan agertzen zaigun laukia eta itzultzaileak hautatzeko proposatzen dituen hizkuntza guztiak ikus daitezke.

Hala ere, hizkuntza hauetako batzuk alfa fasean aurkitzen dira oraindik, hau da, froga fasean daude eta beraz ez daude guztiz garatuta. Hau dela eta, izan daiteke “alfa hizkuntzen” itzulpenen kalitatea, guztiz garatuta dauden hizkuntzen itzulpenen kalitatea baino txikiagoa izatea. “Alfa hizkuntzak” armenioa, azería, euskera, georgianoa, criollo haitianoa eta urdua dira.

ERABILERA

Itzultzailearen erabilera egokia eta ahal den neurrian hoberena egin ahal izateko zeinbait gauza izan behar ditugu kontuan, puntu hauek jarraituz gero itzultzailea ahalik eta hoberen erabiltzeko gai izango gara:

  • Hasteko, itzuli nahi dugun testua egokia dela ziurtatu behar dugu, horrela ez bada, dituen akatsak zuzentzea da egin beharrekoa, bestela, akats horiek itzulitako testuan ere agertuko dira.
  • Testua prest daukagunean, jakin beharrekoa da komeni dela ortografia akatsik ez egitea, bestela itzultzailea hitzez erratu daiteke eta guztiz aldatu daiteke testuingurua. Beharbada lortuko dugun emaitza ez da gaizki egongo, baina izan daiteke guk nahi duguna ez izatea.
  • Horretaz gain, puntuazio zeinuak erabiltzea beharrezkoa da, bestela itzulpena gaizki aterako da. Itzultzaileak ez du berdin lan egiten adibidez esaldi bukaeran puntua badago eta puntua falta bada.
  • Garrantzitsua den beste puntu bat esaldien luzeera da, izan ere, esaldiak gero eta luzeagoak eta konplexuagoak izanez gero itzulpena gero eta okerragoa izango da. Itzulitakoa zentzu guztietan ahalik eta egokiena izatea nahi badugu, esaldi laburrak eta sinpleak egitea da hoberena.
  • Honez gain, salbuezpen linguistikoak eta hizkera kolokialeko esamoldeak etab. sahiestea komenigarria da itzultzaileak testua ondo ulertu ahal izateko.
  • Itzulpena egin eta gero errepasoa egitea komeni da. Batzuetan Google-ek ezin du itzulpen egokia egin edo guk esaldiari eman nahi diogun zentzua eman. Hau gerta ez dadin, edo gertatuz gero, beharrezkoa da itzulitako testua berriz irakurtzea, horrela guk nahi ditugun zuzenketak egin ditzakegu.
  • Itzultzaileak dituen abantaila guztiez onura atera ahal izateko, jakin beharreko gauza da itzulitako testuko hitzetan kurtsorea jarriz gero hauek horiz azpimarratuta agertuko direla, eta hauetan klikatuz gero, itzultzaileak hitz horretarako eskuragarri dituen beste hainbat aukera proposatuko dizkigu. Modu horretan, guk beste aukera bat egin dezakegu itzultzaileak egin duena egokiena ez dela pentsatzen badugu.

Pausu hauek jarraituz gero itzulpenean nahi dugun emaitza lortzea errazagoa izango da.

ADIBIDEAK

Itzultzaile hau aztertzeko erabiliko ditugun hizkuntzak gaztelania eta euskera dira, eta euskera alfa fasean dagoenez gero, itzulpenak ez direla kalitate handikoak izango pentsatzen dugu, hori baita programak ematen digun oharra. Google itzultzaile automatikoa erabiltzean sor daitezkeen arazoak eta itzultzaileak egin ditzakeen akatsak ikusteko egiten dituen itzulpenen zeinbait adibide ikusiko ditugu. Horretarako egunkarietan azaltzen diren berrien itzulpenak egiteko eskatuko diogu, bai euskaratik gaztelariara, bai gaztelaniatik euskarara ere.

1. kasua

Testu hau El correo egunkaritik ateratako berri baten zati bat da, lehenengo kasu honetan gaztelaniaz dagoen berri bat jarriko dugu itzultzailean eta euskarara itzultzeko eskatuko diogu, hau da ondorioa:

Gaztelaniazko testua:

“El próximo viernes Kate (Catalina) Middleton (Reading, 29 años) se casará con el príncipe Guillermo (28) después de ocho años de noviazgo y una ruptura de tres meses. Ingresará oficialmente en la familia real británica, pero ella no nació con sangre azul. Como nuestra Princesa de Asturias, es plebeya, de una familia pudiente pero plebeya. A ninguna de las dos le enseñaron de cría a hacer la genuflexión, pero ahora se inclinan con una naturalidad mecánica. Y se hacen llamar Alteza. Lo de Kate y Letizia se acabó. Si acaso en privado, ese ámbito que para ellas casi ha dejado de existir.”

Google itzultzaileak egindako euskerazko itzulpena:

“Datorren ostiralean, Kate (Catherine) Middleton (irakurtzen, 29 urte) da Prince William (28) ezkontzeko datazio zortzi urte eta hiru hilabeteko etenaldi bat egin ondoren. Ofizialean errege British familia sartzen, baina ez zen zuen odol urdina jaio zen. Gure Asturiasko Printzesa, comunero, familia aberats baina comunero da honela. Ni bi hazkunderako de irakasten haren genuflect, baina orain mekanikoa naturala malda. Eta beraiek Highness deitzen diote. Kate eta Letizia Lo amaitu da. Pribatuetan ezer bada, azalera eta hau izan zen ia etengabe badago.”
Hasteko, esan behar dugu Googlek egindako euskarazko itzulpena bakarrik irakurriz gero ideia orokorra bakarrik hartuko genukeela, izan ere, itzulpena ez da batere ona eta testua ez da ondo ulertzen. Jar ditzagun arreta itzulpenean dauden zenbait akatsetan:
  • Itzultzean, normalean, euskarazko ordena ez duela errespetatzen esan beharra dago, hau da, kasu batzuetan, gaztelaniazko ordena jarraitzen du. Esaldi jakin batzuk orden egokiarekin itzultzeko gai dela pentsatzen dugu, batez ere, esaldi laburrak direnean, adibidez, “me llamo Mikel” “nire izena Mikel da” bezala itzultzen du. Baina beste adibide honetan, “he ido a casa”, “joan naiz etxera” bezala itzuli du, hau da, gaztelaniazko ordena jarraitu du.
  • Esan beharreko hurrengo gauza askotan ez duela deklinabiderik erabiltzen da. Esaldi laburretan deklinatzeko gai dela ikus dezakegu, “el próximo viernes” “datorren ostiralean” itzuli du. Esaldi luzeetan, ordea, esaldiaren haria galtzen duela ematen du eta normalean ez ditu hitzak deklinatzen, edo beste kasu marka batzuk jartzen dizkie. Adibidez, “pero ella no nació con sangre azul” esaldi luze baten parte izanik, “baina ez zen zuen odol urdina jaio zen” bezala itzuli du, eta beste akats batzuez gain, “odol urdinarekin” beharrean “odol urdina” utzi duela ikus daiteke, hau da, ez du hitza deklinatu.
  • Aurreko adibideaz baliatuz hurrengo puntura pasako gara, ezezko esaldiak ez ditu egoki itzultzen. “Pero ella no nació con sangre azul” adibidean, “baina ez zen zuen odol urdina jaio zen” itzuli du. Hau da, ez partikula ondo erabili du, baina aditzak kokatzerakoan ez du zelan egin jakin eta ezeztapenerako partikula jarri duen arren, esaldia baieztapena izango balitz bezala itzuli du “ez zen zuen” jartzeaz aparte bukaeran “jaio zen” berriro jarriz.
  • Honez gain, askotan itzultzaileak aditzekin arazoak dituela dirudi, izan ere, aurreko adibidean esan dugunaz gain aditzekin beste arazo batzuk ere topatu ditugu. Aditzak zein denboratan itzuli behar dituen ez dakiela ditudi, esaldi askotan aditz laguntzailea falta da, edo denbora ez dago ondo. Honen adibide batzuk: “se casará” “ezkontzeko” bezala itzuli du “ezkonduko da”-ren ordez, eta “ingresará” “sartzen” bezala itzuli du “sartuko da” jarri beharrean. Beste kasu batzuetan aditza jarri barik utzi du, esaterako: “pero ahora se inclinan con una naturalidad mecánica” “baina orain mekanikoa naturala malda” bezala itzuli du.
  • Lexikoari dagonionez ezagutzen ez dituen hitzak bere horretan uzten ditu edo beste hizkuntza batean ematen ditu, besteak beste: “príncipe” ingelesez eman du,”prince” “printze” jarri beharrean eta “alteza” ere “highness” bezala itzuli du “gorentasun” jarri beharrean.
  • Azkenik, itzultzaileak egiten duen beste akats bat testuinguruarekiko egokiak ez diren hitzak hautatzea da; hau da, hitza ondo itzultzen du, baina testuingurua ez du kontuan hartzen eta beraz, aukeratutako hitza, batzuetan, ez da egokia esaldian. Gure testuan honen adibidea ikus daiteke “ámbito” “azalera” bezala itzuli duen esaldian, eta kasu honetan besteak beste “eremu” izango litzateke hitz egokia.

2. kasua

Testu hau Berria egunkaritik ateratako berri baten zati bat da, kasu honetan euskaraz dagoen berri bat jarriko dugu itzultzailean eta gaztelaniara itzultzeko eskatuko diogu, hau da ondorioa:

Euskarazko testua:

“Azken urteotan hainbat arrantzale hil dira bai Euskal Herrian izandako istripuetan, bai euskal enpresa batentzat lanean ari zirela atzerrian gertatutako ezbeharretan. Iazko urrian, Santoñako (Kantabria, Espainia) Siempre al Alba itsasontziarentzat lan egiten zuen langile bat desagertu zen, Pasaiako kostatik zortzi miliara. Senegaldarra zen jatorriz. Iaz ere, urtarrilean, L’Epaulard arrasteontzia irauli egin zen Landetako uretan (Frantzia), Biscarrossetik hamabost kilometro ingurura. Lezoko (Gipuzkoa) 54 urteko arrantzale bat hil zen istripu hartan, eta beste lau arrantzale salbatu egin behar izan zituzten.”

Google itzultzaileak egindako gaztelaniazko itzulpena:

“En los últimos años algunos pescadores han muerto en accidentes en el País Vasco, la empresa vasca de trabajo de los accidentes ocurridos en el extranjero. En octubre del año pasado, de Santoña (Cantabria, España) siempre fue un trabajador que trabaje en buques Alba desapareció, a ocho millas de la costa de Pasajes. Origen senegalés. El año pasado en enero, L’arrastreros Epaulard volcar el agua en las Landas (Francia), kilómetros Biscarrossetik quince años. Lezo (Gipuzkoa), un pescador de 54 años murió en el accidente, y cuatro otros pescadores tuvieron que ser salvados.”

Hasteko, esan behar dugu itzulpen hau askoz ere hobea dela, eta bestea baino hobeto uler daitekeela jatorrizko testua aurrean ez badaukagu. Hala ere, akatsak badaude, ikus ditzagun zeintzuk diren horietako batzuk:

  • Hemen ikusten dugun akats nagusia aditzak ez direla jokatzen da, hau da, aditzak itzultzerakoan, batzuetan infinitiboan uzten dira, adibidez: “irauli egin zen” “volcar” bezala itzuli du “volcó” itzuli beharrean. Hau esaldi luze eta konplexuetan gertatzen da, baina honek normalean ez du ulermenaren kontra egiten gehienetan aditza jokatuta ez badago ere esaldia ulertzeko gai baikara.
  • Beste kasu batzuetan, aditzak, zuzenean ez dira itzultzen, esaterako, “senegaldarra zen jatorriz” esaldia “origen senegalés” itzuli du, “era” aditza ez da agertzen.
  • Bestalde, deklinatuta dauden hitzak beti ez ditu ondo itzultzen, kasu batzuetan ez ditu bereizten. Esate baterako, “euskal enpresa batentzat” “la empresa vasca” itzuli du, eta akats honek esaldiak zentzua galtzea dakar, hau baita itzulitakoa: “bai euskal enpresa batentzat lanean ari zirela atzerrian gertatutako ezbeharretan” = “la empresa vasca de trabajo de los accidentes ocurridos en el extranjero”. Beste adibide honetan zentzua guztiz aldatzen da: “Lezoko (Gipuzkoa) 54 urteko arrantzale bat hil zen istripu hartan” esaldia “Lezo (Gipuzkoa), un pescador de 54 años murió en el accidente” bezala itzuli da. Hemen “Lezo” deklinatuta agertzen zen eta itzulpenean ez da “de” preposizioa agertu, honen ordez, koma bat jarri da izenaren ostean eta ondorioz, “Lezo” pertsona baten izena izango balitz bezala itzuli da esaldia.
  • Beste kasu batzuetan bere horretan uzten ditu deklinatuta dauden hitzak, adibidez, “Biscarrossetik” bere horretan utzi du.
  • Sintaxiari dagokionez akatsen bat ere badago, besteak beste honako hau: “Santoñako (Kantabria, Espainia) Siempre al Alba itsasontziarentzat lan egiten zuen langile bat desagertu zen” esaldiaren itzulpena “de Santoña (Cantabria, España) siempre fue un trabajador que trabaje en buques Alba desapareció”izan da, eta guztiz okerra da, ordena ez da gorde eta esaldiak zentzua galdu du.
  • Lexikoari begirada bat emanez gero, hitzak nahiko ondo aukeratzen dituela esango genuke, baina kasu honetan oker bat egon da, “hamabost kilometro ingurura” esaldia “quince años” bezala itzuli du.

Ikus dezagun orain zer gertatzen den liburu baten ataltxo baten itzulpena egiteko eskatzen badiogu. Honetarako Bernardo Atxagaren “Zeru horiek” liburua aukeratu dugu; lehenengo liburu horren bai euskerazko bai gaztelaniazko bertsioak idatziko ditugu, giza itzultzaile batek zelan egiten duen ikusteko, eta gero itzultzaile automatikoak horiek zelan itzultzen dituen erakutsiko dugu.

“Zeru horiek” liburua, euskarazko bertsioa:

“Alde zaharreraino egindako ibilia ere jaitsiera bat izan zen, baina bere pauso berri haiek ez zuten, aurrekoek bezala, ametsetik errealitaterainoko tartea bete, baizik eta estuago eta soilago bat, Kanpotik Barrura zihoana. Hala, iritsi ibaiaren zubira, ikusi bere haurtzaroko gune guztiak -Arenaleko parkea, San Nikolaseko eliza, Correo eta Bidebarrietako kaleak, Arriaga Antzokia, ibaia bera-, eta Margaritak agindutakoa gertatu baitzitzaion, gune haietako objetu guztiak, etxeetako harriak bezala zuhaitzetako hostoak, eta ibaia ertzetako txalupak bezala kafetegietako errotuloak, hitzegiten hasi zitzaizkiola, hitzegiten eta eskua luzatzen, zatoz, zatoz, ongi etorria etxera.”

“Esos cielos” liburua, gaztelaniazko bertsioa:

“La caminata hasta el casco viejo de la ciudad también fue un descenso, pero esta vez sus pasos no recorrieron el tramo entre sueño y realidad, sino otro más simple que separaba lo exterior de lo interior. Había estado mucho tiempo fuera y volvía a casa. Al llegar al puente sobre la ría y ver todos los lugares de la infancia -el parque del Arenal, la Iglesia de San Nicolas, el teatro Arriaga-, comenzó a sentir lo que le había dicho Margarita al salir de la cárcel, que las cosas de su vida pasada, lo mismo las piedras de los edificios, que las barcas de la ría o los rotulos de las cafeterías, comenzarían a hablarle, bienvenida, bienvenida a casa, y que aquella acogida le daría fuerzas.”

Google-ek egindako euskeratik gaztelaniarako itzulpena:

“En la caída de la antigua a favor de tránsito fue uno de los pasos, pero no eran nuevos, como el errealitaterainoko sueño anterior llenar el espacio, sino un soilago más estrecho y, zihoana Vamos afuera. Sin embargo, el río alcanzó el puente, visite el sitio de su niñez todo Arenal Park, Iglesia de San Nicolás, Bidebarrieta y las calles E, el Teatro Arriaga, el mismo río, y fue ordenada por los sitios baitzitzaion Margarita, todos estos objetos, como hojas de árboles, casas de piedra, y el río signos de los bancos de los barcos como cafeterías, zitzaizkiola empezó a hablar, hablar, y extender la mano, ven, ven, bienvenido a casa.”

Google-ek egindako gaztelaniatik euskararako itzulpena:

“Old City ibiltzea zen ere jaitsi da, baina oraingo honetan pausoetatik Ez estali ametsa eta errealitatearen arteko atalean, baina Herrizaingo errazagoa bereiziz kanpoko bat. Zuen aspaldi amaitu eta etxera itzuli zen. Ibaiaren gaineko zubia At ikusi eta haurtzaroa leku guztietan, Areatzako parkea, San Nicolas, Arriaga Antzokia, eliza hasi zen zer esan zuen Margaret ateratzeko kartzelan de sentitzea, gauzak bere iraganeko bizitza, eraikin harriak, ibai ontzi edo kafetegian, seinale bezala, hasteko, eztabaida welcome, ongi etorri etxera, eta indar berarekin eskertuko.”
Ikus daiteke aurreko akats berdinak betetzen direla, eta gizakiak egindako itzulpenak itzultzaile automatikoak egindakoak baino askoz ere hobeak direla argi dago. Hala ere, lehen esan dugun moduan, euskera “alfa fasean” dago oraindik, beraz normala da itzulpenetan oraindik ere akatsak egotea; beste hizkuntza batzuekin itzultzailea askoz ere hobeto egiten duela lan ikusteko, “Esos cielos” liburuko atala ingelesera itzul dezan eskatu diogu, eta hau da emaitza:
“The walk to the Old City was also a decrease, but this time their steps do not cover the section between dream and reality, but a simpler separating the exterior of the interior. Had long been out and returned home. At the bridge over the river and see all the places of childhood, the park of Arenal, the Church of San Nicolas, the Arriaga Theatre, began to feel what he had told Margaret to get out of jail, things of his past life, as the stones of the buildings, the boats of the river or the signs of the cafes, begin to talk, welcome, welcome home, and forces that would welcome him.”
Itzulpen hau euskerara egin duena baino hobea dela argi ikus daiteke. Google itzultzailea euskerara itzultzen duen beste itzultzaile automatiko batekin konparatzeko Opentrad itzultzailea aukeratu dugu eta Bernardo Atxagaren liburuko atal berdina itzultzeko eskatu diogu, hauek dira emaitzak:
Opentrad-ek egindako euskeratik gaztelaniarako itzulpena:
“Zaharreraino lado grande realizado el descenso también, fue un pero su paso no aquellas noticias, como aurrekoek ametsetik errealitaterainoko sino una separación cumplido una colaboración más estrecha y soilago, un zihoana dentro. Así zubira del río llegado, ver su todos los espacios de la niñez el parque -arenaleko, san nikolaseko la iglesia, correo y bidebarrietako, las calles arriaga el teatro de la gravedad, la misma, río y margaritak ha ocurrido lo prometido baitzitzaion, zonas todos los objetu una de ellas una contaminación del como piedras, las hojas de los y el río como la lancha tiene una sensibles de las márgenes de kafetegietako errotuloak, hitzegiten zitzaizkiola empezado a, hitzegiten y, ven alargar la mano, ven,. la bienvenida.”
Opentrad-ek egindako gaztelaniatik euskararako itzulpena:
“Ibilaldia hiriaren Alde Zaharrenganaino ere jaitsiera bat izan zen, baina haren urratsak aldi hau zatia ez ziren ibili errealitate lo eta artean, baizik gehiago sinplea beste bat barrualdearen kanpoaldea bereizten zuen. Denbora asko egon zen izan zedin eta etxera itzultzen zen. Zubira iristea eta barre egin beza toki guztiak txikitako ikustea – Arenalen parkea, Iglesia De San Nicolas, Arriaga Antzokia -, sentitzen hasi zen Margarita esan zion kartzelatik ateratzea, haren bizitza pasatuaren gauzak, eraikinen harriak, betikoa txalupak edo kafetegien rotulosak barre egin ezan, mintzatzen hasiko litzaizkioke, ongietorria, etxeari, ongietorria eta harrera hark indarrak emango lizkiokeen.”
Itzultzaile honek egiten dituen itzulpenetan Google-ek egiten dituen itzulpenetan agertzen diren akats ia berdinak azaltzen zaizkigu. Beharbada, Opentrad-ek egindakoak Google-ek egindakoak baino hobeto ulertzen dira, baina horrek ez du esan nahi orokorrean itzultzaile hobea denik, euskeraren alorrean itzultzaile hobea dela esan beharko genuke gehienez.

ONDORIOAK

Google itzultzailea, Web-ean hizkuntzak itzultzeko material oso erabilgarria dela azpimarratuko genuke. Itzultzailea profesionalek garatutako lana da, hauek hizkuntza askotariko testuak sartu dituzte eta horren ondorioz itzulpen nahiko zehatzak egiteko gai da, hala ere zehaztasun eta egokitasun maila hizkuntzaren arabera aldatzen da.

Horretaz gain, segundo gutxi batzuetan egiten du itzulpena, beraz, ez dugu asko itxaron behar nahi duguna lortzeko. Itzultzaile honekin, dokumentu osoak eta hizkuntza desberdinetan dauden web orrialde osoak itzuli daitezke. Itzultzaileak proposatutako aukeren artean bat hautatu, horretan klikatu eta orrialdea agertuko zaigu aukeratutako hizkuntzara itzulita.

Komenigarria da jakitea Google itzultzaileak modu eraginkorrenean egiten dituen itzulpenak jatorrian ingelesezko testu bat daukatenak direla. Interneten gehien erabiltzen den hizkuntza da ingelesa, jende askok behar duelako landu da ingelesa beste hizkuntzak baino gehiago, beraz, testuak ingelesez badaude, Google itzultzaileak egindako itzulpena hobea izango da.

Itzultzaileak hitzak aldatzeko ematen duen aukera ere azpimarratzekoa dela pentsatzen dugu, modu onetan gure ustez egokiena dena aukeratu dezakegulako. Honek erabilgarri duen beste baliabide bat entzumenarena da, hizkuntzaren arabera, posible da guk idatzitako testua eta sistemak itzultzen duena momentuan entzutea entzumenaren botoia sakatuz.

Itzultzaileak hainbat akats betetzen dituen arren hizkuntzetako bat euskera denean, nahiko itzultzaile ona dela iruditzen zaigu, eta eskuragarri dituen baliabideak ere oso interesagarriak eta zerbitzuzkoak dira. Gure ustez, momentuz itzultzaile automatikoak ez dira giza itzultzaileak bezain onak, zehatzak eta fidagarriak, hala ere, bai itzultzaileei lana errezteko, bai testu bat itzultzerakoan horren ideia orokorra, eta askotan ideia orokorra baino gehiago ere, hartzeko oso tresna onak dira itzultzaile automatikoak, eta era berean, Google itzultzaile automatikoa programa ona dela pentsatzen dugu.

Iturriak:

Egileak: Ainhoa Causo, Jone Flores eta Leire Zamalloa

Gure Slideshareko aurkezpena hau da:

TRADUCCIÓN AUTOMÁTICA

La traducción automática (TA), o la llamada en ingles MT (de Machine Translation), a sido una gran creación en nuestra historia. Esta invención se lleva usando desde el SXVII hasta nuestros dias y ha servido desde entonces para reducir e incluso derrotar la barrera del idioma en campos tan importantes como son el científico y el técnologico.

La traducción automática es un campo de la lingüística computacional en el cual se utiliza un software para traducir un texto, una palabra o una frase de un idioma a otro. En un nivel primario, la traducción unicamente traduce las palabras de un lenguaje a otro,sin embargo,por medio del uso de corpora lingüísticos(conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación.) se pueden hacer traducciones más complejas, lo que facilita una traduccion más apropiada de las diferencias lingüísticas, el reconocimiento de frases hechas, la traducción de expresiones, palabras coloquiales, etc.

Quizás la mayor parte de nosotros pensamos que la traducción automática comenzó a finales del siglo XX o principios del XXI pero no: la TA comenzó en el siglo XVII con las propuestas de Descartes y Liebniz. Descartes proponia un lenguaje universal a traves de un código, asi se dio el “diccionario mecanizado” y Liebniz propuso el uso de dispositivos mecanicos con la finalidad de salvar la barrera del idioma, en esos años se uso el Lation como lengua universal.Las siguientes TA son las hechas en:

En 1668 cuando Wilkins, J.; publicó su obra, “An Essay towards a real character and Philosophical Language”. En esa misma obre Wilkins expuso sus ideas acerca de las bases lógico-racionales para establecer equivalencias inter-lingüísticas (bases teóricas bajo las cuales se inician los trabajos de clasificación universal de los conceptos y entidades). 

Con la aparición de la computadora digital-electrónica, llegaron a los Estados Unidos los primeros intentos de trabajo en la traducción automática.Aqui hay que mencionar la investigación realizada por W. Wearever y A. D. Booth en 1947, para la Fundación Rockefeller, cuyo resultado es el famoso documento conocido como Wearever’s Memorandum (1949), presentado en la primera conferencia sobre Machine Translation.

En 1950, Edwin Reifler presento algunos avances en el campo de la traducción automática, al introducir conceptos de trabajo para la “pre-edición” y la “post-edición”,es aquí donde empiezaron a verse las dificultades que resultan de la traducción palabra por palabra, olvidándose del contexto en que están inscritas.

En el año 1966 aparece el informe ALPAC (Comité Consultivo para el Procesamiento Automático del Lenguaje), el cual supuso la parada en la investigación de la T.A. Durante la década siguiente se continuó la búsqueda en este campo sobre todo al Canadá y en Europa.

El año 1976 aparece el sistema MATEO que traducía informes meteorológicos del inglés al francés. Éste y otras sistemas como el sistema METAL representaron la consolidación de los sistemas basados en transferencia y la aparición de sistemas basados en técnicas de interlingua.

Cuando finalizó la Segunda Guerra Mundial, el interes por la traduccion automatica creció considerablemente, algunos factores fueron:
-Proomocionar la paz y la coopereción internacional
-Motivos comerciales y economicos
-Transmitir informacion medica, técnica, etc.

Durante los 90 salieron programas como el PC-translator que tenían muy poca potencia lingüística y los resultados por lo que respecta a la traducción eran bastante pobres. Actualmente, se utilizan sistemas más potentes y la traducción automática ha ganado posiciones dentro de Internet.Veamos algunos programas de traducción y la manera de funcionar que tienen:

Uno de los que más me gustan a mi es el OESI, creado por el Instituto Cervantes, aqui adjunto un poco información sobre este programa:

“El Instituto Cervantes ha desarrollado a través de su portal de las Tecnologías Lingüisticas en España, un servicio gratuito de traducción automática, patrocinado por telefonica, cuyo objetivo es facilitar el acceso en español a aquellos contenidos de la Sociedad de la Información que están desarrollados en otros idiomas y que los hablantes de otras lenguas puedan acceder a los contenidos que sólo están disponibles en nuestro idioma.
Este servicio permite traducir textos y páginas web, del español al catalán, francés, gallego, inglés o portugués y viceversa, así como del español al euskera.
Si se desea traducir una página web, sólo hay que introducir la dirección en la casilla correspondiente, o elegir una de las direcciones que figuran en el menú desplegable, seleccionar el par de lenguas (idioma de origen y de destino) y pulsar el botón “Enviar”. Asi se obtiene como resultado la página web traducida al idioma seleccionado aunque respetando su diseño original.
Si, por el contrario, desea traducir un texto, sólo tiene que pegarlo o introducirlo manualmente en la casilla correspondiente, elegir el par de lenguas y, tras pulsar el botón “enviar”, obtendrá el texto en el idioma de destino seleccionado.”

Otro muy famoso debido a que es muy practico es el Reverso, en el cual puedes traducir textos o paginas web simplemente copiando la URL o copiando el texto entero.Una imagen de este:

Como podemos ver en la imagen en este traductor hay un cuadro en blanco en el cual se escribe el texto que se desea traducir, una vez escrito, elegimos el idioma al que queremos traducirlo y le damos a continuar, en unos segundos el texto está traducido.

¡Pero cuidado! Como bien he comentado al principio, no siempre la traducción es perfecta puede que haya ciertas expresiones, frases hechas, terminos coloquiales o incluso técnicos que no se asemejan con la traducción que se quiere recivir; esto es debido al amplio campo de vocabulario que existe en cada idioma.

En el Reverso hay traducciones de:

Español- Inglés       Ingés – Español

Español- Francés    Francés- Español

Inglés- Alemán        Alemán- Inglés

Inglés- Italiano      Italiano-Inglés

Inglés- Ruso      Ruso- Inglés

Aparte de traducir textos, este programa es muy util ya que tambien tiene un diccionario, en la siguiente imagen podemos ver que todas las utilidades del Reverso están situadas en la parte superior del programa.

Como vemos en esta imagen, este programa es muy completo, con el podemos traducir, buscar palabras en distintos idiomas, mirar la conjugacion de los verbos e incluso solucionar problemas gramaticales, ya que tiene un apartado en el cual se explican los problemas gramaticales más usuales.

En conclusión, en la actualidad se obtienen altos niveles de calidad para la traducción entre lenguas romances.Sin embargo, los resultados empeoran  cuanto más  alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e inglés o alemán.Otro factor muy influyente en la calidad de la traducción es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecúan al tipo de texto y vocabulario que se vaya a traducir.

La traducción es una de las artes más elevadas y que requiere más talento y dedicación. No basta sólo con sustituir una palabra por otra, sino que también se ha de ser capaz de reconocer todas las palabras de una frase y la influencia que tienen las unas sobre las otras. Los lenguajes humanos constan de morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado). Hasta el texto más simple puede estar plagado de ambigüedades. También hay que considerar cuestiones de estilo y de discurso o pragmáticas.

Sin embargo, hay métodos estadísticos que realizan traducciones sin reparar en cuestiones gramaticales. En la actualidad la tendencia es a integrar todo tipo de metodologías: lingüísticas, estadísticas, u otras, a la base de datos de un corpus.Por ello hay que fijarse bien en que traductor escoger dependiendo de lo que se necesite.

REFERENCIAS:

Opentrad itzultzaile automatikoa (taldeko lana)

Egileak: Irati Garaioa, Idoia Ibarlucea eta Amaia Navarro

Sarrera

Opentrad itzulpen automatikoko sistema da eta 2006ko maiatzean aurkeztu zen Kataluniako Unibertsitate Politeknikoan. 20 hizkuntza-bikote baino gehiagoren arteko itzulpenak egiten ditu. Gero eta erabilera zabalagoa dauka Opentrad itzultzaile automatikoak, eta  erabiltzaile, enpresa eta erakunde publikoek zeregin hauetarako erabiltzen dute: testuak eta dokumentuak itzultzeko, Interneten hizkuntza desberdinetan nabigatzeko, eta abar. Itzultzaile automatiko honek beste aukera batzuk ere eskaintzen dizkie zenbait erabiltzaileri, hala nola, beren web-orri pertsonalak, enpresako web-orriak, blogak, eta abar ingelesez, gaztelaniaz, galegoz, portugesez, katalanez, eta abarrez jartzea.

 

Helburua

Opentrad proiektuaren helburu nagusia itzulpen automatikoko bi gailu edo motor garatzea izan da. Horietako bat hizkuntza ahaideko bikoteentzat da, transferentzia sintaktiko partziala egiteko; bestea berriz, transferentzia sintaktiko osokoa, elkarrengandik urrutiago dauden hizkuntz bikoteentzat. Beraz, proiektuaren azken helburua eskaintzen dituen hizkuntza-bikoteen arteko itzulpenak egiteko gai den sistema-prototipoa sortzea da.

 

Babeslea eta bultzatzailea

2004.urtean hasi zituzten sistema honen sortze-lanak. Garai honetan proiektu honek zazpi partaide zituen: Eleka Ingeniaritza Linguistikoa, Vigoko Unibertsitateko Informatika Hizkuntzalaritzako Mintegia, Alakanteko Unibertsitateko Transducens taldea, Kataluniako Unibertsitate Politeknikoa (TALP), Euskal Herriko Unibertsitateko Ixa taldea, Imaxin Software eta Elhuyar Fundazioa.

Gaur egun, Opentrad Partzuergoa imaxin software eta Eleka Ingeniaritza Linguistikoa enpresek osatzen dute. Imaxin Software software eta multimediako I+G+b arloko soluzio eta zerbitzu aurreratuak eskaintzen dituen enpresa da eta ingeniaritza linguistikoan, lokalizazioan eta hezkuntzarako multimedia produktuetan aditua da. Eleka Ingeniaritza Linguistikoa ingeniaritza linguistikoaren arloan I+G+b proiektuak lantzen dituen enpresa da, batez ere garapen eta berrikuntza arloetan.

 

Hizkuntzak

Aipatu bezala, Opentrad sistemak 20 hizkuntza-bikote baino gehiago itzultzen ditu. Opentrad Partzuergoari, unibertsitateei edota komunitateei esker lortu da  hizkuntza desberdin hauetara itzuli ahal izatea. Hona hemen horietako batzuk:

  • Gaztelania-Errumaniera
  • Gaztelania-Ingelesa
  • Gaztelania-Frantsesa
  • Gaztelania-Katalana
  • Gaztelania-Galegoa
  • Gaztelania-Portugesa
  • Gaztelania-Euskara
  • Frantsesa-Katalana
  • Okzitanoa-Katalana
  • Okzitanoa-Gaztelania
  • Ingelesa-Katalana
  • Ingelesa-Esperantoa
  • Ingelesa-Galegoa
  • Galesa-Ingelesa
  • Esperantoa-Gaztelania
  • Esperantoa-Katalana
  • Bretoia-Frantsesa
  • Portugesa-Katalana
  • Portugesa-Galegoa
  • Norvegiera Nynorsk- Norvegiera Bokmal

Abantailak

 Ugariak dira Opentrad itzultzaile automatikoak eskaintzen dizkigun abantailak. Hauexek dira aipagarrienak:

  • Opentrad, integratzen erraza: edozein sistemarekin integratzeko aukera ematen du, eta itzultzaile hau darabilen bezero bakoitzaren beharretara egokitzen da. Dokumentu asko, hainbat hizkuntzatakoak, erabiltzen dituzten erakundeei zuzendua dago.
  • Opentrad, kalitatea eta pertsonalizazioa: Opentrad, bezero bakoitzaren terminologia-beharretara pertsonalizatu eta egokitu daiteke. Eskaintzen duen hizkuntza-kalitatea dela eta, enpresa eta erakunde publiko gehiagok darabilte sistema hau.
  • Opentrad, azkartasuna itzulpenetan: itzultzaile automatiko honek berehala itzultzen ditu testuak, dokumentuak, web-orriak eta abar.
  • Opentrad, lizentziarik gabe: teknologia-inbertsioak optimizatzeko aukera ematen du. Kostuak aholkularitzatik eta bezero bakoitzaren beharretara pertsonalizatu eta egokitzetik eratorritakoak dira.

 

Erabilera gomendioak

Opentrad itzultzaile automatikoaren Web orrialdean ondorengo gomendio hauek aurki ditzakegu sistema hau ahalik eta hoberen erabiltzeko:

  1. Itzulpena egin aurretik testu originala zuzendu, testu originalean dauden akatsek itzulpenaren kalitatean eragina izan dezaketelako.
  2. Esaldi laburrak eta sinpleak erabiltzea komeni da hauek itzulpenak zuzenak izaten laguntzen dutelako, horrela esaldi anbiguoak ere saihestuz.
  3. Puntuazioa eta sintaxia zaindu egin behar dira, azken batez, adierazi nahi dena ongi ulertzeko eta transmititzeko ezinbesteko elementuak dira
  4. Itzultzaile automatikoak testua ongi ulertu dezan lagunarteko esamoldeak eta esaera idiomatikoak saihestu behar dira, nahasmena sor dezaketelako.
  5. Funtsezkoa da itzulpena berrikustea prozesu automatizatuek hizkuntza soildu egin dezaketelako.

 

Adibideak

Opentrad itzultzaile automatikoaren funtzionamenduan sortzen diren akatsak frogatzeko zenbait artikulu hartuko ditugu. Lehenengo eta behin, bi artikulurekin egingo dugu froga, lehenengoa gaztelaniatik euskarara eta bigarrena euskaratik gaztelaniara itzuliz.  Azkenik, gaztelaniazko abesti bat euskaratu egin dugu.

1. Lehenengo testua Gara egunkaritik (2011-04-13) hartu dugu, eta hau da:

“El seísmo ha tenido lugar a las 10:08 hora local (02:08 GMT) con su epicentro localizado a diez kilómetros de profundidad en el sur de Fukushima, donde ha alcanzado una intensidad de grado 4 en la escala japonesa de siete puntos, que se centra más en las zonas afectadas. El terremoto no ha obligado a evacuar la planta nuclear de Fukushima Daiichi ni ha detenido las labores de enfriamiento de sus reactores, según ha informado la televisión pública NHK. Parte de los operarios de Fukushima se concentran hoy en drenar el agua contaminada que inunda varias zonas de las instalaciones del reactor 2, según NHK”.

“Seismoa gertatu da 10:08 ordu lokal (02:08 GMT) sakontasunaren 10km-ri Fukushimaren hegoaldean haren epizentro aurkituarekin, intentsitate bat lortu duen leku gogoz lau zazpi puntutako japoniar eskalan, gehiago erdiratzen den inguru eragin. Lurrikarak Fukushima Daiichiren planta nuklearra ebakuatzera ez du behartu ere haren erreaktoreen hoztearen lanak gelditu ditu, NHK telebista publikoa informatu du. Fukushimaren langileetako batzuk gaur kontzentratzen dira erreaktorearen instalazioen bi zenbait inguru urpetzen duen ura, drainatu kutsatuta NHK-ren arabera”.

Egin diren akatsak aztertzeko maila morfosintaktikoa eta maila lexikoa hartuko ditugu kontuan.

Maila morfosintaktikoa:

  • Euskarazko itzulpenak gaztelaniazko artikuluaren orden bera jarraitzen du, lehenengo esaldi honetan argi ikus daitekeenez: el seísmo ha tenido lugar a las 10:08 hora local (S-V-O) eta seismoa gertatu da 10:08 ordu lokal (S-V-O). Baina euskarazko ordenak S-O-V izan beharko luke.
  • Ezagutzen ez dituen hitzak bere horretan itzuli ditu, hitza deklinatu barik, adibidez: a las 10:08 hora local eta 10:08 ordu lokal.
  • Deklinabide kasuak ez ditu bereizten:

                          -Adlatibo eta datiboaren arteko bereizketarik ez du egiten adibide honetan: a diez kilómetros eta 10km-ri.  Adlatiboak egon beharko lukeen tokian, 10km-ra, datiboa erabiltzen du.

                          -Ondorengo adibide honetan ere itzultzaile honek akats bat egin du hitz bat deklinatzerako orduan: con su epicentro localizado epizentro aurkituarekin itzuli du, hau da, soziatibo kasua aditzari gehitu dio.

                          -Genitiboa eta leku-genitiboa nahastu dira adibide honetan: Fukushimaren langileetako erabili du Fukushimako langileetako erabili ordez.

                          -Kasu batzuetan ergatibo kasua ez da agertzen. Esaterako, NHK telebista publikoa informatu du.

  • Labores de enfriamiento, hoztearen lanak gisa itzuli du. Euskaraz hitz elkartu baten bidez adieraziko genukeena (hozte-lanak)itzultzeko, egitura sintaktiko batez baliatu da sistema hau.
  • Ezezko esaldiak sortzeko egitura sintaktikoan egokia ez den partikula bat erabili du: ere partikula ezta partikularen ordez: ez du behartu ere haren erreaktoreen hoztearen lanak.
  • Egitura aldetik, erreaktorearen instalazioen bi zenbait inguru urpetzen duen ura, drainatu kutsatuta esaldia guztiz okerra da eta ezinezkoa da esaldiaren zentzua ulertzea.

Maila lexikoa:

  • Zenbait hitz itzultzerakoan aukeraketa okerra egin da; izan ere testuinguru batzuetan sinonimoak diren hitzak erabili dira baina testu honetarako egokiak ez direnak. Adibidez: erdiratu eta centrar (areagotu izango lizateke aukerarik egokiena); afectadas eta eragin (kaltetuak) ; evacuar eta ebakuatu (hustu).
  • Euskarazko itzulpenean leku gogoz  hitzak erabiltzen dira baina ez dakigu zeri egiten dioten erreferentzia gaztelaniazko testuan.

2. Bigarren testua Berria egunkaritik (2011-04-17) hartu dugu:

“Donostiako Bulebarrean amaituko da gaur Korrika, auzo guztiak igaro ondoren. Milaka euskaltzalek espero duten unea iritsiko da: Korrika osoan zehar lekukoaren barruan joan den leloa irakurtzekoa. Aldi guztietan bezala, festari amaiera emateko, egun osoko jaia izango da ondoren”.

“Donostiako el próximo día bulebarrean hoy ha después de pasar, corriendo todos los barrios. Miles de euskaltzalek se espera año: el momento por todo el corriendo dentro del testigo el lema que se ir irakurtzekoa. , como en todos tiempo el final festari para dar fiesta de todo el día después de será”.

Aurreko adibidean bezalaxe, akatsak aztertzeko maila morfosintaktikoa eta maila lexikoa erabiliko ditugu:

Maila morfosintaktikoa:

  • Deklinatuta dauden hitzak ez ditu gaztelaniara itzultzen, ez dituelako ezagutzen. Esaterako: Donostiako, bulebarrean, euskaltzalek, irakurtzekoa, festari.
  • Amaituko da eta iritsiko da aditzak ez dira gaztelaniazko testuan itzulita agertzen.
  • Badira ere zenbait elementu euskarazko testuan agertzen ez direnak eta gaztelaniazko itzulpenean badaudenak: hoy ha después de pasar eta se espera año.
  • Gaztelaniazko itzulpenean ir aditza ez dago jokatua. Erlatibozko esaldia zuzena da, baina aditz nagusia ez: joan den leloa -> el lema que se ir.
  • Esaldiak ez daude ondo egituratua eta horrek ulermena zailtzen du. Esate baterako: para dar fiesta de todo el día después de será.

Maila lexikoa:

  • Korrika hitza ondo itzulita dago, itzultzaileak aditzondo gisa antzeman eta horrela itzuli duelako (corriendo) baina itzultzaile automatikoa ez da gai izan lexikalizatutako eta izen berezi bihurtutako aditzondoa dela antzemateko. Ezin du jakin Korrika zer den eta horregatik itzuli du aditzondo gisa.
  • Aldi itzultzerakoan aukeraketa okerra egin du, tiemporen ordez beste hitz bat aukeratu beharko zuelako testuinguru horretarako egokiagoa izango litzatekeena.

3. Hirugarren testua Los Ronaldos taldearen “No puedo vivir sin ti” abestitik atera dugun zati bat da:

 ”Llevas años enredada en mis manos,
en mi pelo, en mi cabeza,
y no puedo más, no puedo más.
Debería estar cansado de tus manos,
de tu pelo, de tus rarezas,
pero quiero más, yo quiero más.

No puedo vivir sin ti,
no hay manera,
no puedo estar sin ti,
no hay manera”.

“Urteetan daramazu nire eskuetan korapilatua,
nire ilean, nire buruan,
eta gehiago ez ahal dut, gehiago ez ahal dut.
Zure eskuetatik nekatu,
zure ilearen, zure arrarotasun,
baina nahiago naiz, nik nahiago naiz.

Zu gabe ez dut bizi izan ahal,
era ez dago,
zu gabe ez naiz egon ahal,
era ez dago”.

Oraingo honetan akatsak maila morfosintaktikoan baino ez dira ematen.

Maila morfosintaktikoa:

  • Lehenengo akatsa (urteetan daramazu) gramatikalki zuzena da baina ulermen eta erabilera aldetik egokiagoa izango litzateke ondorengo hau: urteak daramatzazu.
  • Bigarren akatsa guztiz gramatikala da : no puedo más itzultzeko ezin dut gehiago beharrean ez ahal dut itzuli du.
  • Hirugarrena deklinabide-akatsa da:  cansado de tus manos itzultzeko zure eskuez nekatuta izango litzateke egokiena, baina zure eskuetatik nekatuta itzuli du. Hau da, ablatiboa erabili du kasu hau erabili behar ez zuenean.
  • Gaztelaniazko testuan deberia estar azaltzen da, ez, ordea, euskarazkoan. Hots, ezabatu egin dute.
  • Bosgarren akatsa aditzean ematen da: alde batetik, aditza dago gaizki itzulita testuinguru honetan ez baitu eman nahi izan dioten zentzua: quiero más esateko gehiago nahi dut izango litzateke egokia eta ez nahiago naiz. Bestalde, aditz-laguntzailea ere gaizki erabilita dago: nahiago dut izan beharko litzateke eta ez nahiago naiz. Azkenik, aditzarekiko komunztadura ere hautsi egiten da: ergatibo kasua erabili da beharrezkoa ez denean: nik nahiago naiz.
  • Seigarren akatsean gramatika aldetik daude arazoak: no puedo vivir itzultzeko ez dut bizi ahal erabili dute eta ezin dut bizi litzateke forma egokia.
  • Azken akats honetan arazoa ordenarekin eta deklinabidearekin dago, partitiboarekin zehazki. No hay manera esateko ez dago erarik izango litzateke itzulpen egokiena baina era ez dago itzuli da.

 

Bibliografia

Comparing Machine Translators: Japanese to English

Machine translation

Machine translators (MTs) are computer software that produce automatic translations from one natural language to another, more or less efficiently. They are programmed by linguists to follow specific grammar rules, and employ large lexicons and corpora databases to be informed of statistics on the usage of vocabulary and expressions of each language. MTs are, therefore, usually capable of dealing with basic sentences appropriately, but generate less accurate results when given complex texts.

Machine translation can be helpful when we want to understand a foreign text approximately, but, at least as of today, computers are nowhere near as reliable as human translators nor even nonprofessional bilinguals. Because MTs do not have a mind of their own, they cannot recognize nor capture context-specific connotations, cultural items, puns, etc., nor are able to always choose the right meaning when rendering polysemic words.

Common errors in different MTs

To show some examples of the typical problems found when translating with a machine, we will be checking the results produced by a few free and online -that is to say, the most accessible to everyone- MTs, in an attempt to informally evaluate them. We will take a short text in Japanese and compare the different translations into English that each MT comes up with.

Original text and human translation:

アイザック・アシモフ(1920年1月2日 – 1992年4月6日)はアメリカの作家、生化学者。非常に成功した多作の作家であり、その著作は500冊以上を数える。 彼の扱うテーマは科学、言語、歴史、聖書等々非常に多岐にわたる が、特にSF、一般向け科学解説書、推理小説によってよく知られている。

「『夜来たる』は、わたしのプロ作家としての経歴の中で、一つの転換点となった作品である(中略)突然、私は重要な作家と見なされ、SF界が私の存在に注目するようになった。何年か後には、わたしはいわゆる”古典”を書いたことがはっきりした」

Isaac Asimov (January 2, 1920 – April 6, 1992) was an American author and biochemist. He was an extremely successful prolific writer, whose works amount to more than 500 books. Although he dealt with wide-ranging themes such as science, language, history, the Bible and more, he is mostly known for his science fiction, handbooks of science for the general public and mystery novels.

“‘Nightfall’ is the work that became a turning point in my career as a professional writer (omission) Suddenly, I was regarded as a major writer, and the world of science fiction was made aware of my existence. Some years later, it became clear that I had written a so-called ‘classic'”[1]

(Retrieved April 6, 2011)


Bing Translator

Isaac Asimov (January 2, 1920 – April 6, 1992) is American writer and biochemist. Successful very prolific writer, counting more than 500 books and writings. Themes dealing with his science, language, history, Bible, etc. very spanning is especially science fiction, for general scientific manuals, mystery novel by well known.

“‘Nightfall’ was a piece was one turning point in his career as a professional writer I (omission), suddenly I important writer is considered the science fiction world in my presence featured to like was. Several years after I wrote the so-called “classical” it is clear the

(retrieved April 12, 2011)

Highlighted errors
by well known: Although the original “によって” can sometimes mean “by”, the MT has not been able to infer that, in this context, the translation should be “for”. In addition, instead of rearranging the elements of the sentence so that they follow the logical order in English (to be known + FOR + something), the MT has left each of them where they were in Japanese (something + FOR + to be known).

his (…) I: For the resulting translation to include a third person pronoun (“his”) is strange, since the original quote marks the presence of a first person very clearly. Perhaps the reason “I” only appears later on is because the machine has not understood the structure of the sentence properly.

the science fiction world in: Although preposition-like elements appear after their complements in Japanese, postpositions are not common in English. The MT should have placed “in” before the noun phrase (“the science fiction world”) it is accompanying.

it is clear the: Again, the order of the elements does not make sense in English. The MT has produced a sequence of words that seem to be unconnected to the previous part of the sentence, as “it” and “the” do not have a reference.

Overall
Bing Translator has been quite accurate in the translation of the vocabulary and each individual expression, even proving able to interpret that “SF” means “science fiction” (the rest of the MTs in this article have not been able to). Structure-wise, some of the sentences are nevertheless difficult to follow. The part with the quote (the second paragraph) becomes particularly tangled, first because it begins introducing a third person pronoun that should not be there, and second because the elements of each sentence do not appear in what in English would be the expected order, which confuses and slows down the reading process.

SDL FreeTranslation.com

) Is (be on January 2, 1920-on April 6, 1992 ISAC Asimov be the writer, biochemist of America. 《主語なし》I am the writer of the polygraph who succeeded very much and the creation that count 500 or more copies. The theme that he treats is well-known by the science explanation book, detective stories for SF, general although it spans very variously the etc. such as science, language, history, the Bible.

“‘(The omission) that at night coming’ is the work that became one conversion point in the history as my professional writer, suddenly, I am regarded with an important writer and the SF world has come to pay attention to my existence. It became clear that I wrote so-called’ the classics‘ at the later time, several years”

(Retrieved April 6, 2011)

Highlighted errors
) Is: Apparently, the MT has rearranged the elements of the sentence and moved the verb to the front, somehow also dragging the second half of the parenthesis with it. Although verbs do not go right at the beginning of sentences in English (SVO, there is a subject before), they appear earlier than they do in Japanese (SOV, verbs go at the very end), so that might explain the machine’s action.

the: アメリカの作家 could either mean “an American writer” or “the American writer”. The MT has chosen the wrong option.

《主語なし》I: For some reason, the machine has added the annotation that no subject is indicated in Japanese. Then, it has introduced a first person pronoun immediately afterwards, probably because, since sentences in English always need a subject, the machine has found the need to create one by itself.

polygraph: “Polygraph” refers to an author who can write about many different topics, but 多作 usually means writing a lot and not necessarily in more than one field.

s (plural marker): Japanese nouns have no grammatical number, so whether古典refers to a single classic or more is left ambiguous if there is no context. Within this context, however, the noun is singular, so the MT has made the wrong choice.

Overall
The result produced by FreeTranslation is at first glance not very accurate, either lexically or grammatically. Nevertheless, lines such as “the SF world has come to pay attention to my existence” are impressively precise. This time, the rendition of the second paragraph is clearer than the one of the first paragraph, while in the case of every other MT, the opposite is true. In fact, when it comes to the part of the quote alone, FreeTranslation‘s translation is probably the one that lets us figure out more easily what the message of the Japanese original was.

Reverso

Isaac Asimov (from January 2, 1920 to April 6, 1992) is an American writer, a biochemist. it is a writer of very successful many products, and to count more than the writing 500 books. The theme that he treats scientizes it, and a language, the history, the Bible diverge into many branches very much, but are particularly well known by SF, an article for public science commentary book, a whodunit.

In “as “since night-time“, my career as a professional writer, watched it with the writer that I was important suddenly (omission) who was the work which became one turning point, and SF world came to pay attention to my existence”. It became clear later in how many years that I wrote so-called “classic”

(Retrieved April 6, 2011)

Highlighted errors
scientizes it: The MT has interpreted that the noun 科学 (science) was actually working as a verb.

are: The MT has lost the reference of Asimov/he as a subject (singular), and probably thinks that “many branches” (plural) is what should be connected to and match in person and number with the verb “[to be] well known”.

an…a: As stated, Japanese nouns indicate no grammatical number by themselves. In this context, both 般向け科学解説書 and 推理小説should be translated as plural, but the MT has not been able to infer as much.

: This particle has no specific translation in English, as its function is simply structural. During the translation, instead of being blend together with the rest of the sentence, it has somehow being left behind and untranslated due to its unspecific meaning.

since night-time: The MT has only been able to give a literal translation of 夜来たる, instead of looking for the actual English title of the story.

watched it with the writer: Although 見なされ comes from 見なす(“to consider”), 見る (“to see”, “to watch”) shares the same kanji, so the MT seems to have confused both verbs. By itself, 作家と would mean “with the writer”, but because of the verb afterwards, と should be understood as “as” instead of “with”.

how many years: 何年 can only be rendered as “how many years” when the sentence is a direct question. In this case, 何年か後 is simply “after a few (indeterminate quantity) years”.

Overall
While there are several mistakes, as a whole, the translation by Reverso is not difficult to follow. Perhaps the second part of the first paragraph is where this MT’s rendition seems to be the weakest, as we get the impression that “the themes that he treats (…) are particularly well known”, rather than that Asimov deals with many themes but is particularly well known for others.

WorldLingo

As for Issac [ashimohu] (1920 January 2nd – 1992 April 6th) the American writer, raw chemist.It is the writer of the multi works which succeed very, the literary work counts 500 volumes or more. That science, language, history and Bible etc. it diverges the theme which is handled very, but especially SF, for the general scientific explanation book, by the detective novel it is well informed.

As for “’the night coming’, in personal history as my professional writer, it is the work which has become one commutation point (omission) suddenly, as for me to be considered the important writer, it reached the point where the SF boundary observes to my existence.Several years later, as for me that generally known ” classic ” is written, it was clear”

(Retrieved April 6, 2011)

Highlighted errors
[ashimohu]: Although “Asimov” is not a word to be found inside a dictionary, other MTs have been able to recognize the famous surname and spell it according to the standard form in English. We can see that this requires cultural –and not just linguistic- knowledge.

raw chemist: The MT has separated the first kanji (生, meaning “raw”) in 生化学者 from the rest of the word (化学者, meaning “chemist”), instead of understanding everything as a single unit.

boundary: By itself, 界 does mean “boundary”, but following another noun it is usually understood as “world”. The MT did not know this.

Overall
WorldLingo is one of the few MTs not to have recognized アシモフ as “Asimov”, which suggests that its cultural knowledge is less than that of other machines’. In addition, some of the sentences it constructs (e.g. “but especially SF, for the general scientific explanation book, by the detective novel it is well informed”) are too tangled to try and decipher. We can easily tell that, at least in this case, the result produced by this MT does not seem to be too reliable.

Google translator

Isaac Asimov (January 2, 1920 – April 6, 1992) was an American author, biochemist. Very successful and prolific writer, his work counts more than 500 books. His deal with scientific themes, language, history, the Bible and so very wide-ranging, especially SF, handbook for science in general, it is well known by the mystery.

“[Nightfall] is, in my professional career as a writer, which marked a turning point in one piece (omission), suddenly I was considered an important writer, SF my attention the existence of the world Now. in a few years, my so-called “classic” that was clearly written “

(Retrieved April 13, 2011)

Highlighted errors
the mystery
: For some reason, the MT has omitted the 小説 (novel) part in 推理小説 (mystery novels).

a turning point in: Although preposition-like elements appear after their complements in Japanese, postpositions are not common in English. The MT should have placed “in” before the noun phrase (“a turning point”) it is accompanying.

SF my attention the existence of the world: Elements that should belong to the same phrase have been separated and moved elsewhere. For example, 私の存在 means“my existence”, and yet the machine has connected存在 (existence) with 界 (world), which in turn should depend on SF (SF界 means“world of science fiction”).

Overall
While Google’s translation of the first paragraph is handled quite well, we find more problems to understand the part with the quote. It is to be praised that semantically, almost every word -including the title of Asimov’s story- has been given the proper equivalent in English, however, the construction of each sentence still fails in terms of arrangement of the elements.

Conclusion

As we can see, machine translation is not perfect, but it is not completely inaccurate either. Each of the MTs we have checked has had different strong and weak characteristics, yet they complement one another in their capacities. Whenever we come across a text written in a language that we do not understand and we cannot contact a human bilingual, the best suggestion would be to pass the text through as many machine translators as possible. By comparing the points where their results differ, we will also find out what it is that they have in common and thus is likely to reflect the real meaning truthfully. A combination of all of the results we can get will provide us with a general idea that should not be too far-off from the original message.

References:

  • Machine translation (March 30, 2011). In Wikipedia, the free encyclopedia. Retrieved April 6, 2011.

[1] Although Asimov’s original quote is already in English, this is the translation of a translation.