Deusto Reviewer on Language Resources

April 27, 2011

TRADUCCIÓN AUTOMÁTICA

Filed under: Text corpus, Translation tool — Cristina @ 9:43 pm

La traducción automática (TA), o la llamada en ingles MT (de Machine Translation), a sido una gran creación en nuestra historia. Esta invención se lleva usando desde el SXVII hasta nuestros dias y ha servido desde entonces para reducir e incluso derrotar la barrera del idioma en campos tan importantes como son el científico y el técnologico.

La traducción automática es un campo de la lingüística computacional en el cual se utiliza un software para traducir un texto, una palabra o una frase de un idioma a otro. En un nivel primario, la traducción unicamente traduce las palabras de un lenguaje a otro,sin embargo,por medio del uso de corpora lingüísticos(conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación.) se pueden hacer traducciones más complejas, lo que facilita una traduccion más apropiada de las diferencias lingüísticas, el reconocimiento de frases hechas, la traducción de expresiones, palabras coloquiales, etc.

Quizás la mayor parte de nosotros pensamos que la traducción automática comenzó a finales del siglo XX o principios del XXI pero no: la TA comenzó en el siglo XVII con las propuestas de Descartes y Liebniz. Descartes proponia un lenguaje universal a traves de un código, asi se dio el “diccionario mecanizado” y Liebniz propuso el uso de dispositivos mecanicos con la finalidad de salvar la barrera del idioma, en esos años se uso el Lation como lengua universal.Las siguientes TA son las hechas en:

En 1668 cuando Wilkins, J.; publicó su obra, “An Essay towards a real character and Philosophical Language”. En esa misma obre Wilkins expuso sus ideas acerca de las bases lógico-racionales para establecer equivalencias inter-lingüísticas (bases teóricas bajo las cuales se inician los trabajos de clasificación universal de los conceptos y entidades). 

Con la aparición de la computadora digital-electrónica, llegaron a los Estados Unidos los primeros intentos de trabajo en la traducción automática.Aqui hay que mencionar la investigación realizada por W. Wearever y A. D. Booth en 1947, para la Fundación Rockefeller, cuyo resultado es el famoso documento conocido como Wearever’s Memorandum (1949), presentado en la primera conferencia sobre Machine Translation.

En 1950, Edwin Reifler presento algunos avances en el campo de la traducción automática, al introducir conceptos de trabajo para la “pre-edición” y la “post-edición”,es aquí donde empiezaron a verse las dificultades que resultan de la traducción palabra por palabra, olvidándose del contexto en que están inscritas.

En el año 1966 aparece el informe ALPAC (Comité Consultivo para el Procesamiento Automático del Lenguaje), el cual supuso la parada en la investigación de la T.A. Durante la década siguiente se continuó la búsqueda en este campo sobre todo al Canadá y en Europa.

El año 1976 aparece el sistema MATEO que traducía informes meteorológicos del inglés al francés. Éste y otras sistemas como el sistema METAL representaron la consolidación de los sistemas basados en transferencia y la aparición de sistemas basados en técnicas de interlingua.

Cuando finalizó la Segunda Guerra Mundial, el interes por la traduccion automatica creció considerablemente, algunos factores fueron:
-Proomocionar la paz y la coopereción internacional
-Motivos comerciales y economicos
-Transmitir informacion medica, técnica, etc.

Durante los 90 salieron programas como el PC-translator que tenían muy poca potencia lingüística y los resultados por lo que respecta a la traducción eran bastante pobres. Actualmente, se utilizan sistemas más potentes y la traducción automática ha ganado posiciones dentro de Internet.Veamos algunos programas de traducción y la manera de funcionar que tienen:

Uno de los que más me gustan a mi es el OESI, creado por el Instituto Cervantes, aqui adjunto un poco información sobre este programa:

“El Instituto Cervantes ha desarrollado a través de su portal de las Tecnologías Lingüisticas en España, un servicio gratuito de traducción automática, patrocinado por telefonica, cuyo objetivo es facilitar el acceso en español a aquellos contenidos de la Sociedad de la Información que están desarrollados en otros idiomas y que los hablantes de otras lenguas puedan acceder a los contenidos que sólo están disponibles en nuestro idioma.
Este servicio permite traducir textos y páginas web, del español al catalán, francés, gallego, inglés o portugués y viceversa, así como del español al euskera.
Si se desea traducir una página web, sólo hay que introducir la dirección en la casilla correspondiente, o elegir una de las direcciones que figuran en el menú desplegable, seleccionar el par de lenguas (idioma de origen y de destino) y pulsar el botón “Enviar”. Asi se obtiene como resultado la página web traducida al idioma seleccionado aunque respetando su diseño original.
Si, por el contrario, desea traducir un texto, sólo tiene que pegarlo o introducirlo manualmente en la casilla correspondiente, elegir el par de lenguas y, tras pulsar el botón “enviar”, obtendrá el texto en el idioma de destino seleccionado.”

Otro muy famoso debido a que es muy practico es el Reverso, en el cual puedes traducir textos o paginas web simplemente copiando la URL o copiando el texto entero.Una imagen de este:

Como podemos ver en la imagen en este traductor hay un cuadro en blanco en el cual se escribe el texto que se desea traducir, una vez escrito, elegimos el idioma al que queremos traducirlo y le damos a continuar, en unos segundos el texto está traducido.

¡Pero cuidado! Como bien he comentado al principio, no siempre la traducción es perfecta puede que haya ciertas expresiones, frases hechas, terminos coloquiales o incluso técnicos que no se asemejan con la traducción que se quiere recivir; esto es debido al amplio campo de vocabulario que existe en cada idioma.

En el Reverso hay traducciones de:

Español- Inglés       Ingés – Español

Español- Francés    Francés- Español

Inglés- Alemán        Alemán- Inglés

Inglés- Italiano      Italiano-Inglés

Inglés- Ruso      Ruso- Inglés

Aparte de traducir textos, este programa es muy util ya que tambien tiene un diccionario, en la siguiente imagen podemos ver que todas las utilidades del Reverso están situadas en la parte superior del programa.

Como vemos en esta imagen, este programa es muy completo, con el podemos traducir, buscar palabras en distintos idiomas, mirar la conjugacion de los verbos e incluso solucionar problemas gramaticales, ya que tiene un apartado en el cual se explican los problemas gramaticales más usuales.

En conclusión, en la actualidad se obtienen altos niveles de calidad para la traducción entre lenguas romances.Sin embargo, los resultados empeoran  cuanto más  alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e inglés o alemán.Otro factor muy influyente en la calidad de la traducción es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecúan al tipo de texto y vocabulario que se vaya a traducir.

La traducción es una de las artes más elevadas y que requiere más talento y dedicación. No basta sólo con sustituir una palabra por otra, sino que también se ha de ser capaz de reconocer todas las palabras de una frase y la influencia que tienen las unas sobre las otras. Los lenguajes humanos constan de morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado). Hasta el texto más simple puede estar plagado de ambigüedades. También hay que considerar cuestiones de estilo y de discurso o pragmáticas.

Sin embargo, hay métodos estadísticos que realizan traducciones sin reparar en cuestiones gramaticales. En la actualidad la tendencia es a integrar todo tipo de metodologías: lingüísticas, estadísticas, u otras, a la base de datos de un corpus.Por ello hay que fijarse bien en que traductor escoger dependiendo de lo que se necesite.

REFERENCIAS:

April 22, 2011

Corpus Diacrónico del Español

Filed under: Text corpus — Laura Nozal @ 7:30 pm

What is a text corpus? A corpus or text corpus is a large and structured set of text. What are they used for? They are used to do statistical analysis and hypothesis testing, checking occurrences and validating linguistic rules in a specific universe. Nowadays, they are usually electronically structured and processed. A corpus may contain text in a single language or text data in multiple languages. Corpora are very useful for linguistic research. What is CORDE? The Corpus Diacrónico del Español (CORDE) is a textual corpus of all the times and places where the Spanish language has been spoken (since 1975). But, what is its aim? CORDE is designed to extract information to study words and their meanings, as well as its grammar and its use over time. It was first used in 1994 when RAE brought u the possibility of applying the new technologies of information with the ain of creating a data bank which improved the quality of their working materials and made date access easier. The Corpus collects written texts of different kinds (narrative, dramatic, lyrical, scientifical, technical…) The aim is to collect all geographical , historical and generical so that the whole is representative enough. One of the most important targets of the diachronic corpus is to serve as a basic material for the production of the “NUEVO DICCIONARIO HISTÓRIC”. Sources for the CORDE:

  • Books which are scanned through a programm of optical character recognition.
  • Other books in electronical formats.

Resources:

April 18, 2011

Opentrad itzultzaile automatikoa (taldeko lana)

Filed under: Translation tool — Tags: , , — Irati Garaioa @ 3:37 pm

Egileak: Irati Garaioa, Idoia Ibarlucea eta Amaia Navarro

Sarrera

Opentrad itzulpen automatikoko sistema da eta 2006ko maiatzean aurkeztu zen Kataluniako Unibertsitate Politeknikoan. 20 hizkuntza-bikote baino gehiagoren arteko itzulpenak egiten ditu. Gero eta erabilera zabalagoa dauka Opentrad itzultzaile automatikoak, eta  erabiltzaile, enpresa eta erakunde publikoek zeregin hauetarako erabiltzen dute: testuak eta dokumentuak itzultzeko, Interneten hizkuntza desberdinetan nabigatzeko, eta abar. Itzultzaile automatiko honek beste aukera batzuk ere eskaintzen dizkie zenbait erabiltzaileri, hala nola, beren web-orri pertsonalak, enpresako web-orriak, blogak, eta abar ingelesez, gaztelaniaz, galegoz, portugesez, katalanez, eta abarrez jartzea.

 

Helburua

Opentrad proiektuaren helburu nagusia itzulpen automatikoko bi gailu edo motor garatzea izan da. Horietako bat hizkuntza ahaideko bikoteentzat da, transferentzia sintaktiko partziala egiteko; bestea berriz, transferentzia sintaktiko osokoa, elkarrengandik urrutiago dauden hizkuntz bikoteentzat. Beraz, proiektuaren azken helburua eskaintzen dituen hizkuntza-bikoteen arteko itzulpenak egiteko gai den sistema-prototipoa sortzea da.

 

Babeslea eta bultzatzailea

2004.urtean hasi zituzten sistema honen sortze-lanak. Garai honetan proiektu honek zazpi partaide zituen: Eleka Ingeniaritza Linguistikoa, Vigoko Unibertsitateko Informatika Hizkuntzalaritzako Mintegia, Alakanteko Unibertsitateko Transducens taldea, Kataluniako Unibertsitate Politeknikoa (TALP), Euskal Herriko Unibertsitateko Ixa taldea, Imaxin Software eta Elhuyar Fundazioa.

Gaur egun, Opentrad Partzuergoa imaxin software eta Eleka Ingeniaritza Linguistikoa enpresek osatzen dute. Imaxin Software software eta multimediako I+G+b arloko soluzio eta zerbitzu aurreratuak eskaintzen dituen enpresa da eta ingeniaritza linguistikoan, lokalizazioan eta hezkuntzarako multimedia produktuetan aditua da. Eleka Ingeniaritza Linguistikoa ingeniaritza linguistikoaren arloan I+G+b proiektuak lantzen dituen enpresa da, batez ere garapen eta berrikuntza arloetan.

 

Hizkuntzak

Aipatu bezala, Opentrad sistemak 20 hizkuntza-bikote baino gehiago itzultzen ditu. Opentrad Partzuergoari, unibertsitateei edota komunitateei esker lortu da  hizkuntza desberdin hauetara itzuli ahal izatea. Hona hemen horietako batzuk:

  • Gaztelania-Errumaniera
  • Gaztelania-Ingelesa
  • Gaztelania-Frantsesa
  • Gaztelania-Katalana
  • Gaztelania-Galegoa
  • Gaztelania-Portugesa
  • Gaztelania-Euskara
  • Frantsesa-Katalana
  • Okzitanoa-Katalana
  • Okzitanoa-Gaztelania
  • Ingelesa-Katalana
  • Ingelesa-Esperantoa
  • Ingelesa-Galegoa
  • Galesa-Ingelesa
  • Esperantoa-Gaztelania
  • Esperantoa-Katalana
  • Bretoia-Frantsesa
  • Portugesa-Katalana
  • Portugesa-Galegoa
  • Norvegiera Nynorsk- Norvegiera Bokmal

Abantailak

 Ugariak dira Opentrad itzultzaile automatikoak eskaintzen dizkigun abantailak. Hauexek dira aipagarrienak:

  • Opentrad, integratzen erraza: edozein sistemarekin integratzeko aukera ematen du, eta itzultzaile hau darabilen bezero bakoitzaren beharretara egokitzen da. Dokumentu asko, hainbat hizkuntzatakoak, erabiltzen dituzten erakundeei zuzendua dago.
  • Opentrad, kalitatea eta pertsonalizazioa: Opentrad, bezero bakoitzaren terminologia-beharretara pertsonalizatu eta egokitu daiteke. Eskaintzen duen hizkuntza-kalitatea dela eta, enpresa eta erakunde publiko gehiagok darabilte sistema hau.
  • Opentrad, azkartasuna itzulpenetan: itzultzaile automatiko honek berehala itzultzen ditu testuak, dokumentuak, web-orriak eta abar.
  • Opentrad, lizentziarik gabe: teknologia-inbertsioak optimizatzeko aukera ematen du. Kostuak aholkularitzatik eta bezero bakoitzaren beharretara pertsonalizatu eta egokitzetik eratorritakoak dira.

 

Erabilera gomendioak

Opentrad itzultzaile automatikoaren Web orrialdean ondorengo gomendio hauek aurki ditzakegu sistema hau ahalik eta hoberen erabiltzeko:

  1. Itzulpena egin aurretik testu originala zuzendu, testu originalean dauden akatsek itzulpenaren kalitatean eragina izan dezaketelako.
  2. Esaldi laburrak eta sinpleak erabiltzea komeni da hauek itzulpenak zuzenak izaten laguntzen dutelako, horrela esaldi anbiguoak ere saihestuz.
  3. Puntuazioa eta sintaxia zaindu egin behar dira, azken batez, adierazi nahi dena ongi ulertzeko eta transmititzeko ezinbesteko elementuak dira
  4. Itzultzaile automatikoak testua ongi ulertu dezan lagunarteko esamoldeak eta esaera idiomatikoak saihestu behar dira, nahasmena sor dezaketelako.
  5. Funtsezkoa da itzulpena berrikustea prozesu automatizatuek hizkuntza soildu egin dezaketelako.

 

Adibideak

Opentrad itzultzaile automatikoaren funtzionamenduan sortzen diren akatsak frogatzeko zenbait artikulu hartuko ditugu. Lehenengo eta behin, bi artikulurekin egingo dugu froga, lehenengoa gaztelaniatik euskarara eta bigarrena euskaratik gaztelaniara itzuliz.  Azkenik, gaztelaniazko abesti bat euskaratu egin dugu.

1. Lehenengo testua Gara egunkaritik (2011-04-13) hartu dugu, eta hau da:

“El seísmo ha tenido lugar a las 10:08 hora local (02:08 GMT) con su epicentro localizado a diez kilómetros de profundidad en el sur de Fukushima, donde ha alcanzado una intensidad de grado 4 en la escala japonesa de siete puntos, que se centra más en las zonas afectadas. El terremoto no ha obligado a evacuar la planta nuclear de Fukushima Daiichi ni ha detenido las labores de enfriamiento de sus reactores, según ha informado la televisión pública NHK. Parte de los operarios de Fukushima se concentran hoy en drenar el agua contaminada que inunda varias zonas de las instalaciones del reactor 2, según NHK”.

“Seismoa gertatu da 10:08 ordu lokal (02:08 GMT) sakontasunaren 10km-ri Fukushimaren hegoaldean haren epizentro aurkituarekin, intentsitate bat lortu duen leku gogoz lau zazpi puntutako japoniar eskalan, gehiago erdiratzen den inguru eragin. Lurrikarak Fukushima Daiichiren planta nuklearra ebakuatzera ez du behartu ere haren erreaktoreen hoztearen lanak gelditu ditu, NHK telebista publikoa informatu du. Fukushimaren langileetako batzuk gaur kontzentratzen dira erreaktorearen instalazioen bi zenbait inguru urpetzen duen ura, drainatu kutsatuta NHK-ren arabera”.

Egin diren akatsak aztertzeko maila morfosintaktikoa eta maila lexikoa hartuko ditugu kontuan.

Maila morfosintaktikoa:

  • Euskarazko itzulpenak gaztelaniazko artikuluaren orden bera jarraitzen du, lehenengo esaldi honetan argi ikus daitekeenez: el seísmo ha tenido lugar a las 10:08 hora local (S-V-O) eta seismoa gertatu da 10:08 ordu lokal (S-V-O). Baina euskarazko ordenak S-O-V izan beharko luke.
  • Ezagutzen ez dituen hitzak bere horretan itzuli ditu, hitza deklinatu barik, adibidez: a las 10:08 hora local eta 10:08 ordu lokal.
  • Deklinabide kasuak ez ditu bereizten:

                          -Adlatibo eta datiboaren arteko bereizketarik ez du egiten adibide honetan: a diez kilómetros eta 10km-ri.  Adlatiboak egon beharko lukeen tokian, 10km-ra, datiboa erabiltzen du.

                          -Ondorengo adibide honetan ere itzultzaile honek akats bat egin du hitz bat deklinatzerako orduan: con su epicentro localizado epizentro aurkituarekin itzuli du, hau da, soziatibo kasua aditzari gehitu dio.

                          -Genitiboa eta leku-genitiboa nahastu dira adibide honetan: Fukushimaren langileetako erabili du Fukushimako langileetako erabili ordez.

                          -Kasu batzuetan ergatibo kasua ez da agertzen. Esaterako, NHK telebista publikoa informatu du.

  • Labores de enfriamiento, hoztearen lanak gisa itzuli du. Euskaraz hitz elkartu baten bidez adieraziko genukeena (hozte-lanak)itzultzeko, egitura sintaktiko batez baliatu da sistema hau.
  • Ezezko esaldiak sortzeko egitura sintaktikoan egokia ez den partikula bat erabili du: ere partikula ezta partikularen ordez: ez du behartu ere haren erreaktoreen hoztearen lanak.
  • Egitura aldetik, erreaktorearen instalazioen bi zenbait inguru urpetzen duen ura, drainatu kutsatuta esaldia guztiz okerra da eta ezinezkoa da esaldiaren zentzua ulertzea.

Maila lexikoa:

  • Zenbait hitz itzultzerakoan aukeraketa okerra egin da; izan ere testuinguru batzuetan sinonimoak diren hitzak erabili dira baina testu honetarako egokiak ez direnak. Adibidez: erdiratu eta centrar (areagotu izango lizateke aukerarik egokiena); afectadas eta eragin (kaltetuak) ; evacuar eta ebakuatu (hustu).
  • Euskarazko itzulpenean leku gogoz  hitzak erabiltzen dira baina ez dakigu zeri egiten dioten erreferentzia gaztelaniazko testuan.

2. Bigarren testua Berria egunkaritik (2011-04-17) hartu dugu:

“Donostiako Bulebarrean amaituko da gaur Korrika, auzo guztiak igaro ondoren. Milaka euskaltzalek espero duten unea iritsiko da: Korrika osoan zehar lekukoaren barruan joan den leloa irakurtzekoa. Aldi guztietan bezala, festari amaiera emateko, egun osoko jaia izango da ondoren”.

“Donostiako el próximo día bulebarrean hoy ha después de pasar, corriendo todos los barrios. Miles de euskaltzalek se espera año: el momento por todo el corriendo dentro del testigo el lema que se ir irakurtzekoa. , como en todos tiempo el final festari para dar fiesta de todo el día después de será”.

Aurreko adibidean bezalaxe, akatsak aztertzeko maila morfosintaktikoa eta maila lexikoa erabiliko ditugu:

Maila morfosintaktikoa:

  • Deklinatuta dauden hitzak ez ditu gaztelaniara itzultzen, ez dituelako ezagutzen. Esaterako: Donostiako, bulebarrean, euskaltzalek, irakurtzekoa, festari.
  • Amaituko da eta iritsiko da aditzak ez dira gaztelaniazko testuan itzulita agertzen.
  • Badira ere zenbait elementu euskarazko testuan agertzen ez direnak eta gaztelaniazko itzulpenean badaudenak: hoy ha después de pasar eta se espera año.
  • Gaztelaniazko itzulpenean ir aditza ez dago jokatua. Erlatibozko esaldia zuzena da, baina aditz nagusia ez: joan den leloa -> el lema que se ir.
  • Esaldiak ez daude ondo egituratua eta horrek ulermena zailtzen du. Esate baterako: para dar fiesta de todo el día después de será.

Maila lexikoa:

  • Korrika hitza ondo itzulita dago, itzultzaileak aditzondo gisa antzeman eta horrela itzuli duelako (corriendo) baina itzultzaile automatikoa ez da gai izan lexikalizatutako eta izen berezi bihurtutako aditzondoa dela antzemateko. Ezin du jakin Korrika zer den eta horregatik itzuli du aditzondo gisa.
  • Aldi itzultzerakoan aukeraketa okerra egin du, tiemporen ordez beste hitz bat aukeratu beharko zuelako testuinguru horretarako egokiagoa izango litzatekeena.

3. Hirugarren testua Los Ronaldos taldearen “No puedo vivir sin ti” abestitik atera dugun zati bat da:

 ”Llevas años enredada en mis manos,
en mi pelo, en mi cabeza,
y no puedo más, no puedo más.
Debería estar cansado de tus manos,
de tu pelo, de tus rarezas,
pero quiero más, yo quiero más.

No puedo vivir sin ti,
no hay manera,
no puedo estar sin ti,
no hay manera”.

“Urteetan daramazu nire eskuetan korapilatua,
nire ilean, nire buruan,
eta gehiago ez ahal dut, gehiago ez ahal dut.
Zure eskuetatik nekatu,
zure ilearen, zure arrarotasun,
baina nahiago naiz, nik nahiago naiz.

Zu gabe ez dut bizi izan ahal,
era ez dago,
zu gabe ez naiz egon ahal,
era ez dago”.

Oraingo honetan akatsak maila morfosintaktikoan baino ez dira ematen.

Maila morfosintaktikoa:

  • Lehenengo akatsa (urteetan daramazu) gramatikalki zuzena da baina ulermen eta erabilera aldetik egokiagoa izango litzateke ondorengo hau: urteak daramatzazu.
  • Bigarren akatsa guztiz gramatikala da : no puedo más itzultzeko ezin dut gehiago beharrean ez ahal dut itzuli du.
  • Hirugarrena deklinabide-akatsa da:  cansado de tus manos itzultzeko zure eskuez nekatuta izango litzateke egokiena, baina zure eskuetatik nekatuta itzuli du. Hau da, ablatiboa erabili du kasu hau erabili behar ez zuenean.
  • Gaztelaniazko testuan deberia estar azaltzen da, ez, ordea, euskarazkoan. Hots, ezabatu egin dute.
  • Bosgarren akatsa aditzean ematen da: alde batetik, aditza dago gaizki itzulita testuinguru honetan ez baitu eman nahi izan dioten zentzua: quiero más esateko gehiago nahi dut izango litzateke egokia eta ez nahiago naiz. Bestalde, aditz-laguntzailea ere gaizki erabilita dago: nahiago dut izan beharko litzateke eta ez nahiago naiz. Azkenik, aditzarekiko komunztadura ere hautsi egiten da: ergatibo kasua erabili da beharrezkoa ez denean: nik nahiago naiz.
  • Seigarren akatsean gramatika aldetik daude arazoak: no puedo vivir itzultzeko ez dut bizi ahal erabili dute eta ezin dut bizi litzateke forma egokia.
  • Azken akats honetan arazoa ordenarekin eta deklinabidearekin dago, partitiboarekin zehazki. No hay manera esateko ez dago erarik izango litzateke itzulpen egokiena baina era ez dago itzuli da.

 

Bibliografia

April 16, 2011

Comparing Machine Translators: Japanese to English

Filed under: Translation tool — Tags: , , , — Ayakari @ 9:52 am

Machine translation

Machine translators (MTs) are computer software that produce automatic translations from one natural language to another, more or less efficiently. They are programmed by linguists to follow specific grammar rules, and employ large lexicons and corpora databases to be informed of statistics on the usage of vocabulary and expressions of each language. MTs are, therefore, usually capable of dealing with basic sentences appropriately, but generate less accurate results when given complex texts.

Machine translation can be helpful when we want to understand a foreign text approximately, but, at least as of today, computers are nowhere near as reliable as human translators nor even nonprofessional bilinguals. Because MTs do not have a mind of their own, they cannot recognize nor capture context-specific connotations, cultural items, puns, etc., nor are able to always choose the right meaning when rendering polysemic words.

Common errors in different MTs

To show some examples of the typical problems found when translating with a machine, we will be checking the results produced by a few free and online -that is to say, the most accessible to everyone- MTs, in an attempt to informally evaluate them. We will take a short text in Japanese and compare the different translations into English that each MT comes up with.

Original text and human translation:

アイザック・アシモフ(1920年1月2日 – 1992年4月6日)はアメリカの作家、生化学者。非常に成功した多作の作家であり、その著作は500冊以上を数える。 彼の扱うテーマは科学、言語、歴史、聖書等々非常に多岐にわたる が、特にSF、一般向け科学解説書、推理小説によってよく知られている。

「『夜来たる』は、わたしのプロ作家としての経歴の中で、一つの転換点となった作品である(中略)突然、私は重要な作家と見なされ、SF界が私の存在に注目するようになった。何年か後には、わたしはいわゆる”古典”を書いたことがはっきりした」

Isaac Asimov (January 2, 1920 – April 6, 1992) was an American author and biochemist. He was an extremely successful prolific writer, whose works amount to more than 500 books. Although he dealt with wide-ranging themes such as science, language, history, the Bible and more, he is mostly known for his science fiction, handbooks of science for the general public and mystery novels.

“‘Nightfall’ is the work that became a turning point in my career as a professional writer (omission) Suddenly, I was regarded as a major writer, and the world of science fiction was made aware of my existence. Some years later, it became clear that I had written a so-called ‘classic’”[1]

(Retrieved April 6, 2011)


Bing Translator

Isaac Asimov (January 2, 1920 – April 6, 1992) is American writer and biochemist. Successful very prolific writer, counting more than 500 books and writings. Themes dealing with his science, language, history, Bible, etc. very spanning is especially science fiction, for general scientific manuals, mystery novel by well known.

“‘Nightfall’ was a piece was one turning point in his career as a professional writer I (omission), suddenly I important writer is considered the science fiction world in my presence featured to like was. Several years after I wrote the so-called “classical” it is clear the

(retrieved April 12, 2011)

Highlighted errors
by well known: Although the original “によって” can sometimes mean “by”, the MT has not been able to infer that, in this context, the translation should be “for”. In addition, instead of rearranging the elements of the sentence so that they follow the logical order in English (to be known + FOR + something), the MT has left each of them where they were in Japanese (something + FOR + to be known).

his (…) I: For the resulting translation to include a third person pronoun (“his”) is strange, since the original quote marks the presence of a first person very clearly. Perhaps the reason “I” only appears later on is because the machine has not understood the structure of the sentence properly.

the science fiction world in: Although preposition-like elements appear after their complements in Japanese, postpositions are not common in English. The MT should have placed “in” before the noun phrase (“the science fiction world”) it is accompanying.

it is clear the: Again, the order of the elements does not make sense in English. The MT has produced a sequence of words that seem to be unconnected to the previous part of the sentence, as “it” and “the” do not have a reference.

Overall
Bing Translator has been quite accurate in the translation of the vocabulary and each individual expression, even proving able to interpret that “SF” means “science fiction” (the rest of the MTs in this article have not been able to). Structure-wise, some of the sentences are nevertheless difficult to follow. The part with the quote (the second paragraph) becomes particularly tangled, first because it begins introducing a third person pronoun that should not be there, and second because the elements of each sentence do not appear in what in English would be the expected order, which confuses and slows down the reading process.

SDL FreeTranslation.com

) Is (be on January 2, 1920-on April 6, 1992 ISAC Asimov be the writer, biochemist of America. 《主語なし》I am the writer of the polygraph who succeeded very much and the creation that count 500 or more copies. The theme that he treats is well-known by the science explanation book, detective stories for SF, general although it spans very variously the etc. such as science, language, history, the Bible.

“‘(The omission) that at night coming’ is the work that became one conversion point in the history as my professional writer, suddenly, I am regarded with an important writer and the SF world has come to pay attention to my existence. It became clear that I wrote so-called’ the classics‘ at the later time, several years”

(Retrieved April 6, 2011)

Highlighted errors
) Is: Apparently, the MT has rearranged the elements of the sentence and moved the verb to the front, somehow also dragging the second half of the parenthesis with it. Although verbs do not go right at the beginning of sentences in English (SVO, there is a subject before), they appear earlier than they do in Japanese (SOV, verbs go at the very end), so that might explain the machine’s action.

the: アメリカの作家 could either mean “an American writer” or “the American writer”. The MT has chosen the wrong option.

《主語なし》I: For some reason, the machine has added the annotation that no subject is indicated in Japanese. Then, it has introduced a first person pronoun immediately afterwards, probably because, since sentences in English always need a subject, the machine has found the need to create one by itself.

polygraph: “Polygraph” refers to an author who can write about many different topics, but 多作 usually means writing a lot and not necessarily in more than one field.

s (plural marker): Japanese nouns have no grammatical number, so whether古典refers to a single classic or more is left ambiguous if there is no context. Within this context, however, the noun is singular, so the MT has made the wrong choice.

Overall
The result produced by FreeTranslation is at first glance not very accurate, either lexically or grammatically. Nevertheless, lines such as “the SF world has come to pay attention to my existence” are impressively precise. This time, the rendition of the second paragraph is clearer than the one of the first paragraph, while in the case of every other MT, the opposite is true. In fact, when it comes to the part of the quote alone, FreeTranslation‘s translation is probably the one that lets us figure out more easily what the message of the Japanese original was.

Reverso

Isaac Asimov (from January 2, 1920 to April 6, 1992) is an American writer, a biochemist. it is a writer of very successful many products, and to count more than the writing 500 books. The theme that he treats scientizes it, and a language, the history, the Bible diverge into many branches very much, but are particularly well known by SF, an article for public science commentary book, a whodunit.

In “as “since night-time“, my career as a professional writer, watched it with the writer that I was important suddenly (omission) who was the work which became one turning point, and SF world came to pay attention to my existence”. It became clear later in how many years that I wrote so-called “classic”

(Retrieved April 6, 2011)

Highlighted errors
scientizes it: The MT has interpreted that the noun 科学 (science) was actually working as a verb.

are: The MT has lost the reference of Asimov/he as a subject (singular), and probably thinks that “many branches” (plural) is what should be connected to and match in person and number with the verb “[to be] well known”.

an…a: As stated, Japanese nouns indicate no grammatical number by themselves. In this context, both 般向け科学解説書 and 推理小説should be translated as plural, but the MT has not been able to infer as much.

: This particle has no specific translation in English, as its function is simply structural. During the translation, instead of being blend together with the rest of the sentence, it has somehow being left behind and untranslated due to its unspecific meaning.

since night-time: The MT has only been able to give a literal translation of 夜来たる, instead of looking for the actual English title of the story.

watched it with the writer: Although 見なされ comes from 見なす(“to consider”), 見る (“to see”, “to watch”) shares the same kanji, so the MT seems to have confused both verbs. By itself, 作家と would mean “with the writer”, but because of the verb afterwards, と should be understood as “as” instead of “with”.

how many years: 何年 can only be rendered as “how many years” when the sentence is a direct question. In this case, 何年か後 is simply “after a few (indeterminate quantity) years”.

Overall
While there are several mistakes, as a whole, the translation by Reverso is not difficult to follow. Perhaps the second part of the first paragraph is where this MT’s rendition seems to be the weakest, as we get the impression that “the themes that he treats (…) are particularly well known”, rather than that Asimov deals with many themes but is particularly well known for others.

WorldLingo

As for Issac [ashimohu] (1920 January 2nd – 1992 April 6th) the American writer, raw chemist.It is the writer of the multi works which succeed very, the literary work counts 500 volumes or more. That science, language, history and Bible etc. it diverges the theme which is handled very, but especially SF, for the general scientific explanation book, by the detective novel it is well informed.

As for “’the night coming’, in personal history as my professional writer, it is the work which has become one commutation point (omission) suddenly, as for me to be considered the important writer, it reached the point where the SF boundary observes to my existence.Several years later, as for me that generally known ” classic ” is written, it was clear”

(Retrieved April 6, 2011)

Highlighted errors
[ashimohu]: Although “Asimov” is not a word to be found inside a dictionary, other MTs have been able to recognize the famous surname and spell it according to the standard form in English. We can see that this requires cultural –and not just linguistic- knowledge.

raw chemist: The MT has separated the first kanji (生, meaning “raw”) in 生化学者 from the rest of the word (化学者, meaning “chemist”), instead of understanding everything as a single unit.

boundary: By itself, 界 does mean “boundary”, but following another noun it is usually understood as “world”. The MT did not know this.

Overall
WorldLingo is one of the few MTs not to have recognized アシモフ as “Asimov”, which suggests that its cultural knowledge is less than that of other machines’. In addition, some of the sentences it constructs (e.g. “but especially SF, for the general scientific explanation book, by the detective novel it is well informed”) are too tangled to try and decipher. We can easily tell that, at least in this case, the result produced by this MT does not seem to be too reliable.

Google translator

Isaac Asimov (January 2, 1920 – April 6, 1992) was an American author, biochemist. Very successful and prolific writer, his work counts more than 500 books. His deal with scientific themes, language, history, the Bible and so very wide-ranging, especially SF, handbook for science in general, it is well known by the mystery.

“[Nightfall] is, in my professional career as a writer, which marked a turning point in one piece (omission), suddenly I was considered an important writer, SF my attention the existence of the world Now. in a few years, my so-called “classic” that was clearly written “

(Retrieved April 13, 2011)

Highlighted errors
the mystery
: For some reason, the MT has omitted the 小説 (novel) part in 推理小説 (mystery novels).

a turning point in: Although preposition-like elements appear after their complements in Japanese, postpositions are not common in English. The MT should have placed “in” before the noun phrase (“a turning point”) it is accompanying.

SF my attention the existence of the world: Elements that should belong to the same phrase have been separated and moved elsewhere. For example, 私の存在 means“my existence”, and yet the machine has connected存在 (existence) with 界 (world), which in turn should depend on SF (SF界 means“world of science fiction”).

Overall
While Google’s translation of the first paragraph is handled quite well, we find more problems to understand the part with the quote. It is to be praised that semantically, almost every word -including the title of Asimov’s story- has been given the proper equivalent in English, however, the construction of each sentence still fails in terms of arrangement of the elements.

Conclusion

As we can see, machine translation is not perfect, but it is not completely inaccurate either. Each of the MTs we have checked has had different strong and weak characteristics, yet they complement one another in their capacities. Whenever we come across a text written in a language that we do not understand and we cannot contact a human bilingual, the best suggestion would be to pass the text through as many machine translators as possible. By comparing the points where their results differ, we will also find out what it is that they have in common and thus is likely to reflect the real meaning truthfully. A combination of all of the results we can get will provide us with a general idea that should not be too far-off from the original message.

References:

  • Machine translation (March 30, 2011). In Wikipedia, the free encyclopedia. Retrieved April 6, 2011.

[1] Although Asimov’s original quote is already in English, this is the translation of a translation.

April 14, 2011

WORD REFERENCE

Filed under: Dictionary — Cristina @ 9:14 am

CORPUS

Filed under: Corpeus, Multilingual sentence corpus, Text corpus — Cristina @ 9:10 am

April 12, 2011

Review: BRITISH NATIONAL CORPUS

Filed under: Text corpus — Tags: — lauramenendez @ 11:38 am

 

 

 The British National Corpus (BNC) is one of the most important corpuses in the field of linguistics. The content of BCN contains British English data from the late twentieth century. This corpus covers a variety of different genres.

Creation of the British National Corpus (BCN)

The project was developed by an academic consortium called the BCN Consortium. The Bristish Library and the British Academy. In addition, some other academic research centres are the the University Centre for Computer Corpus Research on Language and the Oxford University Computing Services.

The construction of the corpus began in 1991 and it was finished in 1994. Although no more texts were added to the corpus, there was a revision of this work carried out in 2001 with the publication of the BNC World and again in 2007 with a new edition called BNC XML Edition . The corpus is divided into two types of different type of corpora which are:

● The BCN Sampler is a collection of one million written words.
● The BNC Baby collects about four one-million word samples which belong to different genres

The British National Corpus follows the Guidelines of the Text Encoding Initiative (TEI) . There are two different parts which constitute the corpus:

● Written part: (90%). It covers data from several sources like books, periodicals, brochures and leaflets. In addition the written part covers regional and national newspapers, journals for all ages and interests, academic books, popular fiction, university essays etc
● Spoken part (10%): That part extracts information from orthographic transcriptions of informal conversations and spoken language collected in different contexts. The first part is made up of a 50% of transcriptions of natural conversations. The transcriptions come from conversation in which 124 people have taken part; all of them belonged to the United Kingdom. The participants in the conversations were represented in a 50% by women and the other 50% by men. The second part is made up of a 50% of some recordings which were extracted from a specific moment in a event from different nature: business events, leisure events, educational events etc…

Why to use British National Corpus?

The BNC can be used to know about aspects we did not know about a word and to check our thoughts about its meaning. Moreover, the corpus can help to find out the meaning of a word not just what we think it means. The BNC offers many options like for instance to know if a word can collocate with other set of words, if it is grammatically right in some specific contexts.

If we look for the word the word “bent” plus the preposition “on” the BNC indicates that this combination of words appear together in a specific context. From a grammatical point of view, the British National Corpus determines that “Bent to” can only be followed by a noun or noun phrase, or by verb plus the suffix- ing.

How to use the British National Corpora

There exists two ways of using the British National Corpus according to its complexity:
● Xaira: It can be used to check the spelling of a word, compare different variants to measure the frequency of use and if a certain word is part of the BCN.
● The BNC Simple Search: It is a quick way of searching a word / phrase. This type of search can be used to check the spelling of a word and also to compare the frequency and variants of a word.

If we use the BNC Simple search, it is necessary to type the word or phrase in the search box that the person wants to find. Once the word/ phrase has been search a list of up to 50 selected instances headed by a note of the total frequency of use of them appears on the screen. If we want to look for more complex queries we should add the following characters to the words. The _ character is used to match single words, while the = character allows the restriction of chains of speech and the use of braces {} helps to define a certain expressions.

In addition, in the screen, four options are part of the option “display” of the corpus when we are looking for a word: LIST, CHART, KWIC and COMPARE. Then there are three more options under the label of search string which are: word, collocation and pos list. In addition, there is a section called “sorting and limits”. The sorting can be looked in terms frequency, relevance and alphabetical order.

The corpus includes several categories or labels of texts from different nature which are “spoken”, “fiction”, “magazine”, “newspaper” or “non- academic texts”. For instance, if we look for the word “couch”, the corpus shows us that this word collocates with different words: lying, lay, room, potato etc. After having clicking on one of this word several examples will appear on the screen. The corpus allows looking for a word or phrase but at the same time the possibility of finding collocations. To look for a collocation is as easier as to type the word which wants to be searched and automatically an asterisk will appear on the box of collocation. Once the search has been produced the corpus displays a list of words which collocates with the word.

The KWIC search enriches the corpus because it helps the person which is looking for the word to know in which grammatical structures and contexts the word appears. For example, if we look for the word: “shoes” the corpus shows in colours the different words which can be used with this word. “A new pair of”, “the soles of our”, “the second hand”, “new polished”, or “thousands of” etc.

Comparison between the British National Corpora and the COCA

In terms of size there is a huge difference between both corpuses as the COCA is four times bigger than the BNC. The COCA is made up of 410 + million words in opposition to the BNC which covers 100 million words. In relation to the composition of both corpuses the COCA focuses on spoken, popular magazines, academic texts and each of those genres means a 20% of the total. However, the BNC is strictly divided in a 90% which is written while the other 10% is spoken English. As a result the COCA deals with more recent information as the corpus was updated while BNC focuses more on everyday language.

I have included a SlideShare presentation which explains in more detail and with images the British National Corpus. You can have access to it if you click in the link below:

INFORMATION SOURCES

Review: MERRIAM WEBSTER’S COLLEGIATE DICTIONARY ONLINE

Filed under: Dictionary — Tags: — lauramenendez @ 11:30 am

Merriam-Webster’s Collegiate Dictionary online is a language resource available in the webpage: http://www.merriam-webster.com/. This version online is based on the latest edition of Merriam- Webster’s Collegiate Dictionary.The producer company of the dictionaries, Merriam Webster Inc is a subsidiary company of the Encyclopædia Britannica, Inc.

This dictionary is a very complete language resource. Every lexical item includes the first time the word was used, the historial and etymological origins, orthographical notes, function of the the words and regional varieties.

Merriam Webster’s has 225,000 entries, 115,000 audio pronunciations, 340,000 synonyms and related words and 1,300 illustrations.

What can we find in the dictionary?

There are four different types of dictionaries: the monolingual dictionary, a Thesaurus dictionary, a bilingual dictionary Spanish- English and a Medical Dictionary.

It includes 4 additional sections: word games, word of the day, new words and slang and videos.

a) DICTIONARY: Using the dictionary

In order to look for a word, we have to type the word, we are looking for in the search box. Let’s use the word “light”. The dictionary presents several entries according to different categories such as “noun”, “verb”, “adjectives”, “adverb” etc. In this example there are 219 entries.

The dictionary includes a pronunciation device where the word (in this case “light”) is written in phonetical and phonological symbols and if you click on the audio device, the word can be listened to get a better pronunciation.

Then the dictionary collects different definitions of the word “light”. What is more, it adds words which are synonyms or which are part of the semantic field of “light”. The dictionary also includes different contexts and examples in which, for instance, the word “light” can appear and compounds. It also includes a set of idiomatic expressions and collocations which also define the words.Lastly, there is a list of examples of the words, the origin of the word and its historical review, different synonyms and antonyms and even “rhymes” with a certain word.

b) THESAURUS

The Merriam Webster’s dictionary offers a Thesaurus dictionary, that is to say, a list of words which have share a similarity in their meanings.To look for a word is as simple as typing the word we want to look for in the search box. Take for example, the word: “plant”.After the word (plant), the dictionary shows the different entries it has found. In this example: “plant” as a noun, and “plant”as a verb.

Once we have looked for the word (plant), the first option that appears is the word “plant”with the category of noun. The dictionary offers a definition of the word “a building or a set of buildings for the manufaturing of goods”. Then there are several synonyms and finally related words. A second category is the word “plant” as a verb.

c) SPANISH- ENGLISH DICTIONARY

Again, we have to type the word we are looking for in the search box. In this case, we will choose the word “table”. Then we will press “ENTER” to start the search. Once, the search has finished, the word “table” presents four entries.

The dictionary shows the translation of the word “table”, that is to say “mesa” in Spanish. Then the word is used in a particular context and several examples are used to do it, like “multiplication table”(tabla de multiplicar) or “table of contents”(tabla de materias).

d)MEDICAL

Merriam Webster’s dictionary is a linguistic resource also for medical purposes. It contains thousands of words related to the world of medicine.The way of looking for a word is the same than with the other three dictionaries. We have to type the word in the search box and press “enter”. Let’s look for the word “surgery”.

FOUR OPTIONS MERRIAM WEBSTER’S DICTIONARY

a) WORD GAMES

The Merriam Webster dictionary contributes to the enrichment of the learner’s vocabulary by offering different word games. All of them are thought to be an alternative and dynamic tool which can be used as an entertainment but also as a learning instrument. Basically, the main aims of these games are the improvement of spelling and pronunciation like in the case of the game Bee cubed. Moreover, the word order is one of the main objectives in these games , like L.A. Times Daily Crossword.

b) WORD OF THE DAY

Everyday a new word is added to the dictionary. It helps to the introduction of new lexical items to the English language. The dictionary shows the pronunciation of the word (using the phonetic and phonological symbols). For instance, on the 23, February 2011 the word of the day was “edacious”.
Firstly, these “words of the day” are categorised as “nouns, adjectives, “adverbs” etc… Then, they are defined in a similar way that the “Thesaurus dictionary” uses. Similar meanings and synonyms are selected to define the word.

Secondly, these new words are exemplified with several sentences and it is common the use of a quotation from a literary source to explain whether or not the word can be used in different backgrounds. In addition, this section adds a section called : Did you know? which presents the historical origin of the new word and generally the etymology. Moreover, it describes the distinct meanings which have been atributed to the word through different ages in history.To finish the section, the dictionary offers a family quiz which deals with the word described everyday.

c) NEW WORDS AND SLANG

This section is a group of new words which have been included in the dictionary thanks to the collaboration of the users. The dictionary allows the introduction of new words which are part of “everyday’s life” and also the “most colloquial English”.

d) VIDEOS

This is an alternative and modern tool in which several editors explain the meaning or origin of a word.

IN CONCLUSION

Merriam Webster’s dictionary offers a wide variety of options according to several needs. It is one of the most complete dictionaries because it includes: definitions, synonyms and antonyms, origin and etymology of the words, spelling and pronunciation devices, phonological and phonetic transcriptions and content of use of the words.In the online version, there are four different dictionaries which help several specific needs.

I have done an Slideshare presentation which makes a more deep review about the dictionary. If you click in the link below you could see it:

Information sources

“Ereduzko prosa gaur” corpusaren azterketa

Filed under: Text corpus — Tags: — estiren txokoa @ 10:03 am

Naroa Perez eta Esti Blancoren Corpusaren azterketa

 

Sarrera
Orotariko Euskal Hiztegiak gure tradizioko idazle ereduzkoen ondarea jasotzen du, hiztegiaren nahiz gramatikaren aldetik. Baina gaur egun euskararen normalizazioak dituen premiei erantzuteko, eta ondare horren osagarri, nahitaezkoa da egungo idazle ereduzkoen idazlanen bilketa egitea.

Bada korpus bat, XX. mendeko Euskararen Korpus Estatistikoa izenekoa (lehen “Egungo Euskararen Bilketa-lan Sistematikoa” deitua), euskarazko produkzioaren erakusgarri bat urtero jasotzen duena. Baina bilketa hori estatistikoa da, eta berdin jasotzen ditu idazle “onen” nahiz “ez hain onen” testuak. Nahiz bilketa estatistikoak beharrezkoak diren hizkuntzaren zenbait alderdi aztertzeko, dudarik gabeko kontua da mundu guztian hizkuntza ereduak ereduzko idazleen azterketatik eratortzen direla. Hortaz, guk ere kalitatea kontuan hartzen duen korpusa aztertzea erabaki dugu.

Guk aukeratutako korpusean testu jakin bat “eredugarritzat” jotzeko erabili diren irizpideak oso zabalak dira: prestigio nabarmeneko sariak, lexiko-sorkuntzaren aldetik eta literatura-balioaren aldetik interesgarriak diren liburuak, salmenten arabera arrakasta nabarmena izan dutenak…Gainera, 2000. urtea hartu da biltze-lanaren abiatze-puntutzat, izan ere, urte horretan Hiztegi Batuaren lehen argitalpenarekin euskara estandarraren nolakotasuna bideratu zen. Hortaz, korpusa 2000 urtetik aurrerako testu eredugarriez osatzen da.

Hasieran 2000, 2001 eta 2002 urteetako testuez osatu zen eta batez ere literatur testuak erabili ziren, jatorrizkoak nahiz itzulpenak baina guk zenbait urte pasatu eta gero aztertzerakoan, proiektu hau behategi moduko bat bihurtu dela uste dugu, urtez urte euskal idazketaren bilakabidearen berri ematen baitu gure ustetan.

Corpusaren zenbait datu orokor aurkitu ditugu hurrengo lerroetan aurkezten direnak. Hala ere, aipatu behar dugu azken eguneratzea 2009koa dela, beraz, azken bi urteetako materiala falta da. Datuak ondorengoak dira:

Denera: 25,1 milioi hitz

Liburuak

13,1 milioi hitz

2000-2006 bitarteko 287 liburu

Prentsa

12 milioi hitz

2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

2001-2005 bitarteko Herria astekaria (2 milioi hitz)

Beraz, eta laburbilduz, Ereduzko Prosa Gaur ekimenean gaur egungo hainbat idazle ereduzkoren azken urteotako testuak bildu dira, horiekin korpus aski zabal bat eratuz. Korpus horri etekinik onena ateratzeko aztergailu ahaltsu eta erabilterraz bat erantsi zaio. Gauzak horrela, tresna egokia da gaurko euskal autore eredugarriek euskaraz idazterakoan guztioi sortzen zaizkigun duda-mudei eman dizkieten irtenbideak ezagutzeko.

Azterketarekin hasi aurretik aipatu behar dugun azkeneko datua proiektu honen atzean dauden pertsonei dagokie. Egitasmo hau EHUko Euskara Zerbitzuaren proiektuen barruan kokatzen da eta arduraduna Ibon Sarasola da, berak egiten batitu proiektuaren antolatze, garatze eta zuzentze lanak. Laguntzaileak Xabier Alberdi, Jesus Mari Makazaga, Iñaki Ugarteburu eta Juan Garzia dira eta proiektuaren babesle Donostiako Udala da, Euskararen Udal Patronatuaren bidez. Era berean, aipatu behar dugu “kontsultako interfaze zaharra” aukera hartu dugula bertsio berrian egin ezin diren zenbait aukera egiteko aukera ematen digulako.

Bilaketarako Lagungarri

corpusa murriztu

Corpusa murriztu

Euskal Herriko Unibertsitateak eskaintzen duen zerbitzu honetan bilaketak egiten hasteko, lehendabizi, bilaketarako corpusa definitu behar dugu. Horretarako, Corpusa murriztu botoia klikatuz agertuko zaigun menua erabiliko dugu.Menu honetan, nahi adina obra aukeratu daitezke, ezkerretara aurkitzen dugun laukitxoan klik eginez. Guztiak aukeratu nahi izanez gero, Osoa botoia klikatu beharko genuke. Aukera egin eta gero, Ezarri eta Itxi botoiak sakatu beharko ditugu.

Bigarrenik, lortu nahi dugun emaitza nola bistaratu aukeratuko dugu. Emaitza osoa bistaratu aukera aktibatzen badugu, zuzenean, bilatutako hitzen agerpenak ikusi ahal izango ditugu. Aukeratzen ez badugu berriz, obra bakoitzeko zenbat agerpen dagoen ikusiko dugu. Bestalde, emaitza osoak bistaratzen ditugunean, bilatutako forma azpimarratuta agertuko zaigu. Bertan klik eginez, formari buruzko informazioa aurkituko dugu (izan ditzakeen kategoriak, etab.) Obren izenburuetan klikatzen badugu berriz, jaso ditugun emaitzak beste leiho batean ikusi ahal izango ditugu.

Behin hauek guztiak erabakita ditugula, prest gaude nahi dugun forma idazteko. Honetarako eskaintzen zaigun kutxan, letrez aparte,karaktereak ere erabili ditzakegu (, ? #). Honela, ikurra erabiltzen badugu, edozein karaktere edo karaktere segida definitzen ariko gara.

Adibidez, *tasun lema bilatzen badugu, askatasun, maiztasun, aberastasun, larritasun, etab. aurkitu ahal izango ditugu. ? ikurra erabiltzen badugu aldiz, edozein karaktere (baino bat bakarra) definitzen ariko gara eta azkenik # ikurra zenbakiak adierazteko erabili ahal izango dugu.

Erabiltzeko zenbait argibide

Ereduzko Prosa Gaur orrialdean, “Corpus arakatzailea” aukeratu eta zenbait hitzen bilaketa egin dugu. Ondoren

liburuetan/prentsan

liburuetan/prentsan

adibide hauen berri emango dugu.

1- Ezker aldean bilatu nahi dugun hitza edo lema idatziko dugu.

Aukeran izango dugu, bilaketa era zehartzago baten bidera dadin, liburuak edota prentsak barne hartzen duen korpusa.

“Haize” hitza idatzita, ondoko datuak agerrtuko zaizkigu:

Emaitza 2165 agerraldi / 2093 esaldi

Liburuak 1500 / 226 liburu

Prentsan 593 esaldi / 457 artikulu

     
bilaketaren emaitzak

emaitzen hurrenkera

Ondoren, emaitzen kopuruaren araberako lista bat agertzen zaigu. Goiko partean, agertzen diren ataleko izenak datoz (kirolak, kultura, Euskal Herria etab) eta beheko partean, liburuka agertzen dira emaitzak. Liburuen araberako sailkapenean, ezkerraldean liburuaren izenburua eta egilearen izena agertzen dira eta eskuinean, aurkitutako hitz kopurua eta hauek dautzan esaldi kopurua agertuko zaizkigu, gehienetik gutxienengorako sailkapenean.

Behin liburua aukeratuta, hitza kolorez nabarmendurik ageriko da zenbakiz dieraziriko orrialdearen esaldi barruan.

Esan dugu “haize” izena bilatzen hasi garela. Hainbat idazleren artean Joan Mari Irigoienen Lur bat haratago aukeratzean ondoko emaitzak agertuko zaizkigu:

1. Orr.: 33

barrenean animalien spiritu-en airea edo haize mehea gordetzen duten,

2. Orr.: 93

gauzak gehiegi ez lotzearen aldekoa, airearekin aire eta haizearekin haize, eta zeren halakoak ere izan

3. Orr.: 110

gure mundu ilun eta zurrun hartan haize freskoaren antzera, nola sartu baitzen ene belarri-zuloetarik umetako asmakizun hura, osabari aditua, zeinak baitzioen:

4. Orr.: 120

Eta Pedroren hitzak eta Pedroren erabakia haize-bildu bat bezala sartu zitzaizkidaan, ustekabean, bihotzean, halako tailuz, non zainetako su tipia su handi bihurtu, eta suak arras hartu baininduen.

Liburuen emaitzak

Beste hainbeste orrialdeetan agertzen da hitza, eta ezkerreko irudian ikus daitezke kasu hauek denak (ez ditugu azalpenean denak gehitu luzeegi eta astunegia gertutako zelakoan).

 

 

 

 

Korpus Arakatzailearen Bilaketa Motak

Bilaketa Arrunta
Kontsultatu nahi dugun hitza edo lema idatzi beharko dugu aurkezten zaigun kutxan. Hitza aukeratzen badugu, idazten duguna bere horretan bakarrik bilatzen ariko gara. Bestela, lema aukeratzen badugu, izan dezakeen edozein formatan aurkitu ahal izango dugu idazten duguna.

• Adibideak

Eskaintzen zaigun kutxan “etxe” hitza idazten badugu eta Bilatu botoia sakatzen badugu, Fantasiazko ipuinak obran adibidez, “68 hitz / 66 esaldi” emaitza lortuko dugu. Honek esan nahi du, aipatutako liburuaren 66 esalditan agertzen dela bilatzen ari garen hitza eta, era berean, esaldiren batean gure hitza behin baino gehiagotan azaltzen dela.

 Bestalde, “etxe” lema bilatzen badugu, lehen aipatutako corpus berean “239 hitz / 232 esaldi” emaitza lortuko dugu. Non dago aldea? Oraingoan adibideei begiratzen badiegu, honako formak aurkituko ditugu: etxean, etxera, etxetik, etxe, etxerantz, etab.

Bilaketa Aurreratua

Bilaketa aurreratuen kasuan aukera gehiago eskaintzen zaizkigu. Bilaketa arruntetan bezala, hitz bat idatziko dugu kutxan baina bilaketa aurreratuak egiteko, “Lema” bilatu beharko dugu eta ez hitza. Ondoren, Morfologia botoian klikatuta, leiho berri bat irekiko zaigu Leiho honetan, hainbat ezaugarri morfologiko zehaztu ditzakegu: bilatzen ari garen hitzaren kategoria, aditz-mota, atzizki edo aurrizkiak, deklinabide zehatz batekin, edota numeroa (singularra, plurala, mugagabea…) Leiho honetan eskaintzen zaizkigun aukerak erabilita, gure bilaketek emaitza zehatzagoak izango dituzte. Beti ere, nahi dugun aukera egindakoan, Ezarri eta Itxi botoiak sakatu behako ditugu.

    Adibideak:

Demagun “gizon” Lemaren agerpenak aurkitu nahi ditugula pluralez eta NORI kasua dutenean. Morfologiako botoia sakatu eta agertuko zaigun leihotxoan Deklinabidean NORI eta Numeroan Plurala aukeratuko dugu. Ondoren, Ezarri eta Itxi botoiak sakatu beharko ditugu. Hortaz: gizonei ( KAS:nori+NUM:p+)

Bilaketa Konbinatuak
Kutxa bat baino gehiago erabiliz, bi hitz edo gehiago bilatu ahal izango dugu, eta guk nahi dugun distantziara agertuko dira. Beraz, hiru kutxa erabilita, adibidez, hain zuzen ere bilatu ahal izango dugu; eta era berean, 4ko distantzia jartzen badugu, “etxe handi zuri bat” aurkitu ahal izango dugu “etxe bat” bilatuta.

• Adibideak

Lehen aipatutako bilaketak egin nahi baditugu, honako pausuak eman beharko ditugu:

Bestalde, hitzak eta lemak konbina ditzakegu bilaketak egiteko. Honela, adibidez, “lo” hitza eta “egin” lema bilatuko bagenu, honako emaitzak lortuko genituzke:

Adibidea: lo egin. Bertan “lo gutxi egiten” edo “lo ondo egiteak” bezalako formak sartzen dira, beraz, hitz lokuzioak bilatu nahi ditugunean, gure ustetan, hau da gomendagarriena den bilaketa mota. Era berean 3290 agerraldi daudela 1612 esalditan banatuta jakin dezakegu eta aurreko kasu guztietan bezala, bilaketaren emaitzak gaika edo atalka bilatu daitezke.

Azkenik, aipatu nahiko genuke gure ustetan Corpus hau oso ondo burututa dagoela eta azaldu ditugun bilaketa mota ezberdinek nabarmen errazten dutela ikertzailearen lana, izan ere, multzoka, maiztasunaren arabera edo lokuzioka bilatzeko aukera emateak hizkuntzaren gaineko ikerketari bide zabala irekitzen baitiote.

3000 HIZTEGIA (talde lana)

Filed under: Dictionary — Tags: , , , — Ainhoa Causo @ 8:53 am

3000 HIZTEGIA da guk aztertuko duguna, horrela hiztegi honek dituen alde positiboak eta negatiboak ikusi ahal izango ditugu. Jorratuko ditugun puntuen artean hiztegiak eskaintzen dituen hizkuntzak, sorreraren gorabeherak eta beste hiztegiekiko konparaketak aurkituko dira. Hau da 3000 HIZTEGIAren orrialdea: http://www1.euskadi.net/hizt_3000/

Hiztegi hau Bostak Bat lantaldearen Adorez sortako itzulpenezko hiztegia da. Lehen argitalpena 1996. urtean egin zen Aurten Bai Fundazioa eta Bass S.L- ren laguntzarekin; lehen bertsioa 2001. urtean eguneratu zen. Hiztegi hau Eusko Jaurlaritzak babesten du eta Euskaltzaindiaren arauen arabera moldatuta dago.

3000 HIZTEGIAk bi hizkuntza erabiltzen ditu: euskara eta gaztelania. Arrazoi honengatik esan dezakegu hiztegi hau elebiduna dela. Hiztegiari alor honetan egin beharreko kritika bat web orrialdeak bilaketak alemanez, frantsesez eta ingelesez egiteko aukera ematen digula da, baina aukera hauek klikatzerakoan baliabidea ez dago eskuragarri.

3000 HIZTEGIAn Euskaltzaindiaren Hiztegi Batua-n (2000.eko abenduko bertsioa, Euskera 45-2) agertzen diren sarrera, azpi-sarrera eta adiera guztiak aurkituko ditugu sarrera eta azpi-sarrera bakoitzari dagozkion erdal kide eta adibideez horniturik.

Bilaketak egiteko modu diferenteak

Hitzen bilaketa egiteko hiztegi honek bide bi proposatzen ditu hizkuntza aukeratu ostean:

Bata, hitzaren bilaketa egitea da. Horretarako hitzari dagokion laukitxoan idatzi behar da bilatu nahi dena, ilun hitza, adibidez. Bestea, hitz zerrenda bat aurkitzea da, horretarako “Aurkitu nahi den hitza eta ondorengoak” jartzen duen laukitxoan idatzi behar dira hitz-zerrendaren hasierako karaktereak edo hitza osorik eta 20 hitzen zerrenda eskainiko da. Honez gain, aurreko zein ondorengo 20 hitzak ikusteko aukera ere izango dugu eta zerrendako edozein hitzen gainean sakatuz gero, hitz horri buruzko informazioa pantailaratuko da. Min hitza sartzen badugu, esaterako, hitz honen aurreko eta ondorengo 20 hitzak alfabetikoki ordanaturik azalduko zaizkigu paperezko hiztegi bat izango balitz bezala. Azalpen honen adibidea ikus daiteke argazki hauetan:

1. aukera:

2. aukera:

 

 

 

 

 

 

Sarrerei buruzko informazioa

Bilatu dugun hitza pantailaren erdian agertuko da. Sarrera bakoitzean kategoria gramatikala agertuko da, bilatutako hitza aditza bada, hiru formatan emango da: partizipioa, erroa eta gerundioa. Honez gain, jakintza arloa (Bot., Zool., Geol., Inform., Hizk., etab.) eta izendapen zientifikoa (otso hitza sartzean Canis lupus, adibidez) ere agertuko dira.

Erdal kideak adieraka sailkatuta eta zenbaki gorriz adierazita agertuko dira, eta adibideak zenbaki urdinez adierazita. Sarrerako aldaera forma onartua ez denean hiru aukera aurkezten dira forma egokia aurkitzeko:

1. Euskaltzaindiaren Hiztegi Batuan “h.” (hobe) dutenak alboan dute forma onartua.

2. Euskaltzaindiaren Hiztegi Batuan “e.” (erabili) dutenak alboan dute forma onartua. Adibidez, haundi hitza sartzen bada, hiztegiak handi hitza erabiltzeko proposatuko digu.

3. Gainerakoetan ikus-en bidez forma onartu edo estandarragoetara bidaltzen da eta gainean sakatuz forma horretako informazioa eskaintzen da. Esaterako, emon aditza sartzen badugu, eman aditza ikusteko gomendioa ematen digu.

 

Hitzak aurkitzeko moduak

3000 HIZTEGIAN bilaketa bat egitea oso erraza da, behin orrialdean sarturik euskera-gaztelania edo gaztelania-euskera aukeren artean bat hautatu behar dugu eta “hitza“/”palabra” jartzen duen lekuan bilatu nahi dugun hitza idaztea da egin beharreko gauza bakarra, honen ondoren “bilatu“/”buscar” botoia sakatu, eta listo.

Hauek dira 3000 HIZTEGIAk hitzak aurkitzeko eskaintzen dituen hiru modu desberdinak:

1. Hitza txarto idazten bada edo hiztegian ez dagoen hitz bat sartzen bada, sistemak zerrenda bat proposatuko du horietatik bat aukeratzeko eta Buscar/Bilatu botoia sakatuz gero, hitz horri dagokion informazioa pantailaratuko da.

2. Hitz onartuaren aldaera bat idatzita ere, sistema prest dago gura den hitzaren forma desberdinak aurkitzeko. Adibidez, hitza “h” nahiz “h”-rik gabe idatzi arren aldaera zuzena edo estandarra agertuko da, hau da, andi idatzi arren handi forma onartua agertuko da. Berdin gertatzen da hitz elkartuetan gidoiarekin, loturik nahiz banaturik idazten bada. Adibidez arto(-)buru aurkitzeko ondoko aukerak ditu erabiltzaileak: artoburu, arto(-)buru, arto-buru eta arto buru. Denetatik arto(-)buru sarrera agertuko da.

3. Hitzaren lehen hizkiak idazten badira, adibidez buru idazten bada bi sarrera eskaintzen ditu sistemak: buru eta burutu, baina bur, bur-, nahiz bur& idazten bada, hizki horiekin hasten diren hitzen zerrenda bat proposatzen da. Zerrenda horretako hitz bat markatu eta Bidali botoia sakatzean (adibidez buraso) hitz horri dagokion informazioa eskuratuko da (buraso h. guraso).

4. Bilaketa gaztelaniaz egiterakoan, hitza azentuarekin nahiz azentu gabe idatzi daiteke. Modu batera edo bestera bilatuz 3000 HIZTEGIAk hitzaren forma akademikoa aurkituko du; adibidez, cabezon idazten bada pantailan cabezón berba azalduko da. Gauza bera gertatzen da dieresiarekin, bai pingüino idatziz bai pinguino idatziz, 3000 HIZTEGIAk pingüino formara bideratuko du bilaketa.

Beste hiztegi batzuekin konparatuta

Hiztegi honen antzeko beste bat Elhuyar Hiztegia da. Hiztegi honek bilatu nahi dugun euskal edo erdal hitza itzultzeaz gain, aurrizki zein atzizki bat sartuz gero hau darabilten hitzen zerrenda eskainiko digu. 3000 HIZTEGIAk, ordea, ez du baliabide hau eskaintzen.

Adibide bat jartzearren, 3000 HIZTEGIAn buru hitza sartzen bada hiru aukeretatik bat hartzeko proposatzen du hiztegiak, bata gaztelaniazko abad izango litzatekeena, bestea gaztelaniazko cabeza (honen barruan hamaika adiera), eta azkena gaztelaniazko espigar edo granar izango litzatekeena (honen barruan 3 adiera). Elhuyar Hiztegian buru bilatuz gero, aukerak askoz ere ugariagoak dira: hamalau adiera desberdin eskaintzen dizkigu hiztegiak, eta honez gain, lexi eta lokuzio ugari azpizarrera moduan ere.

Ikus dezakegunez hiztegi biek eskaintzen dituzten baliabideak nahiko antzekoak dira; hala ere, bi hiztegiak erabili ditugu eta gure ustez Elhuyar Hiztegiak ematen dituen itzulpenak eta sarrera aukerak 3000 HIZTEGIAk eskaintzendituenak baino hobeak dira, aurrizkien eta atzizkien baliabidea izateaz gain.

3000 HIZTEGIA Labayru Ikastegiak interneten eskuragarri duen hiztegiarekin ere konpara dezakegu. Hiztegi honen sarrera orrian euskera/gaztelania edo castellano/euskera hiztegien artean aukeratu behar da, eta bietako bat hautatu dugunean bilaketa egiteko hiru modu proposatzen dira: “berbea osorik“/”palabra completa“, “-(e)tik hasita“/”comienza por” eta “daukala“/”contiene“. Hiru modu hauen artean aukeratzeko ideia ona dela pentsatzen dugu eta 3000 HIZTEGIAk ez daukan baliabide bat da. Labayru Hiztegian buru hitza “berbea osorik” aukeraren barruan bilatzen badugu hamar adiera azaltzen dira, baina 3000 HIZTEGIAn ez bezala buru-rekin aurki daitezkeen hainbat eta hainbat hitzen, lokuzioen, etab.-rren zerrenda bat daukagu eskuragarri.

Laburbilduz, 3000 HIZTEGIA kontsulta azkar eta ez oso sakon bat egiteko egokia izango litzateke. Baina gure ustez, sakonagoa, zehatzagoa eta kalitate handiagokoa den bilaketa bat egiterako orduan beste hiztegi mota batzuetara jo beharko litzateke; Orotariko Euskal Hiztegia adibidez, hiztegi egokia da bilaketa espezializatuagoak egiteko. Orotariko Euskal Hiztegiaz aparte aipatutako beste bi hiztegiak (Elhuyar eta Labayru) ere nahiko onak dira horren espezializatuak ez diren bilaketak egiteko, baina bai bilaketa sakonak eta kalitatezkoak egin ahal izateko.

Iturriak:

Egileak: Ainhoa Causo, Jone Flores eta Leire Zamalloa

Older Posts »

Theme: Silver is the New Black. Blog at WordPress.com.

Follow

Get every new post delivered to your Inbox.