La ventaja de los corpora en formato electrónico

La ventaja de los corpora en formato electrónico

La famosa globalización llega a todos los ámbitos de la vida. Cuando un profesional o una persona cualquiera se enfrenta a la realización de algún tipo de trabajo suele poder disponer de una ingente cantidad de información y de documentación. En el caso de trabajos relacionados de alguna manera con la lingüística es una realidad habitual. El profesional se encuentra con cantidades considerables de documentos que aportan datos que sólo una codificación, ordenación y organización de éstos en la proporción adecuada pueden mantenerlo a flote en la inmensidad de la información que contienen habitualmente. Esto se consigue con los corpus, y, especialmente cuando éstos están en formato electrónico, utilizando herramientas informáticas. Estas herramientas agilizan el trabajo y consiguen que se pueda abarcar mayor cantidad de información, con lo que el resultado del trabajo puede ser mucho más preciso y más acorde con la realidad.

Estos corpus informatizados son muy útiles en diferentes áreas: lexicología, terminología, etc., y para la traducción automática o para la enseñanza de la lengua. Como estas dos áreas me interesan especialmente me quiero centrar en ellas. Un buen corpus nos va a facilitar nuestro trabajo y por ejemplo, en el área de la enseñanza de la lengua nos va a reportar algunas ventajas:

  • Nos facilita la preparación de materiales o ejercicios para el aula basados en un uso real de la lengua.

  • Nos permitirá el análisis del uso de palabras y construcciones más frecuentes que se van a encontrar en libros de texto y lectura recomendadas.

  • Nos permitirá la corrección de barbarismos.

  • Y también, la corrección de malos usos lingüísticos (errores más repetidos, construcciones no normativas, léxico mal usado, grafías incorrectas,…)

Complementando a la enseñanza de la lengua y directamente relacionada con la traducción automática, está el trabajo de creación y actualización de diccionarios. En este apartado el uso de un corpus es imprescindible. El que sea informatizado agilizará considerablemente el procesamiento de documentos. Todas la editoriales y Academias de la Lengua utilizan corpus monolingües o multilingües para sus trabajos u obras lexicográficas o diccionarios.

Bibliografía

TORRUELLA, J. – LLISTERRI, J. (1999) “Diseño de corpus textuales y orales”, in BLECUA, J.M. – CLAVERIA, G. – SÁNCHEZ, C. – TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona – Editorial Milenio. Pp. 45-47.

http://liceu.uab.es/~joaquim/publicaciones/Torruella_Llisterri_99.pdf

[Ponencia originalmente leída en el seminario “La ingeniería lingüística en la sociedad de la información “, Fundación Duques de Soria, 17-21 de julio de 2000. Posteriormente publicada en M.A. Martí y J. Llistterri, 2002. Tratamiento del lenguaje natural. Edicions Universitat de Barcelona: 61-90] Tratamiento de corpora bilingües Joseba Abaitua. http://www.deli.deusto.es Universidad de Deusto

Pedro Maestre Yenes. 1999. La utilización de las diferentes lenguas en Internet. Centro Virtual Cervantes. http://cvc.cervantes.es/obref/anuario_99/pmaestre/

Sara Laviosa. 1997. How comparable can ‘comparable corpora’ be? Target, 9-2: 289-319.

Glosario:

lexicología.

(Del gr. λεξικόν, léxico, y -logía).

1. f. Estudio de las unidades léxicas de una lengua y de las relaciones sistemáticas que se establecen entre ellas.

terminología.

1. f. Conjunto de términos o vocablos propios de determinada profesión, ciencia o materia.

barbarismo.

(Del lat. barbarismus).

1. m. Incorrección que consiste en pronunciar o escribir mal las palabras, o en emplear vocablos impropios.

5. m. Ling. Extranjerismo no incorporado totalmente al idioma.