3. TIPOS DE CORPUS

 

Autores como J. Sinclair (1996) o J. Torruella y J. Llisterri han propuesto clasificaciones de los distintos tipos de corpus en función de una serie de criterios.

Sinclair, J. (1996): EAGLES Preliminary recommendations on Corpus Typology. Documento electrónico: http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html

J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona, págs. 45-77. Disponible electrónicamente en: http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf

Los principales parámetros para establecer tipologías de corpus se centran en:

La modalidad de la lengua: escrita, hablada

El número de lenguas a que pertenecen los textos

El tamaño o cantidad de textos que conforman el corpus

El carácter abierto o cerrado del corpus

La variedad lingüística o el grado de especialización de los textos

El período temporal que abarcan los textos

El tratamiento aplicado al corpus: información añadida a los textos

Con frecuencia, estos criterios vienen determinados por la finalidad u objetivo que se persigue con el corpus: el estudio de la obra de un autor (Cervantes) o de la producción literaria de una época determinada (el Barroco), la descripción de una lengua en general (el español contemporáneo) o de una variedad, sublenguaje o aspecto lingüístico concreto (p.e. la norma culta en Madrid, textos técnicos, léxico jurídico, etc.), la obtención de un determinado producto comercial (un diccionario, una aplicación telefónica relacionada con las tecnologías del habla, etc.).

Algunos de los principales tipos de corpus son:

Según la modalidad de la lengua

Corpus textuales o escritos: muestras de lengua escrita.

Corpus orales: muestras de lengua hablada, que pueden ser:

Transcripciones ortográficas de grabaciones, utilizadas sobre todo en lingüística de corpus.

Grabaciones y transcripciones ortográficas y/o fonéticas, empleadas en fonética y tecnologías del habla.

Según el número de lenguas

Corpus monolingües: están formados por textos de una sola lengua. Se recopilan con el objetivo de dar cuenta de una lengua o variedad lingüística.

Corpus bilingües o multilingües: están formados por textos de dos (bilingües) o más lenguas (multilingües) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de selección.

Corpus comparables (“paired texts”): consisten en una selección de textos en más de una lengua o variedad lingüística parecidos en cuanto a sus características y que comparten criterios de selección. Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos.

Corpus paralelos (“bi-texts”): recogen textos en más de una lengua (bilingües o multilingües) pero, a diferencia de los anteriores, se trata del mismo texto traducido a una o más lenguas. El más sencillo consta del original y su traducción. Son especialmente útiles en la traducción automática y en entornos bilingües o multilingües, como la ONU, la OTAN, la UE o Canadá. Desde un punto de vista metodológico, son discutidos por algunos autores, ya que se pueden producir interferencias entre las lenguas objeto de traducción. Se remontan a la Edad Media, cuando se hacían “biblias políglotas”, que contenían textos uno al lado de otro en hebreo, latín y griego, y a veces también versiones vernáculas.

Corpus alineados: son corpus paralelos en los que, para facilitar su explotación, los textos están dispuestos unos al lado de otros en párrafos o frases, de tal forma que sea más fácil extraer las equivalencias de traducción: aquellos elementos que son traducciones mutuas. Aunque no siempre es un proceso simple, el alineamiento de oraciones y palabras se puede conseguir automática o semiautomáticamente con un alto grado de exactitud. Se utilizan como entrenamiento para sistemas de traducción automática basados en estadísticas.

Según la cantidad, la proporción y la distribución de los tipos de textos

Corpus grandes: no tienen un límite de palabras o éste es muy elevado en comparación con otros tipos de corpus; no atienden a cuestiones de equilibrio o de representatividad; cada vez es mayor la tendencia al aumento de volumen gracias a los medios y facilidades técnicas disponibles.

Corpus equilibrados: recogen la misma proporción de diferentes tipos de textos.

Corpus piramidales: contienen textos distribuidos en estratos o niveles, de tal forma que un nivel consta de pocas variedades temáticas pero con muchos textos para cada una; un segundo nivel, de textos más variados temáticamente, pero con menos cantidad de cada uno; etc.

Corpus cerrados: constan de un número determinado de palabras, que se establece de forma previa a la recopilación del corpus. Una vez alcanzado ese número, el corpus se da por finalizado, sin añadir más material posteriormente.

Corpus abiertos o corpus monitor: son corpus dinámicos, que se mantienen en constante crecimiento, normalmente mediante la introducción periódica de nuevas cantidades de textos según unas proporciones previamente definidas. Cuando la capacidad de almacenamiento no lo permitía, se iban retirando los textos más antiguos a medida que se introducían los nuevos. Son un material excelente para los estudios diacrónicos, para observar tendencias de uso, cambios de significado, frecuencias de distribución, etc. No obstante, no están exentos de críticas frente al modelo predominante de corpus, basado en una concepción estática (tamaño finito) y más preocupado por ser equilibrado en cuanto a sus muestras. En cambio, el modelo del corpus monitor suele centrarse en alcanzar un tamaño considerable y prefiere incluir textos enteros en vez de simples muestras.

Según la especificidad de los textos

Corpus generales: pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible; cuantos más tipos de textos, modalidades (textos orales, textos escritos), géneros y materias, mejor.

Corpus especializados: recogen textos que puedan aportar datos para la descripción de un tipo particular de lengua (sublenguaje). P.e. un corpus que sólo recoge textos poéticos o jurídicos.

Corpus genéricos: recogen textos pertenecientes a un único género, ya que el objetivo es caracterizar ese género frente a otros. P.e. un corpus que recoja obras de teatro.

Corpus canónicos: están formados por todos los textos que configuran la obra completa de un autor.

Corpus periódicos o cronológicos: recogen textos de unos años determinados o de unas épocas concretas con el objeto de estudiar la lengua producida durante ese período.

Corpus diacrónicos o históricos: incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo, lo que los diferencia de los corpus monitor, que no abarcan períodos temporales tan amplios.

Corpus sincrónicos: su finalidad es permitir el estudio de una o más variedades lingüísticas en un momento determinado del tiempo. Por lo general, se trata de establecer comparaciones entre variedades o dialectos de una lengua.

Según la cantidad de texto que se recoge en cada documento (representatividad)

Corpus textuales: están formados por textos enteros. P.e. una novela, un anuncio de periódico, un poema, un artículo periodístico o de una revista, etc. son ejemplos de textos completos.

Corpus de referencia: están formados por fragmentos de textos, ya que interesa más el nivel de lengua que el texto en sí mismo. En este tipo de corpus son muy importantes los aspectos de equilibrio y representatividad, puesto que su objetivo es proporcionar una información lo más completa posible sobre una lengua o una variedad lingüística. Por este motivo también tienen que ser lo suficientemente amplios como para representar todas las variedades relevantes de una lengua y su vocabulario, de forma que se puedan tomar como base para la elaboración de gramáticas, diccionarios, tesauros, etc.

Corpus léxicos (sample corpus): recogen fragmentos de textos muy pequeños y de longitud constante en cada documento. Era lo habitual en los primeros corpus, debido a las limitaciones de tamaño que los medios técnicos de la época imponían. Hoy en día han vuelto a cobrar importancia debido a lo cuidado de su diseño.

Según el proceso al que se someta el corpus

Corpus simples, en bruto, no anotados o no codificados: consisten en textos guardados sin formato alguno y sin añadir ningún tipo de información adicional, como pueden ser códigos o anotaciones.

Corpus verticales: son el resultado de disponer en forma de columna las palabras de un texto ordenadas según criterios alfabéticos o de frecuencia. Las palabras se consideran aisladamente, sin contexto.

Corpus codificados o anotados: están formados por textos a los que se les han añadido, de forma manual o automática, determinadas informaciones. Éstas pueden referirse a la estructura de los textos: etiquetas especiales para indicar el título, los capítulos, etc. (codificación); o a aspectos puramente lingüísticos, como la categoría gramatical, la estructura sintáctica, etc. (anotación).

Corpus analizados morfológicamente: los textos del corpus han sido anotados con información morfológica. Cada palabra del corpus tiene asociada una lista de sus posibles categorías morfosintácticas. Es posible más o menos detalle (nombre, verbo; nombre común, nombre propio, verbo principal, verbo auxiliar, etc.).

Corpus “parentizados”: son aquéllos que se han sometido a un proceso de análisis sintáctico superficial, marcado entre paréntesis o corchetes. Normalmente se identifican los constituyentes principales: p.e. SN (sintagma nominal), SV (sintagma verbal), etc.

Corpus analizados (treebanks): el texto está procesado sintácticamente de manera completa. Cada oración del corpus ha sido analizada de forma exhaustiva: p.e. SN sujeto animado.

Según la documentación que acompaña a los textos

Corpus documentados: cada texto lleva asociado un documento conocido como DTD (Document Type Definition) en el que se describen características del texto como el tipo de textos: prosa, teatro, etc. y otros rasgos específicos de cada tipología textual.

Corpus no documentados: sus textos no disponen de ningún archivo relacionado donde se describan sus elementos.

Criterios específicos para la clasificación de los corpus orales

Corpus orientados a la descripción fonética de la lengua: consisten en grabaciones de diverso tipo:

Inventarios de sistemas fonéticos y fonológicos de las lenguas del mundo a modo de bases de datos de sonidos.

Grabaciones realizadas en condiciones óptimas de segmentos aislados, frases aisladas o textos leídos. En general se diseñan con mucho cuidado para recoger el fenómeno objeto de estudio y tienen un tamaño reducido al no utilizar un número elevado de hablantes. También pueden incluir habla espontánea e incluso grabaciones de medios de comunicación.

Materiales equivalentes en diferentes lenguas para estudios contrastivos y de interferencia fonética en la adquisición de lenguas.

Corpus para el desarrollo de sistemas en el ámbito de las tecnologías del habla: grabaciones y transcripciones ortográficas y/o fonéticas que consisten en:

Inventarios de unidades de síntesis para convertir texto a habla (síntesis del habla): cada grafía se relaciona con una unidad de síntesis y posteriormente se unen para producir la onda sonora.

Grabaciones con unidades fonéticas o con grabaciones específicas como números de teléfono o de tarjetas de crédito para los sistemas de reconocimiento del habla.

Transcripciones de grabaciones de lengua oral con información lingüística añadida que se utilizan para elaborar modelos estadísticos del lenguaje.

Grabaciones y transcripciones de diálogos naturales entre personas o entre personas y simulaciones de sistemas informáticos que se emplean para desarrollar servicios automáticos a través del teléfono (venta de entradas, consulta de horarios de transportes públicos, servicios bancarios, etc.).

Corpus orales propiamente dichos: transcripciones ortográficas de la lengua hablada. Son los más habituales en lingüística de corpus. Tratan de reflejar la variación sociolingüística con textos representativos de los distintos usos de la lengua hablada (conversaciones preparadas especialmente para el corpus, conversaciones espontáneas, procedentes de medios de comunicación, discursos, etc.).

Última actualización: 29/09/06

Autora: Milka Villayandre Llamazares