Autores como J. Sinclair (1996)
o J. Torruella y J. Llisterri han
propuesto clasificaciones de los distintos tipos de corpus en función
de una serie de criterios.
Sinclair,
J. (1996): EAGLES Preliminary recommendations on Corpus
Typology. Documento electrónico: http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html
J.
Torruella y J. Llisterri (1999): “Diseño de corpus textuales
y orales”, en J. M. Blecua et al. (eds.), Filología
e informática. Nuevas tecnologías en los estudios filológicos,
Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona,
págs. 45-77. Disponible electrónicamente en: http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf
Los principales parámetros para establecer tipologías
de corpus se centran en:
La
modalidad de la lengua: escrita, hablada
El
número de lenguas a que pertenecen los textos
El
tamaño o cantidad de textos que conforman el corpus
El
carácter abierto o cerrado del corpus
La
variedad lingüística o el grado de especialización
de los textos
El
período temporal que abarcan los textos
El
tratamiento aplicado al corpus: información añadida a
los textos
Con frecuencia, estos criterios vienen determinados
por la finalidad u objetivo que se persigue con el corpus: el estudio
de la obra de un autor (Cervantes) o de la producción literaria de una época
determinada (el Barroco), la descripción de una lengua en general
(el español contemporáneo) o de una variedad, sublenguaje
o aspecto lingüístico concreto (p.e. la norma culta en Madrid,
textos técnicos, léxico jurídico, etc.), la obtención
de un determinado producto comercial (un diccionario, una aplicación
telefónica relacionada con las tecnologías del habla, etc.).
Algunos de los principales tipos de corpus son:
Según
la modalidad de la lengua
Corpus
textuales o escritos: muestras de lengua escrita.
Corpus
orales: muestras de lengua hablada, que pueden ser:
Transcripciones
ortográficas de grabaciones, utilizadas sobre todo en lingüística
de corpus.
Grabaciones
y transcripciones ortográficas y/o fonéticas,
empleadas en fonética y tecnologías del habla.
Según
el número de lenguas
Corpus
monolingües: están formados por textos de una
sola lengua. Se recopilan con el objetivo de dar cuenta de una lengua
o variedad lingüística.
Corpus
bilingües o multilingües: están
formados por textos de dos (bilingües) o más lenguas (multilingües)
sin que, en principio, sean traducciones unos de otros y sin compartir criterios de
selección.
Corpus
comparables (“paired texts”): consisten en una selección
de textos en más de una lengua o variedad lingüística
parecidos en cuanto a sus características y que comparten criterios
de selección. Se utilizan sobre todo para comparar variedades
de la lengua en estudios contrastivos.
Corpus
paralelos (“bi-texts”): recogen textos en más de una
lengua (bilingües o multilingües) pero, a diferencia de los
anteriores, se trata del mismo texto traducido a una o más lenguas.
El más sencillo consta del original y su traducción.
Son especialmente útiles en la traducción automática
y en entornos bilingües o multilingües, como la ONU, la
OTAN, la UE o Canadá. Desde un punto de vista metodológico,
son discutidos por algunos autores, ya que se pueden producir interferencias
entre las lenguas objeto de traducción. Se remontan a la Edad
Media, cuando se hacían “biblias políglotas”, que contenían
textos uno al lado de otro en hebreo, latín y griego, y a veces
también versiones vernáculas.
Corpus
alineados: son corpus paralelos en los que, para facilitar
su explotación, los textos están dispuestos unos al lado
de otros en párrafos o frases, de tal forma que sea más
fácil extraer las equivalencias de traducción: aquellos
elementos que son traducciones mutuas. Aunque no siempre es un proceso
simple, el alineamiento de oraciones y palabras se puede conseguir
automática o semiautomáticamente con un alto grado de
exactitud. Se utilizan como entrenamiento para sistemas de traducción
automática basados en estadísticas.
Según
la cantidad, la proporción y la distribución de los tipos
de textos
Corpus
grandes: no tienen un límite de palabras
o éste es muy elevado en comparación con otros tipos
de corpus; no atienden a cuestiones de equilibrio o de representatividad;
cada vez es mayor la tendencia al aumento de volumen gracias a los
medios y facilidades técnicas disponibles.
Corpus
equilibrados: recogen la misma proporción de diferentes
tipos de textos.
Corpus
piramidales: contienen textos distribuidos en estratos o
niveles, de tal forma que un nivel consta de pocas variedades temáticas
pero con muchos textos para cada una; un segundo nivel, de textos más
variados temáticamente, pero con menos cantidad de cada uno;
etc.
Corpus
cerrados: constan de un número determinado de palabras,
que se establece de forma previa a la recopilación del corpus.
Una vez alcanzado ese número, el corpus se da por finalizado,
sin añadir más material posteriormente.
Corpus
abiertos o corpus monitor: son corpus dinámicos, que se mantienen en constante crecimiento,
normalmente mediante la introducción periódica de nuevas
cantidades de textos según unas proporciones previamente definidas.
Cuando la capacidad de almacenamiento no lo permitía, se iban
retirando los textos más antiguos a medida que se introducían
los nuevos. Son un material excelente para los estudios diacrónicos,
para observar tendencias de uso, cambios de significado, frecuencias
de distribución, etc.
No obstante, no están exentos de críticas frente al modelo predominante de corpus, basado en una concepción estática (tamaño finito) y más preocupado por ser equilibrado en cuanto a sus muestras. En cambio, el modelo del corpus monitor suele centrarse en alcanzar un tamaño considerable y prefiere incluir textos enteros en vez de simples muestras.
Según
la especificidad de los textos
Corpus
generales: pretenden reflejar la lengua o variedad lingüística de la forma más equilibrada posible; cuantos más tipos de textos, modalidades (textos orales, textos escritos), géneros y materias, mejor.
Corpus
especializados: recogen textos que puedan aportar datos para
la descripción de un tipo particular de lengua (sublenguaje). P.e. un corpus
que sólo recoge textos poéticos o jurídicos.
Corpus
genéricos: recogen textos pertenecientes a un único
género, ya que el objetivo es caracterizar ese género
frente a otros. P.e. un corpus que recoja obras de teatro.
Corpus
canónicos: están formados por
todos los textos que configuran la obra completa de un autor.
Corpus
periódicos o cronológicos: recogen textos de
unos años determinados o de unas épocas concretas con
el objeto de estudiar la lengua producida durante ese período.
Corpus
diacrónicos o históricos: incluyen textos de diferentes etapas
temporales sucesivas con el fin de poder observar evoluciones de
la lengua en un período largo, lo que los diferencia de los corpus monitor, que no abarcan períodos temporales tan amplios.
Corpus sincrónicos: su finalidad es permitir el estudio de una o más variedades lingüísticas en un momento determinado del tiempo. Por lo general, se trata de establecer comparaciones entre variedades o dialectos de una lengua.
Según
la cantidad de texto que se recoge en cada documento (representatividad)
Corpus
textuales: están formados por textos enteros. P.e.
una novela, un anuncio de periódico, un poema, un artículo
periodístico o de una revista, etc. son ejemplos de textos
completos.
Corpus
de referencia: están formados por
fragmentos de textos, ya que interesa más el nivel de lengua
que el texto en sí mismo. En este tipo de corpus son muy importantes
los aspectos de equilibrio y representatividad, puesto que su objetivo
es proporcionar una información lo más completa posible
sobre una lengua o una variedad lingüística. Por este motivo
también tienen que ser lo suficientemente amplios como para
representar todas las variedades relevantes de una lengua y su vocabulario,
de forma que se puedan tomar como base para la elaboración de
gramáticas, diccionarios, tesauros, etc.
Corpus
léxicos (sample corpus): recogen fragmentos
de textos muy pequeños y de longitud constante en cada documento.
Era lo habitual en los primeros corpus, debido a las limitaciones de
tamaño que los medios técnicos de la época imponían. Hoy en día han vuelto a cobrar importancia debido a lo cuidado de su diseño.
Según
el proceso al que se someta el corpus
Corpus
simples, en bruto, no anotados o no codificados: consisten
en textos guardados sin formato alguno y sin añadir
ningún tipo de información adicional, como pueden ser
códigos o anotaciones.
Corpus
verticales: son el resultado de disponer en forma de columna
las palabras de un texto ordenadas según criterios alfabéticos
o de frecuencia. Las palabras se consideran aisladamente, sin contexto.
Corpus
codificados o anotados: están formados
por textos a los que se les han añadido, de forma manual o automática,
determinadas informaciones. Éstas pueden referirse a la estructura
de los textos: etiquetas especiales para indicar el título,
los capítulos, etc. (codificación);
o a aspectos puramente lingüísticos, como la categoría
gramatical, la estructura sintáctica, etc. (anotación).
Corpus
analizados morfológicamente: los textos del corpus
han sido anotados con información morfológica. Cada palabra
del corpus tiene asociada una lista de sus posibles categorías
morfosintácticas. Es posible más o menos detalle (nombre,
verbo; nombre común, nombre propio, verbo principal, verbo
auxiliar, etc.).
Corpus “parentizados”:
son aquéllos que se han sometido a un proceso de análisis
sintáctico superficial, marcado entre paréntesis o corchetes.
Normalmente se identifican los constituyentes principales: p.e. SN
(sintagma nominal), SV (sintagma verbal), etc.
Corpus
analizados (treebanks): el texto está procesado
sintácticamente de manera completa. Cada oración del
corpus ha sido analizada de forma exhaustiva: p.e. SN sujeto animado.
Según
la documentación que acompaña a los textos
Corpus
documentados: cada texto lleva asociado un documento conocido
como DTD (Document Type Definition) en el que se describen
características del texto como el tipo de textos: prosa, teatro,
etc. y otros rasgos específicos de cada tipología textual.
Corpus
no documentados: sus textos no disponen de ningún
archivo relacionado donde se describan sus elementos.
Criterios
específicos para la clasificación de los corpus orales
Corpus
orientados a la descripción fonética de la lengua: consisten
en grabaciones de diverso tipo:
Inventarios
de sistemas fonéticos y fonológicos de las lenguas
del mundo a modo de bases de datos de sonidos.
Grabaciones
realizadas en condiciones óptimas de segmentos aislados, frases
aisladas o textos leídos. En general se diseñan con mucho
cuidado para recoger el fenómeno objeto de estudio y tienen un
tamaño reducido al no utilizar un número elevado de hablantes.
También pueden incluir habla espontánea e incluso grabaciones
de medios de comunicación.
Materiales
equivalentes en diferentes lenguas para estudios contrastivos y de
interferencia fonética en la adquisición de lenguas.
Corpus
para el desarrollo de sistemas en el ámbito de las tecnologías
del habla: grabaciones y transcripciones ortográficas y/o fonéticas
que consisten en:
Inventarios
de unidades de síntesis para convertir texto a habla (síntesis
del habla): cada grafía se relaciona con una unidad de síntesis
y posteriormente se unen para producir la onda sonora.
Grabaciones
con unidades fonéticas o con grabaciones específicas como
números de teléfono o de tarjetas de crédito
para los sistemas de reconocimiento del habla.
Transcripciones
de grabaciones de lengua oral con información lingüística
añadida que se utilizan para elaborar modelos estadísticos
del lenguaje.
Grabaciones
y transcripciones de diálogos naturales entre personas o entre
personas y simulaciones de sistemas informáticos que se emplean
para desarrollar servicios automáticos a través del teléfono
(venta de entradas, consulta de horarios de transportes públicos,
servicios bancarios, etc.).
Corpus
orales propiamente dichos: transcripciones ortográficas de la
lengua hablada. Son los más habituales en lingüística
de corpus. Tratan de reflejar la variación sociolingüística
con textos representativos de los distintos usos de la lengua hablada
(conversaciones preparadas especialmente para el corpus, conversaciones
espontáneas, procedentes de medios de comunicación, discursos,
etc.).
|