TIPOLOGÍA DEL LENGUAJE DOCUMENTAL

     

    Existen diversos criterios de tipificación de los lenguajes documentales, los más generalizados son: el de control, el de coordinación de los términos y el estructural.

    Dependiendo del control ejercido sobre el vocabulario, los lenguajes pueden organizarse en dos categorías: libres y controlados.

    Los lenguajes libres, fundados en el principio de postcoordinación, se componen de un vocabulario no predefinido que se va generando a partir de la realización de procesos de indización. De este tipo son las listas de descriptores libres y las listas de palabras clave. Los lenguajes libres no son propiamente lenguajes documentales puesto que para que reciban este nombre el vocabulario ha de estar controlado.

    Son lenguajes controlados los demás tipos de lenguajes documentales: tesauros, listas de encabezamientos de materia y clasificaciones. Presentan un vocabulario previamente elaborado, y admiten un limitado número de modificaciones en el momento de su utilización.

    Existe abundante literatura acerca de las ventajas e inconvenientes que conlleva el uso del lenguaje libre y del lenguaje controlado. Del análisis comparativo de ambos se suele concluir que uno neutraliza las deficiencias del otro, por ello, muchas bases de datos combinan la utilización de ambos en las distintas fases del tratamiento documental.

    Según Lancaster, los sistemas con lenguaje natural ofrecen una ventaja sobre los sistemas que utilizan un lenguaje controlado. El uso de un vocabulario ilimitado permite una gran especificidad en la recuperación; es más probable que el sistema con lenguaje libre den mejores resultados en comparación con los sistemas de lenguaje controlado, cuanto más específica tenga que ser la información.

    Los vocabularios controlados también tienen ventajas. Un vocabulario controlado tiene tres funciones fundamentales: tiende a reducir las ambigüedades semánticas, a mejorar la consistencia en la representación de la materia y a facilitar la realización de búsquedas amplias. La primera función se consigue diferenciando los distintos significados de los homógrafos, la segunda mediante el control de los sinónimos y cuasisinónimos, y la tercera estableciendo una estructura que una los términos relacionados semánticamente.

    Existe una relación entre los costes o esfuerzo en el input y el output de los sistemas de recuperación. En los sistemas con lenguaje controlado el coste y el esfuerzo se encuentran en la fase de entrada, mientras que en los sistemas con lenguaje libre los soporta la fase de salida, es decir, la búsqueda en la base de datos.

    Un usuario experimentado puede desarrollar una estrategia que compense la falta de control del vocabulario en la fase del input. En esencia, utilizará la estrategia de búsqueda para conseguir los mismos resultados que podría proporcionarle un vocabulario controlado.

    En conclusión, el vocabulario controlado es más práctico: proporciona al usuario un punto de búsqueda, en vez de dos o más, y reduce la posibilidad de que la búsqueda sea incompleta. Sin embargo, puede perderse alguna información.

    La sistematización de los lenguajes según el criterio de la coordinación se realiza en función del momento en que se combinan los elementos que los componen. Si los términos se combinan en el momento de la descripción, el lenguaje será precoordinado, y si lo hacen en el momento de la recuperación, se tratará de un lenguaje postcoordinado.

    Son lenguajes precoordinados las clasificaciones y las listas de encabezamientos de materia (lenguaje utilizado para la indización de materias). En estos sistemas las distintas nocines o conceptos que se unen para expresar una materia o un tema ocupan un lugar determinado, es decir se introducen en el momento de la indización en un orden previamente establecido y la recuperación habrá de hacerse secuencialmente, siguiendo ese orden. Un lenguaje precoordinado pero no controlado es el sistema Precis, cuya indización es articulada y permite la recuperación por todas las nociones no sólo por la primera.

    Son lenguajes postcordinados los tesauros (lenguaje utilizado para la indización por descriptores), y si incluimos los lenguajes libres podemos mencionar también las listas de descriptores libres y las listas de palabras clave. En estos sistemas las nociones o conceptos que se extraen en la indización para expresar el tema o los temas del documento tienen todas la misma categoría y no se expresarán en ningún orden determinado. Serán los intereses de los usuarios en la fase de recuperación los que obliguen a la combinación de conceptos que se realizará utilizando los operadores booleanos, los operadores de comparación, etc.

    Si combinamos las características de control y coordinación podemos establecer cuatro grupos:

    Lenguajes libres y precoordinados: el sistema Precis.

    Lenguajes controlados y precoordinados: las clasificaciones y las listas de encabezamientos de materia.

    Lenguajes libres y postcoordinados: las listas de descriptores libres y las listas de palabras clave.

    Lenguajes controlados y postcoordinados: los tesauros.

    Dependiendo de su estructura los lenguajes documentales pueden ser jerárquicos, combinatorios o sintácticos.

    A la estructura jerárquica, también denominada arbórea o sistemática, responden determinadas clasificaciones (las clasificaciones jerárquicas). En ellas los conceptos se distribuyen en clases o categorías, donde dependen unos de otros. Estos lenguajes van de lo general a lo particular.

    A la estructura combinatoria o asociativa responden el resto de los lenguajes vistos hasta ahora: sistema Precis, listas de encabezamientos de materia, listas de descriptores libres, listas de palabras clave y tesauros, si bien es cierto que en la estructura de estos últimos participa también la estructura jerárquica. Estos lenguajes tienen una presentación alfabética y los conceptos se asocian o combinan libremente entre sí para expresar el tema o los temas.

    A la estructura sintáctica pertenecen los lenguajes que recurren a una sintaxis, mediante la cual se pueden representar y poner en relación los contenidos de los documentos. Según su complejidad, se pueden diferenciar dos tipos: lenguajes sintácticos de gramática simple y lenguajes sintácticos de gramática elaborada. De momento están en fase de experimentación, y los que han aparecido (Syntol) no han tenido éxito.

    Según la caracterización de los documentos sea sintética o analítica Van Slype y Maniez tipifican los lenguajes documentales en dos categorías: lenguajes de clasificación y lenguajes de indización.Los primeros serían las clasificaciones bibliográficas y los segundos los restantes lenguajes documentales, aunque las listas de encabezamientos participan también de la síntesis.

     

toparrow.gif (946 bytes) Página anterior