|
NORMALIZACIÓN DEL VOCABULARIO.
Vocabulario controlado con el que podemos traducir el contenido de los documentos expresados en lenguaje natural a un lenguaje documental evitando la ambigüedad del primero y representando los conceptos de forma unívoca.
Instrumento de almacenamiento y recuperación de información utilizado por el documentalista para indizar y por el usuario para buscar.
La norma UNE 50-106-90, (equivalente de la norma ISO 2788-1986) como el Tesauro SPINES preparado por la Secretaría de la UNESCO en 1976 y su versión española preparada por el Instituto de Información y Documentación en Ciencia y Tecnología ICYT (C.S.I.C.) hacen referencias concretas y claras al modo y forma en que debe elaborarse un tesauro.
En él los términos denominados descriptores son los únicos admitidos para representar un concepto mientras que los no descriptores son aquellos que siendo no admitidos envían a otros que sí lo son.
Aparte de ellos un tesauro contará de una serie de relaciones establecidas entre los términos y que ayudarán a su localización y definición, dándonos el concepto completo que representa y su contexto.
Podemos encontrar múltiples definiciones de lo que es un tesauro:
Amat Noguera lo define como un diccionario que muestra la equivalencia entre los términos o expresiones del lenguaje natural y aquellos términos normalizados procedentes del lenguaje documental, así como las relaciones semánticas que existen entre los términos.
Coll-Vinet define el tesauro como una compilación de palabras y frases que muestran sus sinónimos, sus jerarquías y otras dependencias, y cuya función es suministrar un vocabulario normalizado para la recuperación y almacenamiento de la información.
García Gutiérrez y Lucas Fernández dicen que es un dispositivo léxico que correlaciona los mensajes humanos y documentales con los objetivos:
- servir de base terminológica representante de un campo científico determinado.
- dinamizar la comunicación de entrada y salida en el hombre y en la propia base de datos.
La norma ISO define tesauro desde dos puntos de vista:
- según su función un tesauro es un instrumento de control de la terminología que se utiliza mediante la transposición del lenguaje natural (utilizado por los usuarios, indizadores y en los documentos) a un lenguaje más estricto como es el documental.
- según su estructura es un vocabulario controlado y dinámico de términos con relaciones semánticas entre ellos y que se aplican a campos temáticos particulares del conocimiento.
Otros autores van en la misma linea, como es J. Chaumier.
Del conjunto de definiciones se desprende que un tesauro es un vocabulario controlado para representar de manera unívoca el contenido de los documentos y de las preguntas, así como para ayudar al usuario en el tratamiento de la información.
Representa varios meses de trabajo humano dependiendo del volumen del tesauro. Para un tesauro de 2000 a 3000 términos se necesitan de seis a ocho meses. El volumen de éste dependerá del número de campos a cubrir, del número de documentos a indizar y de la profundidad de la indización.
COMPILACIÓN DEL VOCABULARIO o búsqueda de la materia prima se realizará según el método inductivo o deductivo.
En el primero el vocabulario de los campos censados se reúnen por compilación de documentos fuente a partir de cierto numero de términos de los dominios considerados: planes de clasificación, tablas de materias, diccionarios técnicos, etc. Los términos se registran sobre fichas y se ordenan alfabéticamente mencionando su origen, frecuencia con que aparecen, etc.
En el segundo el vocabulario se extrae de los propios documentos, bien de manera manual o automática.
NORMALIZACIÓN DEL VOCABULARIO: Con él se garantiza la coincidencia entre el lenguaje de indización y el de búsqueda documentaria. Se tiene en cuenta el género, el número, los sinónimos, etc.
REDUCCIÓN DEL VOCABULARIO: Necesario para encajonar el vocabulario normalizado dentro de los limites de volumen previstos, eliminando términos no significativos, términos ajenos a los campos, etc.
PRUEBA DEL VOCABULARIO: Pruebas de variación del vocabulario registrado, tomando una muestra representativa, de 100 a 300 documentos, e indizando bajo la forma de descriptores libres se confecciona la lista de los términos retenidos.
ESTRUCTURACIÓN DEL VOCABULARIO: En esta fase se introduce los diferentes tipos de relaciones mediante los métodos gráficos o ayudados por siglas.
EDICIÓN: Se hará una primera prueba de la que, una vez salida a la luz, puedan hacerse nuevas recomposiciones, correcciones y ampliaciones según lo indiquen aquellos profesionales y usuarios que lo consulten.
Muriel Leclerc en su guía y tesauro para la indización de los archivos históricos de la ciudad de Québec, 1993, nos ofrece los puntos esenciales para la realización de tesauros dedicados especialmente a archivos.
La realización de estos implicaría:
-Un estudio de las obras que en general traten los problemas de la indización.
-La consulta de tesauros cuyo contenido fuese similar a los temas cubiertos por nuestro archivo.
-Un análisis de las practicas de indización ya en vigor, y que en el caso de este autor corresponden a las de la División de archivos de los ciudad de Québec.
-La creación de un instrumento de vocabulario controlado teniendo en cuenta las posibilidades que ofertan las diferentes bases de datos existentes.
En esta misma obra el autor analiza los problemas que tiene el análisis documental para aplicarse en materia de archivos y aboga por una política de indización propia que haga frente a:
-La falta de uniformidad en las prácticas ya en vigor con relación al control del vocabulario, del tipo de indización y de las reglas de escritura a seguir.
-La multiplicación de encabezamientos innecesarios.
-La dificultad para comprimir la información.
-La falta de rigor terminológica.
-La variabilidad de los niveles de indización entre las palabras claves extraídas de las descripciones o de los conceptos nacidos del análisis de contenido de los documentos.
Los principales problemas con los que se encontró el Ministerio de Asuntos Exteriores Español a la hora de crear su propio tesauro fueron principalmente:
1- El volumen de la documentación (12 Km de estantería).
2- La terminología, tanto en la evolución de los términos con los que identificar un mismo tema, como en la denominación de los acontecimientos en los que han influido considerablemente los medios de comunicación.
3- Las características propias de los archivos diplomáticos.
Para salvarlas se impuso como metodología de trabajo:
1- El examen de la propia documentación, partiendo de los archivos activos de las Direcciones Generales que rigen el funcionamiento actual del Departamento.
Así se recogieron y examinaron todos los Cuadros de Clasificación e indices de materias que encauzan la documentación de los archivos de las diversas dependencias (a nivel de Dirección General, Subdirección General, Sección o de Secretaria).
Una vez analizados se seleccionaron los descriptores y no descriptores según la importancia en los Cuadros de Clasificación (criterio archivístico).
Este trabajo con los archivos de gestión del Ministerio sirvió a su vez para organizarlos.
2- Identificación e Informatización de los fondos del Archivo General (bases de datos ARGE, AHIS, CONDE, TESTA, MAPA y PERS), con ello se extrajeron nuevos descriptores.
Del Indice del Ministerio de Estado (1800 a 1931) y del A fichero catalogo-diccionario del Archivo Renovado, que comprende la documentación a partir de 1931 aproximadamente, (mas de millón y medio de fichas sin encabezamiento normalizado), se entresacaron otro basto numero de nuevos términos para el tesauro.
3- Utilización de la Bibliografía de referencia especializada.
Por tanto, el tesauro compila los descriptores utilizados en los archivos de gestión desde 1991 y los que identifican los fondos que aún se están organizando en el Archivo General.
Recogiendo los términos aceptados como unívocos en asuntos y expedientes actuales y los que no. Se establecen las pautas generales para los cuadros de clasificación.
Por tratarse de un tesauro esta abierto a nuevas ampliaciones y modificaciones en función de su actualización periódica.
Al abarcar los descriptores empleados por el Archivo General el resultado puede ser considerado un Macrotesauro Histórico de la diplomacia española y del que pueden extraerse microtesauros actualizados de temas o asuntos determinados.
Por las características de la documentación se necesita una elaboración y tratamiento diferente al del resto de bibliotecas y centros de documentación.
1- Incorporación de Organigramas de los principales organismos intergubernamentales cuya documentación forma parte de los archivos.
El estudio histórico y evolutivo del organismo y de aquellos con los que se relaciona es riguroso y profundo ya que también debe recoger la distribución de Órganos ya desaparecidos y la estructura de los actuales. Y porque no deja de ser un instrumento de consulta debe evitar a toda costa desarrollar aquellas estructuras orgánicas de los Organismos cuyo volumen de documentación no fuese lo suficiente voluminoso, (entramado que siempre podrá recuperarse desde las bases de datos del Archivo General).
2- Desarrollo extenso de Identificadores. Descriptores no adscritos a ninguna faceta temática pero que resultan imprescindibles para la organización de los archivos departamentales, ya que acompañando al descriptor hacen referencia a Instituciones, denominaciones geográficas, etc.
2.A.- Relativos a la Administración Española (estructura de la Administración Central, Autonómica y Local).
2.B.- Órganos del Estado (por su estrecha relación con la documentación: archivos del ministro, subsecretaria, secretaria general técnica).
2.C.- Organigrama del Departamento (uno actual y otro histórico, concerniente a la evolución y normalización de siglas y denominaciones como ya aparecen en la base de datos del Archivo AARGE).
2.D.- Tipo del documento (principales tipos documentales).
2.E.- Denominación histórica de cada país (actual y su relación con los anteriores). Términos Geopolíticos (antiguas y actuales colonias) y Espacios Políticos Históricos que figuran en la documentación del siglo XIX y primer tercio del siglo XX (Archivo Histórico AAHIS).
2.F.- Lugares de Embajadas, Consulados y Representaciones Españolas en Organismos Internacionales.
2.G.- Siglas de los principales Bancos Internacionales.
3- La estructura del tesauro la delimitan los temas que competen a un departamento y su propio organigrama.
4- El uso de palabras-útiles combinan un descriptor de aplicación general con otro especifico de un asunto.
5- Adopción del descriptor según la terminología tradicional del Departamento o según sea más conocido por los usuarios.
El uso del singular y plural puede ayudar a diferenciar tipos documentales de asuntos.
Ejemplo:
CREDENCIAL----------tipo documental.
CREDENCIALES-------asunto de Protocolo.
6- Uso de fechas para los descriptores que designen acontecimientos históricos.
7- En cuanto a las siglas, se han elegido las mas conocidas en castellano y ante siglas homónimas se han optado por las anglosajonas para los organismos de origen anglosajón y por las francesas para los organismos de origen francófono.
Mediante un programa informático, BRS, a cada termino han sido añadidas las relaciones tipo:
- de Equivalencia: use (USE ) y usado por (used for UF).
- de Jerarquía: termino genérico (broader term BT).
- Termino Especifico: ( narrower term NT).
- de Asociación: termino relacionado (related term RT).
- Notas de Alcance: aclaran el significado de lo descriptores que lo requieran (scope note SN).
Los listados resultantes del análisis por los que pueden consultarse el tesauro son:
Tesauro Temático: representa alfabéticamente para cada faceta los descriptores en su relación jerárquica de termino genérico (nivel 1) y sus específicos (nivel 2, nivel 3, nivel 4, etc).
Ejemplo:
Nivel 1. Acción Consular
Nivel 2.. Asistencia Consular
Nivel 3... Asistencia a detenidos españoles.
Nivel 2.. Asuntos de Navegación
Nivel 3... Navegación mercante
Nivel 4.... Náufragos
Nivel 5..... Salvamento
Nivel 4.... Renta de aduanas
Nivel 5..... Despacho de Buques
Nivel 6...... Manifiestos de Buques.
Tesauro Alfabético: conjunto de descriptores ordenados alfabéticamente, relacionando cada uno de ellos con su termino genérico, o en su caso, faceta (BA), términos específicos (NT), términos relacionados (RT), nota de alcance o explicativa (SN) y, también con su termino no referente (UF). Ademas de relacionar alfabéticamente los descriptores con sus no descriptores (USE).
Ejemplo:
BECAS
BT Política Cultural.
NT Becarios Españoles.
Becarios Extranjeros.
RT Acuerdo sobre becas a estudiantes que estudian en el extranjero.
En el caso de un organismo los términos específicos (NT) se refieren a su estructura y acción, y los términos relacionados (RT), a los que están relacionados con él, ya como antecedente, ya como sucesos, ya como derivación.
Ejemplo:
BEAC
UF Banco de los Estados África Central
BT Bancos
RT BDEAC
UDEAC
UMAC
Indice Permutado: Alfabetiza los descriptores por cada una de las palabras que lo compongan, apareciendo tantas veces como palabras tengan (en TRATADO DE PARIS 1951 , aparecerá en el orden numérico de fechas, en PARIS y en TRATADO).
Para la elaboración del tesauro y la organización de las fuentes primarias de información (los archivos del Departamento y de su Servicio Exterior) se necesitó del esfuerzo conjunto de la Subdirección General de Informática y del Archivo General; implicando de forma activa a la Secretaría General Técnica que promovió un Grupo de Trabajo para la normalización del fondo con el fin de agilizar la administración interna del Ministerio, su relación con los administrados y facilitar la accesibilidad a la información para los investigadores.
En la recopilación y elaboración de los 7558 términos aparecidos en el tesauro, de los que 5762 son descriptores fue necesaria la colaboración de los grupos:
1- Grupo de Trabajo del Archivo General del Ministerio de Asuntos Exteriores, compuesto por:
- Técnicos Informáticos 2
- Archiveros Facultativos 1
- Ayudantes de Archivos y Bibliotecas
de la SDG OCI 1
- Archiveros Adscritos 2
- Licenciados del INEM
ocupados en la identificación
de fondos documentales 12
2- Grupo de Trabajo de los Archivos de Gestión del Ministerio de Asuntos Exteriores, compuesto por:
- Jefes de Asuntos Generales 5
- Servicio de Asuntos Registrales,
Notariales, Judiciales
y Legalizaciones, SGD. 41
DESCRIPTORES: Termino o símbolo que ha sido formalizado u homologado y que se emplea para representar sin ambigüedades las nociones contenidas en los documentos y en las peticiones de búsqueda documental; puede constar de una palabra ( descriptor simple o unitérmino ) o de varias ( descriptor compuesto o pluritérmino ). Únicamente los descriptores pueden utilizarse en la indización.
NO DESCRIPTORES: Término que no debe emplearse en la indización o en la búsqueda documental y que va seguido de la referencia a uno o varios términos preferentes o descriptores. No constituyen en el tesauro sino puntos de acceso que facilitan el paso desde el lenguaje natural al lenguaje del sistema, permitiendo la elección de los descriptores pertinentes.
TÉRMINOS PRECOORDINADOS O POSTCOORDINADOS: Para la expresión de un concepto o la representación de una noción puede ser necesario combinar varias palabras o términos.
Éstos pueden ser combinados ( o precoordinados ) en el propio lenguaje del sistema, y se hallarán, por tanto, ya combinados en el tesauro. O pueden también ser combinados ( o postcoordinados ) durante la indización o la búsqueda documentaria.
Un descriptor compuesto está formado por varias palabras; si cada una de ellas está en el tesauro como descriptor simple se le llama descriptor precoordinado. Éstos se incluyen en el tesauro cuando tienen un uso frecuente y/o siempre que los descriptores que los constituyen se utilizan solos con mucha frecuencia, o tienen un significado diferente según que se empleen solos o combinados. El indizador tendrá que coordinar varios descriptores sino existe un descriptor precoordinado representativo de la noción investigada.
RELACIONES SEMÁNTICAS: El entramado de relaciones de cada descriptor con los demás proporciona una cierta definición del descriptor al ubicarlo en un campo semántico. Las mas frecuentes son las relaciones de equivalencia, jerárquicas, asociativas, y alternativas.
RELACIÓN DE EQUIVALENCIA : Vinculan entre sí los términos que expresan una misma unidad de pensamiento o un mismo concepto, así como también aquellos que pueden ser considerados como equivalentes y tratados como sinónimos en el lenguaje del sistema. De todos ellos tan solo uno será seleccionado como descriptor para el tesauro, el resto constituirán los no descriptores.
RELACIÓN ALTERNATIVA: Remiten de un no descriptor ( que no puede usarse por ser un término muy general ) a varios descriptores, de los cuales únicamente habrá que elegir uno para la indización en función del contexto.
RELACIÓN JERÁRQUICA: Unen aquellos descriptores que , uno respecto a los otros, son mas generales o específicos. El descriptor mas general de una serie se llama descriptor primario o de primer rango.
RELACIÓN ASOCIATIVA: Se sobreponen a las otras relaciones entre los descriptores que pueden hallarse asociados para expresar una idea, con exclusión de las relaciones jerárquicas y de equivalencia. Suelen emplearse para indicar una relación entre antónimos, una relación de causalidad, una relación instrumental, partitiva, genética, cosa-propiedad, o material- producto.
AMAT NOGUERA, N. Documentación científica y nuevas tecnologías de la información. Madrid: Pirámide, 1987. 527p.
CHAUMIER, J. Análisis y lenguajes documentales: el tratamiento lingüístico de la información documental. Barcelona: Mitre, 1986. 170p.
COLL-VINET, R. Información y poder: el futuro de las nuevas bases de datos documentales.Barcelona: Herder, 1988. 296p.
GARCÍA GUTIÉRREZ, A. L., LUCAS FERNÁNDEZ, R. Documentación automatizada en los medios informativos. Madrid: Paraninfo, 1987. 264p.
ISO 2788/1974. Directrices para el desarrollo de tesauros monolingües. Traducción al Castellano.
LECLERC,M. Guide et thésaurus (ARQUE) pour l´indexation des archives historiques de la ville de Québec: Archives, 1994, vol 25, n1 4, p. 79-81.
GAGNON-ARGUIN, Louise. Lánalyse documentaire I: Les thésaurus en France. ARCHIVES: 1995, vol.27, n11, p. 55-71.
LAPOINTE, Johanne. LECLERC,M. Guide et thésaurus (ARQUE) pour l´indexation des archives historiques de la ville de Québec. Compte Rendu. Archives, 1994, vol 25, n1 4, p. 79-81.
SANTOS CANALEJO, E. Tesauro archivo. Madrid: Ministerio de Asuntos Exteriores, 1994. 474p.
VAN SLYPE, G. Los lenguajes de indización: concepción, construcción y utilización en los sistemas documentales. Madrid: Pirámide, 1991. 198p.