Diferencia entre revisiones de «Indización documental»

Línea 1: Línea 1:
{{normalizar}}
 
 
{{Definición
 
{{Definición
|nombre = Indización documental
+
|nombre=Indización documental
|siglas o acronimo = ID
+
|imagen=
|tamaño =
+
|tamaño=
 +
|concepto=Indizar consiste en extraer uno o más conceptos que representan el contenido temático del documento con el objetivo de recuperarlo posteriormente.
 
}}
 
}}
 +
<div align="justify">
 +
'''Indización documental.'''
 
La principal función de un sistema de información es poner a la disposición de los usuarios la información relevante a sus intereses para lo cual tiene que realizar diferentes procesos, uno de los más importantes que se realiza es la indización.
 
La principal función de un sistema de información es poner a la disposición de los usuarios la información relevante a sus intereses para lo cual tiene que realizar diferentes procesos, uno de los más importantes que se realiza es la indización.
 
Con frecuencia la indización y la búsqueda se consideran como operaciones paralelas. Es decir, la indización como un proceso que se realiza con los documentos, y la búsqueda como un proceso que se realiza con las solicitudes. Esta consideración no es correcta. Por eso es necesario enfatizar que la indización es un proceso que se aplica tanto a los documentos que van a formar parte de la colección del sistema, como a las solicitudes de búsqueda que formulan los usuarios para recuperar determinada información relevante a sus intereses.
 
Con frecuencia la indización y la búsqueda se consideran como operaciones paralelas. Es decir, la indización como un proceso que se realiza con los documentos, y la búsqueda como un proceso que se realiza con las solicitudes. Esta consideración no es correcta. Por eso es necesario enfatizar que la indización es un proceso que se aplica tanto a los documentos que van a formar parte de la colección del sistema, como a las solicitudes de búsqueda que formulan los usuarios para recuperar determinada información relevante a sus intereses.
Indizar consiste en extraer uno o más conceptos que representan el contenido temático del documento con el objetivo de recuperarlo posteriormente.
 
 
Implica dos tareas:
 
Implica dos tareas:
 
*Asignar uno o más [[códigos]], numéricos o alfanuméricos, que representan el tema del documento.
 
*Asignar uno o más [[códigos]], numéricos o alfanuméricos, que representan el tema del documento.

Revisión del 09:25 20 ago 2011

Indización documental
Información sobre la plantilla
Concepto:Indizar consiste en extraer uno o más conceptos que representan el contenido temático del documento con el objetivo de recuperarlo posteriormente.

Indización documental. La principal función de un sistema de información es poner a la disposición de los usuarios la información relevante a sus intereses para lo cual tiene que realizar diferentes procesos, uno de los más importantes que se realiza es la indización. Con frecuencia la indización y la búsqueda se consideran como operaciones paralelas. Es decir, la indización como un proceso que se realiza con los documentos, y la búsqueda como un proceso que se realiza con las solicitudes. Esta consideración no es correcta. Por eso es necesario enfatizar que la indización es un proceso que se aplica tanto a los documentos que van a formar parte de la colección del sistema, como a las solicitudes de búsqueda que formulan los usuarios para recuperar determinada información relevante a sus intereses. Implica dos tareas:

  • Asignar uno o más códigos, numéricos o alfanuméricos, que representan el tema del documento.
  • Asignar significantes que corresponden al tema y que suelen extraerse de listas ad hoc.

Fases

Hay tres fases u operaciones a realizar durante la indización: 1. Examen del documento: Permite establecer su contenido. Hay que prestar atención las partes más informativas (título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué, cómo, cuándo y dónde.

2. Extraer conceptos para identificarlo: Se trata de extraer los conceptos que mejor concreten el tema del documento. Se recomienda el uso de listados controlados. 3. Selección de los términos de indización: Si se utiliza un lenguaje documental, hay que traducir los conceptos extraídos a los términos del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes de referencia: diccionarios, manuales...

Sistemas

Los sistemas de indización son diversos y responden a exigencias concretas.

  • Encabezamientos de materias: Su representación típica son los encabezamientos de materias empleados en casi todas las bibliotecas públicas. Los más importantes son: las Subject Headings de la LC 1909, la Sears List of Subject Headings 1923 y en España, la Lista de Encabezamientos de materias para bibliotecas públicas del Ministerio de Cultura y los de algunas universidades (Sevilla, UCM).

Productos. De esta indización se obtienen productos como los catálogos alfabéticos de materias y los índices y bibliografías impresas por materias.

Inconvenientes: Los principales incovenientes son: 1) falta de flexibilidad; 2) inadecuados para las BDs informatizadas; y 3) escasa exhaustividad o profundidad.

  • Indización por unitérminos (Mortimer Taube, 1955): Sistema ideado por Mortimer Taube 1955. Consiste en utilizar un sólo término o palabra, el unitérmino, para representar los contenidos de un documento. Pese a sus inconvenientes supone un avance importante respecto de la indización por materias.

Inconvenientes. Los principales son: 1) exceso de falsas combinaciones; y 2) abundancia de palabras polisémicas, homonímicas, sinónimas, ambiguas y vacías.

  • Indización por palabras-clave y descriptores C. Mooers, 1941: Es una indización relacionada con los primeros tesauros. Hay una ligera diferencia entre palabra-clave, que es una indización en lenguaje libre extraída del texto del documento y descriptor, que es un término sacado de un lenguaje documental y que puede ser unitérmino, sintagmático (varias palabras), identificador (geográfico, personal, acrónimo). La indización basada en descriptores la inició el norteamericano Calvin N. Mooers en 1941.
  • Indización automática: Consiste en contrastar los vocablos de un documento con un diccionario invertido del programa, que puede ser un tesauro. Tras ello se asignan los términos seleccionados.
  • Indización vectorial: Es un tipo de indización automática con importantísimas consecuencias en el terrero documental. Parte de las insuficiencias de la lógica booleana empleada en los motores de búsqueda y que se sustenta en el uso de técnicas binarias, donde los términos de búsqueda están o no, y no existe ponderación de términos en los documentos o registros, sino solamente operaciones booleanas (y, o, no). Este método es insuficiente y ha sido criticado desde los 80 por su lógica no intuitiva, la ausencia de lenguaje natural y la necesidad de FU, a lo que se añade el hecho de que los operadores son muy restrictivos (y) o muy inclusivos (o) y rígidos, pues consideran todos los documentos igualmente pertinentes. Todo ello lleva a un alto índice de búsquedas sin respuestas (seach failure), casi el 50% generan silencio (por desconocer los puntos de acceso y otras dificultades) o respuestas excesivas del sistema (information overload).

La indización vectorial resuelve este problema, se basa en la ponderación de entradas, sobre todo en los trabajos de Shalton, que se apoyan en las formulaciones de Zipf y S. Jones, y que establecen, básicamente, la relación entre la frecuencia de un término y su importancia para la representación del documento. Shalton elaboró un modelo vectorial que comparaba la similaridad de la petición del usuario con la de los documentos de la base de datos. Cada documento de la Base de Datos tiene un coeficiente que resulta del peso de cada uno de sus término, y cada pregunta del usuario es otro vector con un coeficiente análogo. El resultado son dos coeficientes vectoriales: D (del documento) y Q (de la pregunta). De esta forma, recuperar información es determinar el coeficiente de similaridad de los vectores D y Q.

Las ventajas son tremendas:

1) Los documentos se ordenan según su pertinencia, que se deriva de su puntuación (ahorrando tiempo al lector);

2) El tamaño de los conjuntos recuperados es predefinible, lo que supone el fin del overloap; y 3) No es necesario conocer el lenguaje de información, pues la consulta se puede efectuar en lenguaje natural. El éxito de este sistema ha llevado a su implantación en muchas BDs documentales: Lotus Notes, Personal Librarian, Wais, el host Dialog con su orden target, e incluso los motores de búsqueda de Internet Lycos y Altavista.

Criterios e indicadores

El indizador debe buscar y utilizar un descripción que traduzca lo más de cerca posible el contenido del documento (especificidad), rechazando los descriptores demasiado generales o demasiado particulares con relación a las nociones que expresa el documento. Su logro supone la relevancia, concepto que puede atribuirse a la recuperación, cuando un documento es útil para los propósitos que causaron una búsqueda por parte del usuario. Lo ideal sería encontrar todos los documentos relevantes y evitar los no relevantes (obtener a la ver exhaustividad y precisión).

1) La procedencia de los términos de indización es un elemento que marca diferencias para valorar la calidad de un repertorio. Lo es por la enorme importancia de una recuperación exacta, sin la cual las demás tareas en la construcción del repertorio no tienen sentido.

2) Respecto a la profundidad en la representación del contenido textual (hasta qué nivel se representa la superestructura), dependerá de si los términos de indización se refieren a todo el texto reflejando las macroestructuras parciales, si fueron extraídos a partir solamente del resumen analítico y, en dependencia del tipo de este, que alcancen a representar solo algunas de las macroestructuras parciales, o si son tan genéricos que reflejen tan solo los conceptos del título.

3) Índice de consistencia, que solo sería posible en aquellas áreas con varios repertorios, la consistencia del análisis documental se refiere a que un concepto o tema aparece siempre expresado de la misma forma.

4) Otros indicadores y factores de evaluación

a) Indicador de pertinencia o precisión: Tras obtener la respuesta a una búsqueda, es un cociente (precisión ratio) que resulta de dividir el:

Número de documentos relevantes recuperados

———————————————————

Número total de documentos recuperados

b) Indicador de exhaustividad o de respuesta: El indicador de exhaustividad (recall ratio) busca que todos los temas, objetos y conceptos que encierra el documento estén bien determinados en la indización, por lo que habrá una respuesta ajustada a una búsqueda dada, que se mide en porcentaje a través de la relación entre:

Número de documentos relevantes recuperados

—————————————————————

Número total de documentos relevantes existentes en la Base de Datos

Fundamentos metodológicos

La indización es un proceso que comprende dos fases fundamentales, el cual se puede realizar siguiendo una metodología de trabajo que comprende varios pasos. No se puede establecer una guía de trabajo única, inflexible. Hay una serie de variantes que será necesario introducir acorde con el sistema de indización que se esté aplicando, con el lenguaje que se utilice. Por tanto, la metodología de trabajo que se aplicará en este texto puede servir de guía general para realizar el proceso de indización, pero será necesario tener en cuenta que en cada caso particular habrá que hacerle algunas modificaciones en correspondencia con los principios, objetivos y características del sistema de indización que se vaya a aplicar. En este caso la guía se ha elaborado suponiendo que se va a aplicar un sistema de indización que se compone de:

  • Un lenguaje de indización con un vocabulario autorizado formado por una lista alfabética de términos autorizados y los no autorizados ( sinónimos, casi- sinónimos y otros) . Los términos no autorizados se presentan con una referencia cruzada de USE para indicar el término que debe usarse.
  • Una política de indización que ha trazado una serie de pautas de modo que la indización se realice de acuerdo con los intereses de los usuarios, con el tipo de documentos que se van a indizar, y con una profundidad tal que permite que a

cada documento analizado se asigne, en caso necesario, hasta un máximo de 8 términos índices como promedio.

Guía metodológica de trabajo

1. Se revisa el documento.

2. Se formula la interrogante ¿es valioso para la colección? Hay que tomar la decisión de si se debe o no analizar el documento para indizarlo e incluirlo en la colección. Esta decisión se tomará considerando los intereses de los usuarios. Claro está que si la política de selección y adquisición ha sido adecuada los documentos que lleguen a la etapa del procesamiento analítico - sintético es porque son de interés para el sistema. De todos modos este paso es necesario ya que muchos de los trabajos que se van a analizar son artículos de revista. Una revista puede ser importante para el sistema, pero, no obstante, es posible que determinados artículos no respondan a los intereses de los usuarios. Si el documento no es valioso no se analiza, es decir no se sigue el proceso . Se desvía a otro destino donde puede tener mayor utilidad o simplemente se elimina. Por supuesto que si el documento es un artículo de una revista, la cual tiene otros artículos que sí son de interés, no pueden ser desviados ya que sería absurdo mutilar la revista. En los grandes sistemas integrales el personal que hace la selección desvía los documentos, de acuerdo con la rama del conocimiento, hacia los especialistas calificados para que los analicen.

3. Si el documento es de interés para la colección se anotan los datos bibliográficos en la hoja de trabajo (registro bibliográfico) de acuerdo con las reglamentaciones establecidas por el sistema.

4. Se analiza el contenido del documento y se asignan los términos para expresar los conceptos claves, utilizando las propias palabras del autor o del indizador. Este es el paso más importante y complejo de todo el proceso.

5. Se consultarán los términos asignados (TA) con el vocabulario autorizado (VA).

6. Con cada término asignado se plantea la pregunta: ¿Está el TA en el VA?

7. Si el término TA está en el VA se utiliza como término índice ( TI) y se escribe en la hoja de trabajo .

8. Si el TA no está en el VA hay que plantearse la pregunta: ¿Es un identificador? si es un identificador, o sea un nombre propio de personas, institución, organización, se utiliza cómo TI y se escribe en la hoja de trabajo.

9. Si el TA no es un identificador hay que hacerse la pregunta: ¿Tiene una referencia de USE?

10. Si el TA no es un identificador, pero tiene una referencia de USE se busca el término autorizado correspondiente y se utiliza como TI añadiéndolo a la hoja de trabajo.

11.Si el TA no tiene referencia de USE se buscan posibles sinónimos en diccionarios, glosarios u otro tipo de repertorio.

12. ¿Se encuentra algún sinónimo?

13. Si se encuentra algún sinónimo hay que averiguar si está ó no en el VA. Si está en el VA se utiliza como TI y se anota en la hoja de trabajo.

14. Si no se encuentra un sinónimo (o casi-sinónimo) (o si el sinónimo encontrado no está en el VA ) se estudia la posibilidad de incluir en el VA el TA en primera instancia (o el sinónimo encontrado que no está en el VA).

15.Hay que tomar la decisión si debe o no incluirse en el VA.

16. Si se toma la decisión de incluir el término en el VA se llena la tarjeta que ordena que sea incorporado el vocabulario y se utiliza como TI adicionándolo a la hoja.

17. Si se toma la decisión de no incluirlo en el VA no se utiliza como TI y se sigue el proceso con otro TA (paso 5).

Futuro de la indización

A pesar de la proliferación de bases de datos textuales y del hecho de que cada vez son más accesibles por Internet, parece poco probable que la necesidad de indizadores experimentados desaparezca en el futuro más inmediato. La facilidad con que se puede hacer una base de datos accesible a través de Internet anima cada vez más a las organizaciones a desarrollar las suyas propias -por ejemplo, a las bibliotecas para producir bases de datos de recursos importantes a nivel local. La indización humana, con alguna forma de control de vocabulario, puede aumentar considerablemente la utilidad de tales recursos. Además, las organizaciones pueden construir bases de datos útiles para ellas mismas descargando documentos de diversas fuentes de Internet. Puede que resulte necesaria una indización local para aumentar el valor de tales bases de datos. Del mismo modo, algunos bibliotecarios están comenzando a darse cuenta de que una función importante de la biblioteca en un entorno digital puede ser la de construir recursos en red relevantes a nivel local. Por último, los desarrollos tecnológicos han creado nuevos retos, como los asociados con la indización de bases de datos de imágenes y sonidos. Puede que pase mucho tiempo antes de que los ordenadores puedan reemplazar totalmente a los humanos en la indización y en las demás tareas de tipo intelectual, necesarias para la recuperación de la información.

Fuente

  • Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid: Pirámide, 1987.
  • Gimeno Perelló, J. “Sistemas de indización aplicados en bibliotecas: clasificaciones, tesauros y encabezamientos de materias”. En: Tratado básico de Biblioteconomía. Madrid: Síntesis, 1996.
  • Guinchat, C.; Menou, M.; Blanquet, M-F. Introducción general a las ciencias y técnicas de la información y documentación. Madrid: CINDOC, UNESCO, 1990.
  • Laboire, T.; Halpein, M. y White, H.- Library and InformationScience Abstracting and Indexing services: Coverage, Overlap and Context, en Library and Information Science Abstracts, (1985), 7: 183-195.
  • Lancaster, F. W.- El control de vocabulario en la recuperación de la información. Valencia: Universitat de Valencia, 1996.