Diferencia entre revisiones de «Indización documental»

(Guía metodológica de trabajo)
 
(No se muestran 12 ediciones intermedias de 5 usuarios)
Línea 1: Línea 1:
 +
{{Sistema:Artículo certificado
 +
|contenido=el '''[[Instituto de Información Científica y Tecnológica]]''' (IDICT)
 +
}}
 +
 
{{Definición
 
{{Definición
|nombre = Indización documental
+
|nombre=Indización documental
|siglas o acronimo = ID
+
|imagen=Indizacion_documental.jpeg
|tamaño =
+
|tamaño=
}}
+
|concepto= Conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de [[información]] que son pertinentes para la resolución de una demanda planteada”. Es decir “buscar [[documentos]]” que respondan a la necesidad informativa determinada”.
 +
}}'''Indización documental.''' Proceso metodológico-intelectual que consiste en describir y extraer de él o de sus resúmenes unos vocablos especialmente expresivos y con una enorme cara informativa (descriptores) que permiten la clasificación y recuperación de cada artículo o documento publicado, llegar al documento por autor(es), por título del documento, por palabra clave, editores, título de revistas, año de publicación, etc, Es decir, son los mecanismos de descripción, ubicación y difusión de las publicaciones, conocidos como visibilidad en el mundo del [[conocimiento]] científico.
 +
 +
==Indización==
 +
 +
Es el proceso de identificación y asignación de códigos, descriptores o encabezamientos de materia relativos a un documento, de modo que su contenido sea conocido y el índice creado pueda ayudar a recuperar elementos de información.
 +
 +
==Variables asociadas con el proceso de indización==
 +
 +
Existen diversas formas para realizar el proceso de indización, cada una de las cuales da lugar a un tipo de índice con características especiales en su construcción y en su aplicación como dispositivo de recuperación de la información.
 +
 +
Independientemente del sistema de indización que se utilice hay una serie de variables que inciden en el proceso y que, en gran medida, definen su calidad. Entre estas variables las más importantes son las siguientes:
 +
 +
1. Indizador
  
La principal función de un sistema de información es poner a la disposición de los usuarios la información relevante a sus intereses para lo cual tiene que realizar diferentes procesos, uno de los más importantes que se realiza es la indización.
+
2. Colección de documentos  
Con frecuencia la indización y la búsqueda se consideran como operaciones paralelas. Es decir, la indización como un proceso que se realiza con los documentos, y la búsqueda como un proceso que se realiza con las solicitudes. Esta consideración no es correcta. Por eso es necesario enfatizar que la indización es un proceso que se aplica tanto a los documentos que van a formar parte de la colección del sistema, como a las solicitudes de búsqueda que formulan los usuarios para recuperar determinada información relevante a sus intereses.
 
También es conveniente aclarar que el proceso de indización con frecuencia se utiliza en los diferentes departamentos de un centro de información como un medio de control operativo. Por ejemplo se pueden indizar los catálogos de editoras de libros en una cataloteca o sección de adquisición.
 
Indizar consiste en extraer uno o más conceptos que representan el contenido temático del documento con el objetivo de recuperarlo posteriormente.
 
Implica dos tareas:
 
*Asignar uno o más [[códigos]], numéricos o alfanuméricos, que representan el tema del documento.
 
*Asignar significantes que corresponden al tema y que suelen extraerse de listas ad hoc.
 
== Fases de la indización ==
 
Hay tres fases u operaciones a realizar durante la indización:
 
1. Examen del documento: Permite establecer su contenido. Hay que prestar atención las partes más informativas (título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué, cómo, cuándo y dónde.
 
  
2. Extraer conceptos para identificarlo: Se trata de extraer los conceptos que mejor concreten el tema del documento. Se recomienda el uso de listados controlados.
+
3. Política y las reglas de indización
3. Selección de los términos de indización: Si se utiliza un lenguaje documental, hay que traducir los conceptos extraídos a los términos del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes de referencia: diccionarios, manuales...
 
== Sistemas de indización ==
 
Los sistemas de indización son diversos y responden a exigencias concretas.
 
*Encabezamientos de materias: Su representación típica son los encabezamientos de materias empleados en casi todas las bibliotecas públicas. Los más importantes son: las Subject Headings de la LC [[1909]], la Sears List of Subject Headings [[1923]] y en España, la Lista de Encabezamientos de materias para bibliotecas públicas del Ministerio de Cultura y los de algunas universidades (Sevilla, UCM).
 
  
Productos. De esta indización se obtienen productos como los catálogos alfabéticos de materias y los índices y bibliografías impresas por materias.
+
**Grado de exhaustividad
 
+
**Profundidad
Inconvenientes: Los principales incovenientes son: 1) falta de flexibilidad; 2) inadecuados para las BDs informatizadas; y 3) escasa exhaustividad o profundidad.
+
**Especificidad
 
 
*Indización por unitérminos ([[Mortimer Taube]], [[1955]]): Sistema ideado por [[Mortimer Taube]]  [[1955]]. Consiste en utilizar un sólo término o palabra, el  [[unitérmino]], para representar los contenidos de un documento. Pese a sus inconvenientes supone un avance importante respecto de la indización por materias.
 
Inconvenientes. Los principales son: 1) exceso de falsas combinaciones; y 2) abundancia de palabras polisémicas, homonímicas, sinónimas, ambiguas y vacías.
 
 
 
*Indización por palabras-clave y descriptores [[C. Mooers]], [[1941]]: Es una indización relacionada con los primeros [[tesauros]]. Hay una ligera diferencia entre palabra-clave, que es una indización en lenguaje libre extraída del texto del documento y descriptor, que es un término sacado de un lenguaje documental y que puede ser unitérmino, sintagmático (varias palabras), identificador (geográfico, personal, acrónimo). La indización basada en descriptores la inició el norteamericano [[Calvin N. Mooers]] en [[1941]].
 
 
 
*Indización automática: Consiste en contrastar los vocablos de un documento con un diccionario invertido del programa, que puede ser un tesauro. Tras ello se asignan los términos seleccionados.
 
 
 
*Indización vectorial: Es un tipo de indización automática con importantísimas consecuencias en el terrero documental. Parte de las insuficiencias de la lógica booleana empleada en los motores de búsqueda y que se sustenta en el uso de técnicas binarias, donde los términos de búsqueda están o no, y no existe ponderación de términos en los documentos o registros, sino solamente operaciones booleanas (y, o, no). Este método es insuficiente y ha sido criticado desde los 80 por su lógica no intuitiva, la ausencia de lenguaje natural y la necesidad de FU, a lo que se añade el hecho de que los operadores son muy restrictivos (y) o muy inclusivos (o) y rígidos, pues consideran todos los documentos igualmente pertinentes. Todo ello lleva a un alto índice de búsquedas sin respuestas (seach failure), casi el 50% generan silencio (por desconocer los puntos de acceso y otras dificultades) o respuestas excesivas del sistema (information overload).
 
La indización vectorial resuelve este problema, se basa en la ponderación de entradas, sobre todo en los trabajos de [[Shalton]], que se apoyan en las formulaciones de [[Zipf]] y [[S. Jones]], y que establecen, básicamente, la relación entre la frecuencia de un término y su importancia para la representación del documento. Shalton elaboró un modelo vectorial que comparaba la similaridad de la petición del usuario con la de los documentos de la base de datos. Cada documento de la Base de Datos tiene un coeficiente que resulta del peso de cada uno de sus término, y cada pregunta del usuario es otro vector con un coeficiente análogo. El resultado son dos coeficientes vectoriales: D (del documento) y Q (de la pregunta). De esta forma, recuperar información es determinar el coeficiente de similaridad de los vectores D y Q.
 
 
 
Las ventajas son tremendas:
 
 
 
1) Los documentos se ordenan según su pertinencia, que se deriva de su puntuación (ahorrando tiempo al lector);
 
 
 
2) El tamaño de los conjuntos recuperados es predefinible, lo que supone el fin del overloap; y 3) No es necesario conocer el lenguaje de información, pues la consulta se puede efectuar en lenguaje natural. El éxito de este sistema ha llevado a su implantación en muchas BDs documentales: Lotus Notes, Personal Librarian, Wais, el host Dialog con su orden target, e incluso los motores de búsqueda de Internet Lycos y Altavista.
 
 
 
== Criterios e indicadores de la indización ==
 
 
 
El indizador debe buscar y utilizar un descripción que traduzca lo más de cerca posible el contenido del documento (especificidad), rechazando los descriptores demasiado generales o demasiado particulares con relación a las nociones que expresa el documento. Su logro supone la relevancia, concepto que puede atribuirse a la recuperación, cuando un documento es útil para los propósitos que causaron una búsqueda por parte del usuario. Lo ideal sería encontrar todos los documentos relevantes y evitar los no relevantes (obtener a la ver exhaustividad y precisión).
 
 
 
1) La procedencia de los términos de indización es un elemento que marca diferencias para valorar la calidad de un repertorio. Lo es por la enorme importancia de una recuperación exacta, sin la cual las demás tareas en la construcción del repertorio no tienen sentido.
 
 
 
2) Respecto a la profundidad en la representación del contenido textual (hasta qué nivel se representa la superestructura), dependerá de si los términos de indización se refieren a todo el texto reflejando las macroestructuras parciales, si fueron extraídos a partir solamente del resumen analítico y, en dependencia del tipo de este, que alcancen a representar solo algunas de las macroestructuras parciales, o si son tan genéricos que reflejen tan solo los conceptos del título.
 
 
 
3) Índice de consistencia, que solo sería posible en aquellas áreas con varios repertorios, la consistencia del análisis documental se refiere a que un concepto o tema aparece siempre expresado de la misma forma.
 
 
 
4) Otros indicadores y factores de evaluación
 
 
 
a) Indicador de pertinencia o precisión: Tras obtener la respuesta a una búsqueda, es un cociente (precisión ratio) que resulta de dividir el:
 
 
 
Número de documentos relevantes recuperados
 
———————————————————
 
Número total de documentos recuperados
 
 
 
b) Indicador de exhaustividad o de respuesta: El indicador de exhaustividad (recall ratio) busca que todos los temas, objetos y conceptos que encierra el documento estén bien determinados en la indización, por lo que habrá una respuesta ajustada a una búsqueda dada, que se mide en porcentaje a través de la relación entre:
 
 
 
Número de documentos relevantes recuperados
 
—————————————————————
 
Número total de documentos relevantes existentes en la Base de Datos
 
 
 
== Fundamentos metodológicos del proceso de indización ==
 
  
 +
4. Lenguaje de indización
 +
 +
===Indizador===
 +
 +
Es la persona que realiza el trabajo intelectual de la indización y puede considerarse el factor de mayor importancia de todos los que afectan la calidad de este proceso.
 +
 +
En el trabajo del indizador influyen, además de una serie de rasgos personales, su dominio de la actividad científico informativa y sus conocimientos sobre idiomas extranjeros y sobre la materia o materias de la colección de documentos que tiene que analizar.
 +
 +
===Colección de documentos===
 +
 +
No se podrá lograr ofrecer un buen servicio de información si la colección no es adecuada o es insuficiente. Aquí influye que el fondo documental sea suficiente, oportuno y pertinente.
 +
 +
===Política de indización. Reglas de indización===
 +
 +
El sistema de información traza la política de indización, la cual se traduce en una serie de lineamientos para guiar el trabajo del indizador con la finalidad de lograr elaborar índices que funcionen como dispositivos, lo más efectivos posibles en situaciones determinadas, para recuperar la información. Una parte de los lineamientos que emanan de la política de indización se convierten en reglas de indización, o sea en disposiciones concretas que deben cumplirse con exactitud.
 +
 +
La política de indización se traza teniendo en cuenta los intereses de los usuarios y el tipo y volumen de la colección de documentos.
 +
 +
La política de indización establece las pautas para determinar la exhaustividad, profundidad y especificidad de la indización.
 +
 +
====Exhaustividad====
 +
 +
La materia que abarca el contenido de un documento es la totalidad de tópicos que se tratan en el mismo. La exhaustividad en la indización de un documento se define como el número máximo de diferentes tópicos indizados. Por ejemplo, un documento trata sobre el tópico central A y tres tópicos colaterales B, C y D. Si se indizan los cuatro tópicos el grado de exhaustividad empleado para indizar este documento será máximo.
 +
 +
====Profundidad====
 +
 +
La profundidad de la indización se define como el número de diferentes términos seleccionados para indizar el documento. Esta variable también se denomina densidad de indización.
 +
 +
====Especificidad====
 +
 +
La especificidad es una propiedad semántica de los términos, es el nivel de detalle y exactitud con que se representa un concepto dado. Para apreciar el verdadero significado de la especificidad es necesario tener en cuenta uno de los tipos más importantes de relación que existe entre los conceptos, es decir, la relación género/especie.
 +
 +
Por ejemplo, si '''BIBLIOTECAS''' representa el género, entonces los diferentes tipos de bibliotecas serán las especies:
 +
 +
*BIBLIOTECAS ESCOLARES
 +
*BIBLIOTECAS NACIONALES
 +
*BIBLIOTECAS PUBLICAS
 +
*BIBLIOTECAS UNIVERSITARIA
 +
 +
===Lenguaje de indización===
 +
 +
El vocabulario de lenguaje que proporciona los términos que se pueden usar en la indización, si es muy específico facilita la información específica y si por el contrario carece de especificidad se convertirá en un freno para la indización específica.
 +
 +
====Tipos de lenguajes de indización====
 +
 +
*Alfabético por materia (Epígrafes): están dentro de los lenguajes precoordinados, enumerativos que ordenan alfabéticamente los términos y no ofrecen posibilidades para coordinar clases más complejas en el momento de la indización. Actualmente se emplean subepigráfes lo que permite el aumento de la especificidad del lenguaje.
 +
*Palabras claves: son términos extraídos tal cual se encuentran en los documentos. Estos se escogen empíricamente de los documentos de acuerdo con su actitud para expresar el contenido de la información. Permite una descripción detallada y se presten a todas las combinaciones posibles entre ellas.
 +
*Descriptores: se utilizan en los sistemas poscoordinados y permiten no solo la recuperación de la información por múltiples aspectos y con cualquier grado de complejidad, sino que también posibilitan y facilitan la utilización de procedimientos automatizados en los sistemas de información.
 +
 +
====Componentes de los lenguajes de indización====
 +
 +
=====Vocabulario=====
 +
 +
Es el conjunto de términos que se utilizan para expresar el contenido informacional de un documento (libro, folleto, artículo, de revista, tesis etc.) o solicitud de información estos términos pueden estar representados por:
 +
 +
*Palabras aisladas o combinación de palabras
 +
*Código numérico, alfabético o alfanumérico
 +
*Códigos en combinación con palabras del lenguaje natural
 +
 +
'''Aspectos del vocabulario'''
 +
 +
*Homonimia: Se elimina con aclaraciones en los significados del término, se colocan entre paréntesis a continuación de los vocablos que sean homógrafos (una misma palabra con 2 o más significado)
 +
**Ej. Planta (instalación industrial) (Piso de un edificio) (parte inferior de pie) (en botánica)
 +
*Sinonimia: Se elimina estableciendo un conjunto de clases equivalentes entre los sinónimos o casi sinónimos o sea entre 2 o mas palabras diferentes que tienen diferentes significados iguales o parecidos, se selecciona a una de estas palabras que represente el conjunto y se establecen referencias de (use o véase)
 +
**Ej. Carbohidratos, Hidratos de carbono, Glúcidos.
 +
 +
*Relaciones paradigmáticas Estas se manifiestan a partir de una serie de regulaciones paradigmáticas que se establecen en los términos por rasgo común de tipo semántica o morfológico
 +
 +
=====Sintaxis=====
 +
 +
Es el conjunto de reglas para combinar los términos del vocabulario en cadenas, frases o en unidades sintácticas capaces de expresar conceptos o significados más completos que no podrían ser expresados si se utilizaran los términos del vocabulario de forma aislada; y se le llama:
 +
 +
*Relaciones sintagmáticas: relaciones lingüísticas entre términos para formar las cadenas, frases o unidades sintácticas.
 +
 +
=====Reglas de uso=====
 +
 +
Sistema sindético: son las relaciones y aclaraciones sobre los términos que sirven de guía para el mejor uso del vocabulario.
 +
 +
*Relaciones de equivalencia: USE o VÉASE, UP (usado por)
 +
*Relaciones jerárquicas: TG (término genérico), TE (término específico)
 +
*Relaciones asociativas: TR (término relacionado)
 +
 +
== Fases de la indización ==
 +
 +
Hay tres fases u operaciones a realizar durante la indización:
 +
 +
#Examen del documento: Permite establecer su contenido. Hay que prestar atención las partes más informativas (título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué, cómo, cuándo y dónde.
 +
#Extraer conceptos para identificarlo: Se trata de extraer los conceptos que mejor concreten el tema del documento. Se recomienda el uso de listados controlados.
 +
#Selección de los términos de indización: Si se utiliza un lenguaje documental, hay que traducir los conceptos extraídos a los términos del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes de referencia: [[diccionarios]], manuales.
 +
 +
==Sistemas de indización ==
 +
 +
Dentro de los sistemas de indizaciones se encuentran:
 +
 +
===Indización con epígrafes===
 +
 +
Emplean los epigrafíaríos, que son los lenguajes alfabéticos de materia del tipo precoordinado con vocabularios enumerativo, se conocen como listas de epígrafes o listas de encabezamientos de materia .El constituye el catálogo de materia de las bibliotecas.
 +
 +
'''Desventaja:''' no posibilitan la recuperación multifacética y son muy voluminosos por tanto retardan la búsqueda.
 +
 +
===Indización Coordinada===
 +
 +
Con descriptores. Estos utilizan lenguajes descriptores que posibilitan la recuperación multifacética de la información y facilitan el almacenamiento, son apropiados para los sistemas automatizados.
 +
 +
'''Desventaja:''' carecen prácticamente de gramática al indizar un documento se yuxtaponen los descriptores. Pueden producir falsas e incorrectas coordinaciones.
 +
 +
===Indización en cadena===
 +
Se apoyan en una clasificación facética, estas se basan en la síntesis o sea en la coordinación de los términos en el proceso de indización.
 +
 +
La indización en cadena puede definirse como un método para elaborar un índice alfabético de materia de una forma semiautomática de acuerdo con un proceso que comprende dos fases:
 +
 +
1. El indizador construye la cadena temática que conduce al término de nivel más genérico hacia el término de nivel más específico siguiendo los pasos siguientes:
 +
 +
*hace el análisis de contenido del documento, extrae los conceptos claves y construye una frase temática
 +
*consulta la clasificación facética y selecciona las notaciones con los términos correspondiente que representen los conceptos claves contenidos en la frase temática
 +
*ordena los términos (con sus notaciones) según el orden de citación establecido, construyendo la cadena básica temática
 +
 +
2. A partir de la cadena básica temática se confeccionan las entradas al índice, eliminando de modo sucesivo eslabones en la cadena.
 +
 +
===Indización permutada o por rotación===
 +
 +
No ofrecen control de vocabulario, sino que utilizan el lenguaje natural libre .Se basan en la rotación de la palabras significativas de los títulos de los documentos o de frases, o de términos compuestos Los índices que se generan son listas alfabéticas de palabras claves presentadas en su contexto.
 +
 +
Generan los llamados índices permutados KWIC y KWOC
 +
 +
===Indización de citación===
 +
 +
Es un sistema de indización de materia, las palabras que se utilizan como clave de búsqueda son los nombres de determinados autores. Este sistema no se fundamenta en la asignación o extracción de términos para expresar el contenido del documento, se basa en que los autores al publicar sus trabajos suelen presentar un conjunto de referencias bibliografías de los documentos consultados, los cuales tratan de temáticas iguales o afines a los asuntos por ellas tratados, pudiendo ser utilizados como claves para la localización del contenido de materia de los documentos.
 +
 +
===Indización de relación o articulada===
 +
 +
Los sistemas de relación se apoyan en una serien de principios lógicos con la finalidad de elaborar índices con entradas que se fundamentan en estructuras sintácticas.
 +
 +
Ej. Sistema ASI (articuled subject index) sistema de indización que elabora índices de materia articulados. En este sistema el indizador formula una frase que expresa el contenido esencial del documento. Los términos de esta frase que deben aparecer como entradas al índice las señalas colocando los símbolos < > antes y después de cada término. Las frases marcadas se introducen en la computadora que las procesa para crear una modificación para cada término de entrada.
 +
 +
==Características de la indización automatizada==
 +
 +
Los factores que hacen posible pensar en el paso de una indización manual a una indización automatizada son, los siguientes:
 +
 +
*Alto coste de la indización humana (tiempo)
 +
*Aumento exponencial de la información electrónica y la proliferación del full-text
 +
*La  Gestión Electrónica de Documentos (GED) y a la informatización de los procesos documentales
 +
*Automatización de los procesos cognitivos y la investigación creciente y los avances en el Procesamiento del Lenguaje Natural (PLN)
 +
*Automatización de los procesos cognitivos (IA)
 +
*Investigación en el procesamiento del Lenguaje Natural
 +
 +
==Evaluación de la calidad de la Indización==
 +
 +
La calidad de las tareas correspondientes al análisis de contenido documental (especificadas en la indización y el resumen) resulta, pues, fundamental para permitir una satisfactoria recuperación de información y una adecuada explicación de los contenidos a los usuarios.
 +
Consideramos indicadores de calidad los que miden la coherencia, la pertinencia o precisión, la exhaustividad o respuesta, la consistencia, la densidad informativa, la profundidad, la extensión o tamaño, así como los indicadores temporal, de costes (recursos invertidos en un servicio), del esfuerzo del usuario y de errores.
 +
 +
Para Aumentar el Recobrado y la Precisión
 +
 +
*La atención, interés, número y pericia de los analistas.
 +
*Las características de las fuentes a incluir en el repertorio.
 +
*Los costes, métodos, procedimientos, y tiempo en que se efectúa el análisis.
 +
*El producto obtenido y su adecuación a los objetivos documentales.
 +
*El esfuerzo que deba hacer el usuario.
 +
*E incluso la forma de presentación.
 +
 +
== Fundamentos metodológicos ==
 +
 
La indización es un proceso que comprende dos fases fundamentales, el cual se puede realizar siguiendo una metodología de trabajo que comprende varios pasos.
 
La indización es un proceso que comprende dos fases fundamentales, el cual se puede realizar siguiendo una metodología de trabajo que comprende varios pasos.
 
No se puede establecer una guía de trabajo única, inflexible. Hay una serie de variantes que será necesario introducir acorde con el sistema de indización que se esté aplicando, con el lenguaje que se utilice. Por tanto, la metodología de trabajo que se aplicará en este texto puede servir de guía general para realizar el proceso de indización, pero será necesario tener en cuenta que en cada caso particular habrá que hacerle algunas modificaciones en correspondencia con los principios, objetivos y características del sistema de indización que se vaya a aplicar. En este caso la guía se ha elaborado suponiendo que se va a aplicar un sistema de indización que se compone de:
 
No se puede establecer una guía de trabajo única, inflexible. Hay una serie de variantes que será necesario introducir acorde con el sistema de indización que se esté aplicando, con el lenguaje que se utilice. Por tanto, la metodología de trabajo que se aplicará en este texto puede servir de guía general para realizar el proceso de indización, pero será necesario tener en cuenta que en cada caso particular habrá que hacerle algunas modificaciones en correspondencia con los principios, objetivos y características del sistema de indización que se vaya a aplicar. En este caso la guía se ha elaborado suponiendo que se va a aplicar un sistema de indización que se compone de:
 
*Un lenguaje de indización con un vocabulario autorizado formado por una lista alfabética de términos autorizados y los no autorizados ( sinónimos, casi- sinónimos y otros) . Los términos no autorizados se presentan con una referencia cruzada de USE para indicar el término que debe usarse.  
 
*Un lenguaje de indización con un vocabulario autorizado formado por una lista alfabética de términos autorizados y los no autorizados ( sinónimos, casi- sinónimos y otros) . Los términos no autorizados se presentan con una referencia cruzada de USE para indicar el término que debe usarse.  
 
+
*Una política de indización que ha trazado una serie de pautas de modo que la indización se realice de acuerdo con los intereses de los usuarios, con el tipo de documentos que se van a indizar, y con una profundidad tal que permite que a cada documento analizado se asigne, en caso necesario, hasta un máximo de 8 términos índices como promedio.
*Una política de indización que ha trazado una serie de pautas de modo que la indización se realice de acuerdo con los intereses de los usuarios, con el tipo de documentos que se van a indizar, y con una profundidad tal que permite que a
+
cada documento analizado se asigne, en caso necesario, hasta un máximo de 8 términos índices como promedio.
+
=== Guía metodológica de trabajo ===
 
+
== Guía metodológica de trabajo ==
+
#Se revisa el documento.
 
+
#Se formula la interrogante ¿es valioso para la colección?. Hay que tomar la decisión de si se debe o no analizar el documento para indizarlo e incluirlo en la colección. Esta decisión se tomará considerando los intereses de los usuarios. Claro está que si la política de selección y adquisición ha sido adecuada los documentos que lleguen a la etapa del procesamiento analítico - sintético es porque son de interés para el sistema. De todos modos este paso es necesario ya que muchos de los trabajos que se van a analizar son artículos de revista. Una revista puede ser importante para el sistema, pero, no obstante, es posible que determinados artículos no respondan a los intereses de los usuarios. Si el documento no es valioso no se analiza, es decir no se sigue el proceso. Se desvía a otro destino donde puede tener mayor utilidad o simplemente se elimina. Por supuesto que si el documento es un artículo de una revista, la cual tiene otros artículos que sí son de interés, no pueden ser desviados ya que sería absurdo mutilar la revista. En los grandes sistemas integrales el personal que hace la selección desvía los documentos, de acuerdo con la rama del conocimiento, hacia los especialistas calificados para que los analicen.
1. Se revisa el documento.
+
#Si el documento es de interés para la colección se anotan los datos bibliográficos en la hoja de trabajo (registro bibliográfico) de acuerdo con las reglamentaciones establecidas por el sistema.
 
+
#Se analiza el contenido del documento y se asignan los términos para expresar los conceptos claves, utilizando las propias palabras del autor o del indizador. Este es el paso más importante y complejo de todo el proceso.
2. Se formula la interrogante ¿es valioso para la colección?
+
#Se consultarán los términos asignados (TA) con el vocabulario autorizado (VA).
Hay que tomar la decisión de si se debe o no analizar el documento para indizarlo e incluirlo en la colección. Esta decisión se tomará considerando los intereses de los usuarios. Claro está que si la política de selección y adquisición ha sido adecuada los documentos que lleguen a la etapa del procesamiento analítico - sintético es porque son de interés para el sistema. De todos modos este paso es necesario ya que muchos de los trabajos que se van a analizar son artículos de revista. Una revista puede ser importante para el sistema, pero, no obstante, es posible que determinados artículos no respondan a los intereses de los usuarios.
+
#Con cada término asignado se plantea la pregunta: ¿Está el TA en el VA?
Si el documento no es valioso no se analiza, es decir no se sigue el proceso . Se desvía a otro destino donde puede tener mayor utilidad o simplemente se elimina. Por supuesto que si el documento es un artículo de una revista, la cual tiene otros artículos que sí son de interés, no pueden ser desviados ya que sería absurdo mutilar la revista.
+
#Si el término TA está en el VA se utiliza como término índice ( TI) y se escribe en la hoja de trabajo .
En los grandes sistemas integrales el personal que hace la selección desvía los documentos, de acuerdo con la rama del conocimiento, hacia los especialistas calificados para que los analicen.
+
#Si el TA no está en el VA hay que plantearse la pregunta: ¿Es un identificador? si es un identificador, o sea un nombre propio de personas, institución, organización, se utiliza cómo TI y se escribe en la hoja de trabajo.
 
+
#Si el TA no es un identificador hay que hacerse la pregunta: ¿Tiene una referencia de USE?
3. Si el documento es de interés para la colección se anotan los datos bibliográficos en la hoja de trabajo (registro bibliográfico) de acuerdo con las reglamentaciones establecidas por el sistema.
+
#Si el TA no es un identificador, pero tiene una referencia de USE se busca el término autorizado correspondiente y se utiliza como TI añadiéndolo a la hoja de trabajo.
 
+
#Si el TA no tiene referencia de USE se buscan posibles sinónimos en diccionarios, glosarios u otro tipo de repertorio.
4. Se analiza el contenido del documento y se asignan los términos para expresar los conceptos claves, utilizando las propias palabras del autor o del indizador. Este es el paso más importante y complejo de todo el proceso.
+
#¿Se encuentra algún sinónimo?
 
+
#Si se encuentra algún sinónimo hay que averiguar si está ó no en el VA. Si está en el VA se utiliza como TI y se anota en la hoja de trabajo.
5. Se consultarán los términos asignados (TA) con el vocabulario autorizado (VA).
+
#Si no se encuentra un sinónimo (o casi-sinónimo) (o si el sinónimo encontrado no está en el VA ) se estudia la posibilidad de incluir en el VA el TA en primera instancia (o el sinónimo encontrado que no está en el VA).
 
+
#Hay que tomar la decisión si debe o no incluirse en el VA.
6. Con cada término asignado se plantea la pregunta: ¿Está el TA en el VA?
+
#Si se toma la decisión de incluir el término en el VA se llena la tarjeta que ordena que sea incorporado el vocabulario y se utiliza como TI adicionándolo a la hoja.
 
+
#Si se toma la decisión de no incluirlo en el VA no se utiliza como TI y se sigue el proceso con otro TA (paso 5).
7. Si el término TA está en el VA se utiliza como término índice ( TI) y se escribe en la hoja de trabajo .
+
 
+
== Futuro de la indización ==
8. Si el TA no está en el VA hay que plantearse la pregunta: ¿Es un identificador? si es un identificador, o sea un nombre propio de personas, institución, organización, se utiliza cómo TI y se escribe en la hoja de trabajo.
+
A pesar de la proliferación de bases de datos textuales y del hecho de que cada vez son más accesibles por Internet, parece poco probable que la necesidad de indizadores experimentados desaparezca en el futuro más inmediato. La facilidad con que se puede hacer una base de datos accesible a través de Internet anima cada vez más a las organizaciones a desarrollar las suyas propias -por ejemplo, a las bibliotecas para producir bases de datos de recursos importantes a nivel local.
 
+
9. Si el TA no es un identificador hay que hacerse la pregunta: ¿Tiene una referencia de USE?
+
La indización humana, con alguna forma de control de vocabulario, puede aumentar considerablemente la utilidad de tales recursos. Además, las organizaciones pueden construir bases de datos útiles para ellas mismas descargando documentos de diversas fuentes de Internet.
 
+
10. Si el TA no es un identificador, pero tiene una referencia de USE se busca el término autorizado correspondiente y se utiliza como TI añadiéndolo a la hoja de trabajo.
+
Puede que resulte necesaria una indización local para aumentar el valor de tales bases de datos. Del mismo modo, algunos bibliotecarios están comenzando a darse cuenta de que una función importante de la [[biblioteca]] en un entorno digital puede ser la de construir recursos en red relevantes a nivel local. Por último, los desarrollos tecnológicos han creado nuevos retos, como los asociados con la indización de bases de datos de imágenes y sonidos. Puede que pase mucho tiempo antes de que los ordenadores puedan reemplazar totalmente a los humanos en la indización y en las demás tareas de tipo intelectual, necesarias para la recuperación de la información.
 
+
11.Si el TA no tiene referencia de USE se buscan posibles sinónimos en diccionarios, glosarios u otro tipo de repertorio.
 
 
 
12. ¿Se encuentra algún sinónimo?
 
 
 
13. Si se encuentra algún sinónimo hay que averiguar si está ó no en el VA. Si está en el VA se utiliza como TI y se anota en la hoja de trabajo.
 
 
 
14. Si no se encuentra un sinónimo (o casi-sinónimo) (o si el sinónimo encontrado no está en el VA ) se estudia la posibilidad de incluir en el VA el TA en primera instancia (o el sinónimo encontrado que no está en el VA).
 
 
 
15.Hay que tomar la decisión si debe o no incluirse en el VA.
 
 
 
16. Si se toma la decisión de incluir el término en el VA se llena la tarjeta que ordena que sea incorporado el vocabulario y se utiliza como TI adicionándolo a la hoja.
 
 
 
17. Si se toma la decisión de no incluirlo en el VA no se utiliza como TI y se sigue el proceso con otro TA (paso 5).
 
 
 
 
== Fuente ==
 
== Fuente ==
 
+
 
*Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid: Pirámide, 1987.
 
*Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid: Pirámide, 1987.
 
 
*Gimeno Perelló, J. “Sistemas de indización aplicados en bibliotecas: clasificaciones, tesauros y encabezamientos de materias”. En: Tratado básico de Biblioteconomía. Madrid: Síntesis, 1996.
 
*Gimeno Perelló, J. “Sistemas de indización aplicados en bibliotecas: clasificaciones, tesauros y encabezamientos de materias”. En: Tratado básico de Biblioteconomía. Madrid: Síntesis, 1996.
 
+
* González Bravo, Margarita. Indización. Publicado el miércoles, febrero 02, 2011 Disponible en: [http://indizacion2.blogspot.com/feeds/posts/ default] Consultado el 6 de julio de 2012.
 
*Guinchat, C.; Menou, M.; Blanquet, M-F. Introducción general a las ciencias y técnicas de la información y documentación. Madrid: CINDOC, UNESCO, 1990.
 
*Guinchat, C.; Menou, M.; Blanquet, M-F. Introducción general a las ciencias y técnicas de la información y documentación. Madrid: CINDOC, UNESCO, 1990.
 
 
*Laboire, T.; Halpein, M. y White, H.- Library and InformationScience Abstracting and Indexing services: Coverage, Overlap and Context, en Library and Information Science Abstracts, (1985), 7: 183-195.
 
*Laboire, T.; Halpein, M. y White, H.- Library and InformationScience Abstracting and Indexing services: Coverage, Overlap and Context, en Library and Information Science Abstracts, (1985), 7: 183-195.
 
 
*Lancaster, F. W.- El control de vocabulario en la recuperación de la información. Valencia: Universitat de Valencia, 1996.
 
*Lancaster, F. W.- El control de vocabulario en la recuperación de la información. Valencia: Universitat de Valencia, 1996.
 
+
*Naumis Peña, Catalina. Indización y clasificación: Un problema conceptual y terminológico. Disponible en: [https://docs.google.com/ file] Consultada 6 de julio de 2012.
 +
*Análisis documental. Disponible en:[http://www.uv.es/ponsc/LlibresenInternet/analisis%20documental.htm Universidad de Valencia]
 +
*Huancas Vergara, Roberto. Indización con Encabezamiento de Materia en la Biblioteca Central de la Universidad Nacional Mayor de San Marcos. Disponible en:[http://sisbib.unmsm.edu.pe/bibvirtualdata/tesis/human/vergara_hr/t_completo.pdf Universidad Nacional Mayor de San Marcos]
 
[[Category:Bibliotecología]] [[Category:Representación_del_conocimiento]]
 
[[Category:Bibliotecología]] [[Category:Representación_del_conocimiento]]
 +
[[Category:Artículos certificados]]

última versión al 09:20 27 jun 2019


Indización documental
Información sobre la plantilla
Indizacion documental.jpeg
Concepto:Conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución de una demanda planteada”. Es decir “buscar documentos” que respondan a la necesidad informativa determinada”.

Indización documental. Proceso metodológico-intelectual que consiste en describir y extraer de él o de sus resúmenes unos vocablos especialmente expresivos y con una enorme cara informativa (descriptores) que permiten la clasificación y recuperación de cada artículo o documento publicado, llegar al documento por autor(es), por título del documento, por palabra clave, editores, título de revistas, año de publicación, etc, Es decir, son los mecanismos de descripción, ubicación y difusión de las publicaciones, conocidos como visibilidad en el mundo del conocimiento científico.

Indización

Es el proceso de identificación y asignación de códigos, descriptores o encabezamientos de materia relativos a un documento, de modo que su contenido sea conocido y el índice creado pueda ayudar a recuperar elementos de información.

Variables asociadas con el proceso de indización

Existen diversas formas para realizar el proceso de indización, cada una de las cuales da lugar a un tipo de índice con características especiales en su construcción y en su aplicación como dispositivo de recuperación de la información.

Independientemente del sistema de indización que se utilice hay una serie de variables que inciden en el proceso y que, en gran medida, definen su calidad. Entre estas variables las más importantes son las siguientes:

1. Indizador

2. Colección de documentos

3. Política y las reglas de indización

    • Grado de exhaustividad
    • Profundidad
    • Especificidad

4. Lenguaje de indización

Indizador

Es la persona que realiza el trabajo intelectual de la indización y puede considerarse el factor de mayor importancia de todos los que afectan la calidad de este proceso.

En el trabajo del indizador influyen, además de una serie de rasgos personales, su dominio de la actividad científico informativa y sus conocimientos sobre idiomas extranjeros y sobre la materia o materias de la colección de documentos que tiene que analizar.

Colección de documentos

No se podrá lograr ofrecer un buen servicio de información si la colección no es adecuada o es insuficiente. Aquí influye que el fondo documental sea suficiente, oportuno y pertinente.

Política de indización. Reglas de indización

El sistema de información traza la política de indización, la cual se traduce en una serie de lineamientos para guiar el trabajo del indizador con la finalidad de lograr elaborar índices que funcionen como dispositivos, lo más efectivos posibles en situaciones determinadas, para recuperar la información. Una parte de los lineamientos que emanan de la política de indización se convierten en reglas de indización, o sea en disposiciones concretas que deben cumplirse con exactitud.

La política de indización se traza teniendo en cuenta los intereses de los usuarios y el tipo y volumen de la colección de documentos.

La política de indización establece las pautas para determinar la exhaustividad, profundidad y especificidad de la indización.

Exhaustividad

La materia que abarca el contenido de un documento es la totalidad de tópicos que se tratan en el mismo. La exhaustividad en la indización de un documento se define como el número máximo de diferentes tópicos indizados. Por ejemplo, un documento trata sobre el tópico central A y tres tópicos colaterales B, C y D. Si se indizan los cuatro tópicos el grado de exhaustividad empleado para indizar este documento será máximo.

Profundidad

La profundidad de la indización se define como el número de diferentes términos seleccionados para indizar el documento. Esta variable también se denomina densidad de indización.

Especificidad

La especificidad es una propiedad semántica de los términos, es el nivel de detalle y exactitud con que se representa un concepto dado. Para apreciar el verdadero significado de la especificidad es necesario tener en cuenta uno de los tipos más importantes de relación que existe entre los conceptos, es decir, la relación género/especie.

Por ejemplo, si BIBLIOTECAS representa el género, entonces los diferentes tipos de bibliotecas serán las especies:

  • BIBLIOTECAS ESCOLARES
  • BIBLIOTECAS NACIONALES
  • BIBLIOTECAS PUBLICAS
  • BIBLIOTECAS UNIVERSITARIA

Lenguaje de indización

El vocabulario de lenguaje que proporciona los términos que se pueden usar en la indización, si es muy específico facilita la información específica y si por el contrario carece de especificidad se convertirá en un freno para la indización específica.

Tipos de lenguajes de indización

  • Alfabético por materia (Epígrafes): están dentro de los lenguajes precoordinados, enumerativos que ordenan alfabéticamente los términos y no ofrecen posibilidades para coordinar clases más complejas en el momento de la indización. Actualmente se emplean subepigráfes lo que permite el aumento de la especificidad del lenguaje.
  • Palabras claves: son términos extraídos tal cual se encuentran en los documentos. Estos se escogen empíricamente de los documentos de acuerdo con su actitud para expresar el contenido de la información. Permite una descripción detallada y se presten a todas las combinaciones posibles entre ellas.
  • Descriptores: se utilizan en los sistemas poscoordinados y permiten no solo la recuperación de la información por múltiples aspectos y con cualquier grado de complejidad, sino que también posibilitan y facilitan la utilización de procedimientos automatizados en los sistemas de información.

Componentes de los lenguajes de indización

Vocabulario

Es el conjunto de términos que se utilizan para expresar el contenido informacional de un documento (libro, folleto, artículo, de revista, tesis etc.) o solicitud de información estos términos pueden estar representados por:

  • Palabras aisladas o combinación de palabras
  • Código numérico, alfabético o alfanumérico
  • Códigos en combinación con palabras del lenguaje natural

Aspectos del vocabulario

  • Homonimia: Se elimina con aclaraciones en los significados del término, se colocan entre paréntesis a continuación de los vocablos que sean homógrafos (una misma palabra con 2 o más significado)
    • Ej. Planta (instalación industrial) (Piso de un edificio) (parte inferior de pie) (en botánica)
  • Sinonimia: Se elimina estableciendo un conjunto de clases equivalentes entre los sinónimos o casi sinónimos o sea entre 2 o mas palabras diferentes que tienen diferentes significados iguales o parecidos, se selecciona a una de estas palabras que represente el conjunto y se establecen referencias de (use o véase)
    • Ej. Carbohidratos, Hidratos de carbono, Glúcidos.
  • Relaciones paradigmáticas Estas se manifiestan a partir de una serie de regulaciones paradigmáticas que se establecen en los términos por rasgo común de tipo semántica o morfológico
Sintaxis

Es el conjunto de reglas para combinar los términos del vocabulario en cadenas, frases o en unidades sintácticas capaces de expresar conceptos o significados más completos que no podrían ser expresados si se utilizaran los términos del vocabulario de forma aislada; y se le llama:

  • Relaciones sintagmáticas: relaciones lingüísticas entre términos para formar las cadenas, frases o unidades sintácticas.
Reglas de uso

Sistema sindético: son las relaciones y aclaraciones sobre los términos que sirven de guía para el mejor uso del vocabulario.

  • Relaciones de equivalencia: USE o VÉASE, UP (usado por)
  • Relaciones jerárquicas: TG (término genérico), TE (término específico)
  • Relaciones asociativas: TR (término relacionado)

Fases de la indización

Hay tres fases u operaciones a realizar durante la indización:

  1. Examen del documento: Permite establecer su contenido. Hay que prestar atención las partes más informativas (título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué, cómo, cuándo y dónde.
  2. Extraer conceptos para identificarlo: Se trata de extraer los conceptos que mejor concreten el tema del documento. Se recomienda el uso de listados controlados.
  3. Selección de los términos de indización: Si se utiliza un lenguaje documental, hay que traducir los conceptos extraídos a los términos del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes de referencia: diccionarios, manuales.

Sistemas de indización

Dentro de los sistemas de indizaciones se encuentran:

Indización con epígrafes

Emplean los epigrafíaríos, que son los lenguajes alfabéticos de materia del tipo precoordinado con vocabularios enumerativo, se conocen como listas de epígrafes o listas de encabezamientos de materia .El constituye el catálogo de materia de las bibliotecas.

Desventaja: no posibilitan la recuperación multifacética y son muy voluminosos por tanto retardan la búsqueda.

Indización Coordinada

Con descriptores. Estos utilizan lenguajes descriptores que posibilitan la recuperación multifacética de la información y facilitan el almacenamiento, son apropiados para los sistemas automatizados.

Desventaja: carecen prácticamente de gramática al indizar un documento se yuxtaponen los descriptores. Pueden producir falsas e incorrectas coordinaciones.

Indización en cadena

Se apoyan en una clasificación facética, estas se basan en la síntesis o sea en la coordinación de los términos en el proceso de indización.

La indización en cadena puede definirse como un método para elaborar un índice alfabético de materia de una forma semiautomática de acuerdo con un proceso que comprende dos fases:

1. El indizador construye la cadena temática que conduce al término de nivel más genérico hacia el término de nivel más específico siguiendo los pasos siguientes:

  • hace el análisis de contenido del documento, extrae los conceptos claves y construye una frase temática
  • consulta la clasificación facética y selecciona las notaciones con los términos correspondiente que representen los conceptos claves contenidos en la frase temática
  • ordena los términos (con sus notaciones) según el orden de citación establecido, construyendo la cadena básica temática

2. A partir de la cadena básica temática se confeccionan las entradas al índice, eliminando de modo sucesivo eslabones en la cadena.

Indización permutada o por rotación

No ofrecen control de vocabulario, sino que utilizan el lenguaje natural libre .Se basan en la rotación de la palabras significativas de los títulos de los documentos o de frases, o de términos compuestos Los índices que se generan son listas alfabéticas de palabras claves presentadas en su contexto.

Generan los llamados índices permutados KWIC y KWOC

Indización de citación

Es un sistema de indización de materia, las palabras que se utilizan como clave de búsqueda son los nombres de determinados autores. Este sistema no se fundamenta en la asignación o extracción de términos para expresar el contenido del documento, se basa en que los autores al publicar sus trabajos suelen presentar un conjunto de referencias bibliografías de los documentos consultados, los cuales tratan de temáticas iguales o afines a los asuntos por ellas tratados, pudiendo ser utilizados como claves para la localización del contenido de materia de los documentos.

Indización de relación o articulada

Los sistemas de relación se apoyan en una serien de principios lógicos con la finalidad de elaborar índices con entradas que se fundamentan en estructuras sintácticas.

Ej. Sistema ASI (articuled subject index) sistema de indización que elabora índices de materia articulados. En este sistema el indizador formula una frase que expresa el contenido esencial del documento. Los términos de esta frase que deben aparecer como entradas al índice las señalas colocando los símbolos < > antes y después de cada término. Las frases marcadas se introducen en la computadora que las procesa para crear una modificación para cada término de entrada.

Características de la indización automatizada

Los factores que hacen posible pensar en el paso de una indización manual a una indización automatizada son, los siguientes:

  • Alto coste de la indización humana (tiempo)
  • Aumento exponencial de la información electrónica y la proliferación del full-text
  • La Gestión Electrónica de Documentos (GED) y a la informatización de los procesos documentales
  • Automatización de los procesos cognitivos y la investigación creciente y los avances en el Procesamiento del Lenguaje Natural (PLN)
  • Automatización de los procesos cognitivos (IA)
  • Investigación en el procesamiento del Lenguaje Natural

Evaluación de la calidad de la Indización

La calidad de las tareas correspondientes al análisis de contenido documental (especificadas en la indización y el resumen) resulta, pues, fundamental para permitir una satisfactoria recuperación de información y una adecuada explicación de los contenidos a los usuarios. Consideramos indicadores de calidad los que miden la coherencia, la pertinencia o precisión, la exhaustividad o respuesta, la consistencia, la densidad informativa, la profundidad, la extensión o tamaño, así como los indicadores temporal, de costes (recursos invertidos en un servicio), del esfuerzo del usuario y de errores.

Para Aumentar el Recobrado y la Precisión

  • La atención, interés, número y pericia de los analistas.
  • Las características de las fuentes a incluir en el repertorio.
  • Los costes, métodos, procedimientos, y tiempo en que se efectúa el análisis.
  • El producto obtenido y su adecuación a los objetivos documentales.
  • El esfuerzo que deba hacer el usuario.
  • E incluso la forma de presentación.

Fundamentos metodológicos

La indización es un proceso que comprende dos fases fundamentales, el cual se puede realizar siguiendo una metodología de trabajo que comprende varios pasos. No se puede establecer una guía de trabajo única, inflexible. Hay una serie de variantes que será necesario introducir acorde con el sistema de indización que se esté aplicando, con el lenguaje que se utilice. Por tanto, la metodología de trabajo que se aplicará en este texto puede servir de guía general para realizar el proceso de indización, pero será necesario tener en cuenta que en cada caso particular habrá que hacerle algunas modificaciones en correspondencia con los principios, objetivos y características del sistema de indización que se vaya a aplicar. En este caso la guía se ha elaborado suponiendo que se va a aplicar un sistema de indización que se compone de:

  • Un lenguaje de indización con un vocabulario autorizado formado por una lista alfabética de términos autorizados y los no autorizados ( sinónimos, casi- sinónimos y otros) . Los términos no autorizados se presentan con una referencia cruzada de USE para indicar el término que debe usarse.
  • Una política de indización que ha trazado una serie de pautas de modo que la indización se realice de acuerdo con los intereses de los usuarios, con el tipo de documentos que se van a indizar, y con una profundidad tal que permite que a cada documento analizado se asigne, en caso necesario, hasta un máximo de 8 términos índices como promedio.

Guía metodológica de trabajo

  1. Se revisa el documento.
  2. Se formula la interrogante ¿es valioso para la colección?. Hay que tomar la decisión de si se debe o no analizar el documento para indizarlo e incluirlo en la colección. Esta decisión se tomará considerando los intereses de los usuarios. Claro está que si la política de selección y adquisición ha sido adecuada los documentos que lleguen a la etapa del procesamiento analítico - sintético es porque son de interés para el sistema. De todos modos este paso es necesario ya que muchos de los trabajos que se van a analizar son artículos de revista. Una revista puede ser importante para el sistema, pero, no obstante, es posible que determinados artículos no respondan a los intereses de los usuarios. Si el documento no es valioso no se analiza, es decir no se sigue el proceso. Se desvía a otro destino donde puede tener mayor utilidad o simplemente se elimina. Por supuesto que si el documento es un artículo de una revista, la cual tiene otros artículos que sí son de interés, no pueden ser desviados ya que sería absurdo mutilar la revista. En los grandes sistemas integrales el personal que hace la selección desvía los documentos, de acuerdo con la rama del conocimiento, hacia los especialistas calificados para que los analicen.
  3. Si el documento es de interés para la colección se anotan los datos bibliográficos en la hoja de trabajo (registro bibliográfico) de acuerdo con las reglamentaciones establecidas por el sistema.
  4. Se analiza el contenido del documento y se asignan los términos para expresar los conceptos claves, utilizando las propias palabras del autor o del indizador. Este es el paso más importante y complejo de todo el proceso.
  5. Se consultarán los términos asignados (TA) con el vocabulario autorizado (VA).
  6. Con cada término asignado se plantea la pregunta: ¿Está el TA en el VA?
  7. Si el término TA está en el VA se utiliza como término índice ( TI) y se escribe en la hoja de trabajo .
  8. Si el TA no está en el VA hay que plantearse la pregunta: ¿Es un identificador? si es un identificador, o sea un nombre propio de personas, institución, organización, se utiliza cómo TI y se escribe en la hoja de trabajo.
  9. Si el TA no es un identificador hay que hacerse la pregunta: ¿Tiene una referencia de USE?
  10. Si el TA no es un identificador, pero tiene una referencia de USE se busca el término autorizado correspondiente y se utiliza como TI añadiéndolo a la hoja de trabajo.
  11. Si el TA no tiene referencia de USE se buscan posibles sinónimos en diccionarios, glosarios u otro tipo de repertorio.
  12. ¿Se encuentra algún sinónimo?
  13. Si se encuentra algún sinónimo hay que averiguar si está ó no en el VA. Si está en el VA se utiliza como TI y se anota en la hoja de trabajo.
  14. Si no se encuentra un sinónimo (o casi-sinónimo) (o si el sinónimo encontrado no está en el VA ) se estudia la posibilidad de incluir en el VA el TA en primera instancia (o el sinónimo encontrado que no está en el VA).
  15. Hay que tomar la decisión si debe o no incluirse en el VA.
  16. Si se toma la decisión de incluir el término en el VA se llena la tarjeta que ordena que sea incorporado el vocabulario y se utiliza como TI adicionándolo a la hoja.
  17. Si se toma la decisión de no incluirlo en el VA no se utiliza como TI y se sigue el proceso con otro TA (paso 5).

Futuro de la indización

A pesar de la proliferación de bases de datos textuales y del hecho de que cada vez son más accesibles por Internet, parece poco probable que la necesidad de indizadores experimentados desaparezca en el futuro más inmediato. La facilidad con que se puede hacer una base de datos accesible a través de Internet anima cada vez más a las organizaciones a desarrollar las suyas propias -por ejemplo, a las bibliotecas para producir bases de datos de recursos importantes a nivel local.

La indización humana, con alguna forma de control de vocabulario, puede aumentar considerablemente la utilidad de tales recursos. Además, las organizaciones pueden construir bases de datos útiles para ellas mismas descargando documentos de diversas fuentes de Internet.

Puede que resulte necesaria una indización local para aumentar el valor de tales bases de datos. Del mismo modo, algunos bibliotecarios están comenzando a darse cuenta de que una función importante de la biblioteca en un entorno digital puede ser la de construir recursos en red relevantes a nivel local. Por último, los desarrollos tecnológicos han creado nuevos retos, como los asociados con la indización de bases de datos de imágenes y sonidos. Puede que pase mucho tiempo antes de que los ordenadores puedan reemplazar totalmente a los humanos en la indización y en las demás tareas de tipo intelectual, necesarias para la recuperación de la información.

Fuente

  • Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid: Pirámide, 1987.
  • Gimeno Perelló, J. “Sistemas de indización aplicados en bibliotecas: clasificaciones, tesauros y encabezamientos de materias”. En: Tratado básico de Biblioteconomía. Madrid: Síntesis, 1996.
  • González Bravo, Margarita. Indización. Publicado el miércoles, febrero 02, 2011 Disponible en: default Consultado el 6 de julio de 2012.
  • Guinchat, C.; Menou, M.; Blanquet, M-F. Introducción general a las ciencias y técnicas de la información y documentación. Madrid: CINDOC, UNESCO, 1990.
  • Laboire, T.; Halpein, M. y White, H.- Library and InformationScience Abstracting and Indexing services: Coverage, Overlap and Context, en Library and Information Science Abstracts, (1985), 7: 183-195.
  • Lancaster, F. W.- El control de vocabulario en la recuperación de la información. Valencia: Universitat de Valencia, 1996.
  • Naumis Peña, Catalina. Indización y clasificación: Un problema conceptual y terminológico. Disponible en: file Consultada 6 de julio de 2012.
  • Análisis documental. Disponible en:Universidad de Valencia
  • Huancas Vergara, Roberto. Indización con Encabezamiento de Materia en la Biblioteca Central de la Universidad Nacional Mayor de San Marcos. Disponible en:Universidad Nacional Mayor de San Marcos