domingo, 30 de noviembre de 2014

Recuperación de la información

En esta entrada al blog vamos a hablar de un tema interesante como es la recuperación de datos. Es un asunto bastante complejo pero importante, por lo que vamos a tratar de explicarlo de manera que sin tener excesivos conocimientos por parte del lector, se pueda tener un concepto más o menos general de qué es, cómo funciona y cómo se consigue.
El proceso de recuperación: se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de interrogación adecuado.

Técnicas de recuperación de información

Hay muchas técnicas, aunque vamos a ver que se basan principalmente en el uso de los operadores adecuados para cada contexto.
Sistemas de recuperación de lógica difusa: Es un procedimiento que permite establecer consultas con frases. La máquina de manera sistemática al realizar la búsqueda elimina caracteres que considera innecesarios como signos de puntuación, artículos, palabras comunes…,  y quedándose sólo con  aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso (true or false), teniendo en cuenta la localización de la palabra en el documento.
Técnicas de retroalimentación por relevancia: Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. Dentro de ésta, destacamos el “Algoritmo Genético”, que recibe este nombre porque se basa en un esquema similar al de la teoría de la evolución biológica, es decir, por así decirlo, prosperan los argumentos que se adaptan mejor al “medio”. En este caso, a la circunstancia que requiramos.
Técnicas de ponderación de términos: Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor no es algo estrictamente subjetivo de la máquina, sino que depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.
Técnica de clustering o de agrupamiento: Su nombre procede del inglés. Cluster significa racimo, lo cual nos puede guiar bastante sobre en qué consiste esta técnica. Consiste en un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud. La cercanía se define en términos de una determinada función de distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida más utilizada para medir la similitud entre los casos es la matriz cuadrada de correlación entre los nxn casos. Sin embargo, también existen muchos algoritmos que se basan en la maximización de una propiedad estadística llamada verosimilitud. Y esta técnica es bastante utilizada en el campo de la estadística matemática, aunque requiere de conocimientos previos en la materia para poder entenderse. Para los propósitos que tiene este blog, con lo contado del clustering, es suficiente.
Técnicas de stemming: La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Stem(inglés)=tallo(español).
Uno de los problemas con los que nos podemos encontrar en nuestra búsqueda es que se pueden recuperar muchos documentos que no son relevantes, ya que la búsqueda ha sido demasiado genérica, lo que conocemos como ruido documental, o bien no podemos recuperar la información almacenada en la base de datos, ya que la estrategia de búsqueda ha sido demasiado específica o las palabras clave utilizadas no eran las adecuadas, esto es conocido como silencio documental. No es algo sencillo, por lo que aparte de dominar de ciertas técnicas también hay que saber qué elementos y sistemas nos pueden ayudar para la recuperación de la información.

Herramientas de búsqueda

Para recuperar la información contamos con una serie de herramientas que pasaremos a definir a continuación.
Bases de datos: son un conjunto de información homogénea que mantiene una estructura ordenada y relacionada entre sí.
Internet: donde podemos obtener información de manera automática, según los criterios de nuestra búsqueda, a través del manejo de buscadores, directorios y otras herramientas (a estas alturas, no debería ser necesario explicar el funcionamiento de internet).
Lenguajes de indización y  control terminológico: Índices que, son un listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:
Índice de materias.
Índice alfabético. 
Índice KWIC: en el que el contenido temático de una obra se representa mediante palabras clave de su título 
Índice KWOC: en que las palabras clave aparecen como un encabezamiento en línea separada. 
Palabras clave (Keywords): esta opción nos permite acotar y precisar información, para definir la palabra exacta es conveniente utilizar especificadores.
Tesauros: es un listado terminológico controlado sobre un área de conocimiento que mantiene entre sí relaciones semánticas y genéricas. Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.
Lenguajes de interrogación y ecuaciones de búsqueda: cada sistema de recuperación tiene su propio lenguaje de interrogación con una sintaxis propia, que es el que nos permite "hablar" en el mismo lenguaje que la base de datos. Las reglas gramaticales en el lenguaje de interrogación son los operadores lógicos 
Operadores: son los encargados de expresar la relación que mantienen entre sí los términos que pueden definir las necesidades informativas del usuario. Los más utilizados son: 
·Operadores lógicos (o booleanos) que, nos proporcionan un resultado a partir de que se cumpla o no una cierta condición. Los tres operadores básicos son. 
El operador suma/unión (+, generalmente identificado como O/OR), 
El operador producto/intersección ( identificado como Y/AND), y 
El operador resta/negación (-, identificado como NO/NOT).
Operadores posicionales, que permiten especificar la posición de las palabras dentro del documento. Hay tres tipos, que son: 
Cerca (NEAR).
Junto (ADJ).
O simplemente, sentencias o frases.

Calidad de la recuperación

Por último, vamos a presentar  unos criterios básicos que se deben cumplir para que el proceso de recuperación que hemos realizado  sea de calidad.
Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección (por así decirlo, supondría un coeficiente de rendimiento).
Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.
Apropiación: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados.
Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.
Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección.



Como podemos ver, la recuperación de datos e información es una rama del conocimiento bastante extensa y algo compleja de entender si no se está habituado a cierta terminología y tecnicismos. Tras la lectura de esta entrada al blog, probablemente el funcionamiento y características de este proceso le haya quedado algo más claro, si bien, la información que se ha detallado es sólo una pequeña parte de todo lo que este proceso comprende. Haciendo un guiño al tema que hablamos en la anterior entrada, si algo no le ha quedado del todo claro, mediante el uso de cualquier buscador, puede encontrar muchísima más información pues como ya se ha dicho, es un tema muy extenso y de gran utilidad en cualquiera de los ámbitos que nos podamos encontrar a nivel doméstico o profesional.

Referencias:
http://es.wikipedia.org/wiki/B%C3%BAsqueda_y_recuperaci%C3%B3n_de_informaci%C3%B3n
http://www.mariapinto.es/e-coms/recu_infor.htm
http://eprints.rclis.org/16262/1/libro-ri.PDF
http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html

No hay comentarios:

Publicar un comentario