En esta entrada al blog vamos a
hablar de un tema interesante como es la recuperación de datos. Es un asunto
bastante complejo pero importante, por lo que vamos a tratar de explicarlo de
manera que sin tener excesivos conocimientos por parte del lector, se pueda
tener un concepto más o menos general de qué es, cómo funciona y cómo se consigue.

El proceso de
recuperación: se lleva a cabo mediante consultas a la base de datos donde
se almacena la información estructurada, mediante un lenguaje de interrogación
adecuado.
Técnicas de recuperación de información
Hay muchas técnicas, aunque vamos
a ver que se basan principalmente en el uso de los operadores adecuados para
cada contexto.
Sistemas de recuperación de lógica difusa: Es un procedimiento que
permite establecer consultas con frases. La máquina de manera sistemática al
realizar la búsqueda elimina caracteres que considera innecesarios como signos
de puntuación, artículos, palabras comunes…, y quedándose sólo con aquellas palabras que el sistema considera
relevantes. La recuperación se basa en proposiciones lógicas con valores de
verdadero y falso (true or false), teniendo en cuenta la localización de la
palabra en el documento.
Técnicas de retroalimentación por relevancia: Esta técnica pretende
obtener el mayor número de documentos relevantes tras establecer varias
estrategias de búsqueda. Dentro de ésta, destacamos el “Algoritmo Genético”,
que recibe este nombre porque se basa en un esquema similar al de la teoría de
la evolución biológica, es decir, por así decirlo, prosperan los argumentos que
se adaptan mejor al “medio”. En este caso, a la circunstancia que requiramos.
Técnicas de ponderación de términos: Los documentos recuperados se
encuentran en función del valor obtenido en la ponderación. El valor no es algo
estrictamente subjetivo de la máquina, sino que depende de los términos
pertinentes que contenga el documento y la frecuencia con que se repita. De
forma que, el documento más pertinente de búsqueda sería aquel que tenga
representado todos los términos de búsqueda y además el que más valor tenga
repetidos más veces, independientemente de donde se localice en el documento.
Técnica de clustering o de agrupamiento: Su nombre procede del
inglés. Cluster significa racimo, lo cual nos puede guiar bastante sobre en qué
consiste esta técnica. Consiste en un procedimiento de agrupación de una
serie de vectores de acuerdo con un criterio. Esos criterios son por
lo general distancia o similitud. La cercanía se define en términos de una
determinada función de distancia, como la euclídea, aunque existen
otras más robustas o que permiten extenderla a variables discretas. La
medida más utilizada para medir la similitud entre los casos es la matriz cuadrada
de correlación entre los nxn casos. Sin embargo, también existen muchos algoritmos
que se basan en la maximización de una propiedad estadística llamada
verosimilitud. Y esta técnica es bastante utilizada en el campo de la
estadística matemática, aunque requiere de conocimientos previos en la materia
para poder entenderse. Para los propósitos que tiene este blog, con lo contado
del clustering, es suficiente.
Técnicas de stemming: La técnica de Stemming lo que pretende es
eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda
de un concepto, para ello trunca la palabra y busca solo por la raíz.
Stem(inglés)=tallo(español).
Uno de los problemas con los que
nos podemos encontrar en nuestra búsqueda es que se pueden recuperar muchos
documentos que no son relevantes, ya que la búsqueda ha sido demasiado
genérica, lo que conocemos como ruido documental, o bien no podemos
recuperar la información almacenada en la base de datos, ya que la estrategia
de búsqueda ha sido demasiado específica o las palabras clave utilizadas no
eran las adecuadas, esto es conocido como silencio documental. No es
algo sencillo, por lo que aparte de dominar de ciertas técnicas también hay que
saber qué elementos y sistemas nos pueden ayudar para la recuperación de la
información.
Herramientas de búsqueda
Para recuperar la información contamos
con una serie de herramientas que pasaremos a definir a continuación.
Bases de datos: son un conjunto de información homogénea que
mantiene una estructura ordenada y relacionada entre sí.
Internet: donde podemos obtener información de manera automática,
según los criterios de nuestra búsqueda, a través del manejo de buscadores, directorios
y otras herramientas (a estas alturas, no debería ser necesario explicar el funcionamiento
de internet).
Lenguajes de indización y
control terminológico: Índices que, son un listado de
términos normalizados que representan el contenido de un recurso. Algunos tipos
son:
Índice de materias.
Índice alfabético.
Índice KWIC: en el que el contenido temático de una obra se
representa mediante palabras clave de su título
Índice KWOC: en que las palabras clave aparecen como un
encabezamiento en línea separada.
Palabras clave (Keywords): esta opción nos permite acotar
y precisar información, para definir la palabra exacta es conveniente utilizar
especificadores.
Tesauros: es un listado terminológico controlado sobre un área de
conocimiento que mantiene entre sí relaciones semánticas y genéricas. Su
principal característica es que los términos están ordenados jerárquicamente,
permitiendo la precisión terminológica en la búsqueda de información.
Lenguajes de interrogación y ecuaciones de búsqueda: cada sistema
de recuperación tiene su propio lenguaje de interrogación con una sintaxis
propia, que es el que nos permite "hablar" en el mismo lenguaje que
la base de datos. Las reglas gramaticales en el lenguaje de interrogación son
los operadores lógicos
Operadores: son los encargados de expresar la relación que
mantienen entre sí los términos que pueden definir las necesidades informativas
del usuario. Los más utilizados son:
·Operadores lógicos (o booleanos) que, nos proporcionan un
resultado a partir de que se cumpla o no una cierta condición. Los tres
operadores básicos son.
El operador suma/unión (+, generalmente
identificado como O/OR),
El operador producto/intersección (
identificado como Y/AND), y
El operador resta/negación (-, identificado como NO/NOT).
Operadores posicionales, que permiten especificar la posición de
las palabras dentro del documento. Hay tres tipos, que son:
Cerca (NEAR).
Junto (ADJ).
O simplemente, sentencias o frases.
Por último, vamos a presentar unos criterios básicos que se deben cumplir
para que el proceso de recuperación que hemos realizado sea de calidad.
Consistencia: Capacidad que tiene un sistema de búsqueda en
coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo
de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
Exhaustividad: Es la cualidad de un sistema de información para
recuperar la totalidad de los documentos relevantes que posee una colección,
conforme a los requerimientos establecidos en la estrategia de búsqueda.
Tasa de acierto: coeficiente que surge de dividir el número de
documentos relevantes recuperados, sobre el número total de documentos
relevantes de la colección (por así decirlo, supondría un coeficiente de
rendimiento).
Relevancia: Característica de un documento recuperado que cumple
con la necesidades de información.
Tasa de relevancia: coeficiente que surge de dividir el número de
documentos relevantes recuperados, sobre el número total de documentos
recuperados.
Apropiación: Es la cualidad que tiene el documento recuperado de
adaptarse a las necesidades de información.
Tasa de pertinencia: coeficiente que surge de dividir el número de
documentos pertinentes recuperados, sobre el número total de documentos
recuperados.
Precisión: es la capacidad que tiene el sistema de búsqueda en
coordinar la ecuación con los documentos más relevantes. De otra forma son
aquellos documentos relevantes recuperados.
Tasa de precisión: coeficiente que surge de dividir el número de
documentos relevantes recuperados, sobre el número total de documentos de la
colección.
Como podemos ver, la recuperación
de datos e información es una rama del conocimiento bastante extensa y algo
compleja de entender si no se está habituado a cierta terminología y tecnicismos.
Tras la lectura de esta entrada al blog, probablemente el funcionamiento y
características de este proceso le haya quedado algo más claro, si bien, la
información que se ha detallado es sólo una pequeña parte de todo lo que este
proceso comprende. Haciendo un guiño al tema que hablamos en la anterior
entrada, si algo no le ha quedado del todo claro, mediante el uso de cualquier
buscador, puede encontrar muchísima más información pues como ya se ha dicho,
es un tema muy extenso y de gran utilidad en cualquiera de los ámbitos que nos
podamos encontrar a nivel doméstico o profesional.
Referencias:
http://es.wikipedia.org/wiki/B%C3%BAsqueda_y_recuperaci%C3%B3n_de_informaci%C3%B3n
http://www.mariapinto.es/e-coms/recu_infor.htm
http://eprints.rclis.org/16262/1/libro-ri.PDF
http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html
Referencias:
http://es.wikipedia.org/wiki/B%C3%BAsqueda_y_recuperaci%C3%B3n_de_informaci%C3%B3n
http://www.mariapinto.es/e-coms/recu_infor.htm
http://eprints.rclis.org/16262/1/libro-ri.PDF
http://www.elprofesionaldelainformacion.com/contenidos/1995/octubre/teora_de_recuperacin_de_informacin_modelos_fundamentales_y_aplicaciones_a_la_gestin_documental.html