domingo, 9 de noviembre de 2014

Buscadores

En esta entrada vamos a hablar de un elemento que ya pasa desapercibido en nuestras vidas, que era inconcebible hace tan sólo un par de décadas para el usuario común pero que actualmente es un complemento utilizado por todos nosotros cada día, incluso para llegar a ver este blog. Hablamos de los motores de búsqueda, o más comúnmente conocidos como buscadores. 

Un motor de búsqueda es un sistema informático que busca archivos almacenados en la base de datos de servidores web gracias a lo que se conoce como spider o araña web. Nos vamos a centrar en los buscadores de Internet (algunos buscan únicamente en la web, pero otros lo hacen además en noticias, servicios como Gopher, FTP, etc.) cuando se pide información sobre algún tema. Las búsquedas se hacen con palabras clave o con árboles jerárquicos por temas. El resultado de esta búsqueda es un listado con direcciones web en los que se mencionan temas relacionados con las palabras clave buscadas.
Por fuera y sin valorar con demasiada profundidad el funcionamiento de un buscador, se basa principalmente en introducir unas keywords (palabras clave) en la barra de texto que habilita la página de búsqueda. Entonces el buscador busca de manera textual o aproximada los términos introducidos, es decir, aquellas páginas webs cuyo contenido guarde relación con el tema solicitado. Esto cumple con lo básico pero existen también opciones más avanzadas para depurar la búsqueda, que puede filtrar miles de páginas y así poder trabajar con un número más reducido de páginas.
El hecho de cuál es mejor buscador o cuál peor es algo completamente subjetivo y de lo que luego un modesto servidor opinará al respecto. Una opinión que no tiene por qué ser compartida ya que no hay una verdad absoluta al respecto. Sin embargo, internet es un mundo dinámico que cambia a cada décima de segundo, por lo que ningún buscador tiene un registro actualizado constante del contenido de cualquier página. Esto hace que un buscador pueda albergar direcciones útiles que otro no. Por lo tanto, una recomendación es utilizar varios buscadores para optimizar nuestros procesos en internet.
Por así decirlo, “macroscópicamente” ya hemos determinado cómo funcionan los motores de búsqueda. Pero… ¿cómo funciona por dentro un sistema de búsqueda?
Para localizar la información existen los llamados algoritmos de búsqueda que, están diseñados para localizar un elemento concreto dentro de una estructura de datos.

Interesante y relacionado con este tema, en marzo de 2013 la compañía referencia de los motores de búsqueda, Google, explicó públicamente en un vídeo cómo funciona su algoritmo de búsqueda. Hasta entonces había sido unos de los secretos mejores guardados del mundo de la información.
El motor de búsqueda recoge más de 30 millones de millones de páginas, maneja alrededor de 100 millones de gigabytes, recibe unos 100.000 millones de búsquedas mensuales y “está en constante crecimiento” según miembros de su compañía. Recalcular y ordenar este material se produce a través del «crawling», que recorre las diferentes páginas. Los propietarios de los portales pueden decidir si su contenido se rastrea o no, aunque el deseo de un creador de web suele ser las visitas de terceras personas.
Google ordena las páginas en función del contenido y otros factores mediante una serie de fórmulas matemáticas que ofrecen «el mejor resultado posible». Esos algoritmos ponen manos a la obra al motor de búsqueda para traducir lo que el usuario pretende encontrar. Así que mediante diversas funcionalidades como la corrección de errores ortográficos, la proporción de alternativas de búsqueda o el autocompletado se acota la búsqueda.
Una explicación más detallada y mejor elaborada que la mía será la de Matt Cutts, ingeniero del equipo de Google. Por ello, se adjunta el enlace del vídeo al que hacemos referencia.
http://www.youtube.com/watch?v=MY42gAZqlSQ
Existen varios tipos de algoritmos de búsqueda que vamos a explicar a continuación:
·Búsqueda binaria: se utiliza cuando el vector en el que queremos determinar la existencia de un elemento está previamente ordenado. Este algoritmo reduce el tiempo de búsqueda considerablemente, ya que disminuye exponencialmente el número de iteraciones necesarias. Está altamente recomendado para buscar en arrays de gran tamaño.
·Búsqueda secuencial: se utiliza cuando el vector no está ordenado o no puede ser ordenado previamente. Consiste en buscar el elemento comparándolo secuencialmente (de ahí su nombre) con cada elemento del arreglo hasta encontrarlo, o hasta que se llegue al final. La existencia se puede asegurar cuando el elemento es localizado, pero no podemos asegurar que no exista hasta no haber analizado todos los elementos del arreglo.
No todos los buscadores son iguales. Se pueden agrupar y distinguir en diferentes grupos en función del propósito que tengan o de su manera de operar. Según su funcionalidad pueden ser:
 ·Genérico u horizontal (como por ejemplo Google, Yahoo o Bing) funciona utilizando unos programas (llamados robots o arañas) como ya hemos explicado, que rastrean Internet y leen tantas páginas como puedan. El buscador crea posteriormente un índice que contiene las palabras de los documentos leídos, utilizando un algoritmo propietario que asegure que para cada búsqueda se devuelvan los resultados más significativos.
·Temáticos o verticales (como Rastreator o Trivago) que envían sus robots a un número limitado de páginas web sobre un tema concreto, lo que permite que tanto la obtención de la información como la creación del índice sean más especializadas en el sector del que se trata. Al tratarse de un número de fuentes más reducido que en un buscador genérico los buscadores verticales pueden también actualizar su información con mayor frecuencia. Adicionalmente, un buscador vertical ofrece a los usuarios mecanismos de búsqueda avanzada específicamente diseñados para el sector.
Los buscadores verticales o temáticos suponen una nueva generación después de los modelos de búsqueda horizontal. La revista Business Week ha clasificado los buscadores verticales como parte de un “renacimiento tecnológico”.
En principio se puede pensar que es imposible competir ante empresas gigantes como Google o Yahoo, pero el hecho de ofrecer un servicio específico supone varias ventajas para el consumidor, ya que el contenido es más exacto y fiable al haber responsables en la empresa para corroborar los servicios y precios. Además, económicamente se pueden generar muchos ingresos, ya que al ser temáticas, abarcan a un restringido tipo de consumidor que acude a dichas páginas con buscadores en principio para solicitar un servicio. Es decir, son compradores potenciales, y eso supone que las empresas del sector quieran publicitarse en dichas páginas en busca de clientes.
Otro tipo de agrupación, en este caso en función del origen de sus datos es la que constituyen los buscadores propiamente dichos que ya han quedado definidos y los llamados metabuscadores.
El meta-search o metabuscador es un sistema que localiza información en los motores de búsqueda más usados y que se distingue de estos en que carece de base de datos propia, ya que usa las de otros buscadores y muestra una combinación de las mejores páginas que ha devuelto cada uno. Para que quede completamente claro y no haya lugar a equívocos, un metabuscador es otra vuelta de rosca, es un buscador de buscadores. Hay gran cantidad de metabuscadores, como Metacrawler o Zapmeta. Como todo, ofrecen ventajas e inconvenientes que el usuario debe siempre tener en consideración:
Ofrecen gran cantidad de respuestas. Aunque no todos operan igual, muchos enseñan la relevancia de las webs que muestran como resultado, lo cual puede guiar al usuario para un uso óptimo. Sin embargo, cada buscador trabaja de una manera distinta y con diferente sintaxis mientras que los metabuscadores trabajan con el mismo criterio de búsqueda y sin hacer distinciones en este aspecto, lo cual puede dar lugar a resultados diferentes a los esperados o que nos pueden resultar poco útiles. Además, al ser un buscador de buscadores, el proceso tiende a ralentizarse en exceso en comparación con un buscador convencional.
Como ven, hay una gran variedad de motores de búsqueda, cada uno con sus particularidades. Como siempre decimos, es el usuario el que decide finalmente qué sistema es el más apropiado para sus necesidades. En algunos casos, porque Google es el genérico que suele venir como predeterminado en la mayoría de sistemas y para el nivel usuario, resulta sobradamente eficaz. En otros casos, el desconocimiento de otros buscadores hace que se utilice el que viene por defecto.

Sean o no éstos los motivos, lo cierto es que casi tres cuartas partes de las búsquedas por internet (71,36%) se realizan mediante Google. Muy a la zaga están Baidu, con un 16,35%. Puede resultar bastante sorprendente por lo poco conocido que resulta en el mundo occidental este buscador, pero si decimos que está destinado al idioma chino, debido a la gran población en el país asiático, el dato encaja perfectamente. Relegado a la tercera posición, el motor de búsqueda diseñado por Microsoft, Bing, con sólo un 5,83%, cercano al 5,45% de Yahoo. Todos los datos los puedes encontrar en el blog de informática de la Universidad Cardenal Herrera, cuyo enlace se adjunta en el apartado “Referencias”.
Como último punto y para terminar esta entrada, una recomendación. Usar un buscador u otro no es garantía de nada, y el hecho de que una página aparezca antes o después tras una búsqueda no supone absolutamente nada. No por ello la información que contiene es mejor o completamente cierta. No todo es real en internet y un buscador no tiene manera de descubrir si algo es cierto o no. Por ello, siempre es recomendable utilizar varios buscadores, y a partir de ahí, decidir qué información es útil para nuestro propósito y cuál no.
Y tú, ¿qué motor de búsqueda empleas usualmente y por qué?

Referencias:

No hay comentarios:

Publicar un comentario