NuBuMu

Wednesday, April 12, 2006

Colecciones

Un tema importante dentro del campo de las búsquedas son las colecciones, o cómo reducir el alcance de una búsqueda dentro de nuestro índice.

Así, por ejemplo, Google dispone de diferentes colecciones en su índice, como por ejemplo, buscar páginas en español
(http://www.google.es/search?hl=es&q=buscar
&btnG=B%C3%BAsqueda+en+Google&meta=lr%3Dlang_es),
o buscar páginas en España
(http://www.google.es/search?hl=es&q=buscar
&btnG=B%C3%BAsqueda&meta=cr%3DcountryES).
Microsoft, en otra campaña más orientada al marketing que a la efectividad, ha anunciado hoy un buscador para el mundo académico, léase, universitarios y demás. Básicamente sigue siendo su buscador live.com al que se le añade un parámetro: Scope.
(http://www.live.com/?q=search&x=17&y=3&scope=academic)

Nos encontramos ante una situación bastante contradictoria. Por una lado intentamos aumentar y hacer mejor nuestro índice, y por otro, intentamos poder acotar las búsquedas de una forma sencilla y cómoda... Uno de los mejores mecanismos son las colecciones, y si bien cada motor de indexación usa sus propias tecnologías y sistemas, la idea que subyace debajo es muy clara: Reducir el campo de la búsqueda de una forma controlada y ordenada.

Tuesday, April 11, 2006

Antes de buscar...

Básicamente la creación de un índice puede resumirse en pocos pasos.

  1. Crawling de URLs, donde se buscan las urls a indexar.
  2. Análisis del contenido, donde se extrae toda la información que el indice pueda necesitar. Este proceso no tiene por qué ser ejecutado en un sólo paso, si no que se tiende a usar un análisis por iteración en el que la granularidad del contenido cada vez es más fina. También se le aplican diferentes métodos de análisis para extraer conceptos, categorías, buscar sinónimos, establecer relaciones (palabras cercanas o palabras similares).
  3. Pesado de las palabras. Esta es la parte más importante del proceso. Se trata de establecer el peso de la palabra. Decidir si una palabra por estar en un título o en un enlace es más importante que sus alrededores... El pesado de palabras se recomiendo no hacerse sobre tablas de valores estáticos.
  4. Por último, y como paso opcional, se pueden establecer offsets de las palabras. Puede que nos interese no sólo la palabra sinó el párrafo que lo contiene. Si bien se puede incluir en el proceso de análisis, es un proceso en el que lo importante es lo que hay alrededor de la palabra objetivo, y no la palabra en sí, así que, por claridad, prefiero ponerlo aparte.
Una vez tenemos el proceso, hay que crear un índice eficiente sobre el que poder preguntar y obtener respuestas.

¿Alguien se lo cree?

No tengo tiempo nunca para nada, así que no voy a ponerme grandes retos. Simplemente pretendo ordenar un poco mi cabeza en cuanto a buscadores se refiere. Busca, busca, busca...

Un premio a quien adivine qué quiere decir nubumu :D