Antes de buscar...
Básicamente la creación de un índice puede resumirse en pocos pasos.
- Crawling de URLs, donde se buscan las urls a indexar.
- Análisis del contenido, donde se extrae toda la información que el indice pueda necesitar. Este proceso no tiene por qué ser ejecutado en un sólo paso, si no que se tiende a usar un análisis por iteración en el que la granularidad del contenido cada vez es más fina. También se le aplican diferentes métodos de análisis para extraer conceptos, categorías, buscar sinónimos, establecer relaciones (palabras cercanas o palabras similares).
- Pesado de las palabras. Esta es la parte más importante del proceso. Se trata de establecer el peso de la palabra. Decidir si una palabra por estar en un título o en un enlace es más importante que sus alrededores... El pesado de palabras se recomiendo no hacerse sobre tablas de valores estáticos.
- Por último, y como paso opcional, se pueden establecer offsets de las palabras. Puede que nos interese no sólo la palabra sinó el párrafo que lo contiene. Si bien se puede incluir en el proceso de análisis, es un proceso en el que lo importante es lo que hay alrededor de la palabra objetivo, y no la palabra en sí, así que, por claridad, prefiero ponerlo aparte.


0 Comments:
Post a Comment
<< Home