NuBuMu

Tuesday, March 20, 2007

Mas sobre SEO

Enrique Dans habla de los límites de los SEO a partir de cierto articulo publicado en El Pais. Vamos a ver. Recordemos los tiempos de altavista, en los que un simple google apareció y se llevó todo el pastel.

¿Que ocurrió? fácil, que tuvieron la idea de en lugar de dejar que un script, robot o llamen como quieran al animalito que le daba de comer al indice, recorriera la web a sus anchas, pues decidieron aplicarle una relevancia de acuerdo a lo que otra gente pensaba del recurso en cuestion.

El post proceso de los datos indexados ha resultado ser mas importante que el propio crawling, pero ahora resulta que la gente, o los SEO o llámenlos como quieran, han aprendido a "colar" sus páginas donde no deberían. Sí, hacen uso de conocer cómo funciona el algoritmo de "pesado" y sacan una buena tajada por ello. Nada que objetar a cómo se ganan el pan los SEO, al fin y al cabo, no son ellos los que imponen las reglas, ellos sólo se aprovechan de saberse las leyes y de "cómo funciona todo esto".

Qué ocurre, que evidentemente Google y los demas, se enfrentan a un dilema: o cambian el algoritmo, o buscan otro proceso post indexado que reajuste la relevancia y limpie todo lo que los SEO añaden en benificio de terceros.

Claro, la relevancia la otorga el propio algoritmo, aquel famos PageRank, así que o reconocen que ya no vale, o lo hacen evolucionar. Hablábamos antes de precisamente, tener "vigilantes" que dicen lo que sí entra dentro de unos buenos resultados y lo que no, pero eso queda fuera del algoritmo, así pues, hay alguna forma de cazar al SEO? esa pregunta es equivalente a decir: Como puedo mejorar mi algoritmo o mis algoritmos que deciden la relevancia de los resultados? podria marcarme el farol y decir que lo sé, pero no... tengo algunas ideas, pero no es fácil, por que el problema radica en que la gente ha aprendido a aprovechar tu punto mas débil, que además, es el que te diferencié de la competencia. ¿Quien es el malo pues, ellos por ensuciarme mi índice o yo por no saber tene el índice limpio....? Lo dicho, estamos como cuando apareció google, sólo que de momento no ha aparecido ningún nuevo jugador.

Labels:

Sobre los indices

Cuando se hace el crawl de internet vamos recogiendo contenidos de cualquier tipo. Podemos usar filtros para, por ejemplo, solo indexar archivos html. Pero ahora bien, no solo hay que coger el documento y meterlo en el indice, sino que hay que ver si el documento ha de ir al indice, o a que indice exactamente toca meterlo.

Pensemos que podemos tener un indice para cada idioma. asi el buscador nubumu.es usaria un indice con los contenidos basicamente en espanyol, o el nubumu.co.uk usaria uno en ingles.

No tenemos por que tener indices diferentes y podiamos usar colecciones para separar contenidos por idioma... y es ahi a donde queria ir a parar: Creamos un indice generico o uno basado en alguna taxonomia? Un indice generico enorme nos llevara rapidamente a problemas de escalabilidad y rendimiento. Varios indices haran que tengamos que tener un index dispatcher o algun animalillo que sepa a que indice tenemos que mandar la query.

Recordad que en los indices solo guardamos PKs o claves primarias.

Mi experiencia, pues en ComSec me encontre con que uno de los indices era como 14 veces mas grande de lo esperado. Claro, el rendimiento era horrible y rehacer el indice costaba como una noche. Tened en cuenta que hay dos tipos de indices: incrementales y no incrementales. Con los incrementales tienes mas flexibilidad una vez el proceso de indexado es estable.

El problema, como acostumbra a pasar con todo lo relacionado con las busquedas, es saber. Saber que esta buscando el usuario. Si lo supiera, podria tener multitud de indices y redirigirlo al indice mas adecuado, pero acostumbra a pasar que no lo sabes. Solucion? pues o tomas la decision tu, o la delegas en el usuario.

Todo el proceso que tan en boca de todos esta ahora de hacer buscadores que aprenden, o buscadores sociales donde la gente decide como de importante o relevante son los resultados apuntan a este tipo de soluciones. Deleguemos en los usuarios la responsabilidad de decidir que es relevante al tema de la busqueda y que no.

Problemas? esa gente que quiere enganyar a los indices :) Pero tal vez la pregunta es, es el proceso de busqueda un proceso subjetivo u objetivo? si es objetivo podemos intentar dar con el algoritmo pero si no lo es, deberemos usar la estadistica para meter a la gente en grupos e intentar haberlo hecho bien.

De momento, todo lo que hay hasta la fecha se basa en procesos subjetivos usando algoritmos objetivos. O sea, que ni lo uno ni lo otro... pero quien dijo que el mundo tenia que ser blanco o negro?

Labels: