Pensamiento Critico TI: ¿Está “degenerando” la calidad de las búsquedas de Google?

Creo que además del exceso de publicidad (cada vez mayor y menos diferenciado) y los problemas de confidencialidad (de los que los usuarios son cada vez más conscientes) a nivel técnico la calidad de los resultados de Google está descendiendo. Reflexiono a continuación sobre este asunto.

Un poco de historia

Lo primero que hay que recordar es que la búsqueda de documentos o páginas web por palabras no la inventó Google ni empezó en este siglo. Existen herramientas de búsqueda por contenido o texto completo desde hace más de 40 años.
Ya en los años 70 del siglo XX, productos como BRS ofrecían la posibilidad de buscar documentos por palabras de los mismos, normalmente orientados a bases de datos especializadas y bajo suscripción, aunque posteriormente BRS permitía a una empresa u organismo comprarlo y tener internamente indexados sus propios documentos.
A principios de los 90, productos como CD-Author, Personal Librarian Software, Knosys o Prodoc permitían indexar colecciones de documentos y editar CDs para publicar bases de datos de textos que permitían buscar por el contenido. Este tipo de herramientas se utilizó sobre todo en bases de datos legales que permitían buscar legislación o jurisprudencia por combinaciones de palabras contenidas en los mismos.
A mediados de los 90 empezaron a aparecer los primeros buscadores web, como WebCrawler, InfoSeek, Altavista, Yahoo! y finalmente Google.
Actualmente, además de los buscadores disponibles en Internet, existen herramientas como Lucene (que se ha convertido en la base de muchos otros productos), Xapian, Autonomy, Inktomi o Sphinx que permiten indexar nuestro propio contenido y publicarlo (ya sea en Internet, en Intranet o asociado a un proyecto o aplicación).
Además, han surgido los metabuscadores, que utilizan otros buscadores para lanzar las consultas, combinando los resultados, anonimizando y añadiendo otros valores.


"Search Engine Optimization seo" by James Dell is licensed under CC BY-NC 4.0

Cómo funcionan los Motores de búsqueda por contenido

Para entender qué podemos esperar y qué podemos considerar funcionamiento “correcto” o “incorrecto” es importante entender cómo funcionan los buscadores por contenido (sean en internet o no).
Utilizo la palabra documento independientemente de que se trata de una página web o de que se trate un documento por ejemplo ofimático o pdf. La operativa de búsqueda y recuperación básicamente es la misma.
Son procesos complejos que requerirían mucha extensión para describir todos los matices y operaciones, por lo que los describo a continuación de forma muy simplificada. Hay muchos artículos explicando detalladamente el funcionamiento.

Podemos hablar de dos o tres pasos básicos:

Obtener los documentos (cuando no somos los propietarios debemos “buscarlos” por internet, si somos los propietarios, debemos “insertarlos” en el buscador)
La indexación de los documentos o páginas localizados.
La búsqueda

Si disponemos de una colección de documentos que queremos indexar y publicar, no hay que “buscarlos”, pero un buscador público en internet sí debe buscarlos. Para ello se utilizan programas llamados “web crawlers”, “arañas Web” o “rastreador web” que recorren páginas sistemáticamente, barriendo dominios, portales e hipervínculos, para descargar el html o documentos referenciados. Si somos los propietarios, debemos “insertarlos” en el buscador para que los procese.

En cualquier caso, el resultado de esta fase son documentos en diversos formatos (html, pdf, docx, pptx, odt,..) que deben indexarse. Lógicamente la calidad de los resultados viene determinado en primer lugar por esta fase. Si la página no se ha encontrado, nunca podrá incluirse en la indexación ni por tanto, recuperarse en las búsquedas. Esta es la primera fuente de problemas: Muchas páginas requieren autenticación o suscripción, con lo que no es posible recuperarlas, y otras están compuestas de fragmentos de página que combinan otras páginas que varían con el tiempo (por ejemplo blog, medios de comunicación o aglutinadores que incrustan otros blog, medios de comunicación o noticias). Se toma una foto de la página en un momento dado y cuando accedemos a ella al cabo de varios días, ya no está la información que buscábamos.

La siguiente fase es la más crítica en mi opinión, la indexación de los documentos. Reduciendo el proceso a lo más elemental, se trata simplemente de extraer las palabras y anotar la referencia al documento en que aparecen. Para empezar, debe ignorarse no solo el que una palabra esté en mayúsculas o minúsculas (algo sencillo), sino los acentos (ya que puede haberse omitido por error o no incluido en una palabra en mayúsculas) y hay que tener en cuenta los códigos de página usados en el documento, que afecta a la forma en que se referencia y almacenan que ciertos caracteres (como acentos, ñ, etc). Tras un primer tratamiento, esto nos daría, para cada palabra, la lista de todos los documentos (o urls) en que aparece.
Pero esto sería poco eficaz, ya que, por ejemplo, no tiene sentido tratar como palabras distintas el singular o plural o los distintos tiempos de un verbo. Para ello se aplica el proceso llamado stemming de forma lo que se maneja es la raíz de la palabra. Esto permite referenciar mejor.
Por otra parte, hay palabras que no aportan mucho y ocupan espacio en los índices, como pueden ser artículos o preposiciones, por lo que los motores utilizan una lista de palabras vacías o stop words que se ignoran al indexar. Además, hay que sumar que muchos motores de búsqueda permiten buscar palabras “cercanas” (en el mismo párrafo o a una distancia de N palabras), lo que permite afinar más la búsqueda (lógicamente no es lo mismo que aparezcan dos palabras en el mismo párrafo que al principio y al final de un documento, especialmente si este es largo). Para ello debe guardarse la posición de la palabra dentro del documento.

Podemos seguir así iterando acerca de cómo analizar e indexar los documentos para facilitar y mejorar que luego puedan ser recuperados. El problema es que estas mejoras, que ayudan a la búsqueda en algunos casos, empiezan a perturbar la recuperación de documentos en determinados casos, por ejemplo si se quiere localizar “La Busca” de Pio Baroja, y hemos desechado “La” como palabra vacía.

Sin embargo, estos procesos, que para conjuntos de documentos pequeños pueden ser suficientes, ya que los resultados de una búsqueda serán pequeños, no lo son cuando tratamos cientos de millones de páginas y cualquier búsqueda puede recuperar miles o cientos de miles de páginas de resultados, ya que no es eficaz que un usuario se recorra todas.
Esto nos lleva a “la madre del cordero”: ¿Cómo ordenar todos los resultados? ¿Cumplen todos los documentos los criterios de búsqueda igual? ¿Son todos igual de importantes? ¿Son todos igual de importantes para MI?.
Por ejemplo puede pensarse que si aparece más veces la palabra buscada, el documento es más “acertado”, pero, ¿y si son dos o tres palabras? ¿La suma? ¿Qué ocurre si una palabra aparece muchísimo y las otras solo una vez? ¿No podría considerarse más significativo una en que las tres aparezcan más o menos igual, aunque sumen menos apariciones totales? Esto implicaría un factor de ponderación.
Por otra parte, entre dos documentos con las mismas palabras, parece razonable considerar más “importante” o adecuado a aquel que más páginas referencian, es decir aquel qué más personas consideran útil.
Similarmente, un documento con más referencias a otros documento podría considerarse más “fundado” y “sólido” como para situarlo destacado.
Finalmente en este repaso MUY simplificado, lo que para una persona es importante, para otra puede no serlo. Para ello puede tenerse en cuenta los documentos que hemos elegido en anteriores búsquedas, para presentar en otras ocasiones documentos que nosotros personalmente consideramos más adecuados. Y ahí se introduce otro problema distinto, el manejo de los datos personales y las preferencias de cada uno. Esta ayuda tiene un coste, que no es objeto de este texto, ya que solo se trata de reflexionar sobre la “calidad” de los resultados, no sobre la privacidad

Puede seguir así añadiéndose criterios (¿Es “mejor” un documento nuevo o viejo?, ¿de un portal o de otro?, ¿más visitado?,..,…) para considera “mejor resultado” un documento u otro. Este algoritmo y sistema de ponderaciones y pesos es lo que en el caso de Google se ha llamado Page Rank

Page Rank [Tomwsulcer / CC0]

Y tras todos estos análisis y ponderaciones, llega el momento de buscar. Como es bien sabido, hay una sintaxis en la mayoría de los motores de búsqueda que suele ser:

Palabra: Devolverá todos los documentos que contiene esa palabra o derivados.
Varias palabra: Devolverá todos los documentos que contiene cualquiera de esas palabras.
palabra1 OR palabra2: Devolverá todos los documentos que contiene alguna de esas palabras.
"Varias palabra": Si se introduce una o varias palabras entre comillas, devolverá exclusivamente los documentos con esa expresión literal.
-Palabra : La palabra elegida NO puede estar en ninguno de los documentos (se eliminaran todos los que la contengan).
Palabra* : Incluye en la búsqueda todas las palabras que empiezan por la raíz indicada.

Algunos ejemplos

Teniendo en cuenta lo anterior, al realizar búsquedas deberíamos obtener resultados “coherentes”, pero no siempre es así.

Los ejemplos incluidos están realizado en una ventana en modo privado (para evitar que tenga en cuenta preferencias personales) y he descartado algunas búsquedas que he “sufrido” en mi día a día por confidencialidad, para no hacer propaganda de productos o por simplicidad

Como ayuda, aquí hay una referencia de los operadores de búsqueda:

https://papelesdeinteligencia.com/operadores-de-busqueda-magicos-para-google/

y la oficial:

https://support.google.com/websearch/answer/2466433?hl=es

Supongamos que buscamos:

Si ahora indicamos que NO debe aparecer una palabra, deberían ser siempre menos (o en el peor de los casos el mismo número de resultados), sin embargo, indica que hay más:

¿?

Si realizamos la búsqueda:

Nos indica que hay 2.030 resultados y 7 páginas (de 10 resultados, es decir 70 resultados)
¿?

Podemos probar también:

Si ahora queremos extenderlo e incluir otras normas que contengan cualquiera de 2 términos

obtenemos menos resultados que solo para uno
¿?

Una búsqueda por"formato imagen tiff" devuelve 1050 resultados y 8 paginas (es decir serían 80 resultados, ¿no quedamos que 1050?)

pero cuando elegimos la página 8 aparece vacía e indica que son 7 y 62

¿?

Por último, dada la actualidad:

Por si no son suficientes, ampliamos:

Y obtenemos la mitad de resultados.
¿?

Sin comentarios..

Hay que tener en cuenta además que yo he realizado búsquedas y obtenido resultados muy diversos en diferentes días, devolviendo por ejemplo, unos días 58.000 regitros y otros 258.000

A todo ello hay que sumar que, independientemente de la cantidad y calidad de los resultados, desde hace meses Google no permite recorrer más allá de 15 o 18 páginas. Desconozco el motivo, no sé si para ahorrar recursos, para “no mostrar las vergüenzas” presentando resultados incorrectos que no tiene nada que ver o porque las cifras no son reales.

Sé que se dice que “nadie pasa de la segunda página”, pero además del hecho de que se encuentra información muy interesante en muchas de ellas, aunque sean menos conocidas y a veces precisamente por eso, hay trabajos, por ejemplo de investigación, que requieren exhaustividad. Además, en muchos casos el uso de estrategias de optimización SEO hace que siempre aparezcan en las primeras posiciones las que más dinero y esfuerzo invierten, independientemente de la adecuación o interés de ellas, por lo que conviene revisar varias páginas.

No he mostrado ejemplos “cualitativos”, pero en más de una ocasión, he encontrado resultados que no contenían ninguna de las palabras (ni derivados) utilizadas para buscar.

Conclusiones

A la complejidad de manejar miles de millones de páginas actualizadas continuamente, en cientos de idiomas, hay que añadir que las páginas utilizan estrategias SEO para potenciar su aparición y posición, que hay páginas que parecen haber incluido todo tipo de palabras para aparecer en cualquier búsqueda, da igual que se trate de “Ingeniería nuclear” o de “la cría del cangrejo”, por lo que no es una tarea fácil.
Google sigue siendo un buen buscador y es una herramienta a no despreciar.

El objetivo de este texto es resaltar que Google no es infalible y sus resultados son discutible en muchos casos (especialmente en el aspecto cuantitativo).
En lugar de considerar a Google EL Oráculo y EL buscador, puede ser el momento de combinar y contrastar su uso con otros buscadores como DuckDuckGo o Ecosia (que dedica una parte de los beneficios de la publicidad obtenida con cada búsqueda a plantar árboles)

Pensamiento Critico TI

sábado, 14 de marzo de 2020

¿Está “degenerando” la calidad de las búsquedas de Google?

Un poco de historia

Cómo funcionan los Motores de búsqueda por contenido

Algunos ejemplos

Conclusiones

No hay comentarios:

Publicar un comentario

Denunciar abuso

Etiquetas