Hace poco que en IT7 hacemos trabajos de análisis de estadísticas de los registros (logs) de los servidores web y todavía de manera muy somera, sin grandes aspiraciones ni muchos conocimientos.
Estoy convencido de que, como analiza Peter Morville, el análisis de búsquedas ('search analytics' en inglés) es uno de los mayores nichos por estudiar dentro de la Arquitectura de la Información para los próximos años. Esa rama requiere el estudio de los registros de servidores; y a eso obedece que haya tantos nuevos libros, artículos y grupos de discusión acerca del tema.
De mi breve experiencia, me han llamado la atención dos cosas principalmente:
- En las páginas web institucionales, el peso que tienen las visitas de los editores y publicadores (es decir, de los responsables del mantenimiento, tanto técnico como de contenidos) es enorme. Hablo, por supuesto, de webs regionales del ámbito canario.
- En los casos de sitios webs más comerciales, la importancia del número de visitas de las arañas ('spiders') o robotos de los buscadores para rastrear contenidos es también grandísima y va creciendo.
Una conclusión simple (y un tanto simplista): el número de usuarios y visitas son datos de muy poco valor real. A esto hay que sumar las ya conocidas diferencias en la medición de visitas entre diferentes programas.
Y un último apunte: recientemente apreciamos en un sitio web de muchas visitas que había muchos registros (algunos con datos realmente extraños) en páginas a las que no se puede acceder desde la navegación. Todas eran causadas por robots (de hasta siete tipos distintos), que, por lo que se ve, hacen su trabajo de forma excelente, para nuestro desagrado. Y justo hoy encontré una anotación en Ojobuscador sobre un asunto parecido.

En nuestro caso, los análisis que hacemos de las estadísticas también son muy básicos, pero lo primero que hacemos es filtrar los directorios de administración (y las imágenes, que tampoco nos interesan) y todos los robots que nos vamos cruzando, y cuando es posible, las IPs del cliente. Con eso, las cifras de número de usuarios y visitas quedan más o menos aceptables. Las de páginas no tanto con herramientas basadas en logs como Urchin o Webalizer, pero combinándolas con herramientas basadas en scripts, como Google Analytics, ya tienes cifras bastante decentes. Que nunca serán reales y exactas al 100%, pero que al menos te permiten trazar tendencias y localizar puntos de interés...
Qué tal, Ernesto. Cierto, mi conclusión es algo exagerada, pero quería decir que no me fío de que todo el mundo se lo curre tanto como ustedes, es decir, que cuando me dicen "tiene tantas visitas según Google Analytics o Webalizer", seré aun más desconfiado que antes.
De todos modos, por lo que he indagado sobre los robots, temo que actualizar la lista para excluirlos exige un trabajo constante...será por esas cuestiones, entre otras, que ya no te vemos nunca, jejeje.
Muchas gracias por tu aportación. Otro día intentaré escribir (y hablar contigo al rspecto) de cómo usar las estadísticas para mejorar la experiencia de usuario. Un saludo.