¿Por qué es importante comprender qué está en nuestros archivos web?

Los archivos web son, por su propia naturaleza, un registro imperfecto de ésta y la construcción de ellos supone número de ventajas y desventajas a cuestionarse cómo preservar un flujo infinito con recursos finitos. ¿Por qué es tan importante entender lo que está en nuestros archivos web? Tal vez la razón más importante es que, como un paisaje infinito y en constante cambio, es simplemente imposible archivar "todo el internet" y preservar perfectamente cada cambio de cada página durante su existencia.

En el nivel más básico está la cuestión de cómo sembrar los rastreadores de un archivo y qué tipos de sitios web se deben priorizar. ¿Debería un archivo centrar sus esfuerzos en preservar al menos una copia de cada página en la existencia de capturar el “aliento de la web” o debe centrarse en preservar muestras instantáneas, continuas y regulares de un conjunto más pequeño de páginas a través del tiempo para captar la evolución de la web?

¿Hasta qué punto debe un archivo intentar preservar el contenido y la experiencia de sitios web dinámicos, como bases de datos, motores de búsqueda o sitios web interactivos y personalizados? Al examinar el cambio en el tiempo, ¿deben archivarse sólo cambios en el texto de una página o, en caso de cualquier cambio, la plantilla de una página o la selección de los anuncios que se muestran en una cuenta?

No hay una única respuesta "correcta" a cualquiera de estas preguntas. Cada uno de los grupos de archivos web tiene sus propias necesidades, las que pueden estar en conflicto entre sí. La división de periódicos de una biblioteca nacional podría estar interesada en preservar, al menos, una copia de cada artículo publicado por un sitio web de noticias en línea en el país.

Un estudioso de comunicación política, por otro lado, puede ser que desee realizar un seguimiento de cómo se están modificando los comunicados de prensa del gobierno a través del tiempo o de la evolución de un importante blog político durante muchos años. Los primeros dedican toda su actividad en la búsqueda de nuevos enlaces, mientras que el segundo requiere imágenes instantáneas de alta densidad continuas y precisas durante décadas.

En cuanto a la interfaz y metadatos, un usuario de a pie podría simplemente querer buscar la última versión disponible de una página que ya no es accesible. Un estudioso, por otro lado, puede ser que desee entender por qué un sitio en particular se siguió con más frecuencia durante un período determinado y por qué algunas páginas interiores altamente vinculados a éste están ausentes en el archivo.

La comprensión de las decisiones tomadas por los rastreadores de un archivo es quizás el obstáculo más importante para el uso académico a gran escala de archivos web. Un investigador al examinar la evolución de las humanidades digitales en la web, tiene que entender si el archivo que está examinando tenía políticas de cobro o cadenas heurísticas que podrían sesgar el rastreo de dichos sitios web.

Pocos archivos web hoy en día proporcionan tal transparencia en el funcionamiento de sus políticas y tecnologías de recogida. Esto es problemático, porque muchos estudios y publicaciones hacen suposiciones acerca de características como criterios de inclusión y las tasas de nuevo rastreo.

Entonces, dado que ningún archivo web nunca será perfecto, ¿cuál es el propósito de estudiar las limitaciones y sesgos en los archivos de la actualidad? Dentro de la comunidad académica se ha producido un discurso cada vez mayor y el malestar en algunos sectores en relación a la falta de visibilidad sobre cómo los conjuntos de datos que utilizamos se han construido y cómo esas decisiones podrían sesgar los resultados que sacamos de ellos.

Los archivos web de hoy en día nunca fueron diseñados para una investigación de alta precisión sobre la evolución de la web, lo que ofrece una razón más para reforzar nuestra comprensión de lo que hay en ellos. De hecho, la era del "Big Data" como un todo ha llegado a ser definido por el uso de los datos en formas novedosas para las que nunca fue diseñado. Esto a menudo implica romper supuestos que los constructores de conjuntos de datos tenían en el sentido de cómo podrían ser utilizados, sus expectativas de sus limitaciones y el impacto de los sesgos potenciales.

En nuestros días, muchos archivos son cajas negras opacas que ofrecen a los investigadores poca comprensión de su funcionamiento interno. Esencialmente, son bibliotecas gigantes con ningún índice. Nunca habrá datos perfectos a la hora de archivar el paisaje infinito siempre cambiante de la web, pero eso no significa que no podemos unirnos como una comunidad para ayudar a solucionar las asperezas y tratar de entender mejor lo que los matices y sesgos de nuestras colecciones son para que podamos hacerles frente.

Lo cierto es que la web está desapareciendo página por página, carácter por carácter, imagen por imagen, ante nuestros propios ojos, incluso a medida de que lee las palabras de esta página. Sólo al ir juntos como comunidad podemos asegurar la preservación y el acceso de nuestra historia digital para las generaciones futuras.