Quality Matters: A New Approach for Detecting Quality Problems in Web Archives
DOI:
https://doi.org/10.29173/cais1145Abstract
Since the practice of web archiving, or the act of preserving websites as historical, legal, and informational records, become more commonplace in the 2000s, web archives have become valuable sources for historical research. Unfortunately, many archived websites are of low quality and are missing crucial elements. In this paper, we examine the issue of quality and focus on visual correspondence, the similarity in appearance between the original website and its archived counterpart. We examine how the visual correspondence of an archived website can be measured using image similarity measures. Our results indicate that the Structural Similarity Index metric (SSIM) was able to successfully measure visual correspondence. If applied to the Quality Assurance process of an institution, this similarity metric could help web archivists quickly detect quality problems in their web archives, and fix them in order to create high-quality web archives.
Depuis que la pratique de l'archivage Web, ou l'acte de préserver les sites Web en tant que documents historiques, juridiques et informatifs, est devenue plus courante dans les années 2000, les archives Web sont devenues des sources précieuses pour la recherche historique. Malheureusement, de nombreux sites Web archivés sont de mauvaise qualité et manquent d'éléments cruciaux. Dans cet article, nous examinons la question de la qualité et nous nous concentrons sur la correspondance visuelle, la similitude d'apparence entre le site Web d'origine et son homologue archivé. Nous examinons comment la correspondance visuelle d'un site Web archivé peut être mesurée à l'aide de mesures de similitude d'image. Nos résultats indiquent que la Structural Similarity Index metric (SSIM) a pu mesurer avec succès la correspondance visuelle. S'il est appliqué au processus d'assurance qualité d'une institution, cette indicateur de similitude pourrait aider les archivistes Web à détecter rapidement les problèmes de qualité dans leurs archives Web et à les résoudre afin de créer des archives Web de haute qualité.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2020 Proceedings of the Annual Conference of CAIS / Actes du congrès annuel de l'ACSI
This work is licensed under a Creative Commons Attribution 4.0 International License.