130 likes | 243 Views
F. Le dépôt légal des ressources en ligne. Aspects techniques de la collecte et du traitement. Archivage du web dans les bibliothèques. Deux approches collecte et sélection d’un nombre limité de sites collecte automatique de tout le web « national »
E N D
F Le dépôt légal des ressources en ligne Aspects techniques de la collecte et du traitement
Archivage du web dans les bibliothèques • Deux approches • collecte et sélection d’un nombre limité de sites • collecte automatique de tout le web « national » • Les bibliothèques nationales ont commencé à expérimenter en 1996 http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm • A la BnF 1999 , archivage de sites et participation à NEDLIB (Networked Deposit Libraries)
Kulturarw3 : web suédois • DL suédois • depuis 1661 • 1993. Documents électroniques sur support • Archivage de tout le web suédois, été 1996 • tout automatique. Robot Combine qui parcourt les liens • 4 snapshots par an • Traitement et accès (réservé projet) • pas de catalogage, indexation des sites texte intégral • navigation web dans l’archive pour chaque snapshot • Archive (février 2001) • 110 M de fichiers, 3 To, 97 000 sites
Pandora Archive, NLA • Archivage sélectif de sites http://pandora.nla.gov.au/selectionguidelines.html • Ressources uniquement en ligne et fréquence, ressource aussi sur CD-ROM, pas ressource aussi sur support analogique • Australie, événements, publications faisant autorité (Universitaires), publications innovantes, périodiques • Traitement et préservation • Catalogage de sites ou décomposition du site en portions • Pas de conservation des liens externes à l ’unité bibliographique • Accès via le service Pandora • Préservation à long terme : identifiant pérenne http://www.nla.gov.au/padi/
Approche sélective • Avantages • Gestion similaire au DL sur support • Déterminer la fréquence d’archivage • Catalogage et accès comme les ressources numériques sur support ou les ressources numérisées • Inconvénients • Applicable à un petit nombre de sites (3000 sites = environ 1% du web français • Perte de la navigabilité entre les sites
Approche snapshot • Avantages • Meilleure couverture du domaine web cible qui représente mieux la mémorisation patrimoniale • L’archive complète est navigable horizontalement dans un snapshot et verticalement dans l ’historique des snapshots • Inconvénients • Périodicité globale insuffisante pour un vrai suivi des mises à jour des sites • Une partie du Web est inaccessible aux robots : sélection de fait • Conclusion pour tous : les deux approches sont complémentaires et nécessaires
Expérimentation BnF • Adaptation d’un robot aux besoins d ’archivage patrimonial • Faire une cartographie différenciée des sites en fonction de critères en cours de test et validation, utiliser l ’information pour piloter la collecte automatique • Utiliser la notoriété, les mots rares, des outils de suivi de modifications. Vérifier comment appliquer les paramètres dans les différents domaines des connaissances • Faire une notification des parties inaccessibles du Web • Suivi détaillé des sites : 130 sites choisis, 65 ont donné leur accord, 29 ont signé la convention, 4 ont déjà effectué un dépôt
Complémentarité des approches • Web • Deep Web
Le web français • Le .fr estimation • 10 millions de pages • 147 843 domaines (AFNIC) dont 1/3 indexés par les robots • avec .org, .com, .net sans doute le double • Web francophone estimation • entre 26 M et 56 M de pages selon différents robots • Le volume à traiter peut être estimé à un volume situé entre 1 et 5 To pour un snapshot complet
Les acteurs de l ’archivage du web • Communautés d’auteurs et de chercheurs, associations • Physiciens : pre-print Los Alamos • Internet archive et le Wayback Machine • Editeurs de sites eux-mêmes et notamment les éditeurs STM. Elsevier, Springer, AIP … • Les institutions de mémoire • Les bibliothèques nationales seules ou en coopération sur les contenus et/ou la durée de conservation • Volonté des bibliothèques nationales d’interconnecter les archives de chaque pays pour reconstituer la navigabilité globale
Conclusion • Expérimentation sur la collecte et le traitement pour préparer le décret d’application qui accompagnera l’évolution de la loi sur le DL • Les aspects de stockage et d’accès sont traités dans le cadre global de l ’ensemble des ressources numériques de la BnF : acquisitions, DL sur support, numérisation