行业动态采集范围
发布时间:2025-05-09 12:10:19
网页档案的采集有不同的采集策略,不同的采集策略决定了不同的采集范围,可分为完整型采集、选择型采集以及混合型采集。
采集范围。网页档案的采集有不同的采集策略,不同的采集策略决定了不同的采集范围,可分为完整型采集、选择型采集以及混合型采集。 完整型采集是对特定网域的全域进行自动化采集,采集范围广、内容多。美国的IA宗旨是保存互联网的全面记录,对全球公开的网站进行定期采集。每两个月,网站页面快照都会被互联网存档,自IA项目启动以来,互联网存档已经存储了2730亿个网页。 选择型采集是有针对性地捕获特定的网站,通常是根据事件、主题进行选择采集,采集范围小,需要借助人力。例如,澳大利亚的PANDORA项目只采集与澳大利亚相关,且具有文化意义的网站;美国国会图书馆的Library of Congress Web Archives(以下简称LCWA)项目,重点采集与国家利益主题相关的网页资源,包括美国选举、伊拉克战争和911事件;苏格兰的NRS网页档案项目,事先制定指南,根据指南采集其范围内组织创建和拥有的网站,包括苏格兰政府、苏格兰议会、苏格兰法院等。 混合型采集是将两种策略相结合,先大范围地对网站进行完整采集,再有重点地针对某些特定的网站进行深度、频繁的选择性采集。英国的UKWA项目,首先爬网内容是在英国发布的网站,如那些在英国顶级域名上的网站.uk、.cymru和.scot,以及可以手动识别出在英国发布的网站,再由工作人员定期关注、收集有关特定事件、主题或兴趣领域的网站。
本文所属tags
版权声明
1.除非注明,网站内容均为
网站建设的原创文章,转载或引用请以超链接形式标明本文地址!谢谢合作!本文地址:
http://www.hfwwjx.com/news/6133.html
2.本网站所发布、转载、摘编的文章如果来源于互联网,我会尽量标注来源和作者。如果作品内容、版权或其它问题侵害到您的权益,我感到很抱歉,并将火速处理。联系方式:QQ:1084057080(微信同号),也诚挚地欢迎您给我们投稿,谢谢!
与本文相关的文章
无相关信息