




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中文网络资源Chinese Web Archives归档及统计分析*刘华/赵国俊2012-10-19 7:58:24来源:情报资料工作2012年04期【英文标题】Filing and Statistical Analysis of the Chinese Web Archives【作者简介】刘华,女,1972年生,中国人民大学信息资源管理学院博士研究生,北京100872;赵国俊,男,1954年生,中国人民大学信息资源管理学院教授,博士生导师,北京100872。【内容提要】 文章主要分析了Web InfoMall和WICP的体系结构,并基于Web InfoMall提供的中文网页测试数据集,分析了
2、中文网页、网站以及域名的规模,保存格式等。结果说明,中文网页、网站以及域名的分布与全球互联网都遵循近似相同的规律,同时也有其自身的特点。另外,中文网络资源归档在内容收集、长期保存的格式及实现等方面已经取得了实质性进展。This paper explores the architecture of Web InfoMall and WICP, and then analyzes the size of Chinese Web pages, Web sites, domain name and the preservation formats based on the data sets of C
3、hinese Web archives provided by Web InfoMall. The results show that Chinese Web shows the same nature in the Web pages, Web site and domain name distribution with Internet, although there exists some differences. Chinese Web archiving initiatives have now begun to move into a more practical implemen
4、tation phase for the whole Chinese Web sites collecting and long term preserving. 【关 键 词】中文网络资源/归档/链接分析Chinese Web Archives/archiving/link analysis国际上有很多组织或机构都试图去收集和保存网页信息,但收集和保存互联网上的网页面临许多困难或挑战。首先是技术上的困难,由于网络的规模巨大及网络多变等特点,没有任何一个组织能独立完成对所有网页的收集和保存,因此,世界上网络资源归档项目大都只针对部分网页进行。其次是法律方面的挑战,主要是与网页内容相关的版权、责
5、任和隐私等问题。此外,国际上没有专门的组织对网页收集和保存标准或者策略进行标准和指导,导致收集的网页数量和保存情况千差万别。表1显示了截至2011年底全球已经归档保存的Web资源的规模。尽管表1只是近似数据,但可以看出,美国的Internet Archive上的网页超过了1500亿,存储容量达5.5 PB的数据。该项目自1996年成立起就定期收集并永久保存全球网站上可以抓取的信息,成为全球最大的网络资源保存项目。 据中国互联网络信息中心CNNIC在2012年1月的报告称,截至2011年底,我国共有775万域名,其中有353万中国国家码顶级域名“ ”,网站数量约230万2。中文网络资
6、源归档的重要性不言而喻。由于网页数量巨大,网络资源归档通常采用网络爬虫自动采集,中国两个大型的Web归档项目,北京大学的Web InfoMall3和中国国家图书馆的WICP4都采用此方法。Web InfoMall是中文网络资源收集和保存最大和最全面的存档站点,它提供长久存储和访问历史信息等功能。截至2010年底,Web InfoMall归档了自2001年以来的30多亿中文网页、800多万域名的2000万网站。WICP保存了自2003年以来所有的中国政府网页gov ,它们来自8万多个政府网站,还有电子期刊和电子报纸等,容量超过18TB。本文基于Web InfoMall向全球提供的两个中文网页测试
7、数据集,分析中文网页、网站以及域名的大小,中文网页、网站中主要顶级域名的分布以及在中国国家码顶级域名“ ”中二级域名的分布情况。1 中文网络资源归档项目2002年1月,首批中文网页保存归档在Web InfoMall中,此后每天约增加150万页的数量。截至目前,Web InfoMall已保存超过30亿的中文网页,在线数据总量约为100TB。通过它能访问以前的网络信息和浏览以前的历史网页。Web InfoMall的目标是获取和保存尽可能多的中文网页在网页消失之前。互联网上的数据普遍具有多变的特征,据统计网页的平均生命周期为100天左右,“ ”域名的网页生命周期较短,“.gov”则较长。50%的当前
8、浏览网页将在1年左右后消失。图1是Web InfoMall的体系结构。WICP是中国国家图书馆在2003年启动的中文网络资源收集和保存项目,图2显示了WICP体系结构。WCIP重点收集对中国社会、经济等有重大影响的网页以及“gov ”域名的中国政府网站。截止到2010年底,它保存了8万多个中国政府网站中的所有网页“gov ”域名、315种电子期刊和报纸。WICP对网络资源的保存按照专题进行分类和保存,目前保存的网络资源有100多个专题,如2008年北京奥运会、非典、载人航天工程等,在线数据库导航可以访问约2万个服务项,如政府信息、国内外图书馆的服务项目、电子期刊和所有专题内容等。2 中文网络资
9、源的统计分析本章主要分析由Web InfoMall提供的两个中文网页测试集,见表2。cwt100g100GB中文网页测试集收集了2004年6月的17 045个主机和4 737 349网页,容量约100GB。通过抽取链接分析这组数据中,得知69%的网页都链接到相同站点,链接到其他网站的网页中有81%链接到本地省网站,平均每个主机上的网页数为278。cwt200g200 GB网页的中文网页测试集收集了2006年4月的29 184个主机和32 223 476网页,容量约200GB,每台主机的平均网页数是1104左右。2.1 网页分析我们把Web看成一个分层系统,网页在最底层,网站在中间层,最上层是域
10、名。我们使用北京大学天网搜索引擎抓取的2004年6月和2006年4月的两个网页数据集,原始数据的大小近300G,其中包含从源页面到目标页面的超链接。cwt100g有560万网页,有1.6亿个超级链接,这相当于每个网页都有29个链接。在cwt200g有3700万网页,20亿的链接,这相当于每个网页都有54个链接。中文网页中顶级域名数量分布差异较大。从表3可以看到“ ”域名占绝大多数,其次是“ ”域名,“.net”和“.org”紧跟其后。进一步分析中国国家码顶级域名“.ch”下的二级域名分布情况,由表4可知,“ ”和“.gov ”占绝大多数。从表5可知,在cwt200g数据集里“ ”域名占绝大多数
11、,其次是“ ”域名,“.net”和“.org”紧跟其后。此外,也分析了中国国家码顶级域名“ ”下的二级域名,由表6可知,在cwt200g数据集中“ ”域名最多,其次是“.gov ”和“.edu ”,“.net ”和“.org ”紧随其后。2.2 网站分析网站也叫主机,被认为是第二层,即Web服务器上承载的网页的集合。更确切地说,一个主机对应的地址即从 :/开始到第一个“/”之间的部分,如 :/./下的所有网页。cwt100g有560万个网页、17 045个主机,相当于平均每个主机有278个网页;cwt200g有3700万个网页、29 184个主机,相当于每个主机有1104个网页。中文网站中顶级
12、域名数量分布差异较大。表7表示,cwt100g数据集中“ ”域名占大多数,其次是“ ”,然后是“.net”和“.org”。此外,通过对国家码顶级域名“ ”下的二级域名分析,表8说明“ ”域名最多,其次是“.gov ”和“.edu ”,“.net ”和“.org ”紧随其后。表9表示,cwt200g数据集中“ ”域名占大多数,其次是“ ”,然后是“.net”和“.org”。此外,通过国家码顶级域名“ ”下的二级域名分析,表10说明,“ ”域名最多,其次是“.gov ”和“.edu ”,“.net ”和“.org ”紧随其后。统计数据说明,中国互联网发展并不均衡,与全球互联网相一致的是,商业类网站
13、比重最大。通过对顶级域名的分析可知,中文网站中“ ”和“ ”占大多数,对二级域名分析可知,“ ”数量最大,其次是政府网站“.gov ”,这些数据也反映了中国在商业领域和政府信息化方面得到了比较大的发展。3 中文网络资源的长期保存和归档目前网络资源归档的焦点集中在Web资源的收集和长期保存上。针对网络资源长久保存,不同项目在遵循基本要求的前提下,具体实现方法各不相同。Web InfoMall使用自定义的存储格式来保存网页6,本文分析的两个测试数据集中的网页存储格式为:1一个网页文件包含假设干个记录;2一个记录,包括头部、数据和空行;3头部包括一定数量的属性。第一个属性必须是“版本”属性,最后的属
14、性必须是“长度”属性;4属性,包括属性名和属性值,它们由“:”隔开。基于上述格式保存的中文网页,近日我们完成了2个中文网页测试集的统计分析为了支持长期保存和利用,Web InfoMall在该存储格式上定义了中文网页数据按照Column,Key,Timestamp三元组顺序存储的带时间维度索引的存储结构,即Timed SSFileTSFile7。该存储结构支持对采集的中文网页动态添加和用户访问。TSFile是一种不可改变的文件immutable,即一旦创建后,不能在原先的文件上进行修改,从而保证了后人获得数据存储的真实和可信赖。中国国家图书馆WICP网络信息保存使用OAIS8,采用机器可读的目录
15、和都柏林核心元数据标准集Dublin Core。此项目还尝试使用了科技数字信息保存技术,如格式化和迁移等。虽然还没有真正建立网络资源长久保存的有效途径,WICP正在寻求在图书馆界人士的共同努力下来收集和长久保存数字信息。4 结语经过10年的探索和积累,中文网络资源自动收集、归档和长期保存等技术领域已经取得实质性进展,实现了中文网页自动采集、自动存储、长期保存、用户访问等基本功能,并开发了相应的自主知识产权的软件及系统。同时,我国在中文网络资源归档方面还存在明显的不足:一是缺少法律保障,中文网页归档的诸多问题,如版权、内容责任、隐私保护、数据保护等,都需要制定相应的法律。二是缺少组织机构保障,目
16、前我国中文网络资源归档还是基于学术的自由研究,没有相应的政府组织对中文历史网页归档中涉及的标准和质量等进行标准和管理。【参考文献】 1Wikipedia.List of Web archiving initiativesOL.2012-03-20. ://wiki/List-of-Web-archiving-initiatives2中国互联网络信息中心.第29届中国互联网络发展状况统计报告OL.2012-01-16 :/www nic /research/bgxz/tjbg/201201/t201201 16-23668.html.3闫宏飞,李晓明.关于中国Web的大小、形状和结构J.电脑研究与发展,2002(8):959-966.4陈力,郝守真,王志庚网络信息资源的采集与保存国家图书馆的WICP和ODBN项目介绍J.国家图书馆学刊,2004(1):1-6.5Brode A,Kumar R,Maghoul F,et a1.Graph structure in the webJ puter Networks,2000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险行业档案管理培训
- 小学趣味排箫课件
- 出镜记者与主持人实务 课件 第一章 现场采访报道
- 生活垃圾焚烧锅炉培训
- 2025年超市父亲节活动方案
- 2025年秋季学期班主任工作方案演讲稿
- 伺服系统与工业机器人课件第5章 伺服系统的控制结构与模式
- 2025年银行年度工作方案工作思路
- 广告行业提案
- 配水员管理知识培训课件
- 2025年浙江金华义乌市道路运输管理局招聘历年高频重点提升(共500题)附带答案详解
- 急性心房颤动中国急诊管理指南(2024)解读
- 知识产权合规管理体系解读
- 城中村房屋拆除及安置方案
- 护理不良事件之管路脱出
- 区域医学检测中心的建设与管理V3
- 未成年人权益保护培训
- 技能竞赛(电工电气设备赛项)备考试题库(含答案)
- 2020年全国II卷英语高考真题试题(答案+解析)
- 物理学家杨振宁课件
- 脑洞大开背后的创新思维学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论