一种数据驱动的Wrapper自动生成与维护方法_第1页
一种数据驱动的Wrapper自动生成与维护方法_第2页
一种数据驱动的Wrapper自动生成与维护方法_第3页
一种数据驱动的Wrapper自动生成与维护方法_第4页
一种数据驱动的Wrapper自动生成与维护方法_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一种数据驱动的一种数据驱动的Wrapper自动自动生成与维护方法生成与维护方法王仲远 艾静 孟小峰中国人民大学WAMDM实验室http:/2大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍3Deep Web 介绍 World Wide WebCIDR07 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面Web的划分(按照数据“深浅”程度) Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。 Deep Web -无法被传统的搜索引擎索引到的那部分内容。4Deep Web的主要特

2、点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75% 主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐 ) 自治性和异质性5研究动机 原有的数据抽取方法 基于DOM树分析Y. Zhai, B. Liu. Web data extraction based on partial tree alignment. In: WWW, 2005. 76-85.D. Hu and X. Meng: Automatically

3、extracting data from data-rich web pages. In: DASFAA 2005, pages828-839, Beijing, China, April 17-20, 2005. Lecture Notes in Computer Science 3453, Springer. 基于视觉的抽取H. Zhao, W. Meng, Z. Wu, V. Raghavan, C. T. Yu. Fully automatic wrapper generation for search engines. In WWW, pages 66-75, 2005.K. Sim

4、on, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005.W. liu, X. Meng, W. Meng. Vision-based Web Data Records Extraction. In: Proceedings of the 9th SIGMOD International Workshop on Web and Databases (SIGMOD-WebDB2006), June 30, 20066

5、原有抽取方法的缺陷(1)SL05 K. Simon, G. Lausen. ViPER: Augmenting Automatic Information Extraction with Visual Perceptions. In CIKM, pages 381-388, 2005.ViNTs(MDR-2)CH07 S.-L. Chuang, K. C.-C. Chang, and C. Zhai. Context-Aware Wrapping: Synchronized Data Extraction. In: VLDB 2007. 699-710数据集1数据集2数据集3查全率97.6%9

6、8.7%(52.8%)89.2%查准率98.1%98.7%(87.7%)93.5%音乐图书汽车LineSpliter65%67%40%RoadRunner90%62%80%ExAlg91%85%81%TreeAlign88%65%85%领域方法7原有抽取方法的缺陷(2) 特征驱动的方法:严重依赖于网页的结构及特征 准确率波动现象准确率不同的领域/不同的页面集合(失效)(较好)(较差)(一般)8大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍9Deep Web查询结果页面 查询结果列表(list page) 查询结果记录的详细页面(detaile

7、d page)10两个观察 在一系列的匹配页面对上: (1) 若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值; (2) 若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值.非常重要!非常重要!11不同网站同一时期的页面(a)当当网上的页面)当当网上的页面(b)卓越网上的页面)卓越网上的页面数据驱动的数据驱动的Wrapper生成生成12同一网站不同时期的页面(a)当当网改版前页面()当当网改版前页面(2006)(b)当当网改版后页面()当当网改版后页面(2008)数据驱动的数据驱动的Wrapper维护维护13Wrapper生成与维护过

8、程 Wrapper生成扩散 Wrapper维护可以利用现有可以利用现有的方法先生成的方法先生成一个高精准的一个高精准的Wrapper14基于XPath的Schema-Guided数据抽取方法XHTML页面页面Schema-Guided抽取规则抽取规则15基于相似度值的语义块匹配源语义块组源语义块组目标语义块组目标语义块组求得目标数据块的求得目标数据块的XPath16语义块相似度值的迭代计算17大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍18在不同领域上的有效性实验Deep Web网站#AT#R#RT99网上书城766china-pub网上书

9、店877北发图书网111111当当网171515王府井书店765蔚蓝网1099新华在线766中国书网111111中国图书网171716总计958886Deep Web网站#AT#R#RTIT168484646PCHOME 373635MyPrice464443泡泡网444242人民网IT频道575351万维家电网373636中华网科技413939总计310296292Deep Web网站#AT#R#RT好听音乐网777网易娱乐资料库121110九天音乐网766音乐天空666总计323029Deep Web网站#AT#R#RT环球影酷141312中文电影资料库988中国影视资料馆101010影视

10、之狐131212总计464342#AT#R#RT总计483457449查全率:92.96%查准率:98.25%表1 图书领域的Wrapper生成验证(种子点:卓越网) 表2 计算机领域的Wrapper生成验证(种子点:比特网)表3 音乐领域的Wrapper生成验证(种子点:一听音乐网) 表4 电影领域的Wrapper生成验证(种子点:IMDB中文网)表5 4个领域的Wrapper实验结果统计19在不同领域上的有效性实验(2)20语义块匹配的收敛速度0 5 10 1510007505002500目标语义块源语义块(1)5个匹配页面对21语义块匹配的收敛速度0 5 10 1510007505002

11、500目标语义块源语义块(2)10个匹配页面对22语义块匹配的收敛速度0 5 10 1510007505002500目标语义块源语义块(3)15个匹配页面对23语义块匹配的收敛速度0 5 10 15目标语义块源语义块(4)20个匹配页面对1000750500250024大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍25总结 不同于以往工作使用结构或特征分析页面(特征驱动特征驱动),进而产生Wrapper的方法,本文创新性地提出数据驱动数据驱动的Wrapper导出方法。 本文提出的方法,将Wrapper的生成与维护生成与维护过程统一起来。 本文

12、提出的数据驱动方法,无需设置参数及阀值无需设置参数及阀值。相对于先前方法,具有更广泛的适用性更广泛的适用性,并能达到较好的集成效果。 26大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍27系统介绍 工作通工作通:工作信息集成系统 网址:http:/ 图书价格比较网图书价格比较网:图书领域的信息集成及价格比较系统 网址:http:/ 28C-DBLP介绍基于本文的方法,我们还开发了一个中文文献的集成系统C-DBLP( http:/ )已收录计算机领域的以下9本权威中文期刊和1个学术会议的数据(1)软件学报1990-2008年(2)计算机学报1978-2008年(3)计算机研究与发展1960-2008年(4)计算机工程197

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论