版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种数据驱动的Wrapper自动生成与维护方法王仲远艾静孟小峰中国人民大学WAMDM实验室1一种数据驱动的Wrapper自动生成与维护方法王仲远艾静大纲背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍2大纲背景介绍&研究动机2DeepWeb介绍WorldWideWeb[CIDR07]目前可访问的网页超过550billion目前主流搜索引擎只索引了超过1billion的页面Web的划分(按照数据“深浅”程度)SurfaceWeb-通过超链接可以被传统搜索引擎索引到的页面的集合。
DeepWeb-无法被传统的搜索引擎索引到的那部分内容。3DeepWeb介绍WorldWideWeb3DeepWeb的主要特点规模2001年7月BrightP:Web数据库的数量超过4万个2004年UIUC统计:Web数据库超过45万个2007年CIDR:Web数据库超过2500万个是SurfaceWeb的500多倍结构化程度>75%主题分布覆盖了现实世界的各个主题(商业、新闻媒体、娱乐……)自治性和异质性
4DeepWeb的主要特点规模4研究动机原有的数据抽取方法基于DOM树分析Y.Zhai,B.Liu.Webdataextractionbasedonpartialtreealignment.In:WWW,2005.76-85.D.HuandX.Meng:Automaticallyextractingdatafromdata-richwebpages.In:DASFAA2005,pages828-839,Beijing,China,April17-20,2005.LectureNotesinComputerScience3453,Springer.基于视觉的抽取H.Zhao,W.Meng,Z.Wu,V.Raghavan,C.T.Yu.Fullyautomaticwrappergenerationforsearchengines.InWWW,pages66-75,2005.K.Simon,G.Lausen.ViPER:AugmentingAutomaticInformationExtractionwithVisualPerceptions.InCIKM,pages381-388,2005.W.liu,X.Meng,W.Meng.Vision-basedWebDataRecordsExtraction.In:Proceedingsofthe9thSIGMODInternationalWorkshoponWebandDatabases(SIGMOD-WebDB2006),June30,20065研究动机原有的数据抽取方法5原有抽取方法的缺陷(1)[SL05]K.Simon,G.Lausen.ViPER:AugmentingAutomaticInformationExtractionwithVisualPerceptions.InCIKM,pages381-388,2005.ViNTs(MDR-2)[CH07]S.-L.Chuang,K.C.-C.Chang,andC.Zhai.Context-AwareWrapping:SynchronizedDataExtraction.In:VLDB2007.699-710数据集1数据集2数据集3查全率97.6%98.7%(52.8%)89.2%查准率98.1%98.7%(87.7%)93.5%音乐图书汽车LineSpliter65%67%40%RoadRunner90%62%80%ExAlg91%85%81%TreeAlign88%65%85%领域方法6原有抽取方法的缺陷(1)[SL05]K.Simon,G原有抽取方法的缺陷(2)特征驱动的方法:严重依赖于网页的结构及特征准确率波动现象准确率不同的领域/不同的页面集合(失效)(较好)(较差)(一般)7原有抽取方法的缺陷(2)特征驱动的方法:严重依赖于网页的结构大纲背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍8大纲背景介绍&研究动机8DeepWeb查询结果页面查询结果列表(listpage)查询结果记录的详细页面(detailedpage)9DeepWeb查询结果页面查询结果列表(listpage两个观察在一系列的匹配页面对上:(1)若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值;(2)若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值.非常重要!!!10两个观察在一系列的匹配页面对上:非常重要!!!10不同网站同一时期的页面(a)当当网上的页面(b)卓越网上的页面数据驱动的Wrapper生成11不同网站同一时期的页面(a)当当网上的页面(b)卓越网上的页同一网站不同时期的页面(a)当当网改版前页面(2006)(b)当当网改版后页面(2008)数据驱动的Wrapper维护12同一网站不同时期的页面(a)当当网改版前页面(2006)(bWrapper生成与维护过程Wrapper生成扩散Wrapper维护可以利用现有的方法先生成一个高精准的Wrapper13Wrapper生成与维护过程Wrapper生成扩散可以利用现基于XPath的Schema-Guided数据抽取方法XHTML页面Schema-Guided抽取规则14基于XPath的Schema-Guided数据抽取方法XHT基于相似度值的语义块匹配源语义块组目标语义块组求得目标数据块的XPath15基于相似度值的语义块匹配源语义块组目标语义块组求得目标数据块语义块相似度值的迭代计算16语义块相似度值的迭代计算16大纲背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍17大纲背景介绍&研究动机17在不同领域上的有效性实验DeepWeb网站#AT#R#RT99网上书城766china-pub网上书店877北发图书网111111当当网171515王府井书店765蔚蓝网1099新华在线766中国书网111111中国图书网171716总计958886DeepWeb网站#AT#R#RTIT168484646PCHOME373635MyPrice464443泡泡网444242人民网IT频道575351万维家电网373636中华网科技413939总计310296292DeepWeb网站#AT#R#RT好听音乐网777网易娱乐资料库121110九天音乐网766音乐天空666总计323029DeepWeb网站#AT#R#RT环球影酷141312中文电影资料库988中国影视资料馆101010影视之狐131212总计464342#AT#R#RT总计483457449查全率:92.96%查准率:98.25%表1图书领域的Wrapper生成验证(种子点:卓越网)
表2计算机领域的Wrapper生成验证(种子点:比特网)表3音乐领域的Wrapper生成验证(种子点:一听音乐网)
表4电影领域的Wrapper生成验证(种子点:IMDB中文网)表54个领域的Wrapper实验结果统计18在不同领域上的有效性实验DeepWeb网站#AT#R#RT在不同领域上的有效性实验(2)19在不同领域上的有效性实验(2)19语义块匹配的收敛速度05101510007505002500目标语义块源语义块(1)5个匹配页面对20语义块匹配的收敛速度05语义块匹配的收敛速度05101510007505002500目标语义块源语义块(2)10个匹配页面对21语义块匹配的收敛速度05语义块匹配的收敛速度05101510007505002500目标语义块源语义块(3)15个匹配页面对22语义块匹配的收敛速度05语义块匹配的收敛速度051015目标语义块源语义块(4)20个匹配页面对1000750500250023语义块匹配的收敛速度05大纲背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍24大纲背景介绍&研究动机24总结不同于以往工作使用结构或特征分析页面(特征驱动),进而产生Wrapper的方法,本文创新性地提出数据驱动的Wrapper导出方法。本文提出的方法,将Wrapper的生成与维护过程统一起来。本文提出的数据驱动方法,无需设置参数及阀值。相对于先前方法,具有更广泛的适用性,并能达到较好的集成效果。
25总结不同于以往工作使用结构或特征分析页面(特征驱动),进而产大纲背景介绍&研究动机数据驱动的Wrapper自动生成与维护方法实验总结系统介绍26大纲背景介绍&研究动机26系统介绍工作通:工作信息集成系统网址:
图书价格比较网:图书领域的信息集成及价格比较系统网址:/books
27系统介绍工作通:工作信息集成系统27C-DBLP介绍基于本文的方法,我们还开发了一个中文文献的集成系统
C-DBLP()已收录计算机领域的以下9本权威中文期刊和1个学术会议的数据(1)软件学报1990-2008年(2)计算机学报1978-2008年(3)计算机研究与发展1960-2008年(4)计算机工程1975-2008年(5)中国图形图象学报1996-2008
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蛋糕店合作协议的范本
- 管材供货合同范文
- 工程项目可行性研究报告的作用及编制存在问题分析
- 工程项目管理自考教材对应习题
- 工程项目管理试题及答案-题库-自考用
- 阶段复习提升(五)
- 3.1+水循环+课件高一上学期+地理+人教版(2019)地理必修一
- 云南省昆明市师范大学附属中学2023-2024学年高一下学期月考(五)数学试题2
- 工程水文学总复习题1
- 基于信息化处方医嘱前置审核的药品全流程闭环理
- 西门子Siemens 840D参数详解
- 串联和并联课件.ppt
- (完整版)外附电梯附墙计算
- 福建省建筑消防设施维护保养技术规程
- (完整版)烟草题库及答案,推荐文档
- 上市公司偿债能力分析——以蒙牛公司为例
- 我的引路人中考满分作文600字5篇
- 电厂仓库物资出入库管理办法物资收发、盘点、借用流程
- 无侧限抗压强度试验方法
- 团委书记在青工委成立大会上的讲话
- Module2练习教学提纲
评论
0/150
提交评论