版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Deep Web数据集成若干关键技术研究及系统原型实现导师:XXX作者:XXXXDeep Web选题背景大数据(Big Data)时代的到来 2012年7月份,美国Brightplanet公司在白皮书Exploiting Big Data from the Deep Web中指出,大数据(Big Data)无处不在,每时每刻有204,166,667封邮件在发送,有571个新网页生成等等。全球互联网数据量以40%的速度在增长,在未来的5年将到达现在的800% 。其中绝大部分来自于Deep Web 。爆炸式的Web信息含量 英国著名网络咨询收集和数据统计机构Netcraft公司于2012年7月份的
2、统计,目前全球互联网上约有698,000,000个站点,是2010年1月份统计的3倍多。中国互联网信息中心(CNNIC)于2012年7月发布第30次中国互联网络发展状况统计报告显示,截至2012年6月底,中国域名总数为873万个,网站数量为250万个,网页总数约为870亿是2006年(45亿)数目的19倍。 Deep Web信息比Surface Web更丰富 从 Brightplanet公司对Deep Web做较为全面的宏观统计中,悉知Deep Web所蕴含的信息量是Surface Web的400550倍左右,月平均访问量要高出Surface Web的15% ,信息质量是Surface Web
3、的1000到2000倍。 选题意义研究Deep Web数据集成系统相关技术,丰富该领域理论知识 ;深入研究若干关键技术,提出相关问题的有效解决方法或改进 ;结合相关技术,实现Deep Web数据集成原型系统,为对Deep Web数据集成研究的进一步探索和应用提供参考 。研究现状研究机构研究项目集成系统接口识别接口集成结果实现华盛顿大学ShopBot伊利诺斯大学 MetaQuerier斯坦福大学HiWE哥伦比亚大学Qprober微软亚洲研究院第三代搜索引擎人民大学JobTong苏州大学DeepWeb数据集成BrightPlanet公司Deep Web数据集成系统一些网站则建立了面向特定领域Dee
4、p Web的专用搜索引擎。如去哪网的机票、酒店等查询,一找网的商品比价等,但是估计由于商业秘密的限制,相关的技术并没有在公开的资料中阐述。 论文所作工作及贡献研究一种快速Web数据库发现的策略 ;提出了一种基于DOM的Deep Web查询接口模式抽取方法 ;提出了一种基于接口文本VSM的Deep Web数据源分类方法 ;设计一种基于正则表达式的结果数据抽取方法 ;设计并实现了一个面向Deep Web的数据集成原型系统 ;论文结构绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究 3基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5
5、基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7总结与展望 8Deep Web数据集成研究相关概述 2 Web按其蕴涵信息的“深度”可以划分为Surface Web和Deep Web两大部分。 Deep Web描述: Deep Web数据集成研究相关概述 2Deep Web数据集成描述: Deep Web数据集成研究相关概述 2视图视图数据库数据库局部模式局部模式全局模式(中间模式)集成Deep Web数据集成研究相关概述 2绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究 3基于DOM的Deep Web查询接口模式抽取 4 基
6、于接口文本VSM的Web数据库分类 5基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7总结与展望 8Web数据库快速发现策略研究 3Web数据库发现步骤 1)发现Web数据库网站,定位。 2)从网站中发现查询接口,识别Web数据库入口。基于搜索引擎的Web数据库定位 利用现有搜索引擎,使用一组能描述特定领域Web数据库特征的词汇当作检索关键词进行搜索提交,从搜索的网页记录页面中提取目标网站链接,定位到相关Web数据库所在的网站。 基于规则的Deep Web查询接口识别 通过对大量Deep Web查询接口与非Deep Web查询接口表单的观察,参考一些文献
7、总结出的规则,深入分析Deep Web查询接口与非Deep Web查询接口表单固有特点和区别,结合实际情况,提出一些Deep Web查询接口的识别规则 ,并基于规则设计识别算法。 Web数据库快速发现策略研究 3Web数据库快速发现策略研究 3判定规则:Web数据库快速发现策略研究 3绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究 3基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7总结与展望 8基于DOM的Deep Web查询接口模式抽取
8、 4查询接口模式 查询接口模式可以被看作是建立在对应于Web数据库上的一个视图,主要由一组领域相关的属性集合组成,通过对查询接口上的若干属性进行赋值形成对接口后台数据库的一个查询。基于DOM的Deep Web查询接口模式抽取 4基于DOM的查询接口模式抽取 查询接口一般是HTML的Form表单,其在浏览器中也被解析为DOM。基于DOM的Deep Web查询接口模式抽取 4基于DOM的查询接口模式抽取 模式抽取流程。基于DOM的Deep Web查询接口模式抽取 4元素级抽取元素 = 标签文本 查询控件元素级抽取算法基于DOM的Deep Web查询接口模式抽取 41)DOM节点解析的有序性 ;2)
9、查询控件内部属性值与标签文本的语义相似性 。基于DOM的Deep Web查询接口模式抽取 4属性级抽取预聚类:根据元素的路径来实现聚类的。即以接口元素的元素路径所包含的分歧路径信息作为依据,把拥有相同分歧路径的元素聚集到相同的归类中,于此同时,通过预聚类也把两个元素路径中所包含不相同分歧路径的元素分开。 再聚类:充分利用构成属性的元素之间所具有的特点,提出了一个元素组合权值公式GroupWeight ,根据GroupWeight权值来实现元素聚类重组成属性 。 属性级抽取,预聚类算法与再聚类算法基于DOM的Deep Web查询接口模式抽取 4基于DOM的Deep Web查询接口模式抽取 4查询
10、接口模式表示基于DOM的Deep Web查询接口模式抽取 4实现结果绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究 3基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7总结与展望 8 基于接口文本VSM的Web数据库分类 5Web数据库分类定义设有Web数据库集合: 对其进行分类: BrightPlanet根据Deep Web的内容类型分为:主题数据库(Topic DataBase)、内部站点(Internal Site)、出版物(publ
11、ications)等12种类别。 UIUC大学的MetaQuery的数据集TEL-81,并将Web数据库分为:航班(Airfares)、酒店(Hotels)、租车(Car Rentals)、图书(Books)、电影(Movies)、音乐(Music)以及工作(Jobs)和汽车(Automobile)等8个领域。 基于接口文本VSM的Web数据库分类 5VSM模型构建关键词汇集:关键词汇集是指在某一个领域查询接口集合上频繁出现的、最能代表该领域信息的一组词汇。 基于接口文本VSM的Web数据库分类 5VSM模型构建向量空间模型:常用的文本表示方法 。 权重值计算方法: TF-IDF权重函数 、T
12、F-IWF权重函数 。 基于接口文本VSM的Web数据库分类 5VSM模型构建VSM模型构建 基于接口文本VSM的Web数据库分类 5接口文本VSM:抽取接口文本,构建VSM模型。 基于接口文本VSM的Web数据库分类 5查询接口分类实现分类思想: 1)使用已标记的查询接口文本VSM中的数据作为训练数据集,构建区分查询接口领域类别的分类模型;2)根据获得的分类模型,对未知的查询接口对象进行分类。 分类实现: 引入数据挖掘工具,使用数据挖掘分类算法可实现对查询接口的分类。 基于接口文本VSM的Web数据库分类 5实验结果绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究
13、3基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7总结与展望 8基于正则表达式的Deep Web结果数据抽取 6结果数据正则表达式正则表达式: 结果数据正则表达式: 描述航班号基于正则表达式的Deep Web结果数据抽取 6结构数据模式构建自动化或人工构建结果模式: 航班查询领域查询结果中包含了一些相同的属性,如航班号、起飞时间、到达时间、机型、价格等 基于正则表达式的Deep Web结果数据抽取 6结果数据区域定位结果数据区域定位基于正则表达式的Deep Web结
14、果数据抽取 6公共路径选举算法: 设有元素路径集合:公共路径选举算法思想:设有n个投票人,它们也可以是候选人(即可以自选),其中,假设在投票中,有m个成为最终候选人,从m个候选人中选定得票最多者为目标人选,但该目标人选的得票数c必须不小于此次候选人m。 基于正则表达式的Deep Web结果数据抽取 6结果数据区域定位公共路径选举算法: 基于正则表达式的Deep Web结果数据抽取 6结果记录分离抽取如关系数据库表有主键一样,Deep Web的结果数据记录中也存在着唯一的、值不重复的关键字段,例如,航班机票查询领域返回的结果数据中的航班号是唯一的、不重复的 。通过关键数据项获取数据区域中的分歧路
15、径集合,每一条分歧路径可以把结果数据区域中的记录区分开,分开抽取每条记录的Html片段实现数据记录的分离抽取。 基于正则表达式的Deep Web结果数据抽取 6结果数据标注与抽取基于正则表达式的Deep Web结果数据抽取 6结果保存绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究 3 基于接口文本VSM的Web数据库分类 5基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7基于DOM的Deep Web查询接口模式抽取 4总结与展望 8Deep Web数据集成原型系统实现 7原型系统架构Deep Web数据集成原型系统实现 7原型
16、系统设计与实现 Deep Web数据集成原型系统实现 7原型系统设计与实现 Web数据库发现器:URL定位、网络爬行、Deep Web查询接口判定 原型系统设计与实现 Deep Web数据集成原型系统实现 7Web数据库模式抽取:基于Jexplor工具最终实现对查询接口的模式抽取器。Deep Web数据集成原型系统实现 7原型系统设计与实现 Web数据库分类器:编辑领域关键词汇集 ,构建查询接口VSM ,使用训练集接口文本VSM进行训练、保存和更新分类模型可利用生成的模型,对未知类别的查询接口进行分类 。基于Weka二次开发。Deep Web数据集成原型系统实现 7原型系统设计与实现 接口集成
17、:借用Protg和Jena框架编程实现查询接口的领域本体构建与集成 。Deep Web数据集成原型系统实现 7原型系统设计与实现 查询提交处理:Deep Web数据集成原型系统实现 7原型系统设计与实现 结果抽取及标注:采用Jsoup开放工具提供的编程接口来实现对Web数据的抽取。 绪论1Deep Web数据集成研究相关概述 2Web数据库快速发现策略研究 3 基于接口文本VSM的Web数据库分类 5基于正则表达式的Deep Web结果数据抽取 6Deep Web数据集成原型系统实现 7基于DOM的Deep Web查询接口模式抽取 4总结与展望 8总结与展望 8本文创新点 1.针对Web数据库发现问题,提出了一种通过搜索引擎快速发现Web数据库的策略。2.针对查询接口模式抽取问题,提出了一种基于DOM的查询接口模式抽取方法,利用浏览器API将查询接口解析成DOM,通过元素抽取、属性抽取、查询接口模式几个阶段最终实现对查询接口模式的抽取。 3.利用每个领域查询接口上的一组关键词汇集构建分类特征向量,构建查询接口文本的向量空间模型,引入数据挖掘平台与相关分类算法完成对查询接口的分类 。4.利用正则表达式构建领域结果数据模式,通过结果数据区域定位、数据记录分开抽取、数据项识别与标注等三阶段处理,最终实现结果数据的抽取。 不足之处 无法判定非Form表单查询接口。Aj
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班干部的培养与管理计划
- 病历室护士细致记录病史
- 物流运输行业美工工作经验分享
- 《慢性病危险因素》课件
- 家政公司前台服务总结
- 《康复治疗学总论》课件
- 2024年全球及中国混合云行业概述及特征调研报告
- 2021年广东省惠州市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2024年河南省郑州市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2023年安徽省铜陵市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2025年中国烟草总公司湖北省公司校园招聘227人高频重点提升(共500题)附带答案详解
- 2024版带货主播电商平台合作服务合同范本3篇
- 2025公司资产划转合同
- 2024-2030年中国铝汽车紧固件行业销售规模与盈利前景预测报告
- 广东省清远市2023-2024学年高一上学期期末质量检测物理试题(解析版)
- 2024-2025学年人教版数学五年级上册期末检测试卷(含答案)
- 《外盘期货常识》课件
- 【MOOC】土力学-西安交通大学 中国大学慕课MOOC答案
- 医院医保科工作总结
- 2024-2025学年译林版八年级英语上学期重点词汇短语句子归纳【考点清单】
- 广东省六校联考2024-2025学年高二上学期12月月考英语试题
评论
0/150
提交评论