




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、对象级垂直搜索1传统搜索引擎页面级的排序和检索只抽取网页的关键词信息核心技术信息检索易于使用搜索结果多而杂查询能力有限2为什么需要对象级垂直搜索?网页中包含丰富的现实世界对象信息用户需要更准确的信息查询用户感兴趣的是特定对象而非网页普通页面级搜索包含太多无用信息,筛选耗费时间,因此需要对象级垂直搜索进行特定的对象搜索3什么是对象级垂直搜索? 对象级垂直搜索,就是以对象为检索单位,通过扒取网页中的对象信息、在结构化数据库中集成、提供给用户更加强大的查询功能、返回符合用户特定需要的结果、查询更加准确的新一代网络搜索。4对象级搜索VS页面级搜索5对象级垂直搜索产品Libra Academic Sea
2、rch ()6对象级垂直搜索产品Windows Live Product Search (http:/)7对象级垂直搜索需求分析可靠性:高质量的结构化数据对生成直接和汇总的查询结果是必要的完整性:数据用来提供值得信赖的查询结果需要尽可能的完整排名精度:一个查询有着数十亿的潜在结果,因此最优排名机制是定位有关对象的信息的关键度。可扩展性:对象级垂直搜索引擎应包括垂直领域内的所有网络上和本地数据库中的信息,对象仓库可能是巨大的,因此需要结合大型数据处理技术,使结构化数据检索具有可扩展性。8系统体系结构与核心技术9系统体系结构与核心技术抓取器和分类器(Crawler and Classifier):
3、负责自动收集所有包含特定垂直领域对象信息的网页/文件,被抓取的网页/文件将被送到相应的对象抽取器抽取结构化对象信息并建立对象仓库。对象抽取器(Object Extractor):负责从含有对象信息的网页中抽取与所给定类型的对象有关的元数据。对象聚合器(Object Aggregator):每个抽取的web对象需要被映射到一个现实世界的对象,并存储到Web的数据仓库。这样做,对象聚合器需要集成相同对象的信息并消除不同对象间的分歧。10系统体系结构与核心技术对象级排名和分析(Object-level Ranking and Analysis):信息抽取和集成后,构建web对象之间的关系图,通过执行
4、这个对象关系图的链接分析,我们可以计算网络对象的重要性,或者发现传统网络图中无法获得的其他有趣的知识或模式。11抓取器用节点表示对象,边表示对象之间的关系,那么一个垂直领域的对象信息就构成了一个对象关系图。利用对象关系图来指导扒取算法。例如学术论文搜索: 节点:论文、作者、会议/期刊 关系:引用、撰写、发表抓取器的最终目标是切实有效地搜集相关网页,并且完成节点、边以及节点属性值尽可能多的对象关系图。12分类器与抓取器结合使用,为了保证抓取效率,分类器需要速度很快。可以使用一些启发式算法来去掉不相关页面,例如:在产品页面分类器中,可以使用价格标识符(例如美元符号$)来有效去除大部分的非产品页面。
5、13对象抽取器由于网页是基于许多不同的模板而设计的,因此如何从这些网页中抽取信息是一个难点。一种解决方案是先区分不同的模板,根据每种模板设计抽取器。这被称为template-dependent(模板无关)的方法。但这种方法是不切实际的,因为很难判断一个网页对应的是什么模板,并且难以维护很多个面向不同模板的抽取器。14对象抽取器MSRA研究发现网页中有很多与模板无关的特征: (1)一个网页中的对象信息通常组合在一起成为一个对象块,如图4所示。 使用现有的网页分割和数据记录抽取技术,可以自动检测对象块,这些对象块可以进一步分割到原子层的抽取实体,称为对象元素。每个对象元素提供有关web对象的单一属
6、性的部分信息。15对象抽取器(2)不同网站相同类型的web对象之间存在很强的顺序性,MSRA对两类web对象进行了研究,分别是product pages和researchers homepages。该表说明了web对象之间的顺序性,比如一个产品的name一定在产品的description之前。16对象抽取器对同类型的对象采用与模板无关的元数据抽取技术,具体来说就是扩展线性链条件随机场(CRFs),它利用了顺序特性的优点。CRFs是无向图模型的一种形式,它采用了链式无向图结构计算给定观察值条件下输出状态的条件概率。 (1)2D CRF模型 (2)HCRF模型17对象聚合器在信息集成中有2个子问题
7、: (1)一个对象由于不一致的格式、拼写错误等产生多个不一致的属性值,比如说“WWW”和“World Wide Web”表示同一个意思。 (2)一个对象有除名字外的其他属性,用来区分共享一个名字的多个对象。比如搜索“Lei Zhang”会出现多个不同结果。该问题在垂直搜索中很常见。18对象聚合器MSRA提出:在现有的对象属性值的基础上,通过对象关系图里的对象关系来挖掘关联,作为区分姓名的附加属性。 (1)他们方法背后的假设是:如果两个相同的名称是指在不同语境下的相同对象,那么它们更容易在实体关系图中有着紧密的关联。例如:如果两个“Lei Zhang”是指同一个人,那么他们很可能共享一些合著者、
8、引用或者被关系链间接联系。 (2)基于以上假设,只有当两个相同名字的连接强度超过某个预定的阈值时,它们才被认为是指的同一个对象。19对象聚合器在现实应用中,很多关系会在本地数据集中丢失,比如说由于抽取技术限制,Libra中论文间的引用信息可能会丢失。因此指代同一个作者的两个名字之间连接强度可能不足以达到匹配程度,所以需要除本地数据集以外的更多数据。对于同一个对象的不同名称表示,在网络上它们的语境是强关联的,称之为Web Connections。并且通过它们上下文某些属性的共现程度来衡量Web Connections。20对象聚合器采用Web Connections识别对象,MSRA发现: a)
9、在不同网站中,一个给定类型的对象的分布规律符合幂律分布( )。如图所示,只有很少的网站具有高覆盖率,相对较高覆盖率的网站大多是那些提供文件搜索服务或著名研究机构的网站。21对象聚合器 b)对于一些小网站,某个对象的覆盖率可能会很低(称之为small hubs),但出现两个相同的名称时很有可能表示同一个对象。 c)通过利用一些对象类型进行几次探测从而发现覆盖率高的大网站(称为big hubs)是可行的,并且big hubs数量是有限的,如图所示:我们可以从该图中发现,探测次数超过600次以后,发现的big hubs数量基本不再变化。22对象聚合器通过以上3点分析,MSRA通过以下方法判断两个对象
10、是否为同一个对象: a)如果两个对象的上下文信息在一个small hub中被发现,那么它们是同一个对象。 b)如果两个对象没有在small hubs中共现,则需要计算它们在big hubs中的连接强度,由于big hubs数量是有限的,因此可以制定一个计算方法计算它们的连接强度。23对象聚合器对象集成总结: a)使用覆盖阈值来确定哪些网站/网页是small hubs。 b)使用训练数据,凭经验选择一个好的覆盖阈值。 c)每次尝试多个阈值,观察结果的精度,一般来说,阈值越高,精度越低,因此需要设置一个相对保守的阈值来保证精度。24对象级排名和分析可以应用连接分析技术有效计算出网页对象的受关注度,
11、但是因为对象图的独特特征,需要的技术也不一样。对于连接分析,对象图最独特的特征是连接的异质性。对象之间的相互连接类型不同。如一个论文对象被其他论文对象引用,被一组作者对象撰写,被一个会议/期刊对象刊登。而这三种连接具有不同的语义。传统的链接分析方法(包括PageRank、HITS)假定这些链接具有相同的“endorsement”语义,并且同等重要,直接应用这些方法会导致不合理的流行度排名。25对象级排名和分析使用PopRank模型: PopRank是一种衡量对象图中web对象的受关注程度的方法。 PopRank对PageRank模型进行扩展,对每个链接指向的对象增加一个流行度传播因子(PPF,popularity propagation factor),对不同的关系类型使用不同的PPF。例如,对指向论文对象的链接,对三种不同的关系cited-by, authored-by and published-by,我们需要三个PPF,如图所示:26框架一旦我们从网络上扒取、抽取、集成对象,我们需要一个有效的框架来存储、索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届安徽省定远县藕塘中学高三最后一模化学试题含解析
- 高姓起源研究报告
- 2008合同范例格式
- 个人门店转让合同标准文本
- 东莞大米购销合同样本
- 免审合同标准文本一
- 买羊购销合同样本
- 保洁安装监控合同样本
- 关于农务费合同样本
- 个体商会活动合同标准文本
- 2024年中国资源循环集团有限公司招聘笔试真题
- 暖通系统调试方案
- 危货车辆防汛救援应急预案
- 培训学校安全管理制度
- 应用化学专课试题及答案
- 2025年全国国家版图知识竞赛(中小学组)题库及答案
- 课件-DeepSeek从入门到精通
- 马拉松赛事运营服务方案
- ProE5.0全套教程(完整版)
- 大药房企业管理组织机构设置与职能框图
- [调研报告]关于做好机关工会工作的几点看法
评论
0/150
提交评论