




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索摘要: 本文中主要是对信息检索、信息搜索、问答搜索、信息抽取、信息过滤、信息推荐的概念的一些理解及他们之间的区别。有学者将信息检索最本质的部分概括为:对信息集合与需求集合的匹配与选择。通俗一点来说,就是用户提出信息需求,需求表达方式可能是一个或组检索词、也可能是一幅图像、甚至是哼出的一段旋律。信息的集合是经过整理或序化的,信息可以是文本型,也可以是音频、视频、图像、图形,甚至是上述种类信息综合而成的多媒体信息。信息既可以是结构化的信息,如各种文献数据库的记录或 XML 文件,也可以是非结构的信息,如 HTML页面或图像。经典的信息检索技术主要是检索文本信息,后来为了检索音频、视频、图像等多媒体信息,就通过如下方法来实现:先将这些非文本信息进行著录,也就是文字性描述,然后再利用文本信息检索的技术来实现检索;直接基于音频、视频、图像的内容来实现检索。 经典意义上的信息检索所处理的信息集合在一段时间内保持相对稳定不变,用户的信息需求则是不断变化的。例如,搜索引擎系统的有序信息集合在一段时间内保持不变(变化情况取决于系统的更新频率,可能是一个星期也可能是几天),而这些信息集合在网络上接受成千上万的来自不同用户的不同的检索请求。下面将要讲到的信息推荐和信息过滤所面对的信息集合则相对是动态的,而来自用户的信息需求则相对不变或变化甚小,它们都可以看成是经典信息检索的一个的检索任务。1信息搜索搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具,它利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。搜索引擎起源于传统的信息全文检索理论。狭义上的搜索引擎仅指基于因特网的搜索引擎;广义上的搜索引擎除此之外还包括基于目录的信息检索服务。搜索引擎的研究极具综合性和挑战性,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的关键理论和技术,其核心问题是数据库的规模、索引数据库的质量和标引质量2。为适应发展,新一代搜索引擎的关键技术应运而生,带有明显的智能特征,因此被称为智能搜索引擎3。问答系统知识问答搜索引擎3(Answers Searching),是基于搜索的互动式问答平台,也称为问答式检索系统或问答系统。如同web2.0环境下的BBS,用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。知识问答搜索引擎支持用户通过以自然语言形式提问(如:什么是3G)。与基于网页对搜索引擎不同的是,知识问答搜索引擎给出的是问题的答案而不是链接,而且其本身也是一种服务。知识问答搜索引擎是搜索引擎自身为适应网络信息环境和用户需求发展到web2.0时代而提供的服务,在web2.0的新环境中,用户越来越喜欢分享、同创和参与的网络文化。知识问答搜索引擎具备如下基本特征:是基于开放的、借助网络人力资源的、有悬赏机制(荣誉积分)的互动式问答平台。知识问答搜索引擎是充分利用网络人力资源来解决问题的成功体现,在互联网上每个人都可能是某一个方面的“专家”,而由这些“专家”来解答其擅长的问题,显然是再适合不过的。和搜索引擎紧密结台。严格来说,知识问答搜索引擎不是真正的搜索引擎,值所以被称为搜索引擎,主要是由于这些系统一般基于母体搜索引擎强大的用户群从而得到很好的发展,问答知识作为web页面内容被众多搜索引擎大量索引,并被用户利用。强调对知识的沉淀和分享。用户通过开放注册提问和回答问题,随着时间的推移,这些问题形成大量的知识库,通过搜索实习知识的分享。信息抽取4信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。信息抽取是一个输入/输出过程 输入:未知文本信息 输出:固定格式、无二义性数据(信息)这些被抽取出来的数据可以:直接显示给用户,存储于数据库或电子表格中以供随后分析信息检索和信息抽取对比:信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户而信息抽取不是仅仅是指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户信息检索和信息抽取对比总结4功能不同处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成适用领域不同:由于采用的技术不同、信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。信息过滤1信息过滤是指计算机根据用户提供的一个过滤需求(user Profile),从动态变化的信息流(比如Web, e-mail)中自动检索出满足用户个性化需求的信息。信息过滤就是通过某种技术将不良信息屏蔽掉,不呈现给最终用户的过程1。 Profile:一组对用户过滤需求的描述,这种“profile”描述了用户长期的、稳定的兴趣爱好。 如下表45信息检索(IR)信息过滤(IF)用户需求“query”“user profile”信息流相对静态的结构化的数据集海量、动态的无结构数据需求动态变化静态需要了解用户的情况否是需求表示检索词(可含组合条件)兴趣模型目标选择相关条目过滤掉不相关的信息涉及范围静态文本数据除数据外如行为科学等多个学科用户特点大范围多用户的短期使用小范围少用户的长期使用和文本分类(Categorization)的区别:分类系统中的类不会经常改变。 相对而言,User Profile会动态变化 和信息抽取(Information Extraction,IE): IF关心相关性; IE只关心抽取的那些部分,不管相关性克服重复查询:网络信息是动态变化的, 用户时常关心这种变化 而在搜索引擎中, 用户只能不断地在网络上查询同样的内容,以获得变化的信息, 这花费了用户大量的时间提供个性化信息服务: 对不同的用户采取不同的服务策略, 提供不同的服务内容。实现“主动服务”,“信息找人”实现有害信息的过滤: 反动言论,保护国家安全; 谣言,保护社会稳定; 色情内容,保护青少年身心健康垃圾信息过滤: 垃圾邮件; 垃圾短信两种主要的过滤方法基于内容的信息过滤:用户需求文档的形成及相关度的计算仅依靠信息的内容 协作信息过滤: 合作式信息过滤被定义为“通过掌握一个用户群体的诸个体间的相互联系及组织关系来实现的信息过滤方法。” 许多人将合作式信息过滤的方法解释为“相似用户之间相互合作的过程信息推荐1所谓信息推荐(Information Recommendation,以下简称 IR)就是将满足信息需求的信息通过某种方式推荐给相关用户,尤其是将最新的满足需求的信息推荐给用户。推荐的方式可以是系统主动通知用户,也可以是用户主动去获取。 在信息推荐系统中,信息需求一般被表述为“用户兴趣”。用户如何表达自己的兴趣抑或信息推荐系统如何获取用户的兴趣呢?信息推荐的关键在于如何恰当地描述用户的兴趣,也即是如何构建能够代表用户信息需求的用户需求档(User profile)3,用计算机专业术语来说,就是用户建模(User Modeling),用户需求档就是建模的结果或者是用户模型的另一种称呼。用户兴趣可以是由用户显性设定,也可以系统隐性设定。用户显性设定可以是一组关键词,也可以系统内部定义好的用户原型。系统隐性设定主要是根据用户的各种特征或使用行为来学习用户现在的兴趣以及兴趣的转移情况等,这个学习过程是一个渐进的、不断完善的过程。除非用户的兴趣发生变化,否则用户需求档则保持相对固定。 用户需求档既可用于信息推荐,也可用于个性化的信息检索。例如,搜索引擎 Google提供了个性化信息检索服务,根据用户的检索历史来学习用户的兴趣,从而提供个性化搜索结果。登陆用户起初可能感觉不到有多大差异,但随着搜索历史的积累,个性化搜索结果的效果将会不断得到改善。 传统的基于内容(content-based)的信息推荐的技术与经典的信息检索原理相似,都是信息需求与信息集合的匹配与选择,将满足条件的信息推荐给用户。还有一种技术是协同过滤(Collaborative Filtering)或社会过滤(Social Filtering),它通过分析用户的兴趣,在用户群中找到特定用户的相似用户,综合这些相似用户对某一信息(商品)的评价(可以显性评价也可以时候隐性评价)来形成对指定用户对此信息(商品)的喜好程度的预测4。这样,相似用户群构成了一个具有共同兴趣的群体,可以称之为兴趣共同体。当兴趣共同体的某个用户或某几个用户对某信息(商品)很感兴趣的时候,可以预测共同体的其他成员也感兴趣,从而将该信息(商品)推荐给其他成员。尽管“协同过滤”名称上有“过滤”一词,但却用来信息推荐,也就是说,协同过滤是实现信息推荐的一种技术。基于协同过滤的技术和基于内容的技术可以分开使用,也可以结合在一起使用。推荐功能。 信息推荐功能可集成在信息检索过程中。例如 Google 在向用户呈现检索结果的时候,会在每个结果后附上“相似网页”来推荐相关信息(一种综合了网页内容和网络评价的复杂算法),而前面提到的各种网上商城则是在用户浏览某条检索结果的时候,向用户推荐相关商品。基于内容的信息推荐和信息过滤,在本质上与经典的信息检索在技术原理上极为相似,它们的关系犹如一枚硬币的正反面,只不过信息推荐是“取真”的过程,而信息过滤是“取否”的过程。两者之间的异同如表 1 所示。 信息推荐信息过滤条件提出者用户自行提出推荐条件(有时称为用户兴趣)一般由监管者提出过滤条件,最终用户一般无权干涉主要任务用户推荐新的相关信息;可以扩大用户的知识范围过滤掉不良信息,为用户净化网络信息空间。需求变化率根据用户的兴趣变化而变化,变化率低。根据不良信息的定义标准来设置过滤条件,变化率低。功能描述将满足推荐条件的信息推荐给用户。将满足过滤条件的信息屏蔽掉,不呈现给最终用户与信息检索(浏览)的集成可以实现在检索和(或)浏览的过程中,向最终用户推荐相关信息在检索和(或)浏览过程中,屏蔽掉不良结果,哪怕该结果满足了最终用户信息需求1 信息推荐与信息过滤的概念辨析 陈定权 / 中山大学资讯管理系 广州 2 搜索引擎的技术现状及发展趋势:兵团
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学语文人教部编版二年级上册妈妈睡了第一课时教案
- 机械加工焊接培训课件
- 小学数学人教版四年级下册小数加减法教案
- 小学数学北师大版五年级下册包装的学问教学设计
- 农药交叉污染培训
- 高中语文课内古诗文(新教材统编版)《锦瑟》《书愤》知识点+专项练习(原卷版)
- 急诊急救培训课件
- 基层文艺培训成果汇报
- 技术转让合同意向书
- 公立学校的劳动合同样本
- 四川2024年12月四川省内江市事业单位公开选调2名工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- DBJ04T 289-2020 建筑工程施工安全资料管理标准
- 化工设计知到智慧树章节测试课后答案2024年秋浙江大学
- 各种注射技术常见并发症的预防及处理
- 工程竣工验收流程汇报
- 宏观经济学完整课件
- 2002版《水利工程施工机械台时费定额》
- 首发经济专题讲座课件
- 压力管道设计与审批人员考试题电子版真题1
- 学习方法教育分享模板
- 新能源设备安装承揽合同三篇
评论
0/150
提交评论