信息检索信息过滤详解演示文稿_第1页
信息检索信息过滤详解演示文稿_第2页
信息检索信息过滤详解演示文稿_第3页
信息检索信息过滤详解演示文稿_第4页
信息检索信息过滤详解演示文稿_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索信息过滤详解演示文稿现在是1页\一共有60页\编辑于星期五优选信息检索信息过滤现在是2页\一共有60页\编辑于星期五信息过滤需求、发展现状和趋势现在是3页\一共有60页\编辑于星期五背景随着互联网内容的极大丰富,信息海量化正在导致信息垃圾化个性化服务改变获取方式,提高人们获取信息的效率现在是4页\一共有60页\编辑于星期五...文档……背景现在是5页\一共有60页\编辑于星期五信息过滤的需求信息过滤是改善Internet信息查询技术的需要信息过滤是信息个性化服务的基础发展信息过滤技术是国家信息安全的迫切需求信息过滤也是信息中介(信息服务供应商)开展网络增值服务的手段现在是6页\一共有60页\编辑于星期五定义什么是信息过滤?是指计算机根据用户提供的一个过滤需求(userProfile),从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息Profile:一组对用户过滤需求的描述,这种“profile”描述了用户长期的、稳定的兴趣爱好近义术语信息的选择分发(SelectiveDisseminationofInformation,SDI),来自图书馆领域路由(Routing),来自MessageUnderstanding最新资料公告(CurrentAwareness),来自数据挖掘现在是7页\一共有60页\编辑于星期五信息过滤的主要特点无结构的或半结构化的数据电子邮件是典型的半结构化数据结构化的邮件头无结构的邮件正文文本数据大数据量典型的信息过滤系统一般要处理十亿字节的文本数据对用户过滤需求的描述既可以用来屏蔽有害信息,也可以用来收集有益信息现在是8页\一共有60页\编辑于星期五信息检索和信息过滤信息检索信息过滤“query”“userprofile”信息流静态动态需求动态变化静态需要了解用户的情况否是涉及社会背景否是现在是9页\一共有60页\编辑于星期五和其它概念的区别和文本分类(Categorization)的区别分类系统中的类不会经常改变相对而言,UserProfile会动态变化和信息抽取(InformationExtraction)区别IF关心相关性IE只关心抽取的那些部分,不管相关性现在是10页\一共有60页\编辑于星期五信息过滤的三个子任务(TREC)分流(routing)用户需求固定、训练文本充足、无需设定相关度阈值批过滤(batchfiltering)用户需求固定、训练文本充足、需要设定相关度阈值自适应过滤(adaptivefiltering)用户需求变化、训练文本很少、不断调整相关度阈值现在是11页\一共有60页\编辑于星期五例子:基于向量空间模型的文本过滤系统复旦大学2000年TREC-9自适应过滤平均准确率:26.5%;排名:3批过滤平均准确率:31.7%;排名:1现在是12页\一共有60页\编辑于星期五主要技术特点向量空间模型训练、过滤两个主要过程形成初始用户模板主题向量、正例特征向量、伪正例特征向量自适应的阈值调整自适应的模板修改主题向量、正例特征向量、反例特征向量现在是13页\一共有60页\编辑于星期五引入NLP技术自然语言描述的“userprofile”词义消歧指代消解转述(paraphrasing)现在是14页\一共有60页\编辑于星期五当前状态信息过滤是不可缺少的,个性化服务但是过滤系统不可靠商业的过滤系统的相关性在50%左右TREC实验的结果很差用户可以忍受阅读不相关的信息,但是担心丢失相关的重要信息要开发出有效的过滤系统,还有很多事情需要做现在是15页\一共有60页\编辑于星期五评价过滤系统的方法准确率和召回率统计评价 相关性(用户评价vs系统评价):等级向量基于集合的评价Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-)

这里的R+/R-/N+/N-指的是每个主题四种文本的数量。参数A,B,C,D决定了每种情况的代价。显然A,D>=0,B,C<=0。Utility值越大,系统的过滤性能就越好。

现在是16页\一共有60页\编辑于星期五需要解决的问题以什么样的形式描述用户需求?如何判断待过滤信息是否符合用户的过滤需求?如何在过滤的过程中实现用户需求文档的学习和更新?现在是17页\一共有60页\编辑于星期五用户需求的描述用户需求的描述实际上是建立一个反应用户客观需要的模型,简称用户模型(Profile)从内容上划分:基于兴趣的,加权矢量模型等基于行为的,用户浏览和访问模式从组织形式上:

用关键词表达用户过滤需求:歧义性,关系的表达用文档集表达用户过滤需求:覆盖性不够现在是18页\一共有60页\编辑于星期五过滤资源的描述资源描述与用户描述密切相关,采用同一机制基于内容的方法基于分类的方法现在是19页\一共有60页\编辑于星期五用户模型的学习和更新用户兴趣的变化渐进式突发式常见的模型更新方法显示:用户提供相关反馈隐式:根据用户的行为用户文档高级交互现在是20页\一共有60页\编辑于星期五Google推出新闻过滤:现在是21页\一共有60页\编辑于星期五现在是22页\一共有60页\编辑于星期五现在是23页\一共有60页\编辑于星期五现在是24页\一共有60页\编辑于星期五其他隐式反馈信息:历史查询GRE考试Clickthrough浏览记录、浏览时间、…现在是25页\一共有60页\编辑于星期五信息过滤的应用克服重复查询网络信息是动态变化的,用户时常关心这种变化而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间提供个性化信息服务对不同的用户采取不同的服务策略,提供不同的服务内容。实现“主动服务”,“信息找人”实现有害信息的过滤反动言论,保护国家安全谣言,保护社会稳定色情内容,保护青少年身心健康现在是26页\一共有60页\编辑于星期五信息过滤的应用(续)垃圾信息过滤垃圾邮件垃圾短信信息中介开展网络增值服务建立最初的客户资料库建立标准丰富档案内容利用客户档案获取价值推荐(Recommendation)根据不同用户之间需求的相关性推荐信息现在是27页\一共有60页\编辑于星期五信息过滤分类体系现在是28页\一共有60页\编辑于星期五信息过滤系统分类示意图信息过滤系统操作的主动性操作的位置过滤方法用户知识获取主动过滤被动过滤信息源服务器端用户端认知(内容)社会(协同)显式隐式显式和隐式询问用户记录用户行为文档空间推理现在是29页\一共有60页\编辑于星期五信息过滤系统分类系统的主动性主动过滤主动向用户推送相关信息被动过滤比如垃圾邮件过滤过滤操作的位置在信息源在过滤服务器上在客户端如:Outlook邮件过滤现在是30页\一共有60页\编辑于星期五信息过滤系统分类(续)过滤的策略基于内容的信息过滤用户需求文档的形成及相关度的计算仅依靠信息的内容协作信息过滤合作式信息过滤被定义为“通过掌握一个用户群体的诸个体间的相互联系及组织关系来实现的信息过滤方法。”许多人将合作式信息过滤的方法解释为“‘相似’用户之间相互合作的过程。”

现在是31页\一共有60页\编辑于星期五信息过滤系统分类(续)用户知识获取显式获取用户信息用户直接填表用关键词表达用户过滤需求用文档集表达用户过滤需求隐式获取用户信息无需用户直接参与,通过观察用户的动作行为判断用户需求用户阅读文档的时间可以作为衡量该文档相关度的一个指标。其他的一些用户行为——诸如用户是否保存、删除或是打印某篇文档也可以作为度量文档相关度的一个指标。显式和隐式并用的方法文档空间(基于案例的方法)推理(预先定义默认的profile,在扫描过程中再改变)现在是32页\一共有60页\编辑于星期五

信息过滤系统的组成现在是33页\一共有60页\编辑于星期五一般组成现在是34页\一共有60页\编辑于星期五信息分析模块接近信息提供者从信息提供者处获得和整理数据分析和表示文档例如:布尔模型,VSM等把表示结果传递给过滤单元现在是35页\一共有60页\编辑于星期五过滤模块过滤模块是信息过滤系统的核心部分,它采用的算法直接决定了过滤结果的好坏主要作用是匹配用户模型(Profile)和信息的特征向量通常只作二值判断,即判定的信息或者与用户模型相关,或者不相关对于被判定相关的信息还将由用户最终决定其相关性,用户判定的结果将作为反馈信息被系统应用于对用户模型Profile的更新现在是36页\一共有60页\编辑于星期五过滤模型布尔模型向量空间模型概率推理模型隐性语义标引关联论方法现在是37页\一共有60页\编辑于星期五学习模块目的改进过滤的性能发现用户兴趣的转移更新用户模型学习方法通过观察来学习通过相关反馈学习用户训练学习学习的频度临时学习周期式的学习现在是38页\一共有60页\编辑于星期五用户建模收集关于用户的信息(显式的and/or隐式的)创建用户profile,用户模型用来保存每个用户的Profile(规则,VSM,文档中心)把用户模型传递给过滤单元,当动态信息流输入过滤模块时,系统提取用户的Profile并与文档的特征向量进行匹配用户模型必须与文档的表示相适应当用户兴趣发生变化时,系统根据相关反馈使用学习模块将初始Profile和反馈信息的特征向量进行融合,并将新生成的Profile覆盖原来的Profile现在是39页\一共有60页\编辑于星期五用户建模为建模获取数据隐式方法:观察用户的行为显示方法:请用户填表,与用户交互模型中的数据浅层语义:关键词增强的用户模型,关于用户的高层知识用语义网络/传统的推理/统计推理获得文档中词汇之间的关系架构用Agent/神经网络进行自动推理用VSM/LSI进行显式推理智能系统的概念模型统计过滤的关键词系统现在是40页\一共有60页\编辑于星期五信息过滤的方法现在是41页\一共有60页\编辑于星期五方法基于内容的过滤基于规则的过滤基于统计的过滤协作过滤现在是42页\一共有60页\编辑于星期五基于内容的信息过滤(规则)规则可以用户制定,也可以通过关联规则挖掘现在是43页\一共有60页\编辑于星期五基于内容的过滤系统(统计)用户和资源之间关键是相似度计算如果用户描述文件不好,得到的资源很可能不相关优点:简单缺点:只能找到与用户已有兴趣相似的资源现在是44页\一共有60页\编辑于星期五协作过滤用户和用户之间关键问题是聚类优点:提供用户资源的新颖性两个问题:稀疏性可扩展性现在是45页\一共有60页\编辑于星期五基于内容的过滤(统计)特征表示提取关键词的形式文本分类的形式训练模型与分类方法相似相关反馈现在是46页\一共有60页\编辑于星期五协作过滤现在是47页\一共有60页\编辑于星期五相关概念协作信息过滤中,当前获得推荐结果的用户通常称为活动用户(Activeuser)参与过滤的信息资源统称为项目(Item)假设所有参与协作过滤的用户集为

项目集为

用户对项目的评价集为用户ui对tk的评价为rik,如果rik>0,说明用户感兴趣,rik<0说明用户不感兴趣,rik=0没有明确判断可以互相推荐大于零的项目现在是48页\一共有60页\编辑于星期五协作过滤样例用户(a)反馈集:反馈(a)(i)用户(a)背景信息(a)用户(b)反馈集:反馈(b)(j)反馈(b)(k)用户(b)背景信息(b)协作过滤模型反馈(a)(i)反馈(b)(j)反馈(b)(k)现在是49页\一共有60页\编辑于星期五主要实现方法基于用户的协作过滤基于模型的协作过滤基于项目的协作过滤现在是50页\一共有60页\编辑于星期五基于用户的协作过滤通常基于用户的协作过滤采用最近邻方法。即对活动用户ua

,获取按照相关度大小排列的相似“近邻”集U={u1,u2…un}用户ua

对项目ti

的评价定义为近邻集U中所有用户对项目

ti评价指标的加权和用户之间的近邻关系具备两种特征,即非对称性和非传递性非对称性和非传递性产生的原因在于用户之间共同评价过的项目过少,从而造成对称关系和传递关系的置信度很低现在是51页\一共有60页\编辑于星期五近邻集的规模近邻选择步骤中,过滤系统需要预先设置近邻集的规模。通常近邻用户数量的设置采用阈值设置或定值设置两种方法阈值设置:系统选择相关性大于阈值的用户作为活动用户的近邻定值设置:预先确定近邻集的规模现在是52页\一共有60页\编辑于星期五用户之间的相似度基于用户的协作过滤方法中最主要的问题是如何获取最近邻用户常用的用户间相似度评价方法余弦相似度计算法相关相似性计算法现在是53页\一共有60页\编辑于星期五相似度计算相似性计算法主要从用户兴趣是否相似的角度选择活动用户的近邻优点提高了协作过滤系统推荐项目的准确性缺点过分相似的用户共有的项目集规模相对很大,削弱了用户间可以互相推荐的未知项目空间现在是54页\一共有60页\编辑于星期五反流行度通常协作过滤系统可以采用项目的反流行度为候选用户赋予权值,反流行度公式如下:一个项目的流行程度越大,则其反流行度

越小,从而包含该项目的候选用户获得的权值越低;反之,候选用户的权值则得到加强活动用户可以简化地选择经过反流行度加权后权值相对较高的用户作为邻居优点在于最近邻居可以向活动用户推荐更多新颖的项目参与评价的用户总数现在是55页\一共有60页\编辑于星期五基于用户的协作过滤优缺点基于用户的协作过滤系统在实验环境下可以获得较高的性能,但在实际应用中的效果却普遍偏低主要原因在于评分机制的稀疏性实际应用中的用户很少主动提供项目的评价,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论