版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息过滤哈工大信息检索研究室2007这一部分讲述……了解信息过滤的需求和概念信息过滤的基本结构信息过滤的方法信息过滤需求、发展现状和趋势背景随着互联网内容的极大丰富,信息海量化正在导致信息垃圾化个性化服务改变获取方式,提高人们获取信息的效率...文档……背景信息过滤的需求信息过滤是改善Internet信息查询技术的需要信息过滤是信息个性化服务的基础发展信息过滤技术是国家信息安全的迫切需求信息过滤也是信息中介(信息服务供应商)开展网络增值服务的手段定义什么是信息过滤?是指计算机根据用户提供的一个过滤需求(userProfile),从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息Profile:一组对用户过滤需求的描述,这种“profile”描述了用户长期的、稳定的兴趣爱好近义术语信息的选择分发(SelectiveDisseminationofInformation,SDI),来自图书馆领域路由(Routing),来自MessageUnderstanding最新资料公告(CurrentAwareness),来自数据挖掘信息过滤的主要特点无结构的或半结构化的数据电子邮件是典型的半结构化数据结构化的邮件头无结构的邮件正文文本数据大数据量典型的信息过滤系统一般要处理十亿字节的文本数据对用户过滤需求的描述既可以用来屏蔽有害信息,也可以用来收集有益信息信息检索和信息过滤信息检索信息过滤“query”“userprofile”信息流静态动态需求动态变化静态需要了解用户的情况否是涉及社会背景否是和其它概念的区别和文本分类(Categorization)的区别分类系统中的类不会经常改变相对而言,UserProfile会动态变化和信息抽取(InformationExtraction)区别IF关心相关性IE只关心抽取的那些部分,不管相关性信息过滤的三个子任务(TREC)分流(routing)用户需求固定、训练文本充足、无需设定相关度阈值批过滤(batchfiltering)用户需求固定、训练文本充足、需要设定相关度阈值自适应过滤(adaptivefiltering)用户需求变化、训练文本很少、不断调整相关度阈值例子:基于向量空间模型的文本过滤系统复旦大学2000年TREC-9自适应过滤平均准确率:26.5%;排名:3批过滤平均准确率:31.7%;排名:1主要技术特点向量空间模型训练、过滤两个主要过程形成初始用户模板主题向量、正例特征向量、伪正例特征向量自适应的阈值调整自适应的模板修改主题向量、正例特征向量、反例特征向量引入NLP技术自然语言描述的“userprofile”词义消歧指代消解转述(paraphrasing)当前状态信息过滤是不可缺少的,个性化服务但是过滤系统不可靠商业的过滤系统的相关性在50%左右TREC实验的结果很差用户可以忍受阅读不相关的信息,但是担心丢失相关的重要信息要开发出有效的过滤系统,还有很多事情需要做评价过滤系统的方法准确率和召回率统计评价 相关性(用户评价vs系统评价):等级向量基于集合的评价Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-)
这里的R+/R-/N+/N-指的是每个主题四种文本的数量。参数A,B,C,D决定了每种情况的代价。显然A,D>=0,B,C<=0。Utility值越大,系统的过滤性能就越好。
需要解决的问题以什么样的形式描述用户需求?如何判断待过滤信息是否符合用户的过滤需求?如何在过滤的过程中实现用户需求文档的学习和更新?用户需求的描述用户需求的描述实际上是建立一个反应用户客观需要的模型,简称用户模型(Profile)从内容上划分:基于兴趣的,加权矢量模型等基于行为的,用户浏览和访问模式从组织形式上:
用关键词表达用户过滤需求:歧义性,关系的表达用文档集表达用户过滤需求:覆盖性不够过滤资源的描述资源描述与用户描述密切相关,采用同一机制基于内容的方法基于分类的方法用户模型的学习和更新用户兴趣的变化渐进式突发式常见的模型更新方法显示:用户提供相关反馈隐式:根据用户的行为用户文档高级交互Google推出新闻过滤:/accounts/Login其他隐式反馈信息:历史查询GRE考试Clickthrough浏览记录、浏览时间、…信息过滤的应用克服重复查询网络信息是动态变化的,用户时常关心这种变化而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间提供个性化信息服务对不同的用户采取不同的服务策略,提供不同的服务内容。实现“主动服务”,“信息找人”实现有害信息的过滤反动言论,保护国家安全谣言,保护社会稳定色情内容,保护青少年身心健康信息过滤的应用(续)垃圾信息过滤垃圾邮件垃圾短信信息中介开展网络增值服务建立最初的客户资料库建立标准丰富档案内容利用客户档案获取价值推荐(Recommendation)根据不同用户之间需求的相关性推荐信息信息过滤分类体系信息过滤系统分类示意图信息过滤系统分类系统的主动性主动过滤主动向用户推送相关信息被动过滤比如垃圾邮件过滤过滤操作的位置在信息源在过滤服务器上在客户端如:Outlook邮件过滤信息过滤系统分类(续)过滤的策略基于内容的信息过滤用户需求文档的形成及相关度的计算仅依靠信息的内容协作信息过滤合作式信息过滤被定义为“通过掌握一个用户群体的诸个体间的相互联系及组织关系来实现的信息过滤方法。”许多人将合作式信息过滤的方法解释为“‘相似’用户之间相互合作的过程。”
信息过滤系统分类(续)用户知识获取显式获取用户信息用户直接填表用关键词表达用户过滤需求用文档集表达用户过滤需求隐式获取用户信息无需用户直接参与,通过观察用户的动作行为判断用户需求用户阅读文档的时间可以作为衡量该文档相关度的一个指标。其他的一些用户行为——诸如用户是否保存、删除或是打印某篇文档也可以作为度量文档相关度的一个指标。显式和隐式并用的方法文档空间(基于案例的方法)推理(预先定义默认的profile,在扫描过程中再改变)
信息过滤系统的组成一般组成信息分析模块接近信息提供者从信息提供者处获得和整理数据分析和表示文档例如:布尔模型,VSM等把表示结果传递给过滤单元
过滤模块过滤模块是信息过滤系统的核心部分,它采用的算法直接决定了过滤结果的好坏主要作用是匹配用户模型(Profile)和信息的特征向量通常只作二值判断,即判定的信息或者与用户模型相关,或者不相关对于被判定相关的信息还将由用户最终决定其相关性,用户判定的结果将作为反馈信息被系统应用于对用户模型Profile的更新过滤模型布尔模型向量空间模型概率推理模型隐性语义标引关联论方法学习模块目的改进过滤的性能发现用户兴趣的转移更新用户模型学习方法通过观察来学习通过相关反馈学习用户训练学习学习的频度临时学习周期式的学习用户建模收集关于用户的信息(显式的and/or隐式的)创建用户profile,用户模型用来保存每个用户的Profile(规则,VSM,文档中心)把用户模型传递给过滤单元,当动态信息流输入过滤模块时,系统提取用户的Profile并与文档的特征向量进行匹配用户模型必须与文档的表示相适应当用户兴趣发生变化时,系统根据相关反馈使用学习模块将初始Profile和反馈信息的特征向量进行融合,并将新生成的Profile覆盖原来的Profile用户建模为建模获取数据隐式方法:观察用户的行为显示方法:请用户填表,与用户交互模型中的数据浅层语义:关键词增强的用户模型,关于用户的高层知识用语义网络/传统的推理/统计推理获得文档中词汇之间的关系架构用Agent/神经网络进行自动推理用VSM/LSI进行显式推理智能系统的概念模型统计过滤的关键词系统信息过滤的方法方法基于内容的过滤基于规则的过滤基于统计的过滤协作过滤基于内容的信息过滤(规则)规则可以用户制定,也可以通过关联规则挖掘基于内容的过滤系统(统计)用户和资源之间关键是相似度计算如果用户描述文件不好,得到的资源很可能不相关优点:简单缺点:只能找到与用户已有兴趣相似的资源协作过滤用户和用户之间关键问题是聚类优点:提供用户资源的新颖性两个问题:稀疏性可扩展性基于内容的过滤(统计)特征表示提取关键词的形式文本分类的形式训练模型与分类方法相似相关反馈协作过滤相关概念协作信息过滤中,当前获得推荐结果的用户通常称为活动用户(Activeuser)参与过滤的信息资源统称为项目(Item)假设所有参与协作过滤的用户集为
项目集为
用户对项目的评价集为用户ui对tk的评价为rik,如果rik>0,说明用户感兴趣,rik<0说明用户不感兴趣,rik=0没有明确判断可以互相推荐大于零的项目协作过滤样例用户(a)反馈集:反馈(a)(i)用户(a)背景信息(a)用户(b)反馈集:反馈(b)(j)反馈(b)(k)用户(b)背景信息(b)协作过滤模型反馈(a)(i)反馈(b)(j)反馈(b)(k)主要实现方法基于用户的协作过滤基于模型的协作过滤基于项目的协作过滤基于用户的协作过滤通常基于用户的协作过滤采用最近邻方法。即对活动用户ua
,获取按照相关度大小排列的相似“近邻”集U={u1,u2…un}用户ua
对项目ti
的评价定义为近邻集U中所有用户对项目
ti评价指标的加权和用户之间的近邻关系具备两种特征,即非对称性和非传递性非对称性和非传递性产生的原因在于用户之间共同评价过的项目过少,从而造成对称关系和传递关系的置信度很低近邻集的规模近邻选择步骤中,过滤系统需要预先设置近邻集
的规模。通常近邻用户数量的设置采用阈值设置或定值设置两种方法阈值设置:系统选择相关性大于阈值的用户作为活动用户的近邻定值设置:预先确定近邻集
的规模用户之间的相似度基于用户的协作过滤方法中最主要的问题是如何获取最近邻用户常用的用户间相似度评价方法余弦相似度计算法相关相似性计算法相似度计算相似性计算法主要从用户兴趣是否相似的角度选择活动用户的近邻优点提高了协作过滤系统推荐项目的准确性缺点过分相似的用户共有的项目集规模相对很大,削弱了用户间可以互相推荐的未知项目空间反流行度通常协作过滤系统可以采用项目的反流行度为候选用户赋予权值,反流行度公式如下:一个项目的流行程度越大,则其反流行度
越小,从而包含该项目的候选用户获得的权值越低;反之,候选用户的权值则得到加强活动用户可以简化地选择经过反流行度加权后权值相对较高的用户作为邻居优点在于最近邻居可以向活动用户推荐更多新颖的项目参与评价的用户总数基于用户的协作过滤优缺点基于用户的协作过滤系统在实验环境下可以获得较高的性能,但在实际应用中的效果却普遍偏低主要原因在于评分机制的稀疏性实际应用中的用户很少主动提供项目的评价,从而造成“用户”与“评分”对应的二元关系相对稀疏,导致协作过滤系统无法有效识别相似用户基于模型的协作过滤基于模型的协作过滤方法,通过挖掘数据之间的相互关系建立需求模型,并利用该模型过滤后续的信息资源基于模型的方法需要预先分析大量数据,使模型的建立需要花费大量的时间模型生成后,后续协作过滤的效率和准确率都可以得到显著的提高隐含语义索引基于模型的协作过滤研究中最重要的方法是隐含语义索引Sarwar等学者将LSI引入协作过滤领域关系矩阵由活动用户和项目组成;语义关系由用户与用户之间、项目与项目之间、用户与项目之间的相关性组成LSI协作过滤的流程建立用户-项目关系矩阵R;采用奇异值分解技术将矩阵R分解为U,S和V将V降维成维数为k的矩阵VKk<r),并采用相同方法简化矩阵U和S为Uk
和Sk
;计算矩阵Vk
的平方根
,并相应计算
和预测用户a对项目i的评分,公式如下:
优缺点重要的用户-项目关系结构被映射到低维空间中,消除了关系上的细微差别而保留了重要的潜在关联性K值太大会导致结果趋近于原始矩阵而失去挖掘潜在关联的能力K值太小则会使得关联信息丢失太多,以至于对于用户和项目的分辨能力不足基于项目的协作过滤基于用户的协作过滤系统通过遍历整个用户群建立用户之间的相似关系,并推荐项目,对用户规模庞大的过滤系统而言,这种方法极大影响推荐效率基于项目的协作过滤系统只针对目标项目和活动用户已有项目之间进行协作性检测,从而在保证过滤效果的同时,大大提高了系统效率基于项目的协作过滤系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 7948-2024滑动轴承塑料轴套极限PV试验方法
- 受众定向技术行业经营分析报告
- 芯片读卡器产品供应链分析
- 电压力锅高压锅市场发展前景分析及供需格局研究预测报告
- 手机游戏开发行业经营分析报告
- 皮制钱包项目运营指导方案
- 室内装潢的消毒行业市场调研分析报告
- 玻璃钢轴流风机项目营销计划书
- 坐便器产业链招商引资的调研报告
- 断布机产品供应链分析
- 4.4.1 对数函数的概念 课时教学设计
- 2023届高考写作指导:漫画作文 课件24张
- YS/T 1022-2015偏钒酸铵
- GB/T 9574-2001橡胶和塑料软管及软管组合件试验压力、爆破压力与设计工作压力的比率
- 马工程《刑法学(下册)》教学课件 第19章 破坏社会主义市场经济秩序罪
- GB/T 1740-2007漆膜耐湿热测定法
- 校园突发事件及危机应对
- 《必修上第六单元》教案【高中语文必修上册】
- 立体构成的基本要素及形式美法则备课讲稿课件
- 广东省房屋建筑工程概算定额说明及计算规则样本
- 汽车文化知识考试参考题库400题(含答案)
评论
0/150
提交评论