




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京大学软件与微电子学院2009年度课程1 第十章 信息过滤与推荐技术 2010年12月 最后更新日期:2009-10-10 北京大学软件与微电子学院2009年度课程2 课前思考题 n信息过滤的概念是什么?它和一般的信 息检索、信息分类、信息抽取有什么区 别? n信息过滤的类型有哪些?基于内容的过 滤和基于协作的过滤有什么不同? n信息过滤的构成和各部分功能如何? n信息过滤系统如何评估? 北京大学软件与微电子学院2009年度课程3 提纲 n信息过滤的基本概念 n信息过滤系统的分类 n信息过滤系统的组成 n信息过滤系统的评估 n信息过滤的现状及发展趋势 北京大学软件与微电子学院2009年度课程
2、4 提纲 n信息过滤的基本概念信息过滤的基本概念 n信息过滤系统的分类 n信息过滤系统的组成 n信息过滤系统的评估 n信息过滤的现状及发展趋势 北京大学软件与微电子学院2009年度课程5 信息过滤的定义 n从动态的信息流中将满足用户兴趣的信息挑选 出来,用户的兴趣一般在较长一段时间内比较 稳定不会改变(静态)。 n其他名称: nselective dissemination of information(sdi),来自图 书馆领域。 nrouting,来自message understanding。本质上, routing和if还有所区别,它注重结果的排序 ncurrent awareness
3、, 来自data mining。 北京大学软件与微电子学院2009年度课程6 信息过滤系统示意图 过滤器 user profiles 用户 过滤 数据 数据源 北京大学软件与微电子学院2009年度课程7 信息过滤系统的特点 n新信息的产生速度很快,人的兴趣变化速度赶 不上信息的变化速度。可以说,人的兴趣变化 比较缓慢,可以看成相对静态的和稳定的。 n信息过滤主要借用信息检索和用户建模(user modeling)两个领域的技术。 n用户的需求或者兴趣通常采用user profile建模 来表示。 n新信息到来的时候,根据用户的user profile, 有选择地挑出信息给用户。 北京大学软件与
4、微电子学院2009年度课程8 信息过滤系统数据流图 ncollection nselection ndisplay collectionselectiondisplay 看上去很象ir! 北京大学软件与微电子学院2009年度课程9 if vs. ir (1) nif是可以看成广义ir的一部分,即和adhoc retrieval相 对的一种任务模式。ir通常采用pull模式,而if通常采 用push模式。 nif一般都借用狭义ir中的表示和计算方法。 n和adhoc retrieval相比: nir可以认为面向一次性的查询而使用,而if是面向用户的长期 需求的重复使用 nif信息源动态,用户需求
5、 (采用user profile来表示)相对静态; 检索信息源相对静态,用户需求(采用query来表示)动态变化 nif用户要对系统有所了解,ir不需要。 nif一般要关注用户建模,涉及用户隐私问题。而ir一般不需要。 北京大学软件与微电子学院2009年度课程10 if vs. ir (2) filtering retrieval 北京大学软件与微电子学院2009年度课程11 if vs. ic (info. classification) nif可以采用ic中的分类算法。 n某些场合下人们所称的“信息过滤”实 际就是一个ic问题。如不经过用户profile 调整的垃圾邮件过滤。 nic中的c
6、ategory通常不会变化,相对而言, if的user profile会动态调整。 北京大学软件与微电子学院2009年度课程12 if vs. ie ninformation extraction是从无格式数据源 中抽取相关字段的过程。比如抽取恐怖 事件的时间、地点、人物等字段。 nie中不太关注相关性,而只关注相关的 字段。if中要关注相关性。 北京大学软件与微电子学院2009年度课程13 if 的一些应用 n搜索引擎检索结果的过滤:google n个人的邮件过滤 n新闻订阅和过滤 n浏览器过滤 n面向儿童的过滤系统 n面向客户的过滤系统和推荐系统 北京大学软件与微电子学院2009年度课程1
7、4 提纲 n信息过滤的基本概念 n信息过滤系统的分类信息过滤系统的分类 n信息过滤系统的组成 n信息过滤系统的评估 n信息过滤的现状及发展趋势 北京大学软件与微电子学院2009年度课程15 if分类示意图 北京大学软件与微电子学院2009年度课程16 按initiative of operation分 n主动(active)的 if系统 n主动搜集信息,并将相关信息发送给用户 n通常采用push操作 n会造成信息过载问题,所以该系统要尽力建立精确的user profile。 n代表系统backweb n被动(passive)的 if系统 n不负责为用户搜集信息 n通常用于邮件和新闻组信息过滤
8、n代表系统ghosts 北京大学软件与微电子学院2009年度课程17 按location of operation分 n在信息源端过滤 n将用户的profile发送给信息提供者,后者将和用户profile匹配 的信息回送给用户 n这种服务通常也称为clipping service n用户通常需要付费,代表系统:dialog的alert服务 n在过滤服务器端过滤 n信息提供者将信息发送给过滤服务器 n过滤服务器根据用户的profile将匹配信息发给用户 n代表系统sift n在用户端过滤 n是一个局部过滤系统 n如foxmail或outlook的过滤功能。 北京大学软件与微电子学院2009年度课
9、程18 从过滤方法分 n基于感知的过滤(cognitive filtering) n也称为基于内容的过滤(content-based filtering) n将文档内容和用户的profile进行相似度计算 n代表系统citeseer n基于社会的过滤(sociological filtering) n也称为协同过滤(collaborative filtering n对某个用户的profile进行匹配时,通过用户之间的相似度来计 算profile和文档的匹配程度 n基于社会过滤的系统常常称为推荐系统(recommendation systems) n社会过滤常常使用用户建模(user model
10、ing)及用户聚类(user clustering)等技术。 n社会过滤一般不单独使用,常常和基于内容的过滤配合使用。 n代表系统:ringo、grouplens 北京大学软件与微电子学院2009年度课程19 社会过滤的一个实际例子 书1书2书3书4书5书6 用户1 ? 用户2 ? 用户3 ? 用户4 ? 北京大学软件与微电子学院2009年度课程20 collaborative filtering a 9 b 3 c : : z 5 a b c 9 : : z 10 a 5 b 3 c : : z 7 a b c 8 : : z a 6 b 4 c : : z a 10 b 4 c 8 . .
11、 z 1 user database active user correlation match a 9 b 3 c . . z 5 a 9 b 3 c : : z 5 a 10 b 4 c 8 . . z 1 extract recommendations c 北京大学软件与微电子学院2009年度课程21 从获得用户兴趣的方法分 n显式方法 n用户填写表格或用户提交关键词 n代表系统:sift、backweb n隐式方法 n记录用户的行为,包括: 时间、次数、上下文、行为(保存、废弃、 打印、浏览、点击)等。 n代表系统:grouplens n介于显式和隐式之间的方法 n文档空间方法:将用户
12、标注过的文档作为正例,新来的文档和它们 比较,选择相似度大的文档。 n代表系统:sifter n显式和隐式相结合的方法 nstereotypic inference:开始定义一些默认的profile,根据用户的过滤 过程进行修改。 n代表系统:um 北京大学软件与微电子学院2009年度课程22 提纲 n信息过滤的基本概念 n信息过滤系统的分类 n信息过滤系统的组成信息过滤系统的组成 n信息过滤系统的评估 n信息过滤的现状及发展趋势 北京大学软件与微电子学院2009年度课程23 一般组成 (d) learning component user information provider (b) f
13、iltering component (a) data analyzer component (c) user-model component updates feedback relevant data items represented data items data items personal details user profile 北京大学软件与微电子学院2009年度课程24 data-analyzer component n靠近信息提供方 n从信息提供方获得或搜集数据 n分析文档并将文档转化成相应表示 (如 布尔模型表示、向量空间模型表示等等) n将上述表示传给过滤模块 北京大学
14、软件与微电子学院2009年度课程25 user-model component n显式或隐式地获得用户的一些相关信息 n构建用户profile模型(规则表示模型、向 量模型、文档中心模型等等) n将用户模型传给过滤模块 n用户模型必须要和文档表示模型具有可 比性 北京大学软件与微电子学院2009年度课程26 用户建模不仅仅用于过滤 (beyond filtering) nsearch for people based on their behavior ndiscovery of potential collaborators ncollaborative data mining in lar
15、ge collections ndiscoveries migrate to people with similar interests 北京大学软件与微电子学院2009年度课程27 filtering component nif系统的核心模块 n将user profile和文档的表示进行相似度计算 n做出二值判定或者根据概率大小将文档进行排 序 n用户可以对过滤结果进行判定 n判定信息传给学习模块以便对用户的profile进 行调整。 北京大学软件与微电子学院2009年度课程28 learning component n根据用户的反馈信息对用户的profile进行 调整,以便提高以后的过滤效
16、果 n检测用户的兴趣漂移 北京大学软件与微电子学院2009年度课程29 if系统中的两个概念 n基于统计的系统(system based on the statistical concept) n基于知识的系统(system based on the knowledge-based concept) 北京大学软件与微电子学院2009年度课程30 基于统计的if系统 n用户建模模块: nprofile采用term的权重向量来表示(如vsm, lsi) n过滤模块: n相关系数计算,cosine距离 n概率检索模型(prm) n采用bayes分类器进行计算 n学习模块 n进行相关反馈和查询重构(如
17、采用rocchio公式) 北京大学软件与微电子学院2009年度课程31 基于知识的if系统 n采用规则(rule-based)或者语义网 (semantic-nets)的过滤系统 n规则:如果那么 nuser profile采用语义网(如利用wordnet) n基于神经网络的过滤系统 n基于遗传算法的过滤系统 北京大学软件与微电子学院2009年度课程32 if系统中的用户建模 n建模数据的获取办法: n显式方法: 填写表格,直接交互 n隐式方法:对用户行为的观察 n模型中的数据: n浅层语义:如关键词 n增强的用户模型中包含更多关于用户的高级知识 (如背景经历) nsemantic netwo
18、rks/stereotypic inference/statistical inference on the relationship between words in docs n采用构架(underlying architecture) nagent/neural networks for auto inferred model nvsm/lsi for explicit inference nconcept model for intelligent systems nkeyword system for statistically-based systems 北京大学软件与微电子学院2
19、009年度课程33 if系统中的学习 n学习方法 n基于观察进行学习 n基于反馈进行学习 n基于用户的训练进行学习(user-train learning) n学习频率(frequency of learning) n出现紧急情况下的学习(critical learning) n定期学习 北京大学软件与微电子学院2009年度课程34 提纲 n信息过滤的基本概念 n信息过滤系统的分类 n信息过滤系统的组成 n信息过滤系统的评估信息过滤系统的评估 n信息过滤的现状及发展趋势 北京大学软件与微电子学院2009年度课程35 if系统的评估方法 nevaluation by experiments ne
20、valuation by simulation: such as trec nanalytical evaluation 北京大学软件与微电子学院2009年度课程36 评估指标(1) n正确率和召回率(precision & recall) n基于统计的评价指标 n相关系数(correlation):用户评估的结果排序和系统 评估的结果排序的序相关系数 n其他基于集合的评价指标 nutility=(a*r+)+(b*n+)+(c*r-)+(d*n-), r+n+r-n-分 别表示选出来的结果中真正相关文档的个数、不相 关文档的个数、未选出来结果中相关文档的个数及 不相关文档的个数,a、b、c、
21、d是加权系数。 nasp(average set precision)=p*r, 当 p or r=0, asp 不 可用 北京大学软件与微电子学院2009年度课程37 评估指标(2) n面向用户(user-oriented)的指标 ncoverage ratio=|rk|/|u|=|au|/|u|, a是用户 找出的文档集合,u是用户已知的相关文档 集合,rk 是系统找出的用户已知的相关文档 集合 nnovelty=|ru|/(|ru|+|rk|),ru是系统找出的用 户未知的相关文档集合 北京大学软件与微电子学院2009年度课程38 提纲 n信息过滤的基本概念 n信息过滤系统的分类 n信息
22、过滤系统的组成 n信息过滤系统的评估 n信息过滤的现状及发展趋势信息过滤的现状及发展趋势 北京大学软件与微电子学院2009年度课程39 现状 nif 系统不可缺少 n但是目前的if系统不十分可靠(unreliable) n商用的if系统的相关度在 50%左右 ntrec实验的结果也不尽如人意 n用户宁愿读一些不相关信息,也不愿意丢掉 重要相关信息 n还有很长的路要走。 北京大学软件与微电子学院2009年度课程40 关于用户建模 n集成各种方法来表示用户的兴趣(不仅仅 是关键词、还应该包括用户的一些特性 或者参数) nprofile更新及更新时间 n必须包含一个学习模块 n必须跟踪用户兴趣随时间
23、的变化 北京大学软件与微电子学院2009年度课程41 关于过滤技术 n目标:宁愿返回一些不相关文档,也要返回更 多的相关文档 n应该走多种方法相结合的道路。 n研究方向: n智能过滤agent:非集中式,基于信用,agent之间 互相竞争和合作,也不断进化 n可视化技术 n多媒体过滤:如视频点播vod, not text-based n多语言过滤(multilingual filtering) 北京大学软件与微电子学院2009年度课程42 关于评估 nanalytical evaluation: formalism ntrec filtering track ndiagnostic simulated evaluation 北京大学软件与微电子学院2009年度课程43 关于构架和相关技术 nsimple and object-oriented ndistributed and client-server based nrobust and secur
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新期货入门知识培训课件
- 出售尼龙水箱合同范例
- 保险赔偿合同范例
- 压铸件合同范本
- 公司煮饭员工合同范例
- 厂房 仓库 维修合同范例
- 双方押金合同范例
- 医疗廉洁合同范例
- 公益信托合同范例
- 兴趣班退费合同范例
- DeepSeek在海洋资源开发中的应用潜力
- 《乡镇履职事项清单》(涵盖18个部门核心职责)
- 服装数字化设计技术课件 3-1男衬衫款式分析
- TSCNA 0001-2024 成人体外膜肺氧合(ECMO)技术护理规范
- 2025新人教版七年级历史下教案-第6课 隋唐时期的中外文化交流
- 中国近现代史纲要学习心得体会对青少年成长的影响
- 2025年安徽港航集团所属企业招聘13人笔试参考题库附带答案详解
- 仓库管理基础知识培训
- 大班安全教育:不攀爬高处
- 2024年医师定期考核考题《临床练习》
- 法律职业伦理知到智慧树章节测试课后答案2024年秋温州大学
评论
0/150
提交评论