

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实用标准文档文案大全高级数据挖掘期末大作业基于协同过滤算法的电影推荐系统本电影推荐系统中运用的推荐算法是基于协同过滤算法(CollaborativeFiltering Recommendation)。协同过滤是在信息过滤和信息系统中正迅速成为一 项很受欢迎的技术。 与传统的基于内容过滤直接分析内容进行推荐不同, 协同过 滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似 用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。电影推荐系统中引用了Apache Mahout提供的一个协同过滤算法的推荐引擎Taste它实现了最基本的基于用户和基于内容的推荐算法,并提供
2、了扩展接口, 使用户方便的定义和实现自己的推荐算法。电影推荐系统是基于用户的推荐系统,即当用户对某些电影评分之后,系统 根据用户对电影评分的分值,判断用户的兴趣,先运用UserSimilarity计算用户 间的相似度.UserNeighborhood根据用户相似度找到与该用户口味相似的邻居, 最后由Recommender提供推荐个该用户可能感兴趣的电影详细信息。将用户评 过分的电影信息和推荐给该用户的电影信息显示在网页结果页中,推荐完成。一、Taste介绍Taste是Apache Mahout提供的一个个性化推荐引擎的高效实现, 该引擎基 于java实现,可扩展性强,同时在mahout中对一些
3、推荐算法进行了Map Reduce编程模式转化,从而可以利用hadoop的分布式架构,提高推荐算法的性能。在Mahout0.5版本中的Taste, 实现了多种推荐算法,其中有最基本的基于 用户的和基于内容的推荐算法,也有比较高效的SlopeO ne算法,以及处于研究实用标准文档文案大全阶段的基于SVD和线性插值的算法,同时Taste还提供了扩展接口,用于定制化 开发基于内容或基于模型的个性化推荐算法。Taste不仅仅适用于Java应用程序,还可以作为内部服务器的一个组件以HTTP和WebService的形式向外界提供推荐的逻辑。Taste的设计使它能满足 企业对推荐引擎在性能、灵活性和可扩展性
4、等方面的要求。下图展示了构成Taste的核心组件:从上图可见,Taste由以下几个主要组件组成:DataModel:DataModel是用户喜好信息的抽象接口,它的具体实现支持从指 定类型的数据源抽取用户喜好信息。 在Mahout0.5中,Taste提供JDBCDataModel和FileDataModel两种类的实现,分别支持从数据库和文件文 件系统中读取用户的喜好信息。对于数据库的读取支持,在Mahout 0.5中只提供了对MySQL和PostgreSQL的支持,如果数据存储在其他数据库,或者是把 数据导入到这两个数据库中,或者是自行编程实现相应的类。UserSimilarit和ItemS
5、imilarity:前者用于定义两个用户间的相似度,后者用 于定义两个项目之间的相似度。Mahout支持大部分驻留的相似度或相关度计算 方法,针对不同的数据源,实用标准文档文案大全需要合理选择相似度计算方法。UserNeighborhood:在基于用户的推荐方法中,推荐的内容是基于找到与当 前用户喜好相似的“邻居用户”的方式产生的,该组件就是用来定义与目标用户 相邻的“邻居用户”。所以,该组件只有在基于用户的推荐算法中才会被使用。Recommende【Recommender是推荐引擎的抽象接口,Taste中的核心组件。 利用该组件就可以为指定用户生成项目推荐列表。实用标准文档文案大全本章节将系
6、统中用到的几个相似性度量函数作以介绍,taste中已经具体实现 了各相似性度量类。User CF和Item CF都依赖于相似度的计算,因为只有通 过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。 下面就对常用的相似度计算方法进行详细的介绍:1.-基于皮尔森相关性的相似度Pearsoncorrelatio n-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在-1, 1之间。当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另 一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减
7、小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标 准差。E岔)-颐石陀)細(Q-护J百(7亏-衣(7)Pears on correlatio n-based similarity协方差(Covarianee):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。cw(y)= E(XCovaria nee、相似性度量c穴店
8、)_颐込_冷)_如)实用标准文档文案大全其中u表示X的期望E(X), v表示丫的期望E(Y)实用标准文档文案大全标准差(Standard Deviation):标准差是方差的平方根Sta ndard Deviati on方差(Varianee):在概率论和统计学中,一个随机变量的方差表述的是它的离 散程度,也就是该变量与期望值的距离。Var(X) = E(屮)-E%X)Varia nee即方差等于误差的平方和的期望基于皮尔森相关系数的相似度有两个缺点:没有考虑(take into aeeoun)用户间重叠的评分项数量对相似度的影响;(2)如果两个用户之间只有一个共同的评分项,相似度也不能被计算
9、Item 102 Item 1033.0-3.03.02.0Correlation with User1.000-0.7641.0000 945上表中,行表示用户(15)对项目(101103)的一些评分值。直观来看,Userl和User5用3个共同的评分项,并且给出的评分走差也不大,按理他们之 间的相似度应该比User1和User4之间的相似度要高,可是User1和User4有一 个更高的相似度1。同样的场景在现实生活中也经常发生,比如两个用户共同观看了200部电影, 虽然不一定给出相同或完全相近的评分,他们之间的相似度也应该比另一位只观 看了2部相同电影的相似度高吧!但事实
10、并不如此,如果对这两部电影,两个用 户给出的相似度相同或很相近,通过皮尔森相Item 101User 15.0User 22.0User 32.6User 45.0User 54.0廿=/E(X E(X)尸)=JE(川)_(E(X)尸Tablel实用标准文档文案大全关性计算出的相似度会明显大于观 看了相同的200部电影的用户之间的相似度。Mahout对基于皮尔森相关系数的相似度给出了实现,它依赖一个DataModel作为输入。ionSimi L&j-i tym Fe&rsonCorrelati omSim ilvi ty)E | Fears anC orrelat iQUSIm
11、:ilai_ity(IataMl o del, ilei氐htmg)Pears on Correlati on Similarity同时,Mahout还针对缺点进行了优化,只需要在构造PearsonCorrelationSimilarity时多传入一个Weighting.WEIGHTED参数,就能使 有更多相同评分项目的用户之间的相似度更趋近于1或-1。UserSimilarity similarity1 = new Pears on Correlati on Similarity(model);double value1 = similarity1.userSimilarity(1,5);U
12、serSimilarity similarity2 = newPears on Correlati onSimilarity(model,Weighti ng.WEIGHTED);double value2 = similarity2.userSimilarity(1, 5);结果:Similarity of User1 and User5: 0.944911182523068Similarity of User1 and User5 with weighti ng: 0.96556948907691752.-基于欧几里德距离的相似度Euclidea n Distance-based Simi
13、larity欧几里德距离计算相似度是所有相似度计算里面最简单、最易理解的方法。它以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到坐标系上, 并计算他们彼此之间的直线距离。实用标准文档文案大全Euclidea n Dista nee 2-Coord in ateItem 101Item 102ItemDistanceSinrtaHrity lo (JSO3 0250.0001000Ustr 22.02 5503.9370 2032 5-2.5000286User 45.0300 5000 667*54.030201 11B0 472Table2图中用户A和用户B分别对项目X、Y进行了评
14、分。用户A对项目X的评 分为2,对项目丫的评分为4,表示到坐标系中为坐标点A(1.8, 4);同样用户B对项目X、丫的评分表示为坐标点B(4.5, 2.5),因此他们之间的欧几里德距离(直 线距离)为:sqrt(B.x - A.x)A2 + (A.y -B.y)A2)才(兀刃=J(力(越一门尸)Euclidea n Dista nee计算出来的欧几里德距离是一个大于0的数,为了使其更能体现用户之间的相似度,可以把它规约到(0, 1之间,具体做法为:1 / (1 + d)。参见Table2实用标准文档文案大全Similarity只要至少有一个共同评分项,就能用欧几里德距离计算相似度;如果没有共同
15、评分项,那么欧几里德距离也就失去了作用。其实照常理理解,如果没有共同评分项,那么意味着这两个用户或物品根本不相似。3.-余弦相似度Cosi ne Similarity余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。* UV) = -_-Cos ine Similarity与欧几里德距离类似,基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个用户之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表 用户评分的点与原点的
16、直线都会相交于原点,夹角越小代表两个用户越相似,夹 角越大代表两个用户的相似度越小。同时在三角系数中,角的余弦值是在-1, 1之间的,0度角的余弦值是1,180角的余弦值是-1。借助三维坐标系来看下欧氏距离和余弦相似度的区别:EuclideanDistance-based实用标准文档文案大全dist(A,B)Dista nee and Cosi ne 3-Coord in ates从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量 的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝
17、原方向远离坐标轴原点,那么这个时候余弦相似度eos0是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余 弦相似度的不同之处。根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相 似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感, 更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。Mahout没有专门给出
18、基于余弦相似度的实现。4.-调整余弦相似度Adjusted Cosi ne Similarity在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比实用标准文档文案大全如用户对内容评分,5分制,X和丫两个用户对两个内容的评分分别为(1,2)和(4,5), 使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜 欢这2个内容,而丫比较喜欢,余弦相似度对数值的不敏感导致了结果的误差, 需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去 一个均值,比如X和丫的评分均值都是3,那么
19、调整后为(-2,-1)和(1,2),再用余 弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。5.-斯皮尔曼相关Spearma n Correlati on斯皮尔曼相关性可以理解为是排列后(Rank)用户喜好值之间的Pearso n相 关度。Mahout in Action中有这样的解释:假设对于每个用户,我们找到他最 不喜欢的物品,重写他的评分值为“1”;然后找到下一个最不喜欢的物品,重 写评分值为“2”,以此类推。然后我们对这些转换后的值求Pearson相关系数, 这就是Spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息,即真实的评分值。但它保留了用户
20、喜好值的本质特性-排序(ordering),它是建立在排序(或等级,Rank)的基础上计算的。回顾前面表中User15对Item101103的喜好(评分)值,通过斯皮尔曼相关系数计算出的相似度为:Item 101Item 102hem 103Correlation to User 1User 13.02D101.0User 21.02.03,0-toUser 31.0一-一User 42.0一to1.0User 53.02.01.01.0Table3我们发现, 计算出来的相似度值要么是1,要么是,-1,因为这依赖于用户的喜好值和User1的喜好值是否趋于“一致变化”还是呈“相反趋势变化。Mah
21、out对斯皮尔曼相关系数给出了实现,具体可参考SpearmanCorrelationSimilarity,它的执行效率不是非常高,因为斯皮尔曼相关性 的计算需要实用标准文档文案大全花时间计算并存储喜好值的一个排序(Ranks),具体时间取决于数据的数量级大小。 正因为这样,斯皮尔曼相关系数一般用于学术研究或者是小规模 的计算。UserSimilarity similarity1 = new SpearmanCorrelationSimilarity(model); /construct a Spearman Correlation-based SimilarityUser1 to User1
22、: 1.0User2 to User1 : -1.0User3 to User1 : NaNUser4 to User1 : 1.0User4 to User1 : 1.0考虑到Spearman Correlation的效率,可以把SpearmanCorrelationSimilarity包 装一 层Cache, 具 体 做 法 为 :UserSimilarity similarity2 = newCachingUserSimilarity(new SpearmanCorrelationSimilarity(model), model);这样,每次计算的结果会直接放入Cache下一次计算的时候
23、可以立即得到结果,而不是重新再计算一次。6.基于谷本系数的相似性度量 Tanimoto Coefficient-based SimilarityTanimoto Coefficient和前面的5中相关度计算方式有很大的不同,它不关心 用户对物品的具体评分值是多少,它在关心用户与物品之间是否存在关联关系。Tani moto Coefficie nt依赖于用户和物品之间的这种Boolean关系作为输入。更准确的说法为:Tanimoto Coefficient主要用于计算符号度量或布尔值度量 的个体间的相似度, 因为个体的特征属性都是由符号度量或者布尔值标识, 因此 无法衡量差异具体值的大小,只能获
24、得“是否相同”这个结果,所以Tanimoto Coefficient只关心个体间共同具有的 特征是否一致这个问题。Tanimoto Coefficient又被叫做Jaccard Coefficien,其值等于两个用户共同关联(不管喜欢 还是不喜欢)的物品数量除于两个用户分别关联的所有物品数量。In tersectio n/Union实用标准文档文案大全也就是关联的交集除于关联的并集,用公式表示为:X QYJuardtX. Y = D X u VTanim oto/Jaccard Coefficie nt其值介于0,1之间,如果两个用户关联的物品完全相同,交集等于并集,值 为1;如果没有任何关联
25、,交集为空,值为0。三、电影推荐系统的实现1.数据下载:至U groupie ns网站(/no de/12)上下载Data Sets在该 电影系统中我们使用了将近900多用户为1683的电影评了近100000行的数据集。 将下载的mi-data_0.zip里的评分数据和电影信息数据取出。将评分文件转换成类 似于csv文件格式的文本文件,CSV是逗号分隔值文件(Comma Separated value)是一种用来存储数据的纯文本文件格式,文件名为rating.TXT。可以用写字板打开, 如图4.1:35B, 1,1137.1.3B93, 1,3E3
26、1,1,3704, 1, 2827, 1,2 昵 1, 5914.1.4图4.1 rating.txt示意图然后将数据导入到mysql数据库中,将电影数据文件也转换成CSV格式文件,然后也导入数据库中,Mysql中数据库为movierecommendation,上述两个文件对应的表分别为movies和rating。由于taste引擎需要频繁进行数据库操作, 所以可以对mysql数据库进行一般的调优,在mysql安装目录的my.ini文件中设 置一些参数,从而加快数据库操作运行的时间。2.系统结构:实用标准文档文案大全本电影推荐系统前台导航栏有三个菜单,分别为首页,推荐电影,参数设置。 首页:首
27、页上显示综合评分最高的前20部电影,综合评分是指对于一部电影,所有观看改电影的用户的评分的期望值。实现为在index.jsp页面中调用数据库接口,查询数据库,然后将结果显示出来:i-7 lnknawri卜吒;阳辭珂明 ce E 対 门阀丁 ”乃才&囲切!兰血吕加|1 或巧)* 詰軌询 Cha 甜 I:阳肺厂参数设置页面:由于协同过滤算法需要设置推荐的参数,在本系统主要是考虑邻居个数和相 似度度量函数这两个参数:niw苒卍 rfrwT!事打 mwjii -乂在相似性度量下拉列表框中,一共可以选择四种相似度度量类,分别为:基 于欧几里得距离的相似度、基于皮尔森相关性的相似度、基于斯皮尔曼相
28、关的相 似度、基于古本系数的相似性度量。各相关性度量类的说明都在第二章节中有详 细介绍。系统使用application对象保存这些参电检色巨屁理亦 njl95FWPupii 口 篦町|0J1 |1r rikip&iJJiftfl QlWfel 卜丁口 jl!7 M 3 HI* 匸 rp 氓 门 g孑 il甲 Si |ibajuar DeMattcHI 旳&i 讪5 如 1 倔羽=Rwamd 1331104695155*iEE实用标准文档文案大全数设置,并且在web.xml中设置了 初始化的值,分别为6、PearsonCorrelationSimilarity。当用户在该页面设置参数 后,将传给websetting.java servlet,将这些参数保存在 即plication中,并且跳转 到推荐电影页面。在sett in g.jsp页面中也使用javascript验证用户输入数据的合法 性。推荐电影页面:在推荐电影页面,用户首先需要输入用户ID和推荐数,在jsp页面中使用javascript验证用户输入数据的合法性,用户ID的范围,1到990。推荐数范围为1到30,如果输入数据非法,将跳转到错误页面:当输入合法参数之后,系统将会将推荐结果展示出来:弔 u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 度生产加工合同
- 牛仔布供需合同
- 再生废物原料国外装运前检验合同全文
- 租赁合同范本:办公场地篇
- 新版买卖合同模板
- 14《天文学上的旷世之争》教学设计 2023-2024学年统编版高中语文选择性必修下册
- 度医院护士劳动合同
- 5《七律·长征》教学设计-2024-2025学年六年级语文上册统编版
- 企业战略联盟合同样本
- 1《春夏秋冬》教学设计-2024-2025学年语文一年级下册统编版
- 2024年华师大版九年级数学下册全册教案
- 合肥市庐阳区双岗街道社区工作者招聘考试试题及答案2024
- JBT 106-2024 阀门的标志和涂装(正式版)
- 煤矿技术员必须会的知识
- (高清版)JTGT 3650-01-2022 公路桥梁施工监控技术规程
- 北京市2024小升初数学模拟试卷一
- 一年级口算题100以内比大小
- 《提案与方案优化设计》课件-第一部分 常见户型问题解析及平面布局优化
- 产科抗磷脂综合征诊断与处理专家共识
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- (正式版)SHT 3078-2024 立式圆筒形料仓工程设计规范
评论
0/150
提交评论