版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、【Resys】如何从无到有建立推荐系统推荐系统广泛应用于各类网站,电子商务中的商品推荐、博客网站的文章推荐,以及帮助人们寻找音乐和影片的各类应用。但如何才能从无到有的给网站配备一个推荐系统呢?针对这个问题,我在搜索引擎中遍寻多时,但始终没有找到满意的答案。这期间我也加入了国内推荐系统高手聚集的推荐系统邮件列表,其中不乏当当、卓越亚马逊、豆瓣等业内在推荐系统上领先的产品、技术高手,但浸淫多日却始终无法在脑海中形成一个以内容推荐为最终目的的产品框架或产品路线图。这种状态一直持续到我购买了集体智慧编程(Programming Collective Intelligence)后才得以改观,现在我将此书
2、的部分读书笔记予以整理,希望能给同样对推荐系统感兴趣的朋友整理出一个可操作的、适合内容型网站推荐系统产品框架。正文分割线我们知道,要想了解内容网站的推荐信息,最没有技术含量的方法莫过于向朋友询问。我们也知道,这其中有一部分人的品位会比其他人的高一些,通过观察这些人是否通常也和我们一样喜欢同样的东西,可以逐渐对这些情况有所了解。不过随着选择越来越多,要想通过询问一小群人来确定我们想要的东西,将会变得越来越不切实际,因为他们可能并不了解所有的选择。这就是为什么人们要发展出一套被称为协同过滤(collaborative filtering)的技术。从实际的情况看,目前我们所能接触到的领先推荐系统,包
3、括Netfilx、豆瓣、Amazon等等都是利用协同过滤技术来实现的。协同过滤又分成几种:基于用户的协同过滤、基于项目的协同过滤、基于模型的协同过滤。那么到底什么是协同过滤?它需要产品设计者做哪些事情才能实现?(为了让问题简化,这里着重介绍基于用户的协同过滤)一个基于用户的协同过滤过滤算法通常的做法是对一大群人进行搜索,并从中找出与我们品位相近的一小群人。算法会对这些人所偏爱的其他内容进行考察,并将它们组合起来构成一个经过排名的推荐列表。因此产品设计者需要理解你的网站需要依次做以下这几件事情:1.搜集偏好(Collecting Preferences)要搜集偏好意味着要寻找一种表达不同人及其偏
4、好的方法。例如,豆瓣会要求用户对每部电影用1到5颗星来评分,以此来体现包括本人在内的每位影评者对某一给定影片的喜爱程度。假如你正在设计一个购物网站,那不妨用数字1来代表有人过去购买过某件商品,用数字0来代表未曾购买过任何商品。而对于一个新闻故事投票网站,我们可以分别用数字-1、0和1来表达“不喜欢”、“没有投票”、“喜欢”。不管偏好如何表达的,你要做的是建立一种方法来使得你的用户来参与表达,并把他们表达的内容对应到数字以形成相应的数据集合。2.寻找相近的用户(Finding Similar Users)有了人们偏好的数据集后,我们需要有一种方法来确定人们在品位方面的相似程度。为此,我们可以将每
5、个人与所有其他人进行对比,并计算他们的相似度评价值。有若干种方法可以达到此目的:欧几里德距离(Euclidean Distance Score)、皮尔逊相关度(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)、调整余弦相似性(Adjusted Cosine Similarity)、Jaccard系数或曼哈顿距离算法等。请记住,各种相似度的计算方法各有所长,要根据具体的应用场景来选取一种或几种综合使用。下面以实际例子简单介绍两种:欧几里德距离(Euclidean Distance Score):它以经过人们一致评价的物品
6、为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离远近。x轴、y轴分别代表电影Dupree和Snake,而在第一象限偏好空间里的则是每个人对这两部电影的评分。不难发现,Toby对Snakes和Dupree这两部电影的评分是4.5和1.0,而LaSalle的则是4.0和2.0。按照欧几里德距离的结论,偏好越相似的人,其在偏好空间的距离就越短。至于如何计算两者的距离,运用你初中学的几何知识就行,计算两点每个坐标的差值,求平方后再相加,最后对总和取平方根。值得一提的是此方法对于数量多于两项的评分也同样适用。因此,你可以设计一个函数来计算2个用户间的相似度,当然前提是两者需要有一定重合的评
7、分项。皮尔逊相关度(Pearson Correlation Score):它的原理是通过判断两组数据与某一直线拟合程度来判断相似度。它在数据不是很规范(normalized)的时候,如影评者对影片的评价总是相对于平均水平偏离很大时,会倾向于给出更好的结果。如下图是Mick LaSalle和Gene Seymour分别对5部电影的评分(与上图不同,x轴和y轴对应的是两个人),虚线被称为最佳拟合线(best-fit line),其绘制原则是尽可能地靠近图上的所有坐标点。如果两位评论者对所有影片的评分情况都相同,那么这条直线将成为对角线,并且会与图上所有的坐标点都相交。下图展示了一个有着更高相关系数
8、的例子,这意味着Lisa Rose和Jack Matthews在这几部电影上有着更高的相似度(各点更靠近最佳拟合曲线)。采用皮尔逊方法可以修正“夸大分值(grade inflation)”的情况。在上图中,虽然Jack总是倾向于给出比Lisa更高的分数,但最终的直线仍然拟合度较高,这是因为他们两者有着相对近似的偏好。也就是说,如果某人总是倾向于给出比另一人更高的分数,而两者的分差又始终保持一致,则他们依然可能会存在很好的相关性。而此前提到过的欧几里德距离评价方法,会因为一个人的评价始终比另一个人更为“严格”(从而导致评价始终相对较低),而得出两者不相近的结论,即使他们的品位很相似也是如此。而这
9、一行为是否是我们想要的结果,取决于具体的应用场景。皮尔逊的相关度算法首先会找出两位评论者都曾评价过的物品,然后计算两者的评分总和和平方和,并求得评分的乘积之和。最后,利用这些计算结果计算出相关系数:PS:公式能看懂,但我还未能从数学上去理解此公式的推导过程,惭愧-_-|3.为评论者打分(Ranking the Critics)理解了上一步后,这步就简单了。现在只需根据指定的人员对每个人进行打分,找出最接近的匹配结果,也即所谓该人的最近邻。回到上面的例子,我们的目的是要寻找与自己品位相似的影评者,那么所需要做的就是以你自己为基准,计算每个人和你的相似度,然后排序输出前几项即可。现在假设你是Tob
10、y,那么经过这一步的计算你会得到一个你的最近邻列表,也就是说你可能会知道Lisa、Mick和Claudia可能是和你品位最相近的3个人。4.推荐物品(Recommending Items)找到一位和你趣味相投的影评者固然不错,但我们的最终目的是一份影片的推荐列表(上面提到过的以内容推荐为最终目的)。当然,简单的做法是查找与自己品位最相近的人,并从他所喜欢的影片中找出一部自己还未看过的影片,但这样做有些随意或者是粗糙。因为如果该人还未对某些影片做过评论,但这些影片也许就是我们所喜欢的。又或者另外的一种情况就是推荐给你某人特别热衷的一部影片,但有其他可靠数据表明所有的其他评论者都不看好这部影片。为
11、了解决上述问题,我们需要一个经过加权的评价值来为影片打分:上图中Critic列是与Toby进行相似度对比的人名,Similarity列表示他们与Toby的相似度系数。Night、Lady和Luck都是电影名,所在列是这些人对这些电影的评分。S.x打头的那几列给出了相似度系数和评分后相乘的结果。如此一来,相比于我们不相近的人,那些与我们相近的人将会对整体评价拥有更多的贡献。那有人会问为什么不直接采用Total这行,而需要Total/Sim.Sum?这是因为,一部受更多人评论的影片会对结果产生更大的影响,因此我们必须要除以Sim.Sum,它代表了所有对这部电影有过评论的评论者的相似度之和。就像Night这部电影,Total为12.89,有5个人为其评分,而Lady为8.38,4个人评分。假设电影Night有和当前相同的Total分数却多了一倍的人为其评分,那最后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国安全控制系统行业应用状况及投资模式分析报告
- 2024-2030年中国婴幼儿产品市场竞争力策略及投资盈利分析报告
- 2024-2030年中国大提花贡缎行业竞争格局及前景趋势预测报告
- 2024-2030年中国台阶镗刀行业市场发展规模及投资可行性分析报告
- 眉山药科职业学院《国际商务谈判实务》2023-2024学年第一学期期末试卷
- 2024年昆明住宅购买合同
- 2024年渔业供货合同
- 主镜头和关系镜头
- 2024年度网络安全防护技术支持服务合同范本3篇
- 吕梁师范高等专科学校《食品生物技术专题》2023-2024学年第一学期期末试卷
- 八年级道法上册第一学期期末综合测试卷(人教版 2024年秋)
- 2025届江苏省期无锡市天一实验学校数学七年级第一学期期末达标检测试题含解析
- UG基础培训课件
- 城市轨道交通运营管理【共30张课件】
- 钢结构设计智慧树知到期末考试答案章节答案2024年山东建筑大学
- 2024年广东省广州市荔湾区中考一模语文试题
- 人教版四年级上册数学数学复习资料
- TD/T 1066-2021 不动产登记数据库标准(正式版)
- 睡眠中心宣传方案
- 2024春期国开电大专科《建筑制图基础》在线形考(形考性考核作业一至四)试题及答案
- 论《国际货物销售合同公约》的适用问题
评论
0/150
提交评论