




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
..一,常用推荐系统算法总结1、Itemcf(基于商品的协同过滤)这个算法是cf中的一种,也是当今很多大型都在采用的核心算法之一。对于商城(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在),影视类推荐,图书类推所以推荐的item一般都和喜欢的item容或者特性高度相似,很难推荐出用户潜在喜欢的item,多样性也比较差。2、Usercf(基于用户的协同过滤)这个是cf中的另外一种,它的主要特色是可以发现和用户具有同样taste的人,有句item推荐给该用户。因为用户的相似用户群还是比较敏感的,所以要频繁地计算出用户的相似用户矩阵,这样的话运算量会非常大。而且这个算法往往推荐出来的item很多都是大家都喜欢的比较hot的item,有的时候它提供的结果并不是个性化,反而成了大众化的推阅”为代表的),或者笑话类推荐(以“冷笑话精选”为代表的)。当然这种算法的一个中间产物-----用户相似度矩阵是一个很有用的东西,社交类的可以利用这个中间产物来为用户提供相同品位的好友推荐。3、Content_based(基于容的推荐)的相似度矩阵,即共同的keywords越多,两篇资讯的相似度越高。当你的用户很少很少,比如让他输入一些感兴趣的话题啊,或者对以前看过的电影打分什么的。(当然这些电影都的评分矩阵,只需要知道用户喜欢什么,就可以很快速地推荐给用户十分相关的item。这个算法需要每天都要根据你抓取的资讯,不断地计算item之间的相似性。这个算法有个好处在于可以从容应对上面的两个算法其实都很难应对的问题,就是如果你想推出一个新的item,因为没有一个人有对这个newitem的评分,所以上述的两个算法不可能推荐新的东西给你,但你可以用基于容的算法将新的item计算出它属于哪个类,然后时不时地推出你.....4、Knn(邻近算法)KK最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是的大多数属于某一个类别,则该样本也属于这个类别。KNN算而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集5、SlopeOne推荐系统的最最本质的事情就是把user-itemrating矩阵中的空白填好,看穿这个本UserXYARatingtoItem1544RatingtoItem233?SlopeOne((5-3)+(4-3))/2=2.5.结果趋向一致,也就是大数的平均值,也即大众的平均口味。6、Svd(奇异值分解)分解的方法。其实,这个方法是提取一般实矩阵“特征值”的算法,(这里特征值加引号是因为,特征值是针对方阵来定义的,而一般的m*n的实矩阵是没有特征值的。)其实,矩阵缩同时也做平移。那么特征值和特征向量又是什么?一个特征向量就是表示其中的一个变换奇异值又是什么?我觉得奇异值就是特征值从方阵往一般实矩阵的一个推广。你将一个m*n........阵进行降维和分解,而分解后得到的矩阵都是稠密矩阵。最终我们会得到一个表示user特性的矩阵和一个表示item特性的矩阵。拿到这些数据之后,我们就可以进行推荐了,而且同时可以降低矩阵的维度,提高运算速度。但它的缺点是付出的空间代价太大。在做svd分解时,你需要先把一个大的rating矩阵分解成三个大的矩阵,这三个矩阵需要存在计算机存中,然后才能进行降维。其实,svd这个方法的思路和PCA(主成分分析法)很像,抓住主要矛盾,忽略次要矛盾。分解降维后的矩阵非常约等于原来的矩阵。这里用到的聚类算法,是用来降低维度以及为并行计算作准备的。拿到rating矩阵之非常有意义,你可以作好友推荐,相似item推荐等等。在基于容的算法中,因为很多资讯之间并不是那么的相关,把他们都相互计算相似度,会得到很多的0,所以没有必要。因此可以在计算之前,对整个item做个聚类,然后分别对各簇来做相似度计算。聚类算法中,我用过性能最好的也是最简单的就是k-means。、组合算法往是将各种算法组合起来用。一种方式是:将多种算法计算出来的结果,加权之后排序推荐给用户。推荐。这种叫做层次推荐,可以得到两种方法的好处。一种方式是:对新用户做基于容的推荐,因为新用户没有任何评分数据,对老用户用…….....1.训练集大小对于推荐性能的影响训练集大小(%)MAE0.717181490.730059250.774832220.830929470.98020104,如下图所示:由此可知,训练集越大,则推荐的准确率越高。..2.不同相似度度量对性能的影响相似度度量方法MAE皮尔逊相关系数0.86158483曼哈顿距离0.82744657几里德距离0.80844643对数似然值相似度0.807506070.78540776余弦相似度0.81422523别不大。3.不同推荐算法的性能.....推荐算法推荐算法UserCFSlopeOneKNN(k=5)D(ComputeSVDusingEMAlgorithm:learningrate=0.005,overfittingprevention=0.02,randomnoise=0.005,epoch=20)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论