版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第12章推荐算法目录CONTENTS12.1推荐系统简介12.2基于最近邻的协同过滤推
荐算法原理与实现12.3基于隐语义分析的推荐模型12.4基于标签的推荐算法12.5本章小结12.1推荐系统简介学习基础学习认知能力信息素养高搜索引擎在一定程度上缓解了信息过载带来的问题,但在海量的信息中想要找到用户满意的内容也是非常耗时的。此外,搜索引擎是根据用户提供的关键词或关键短语被动地为用户提供检索结果,不同用户提供的关键词或关键短语相同,检索结果也会相同,未体现出用户的个性化需要。推荐系统根据用户偏好特点,主动为用户提供符合个性化需求的信息内容,而不需要用户提供关键词或关键短语。有报告显示,2019年我国数据产量总规模为3.9ZB,相当于3.9万亿GB,同比增加29.3%。按容量算,这些数据可填满1245亿个32GB的iPad。人均数据产量为3TB,相当于每人每天产生超8个GB的数据,同比增加25%。12.1推荐系统简介基于物品的协同过滤、基于内容的推荐、基于矩阵分解的协同过滤、基于社交关系的推荐、基于深度学习等一些代表性的推荐算法被提出,推荐系统的发展历程如图12-1所示。12.1推荐系统简介一个完整的推荐系统由三部分组成:用户、推荐方法和项目资源,如图12-2所示。12.1推荐系统简介协同过滤是目前应用最为广泛、最为成功的推荐技术之一。按照实现策略,协同过滤推荐算法分为两类:基于内存的协同过滤和基于模型的协同过滤。由于基于模型的推荐算法主要计算代价是在离线阶段完成,在线计算工作量较少,可在很短的时间内完成推荐,因此可应用于大规模数据集上。按照推荐策略和数据来源,推荐算法可分为以下几类:协同过滤推荐、基于内容的推荐、基于关联规则的推荐、基于知识的推荐和基于社交网络的推荐。各类推荐算法的优势及局限性如表12-1所示。12.1推荐系统简介12.1推荐系统简介12.1.4推荐系统的评估方法1.数据集目前,网络上存在很多用于推荐系统研究的公开数据集,如Movielens、Epinions、Tencent、Douban、Flixster、Bookcrossing、Ciao、FilmTrust等。按照是否包含社交关系信息,这些数据可分为两类:具有直接社交关系的数据集和不具有直接社交关系的数据集。Epinions、Tencent、Douban等包含有社交关系,Movielens不包含社交关系信息。12.1推荐系统简介2.评测方法平均绝对误差和均方根误差是最常用的衡量推荐准确率好坏的方法,通过计算预测评分与真实评分的偏离程度衡量预测结果是否准确。平均绝对误差计算公式如下:precision@N(P@N)和recall@N(R@N也是常用来评估推荐系统准确率的评价指标。12.1推荐系统简介准确率和召回率的评估方法描述如下:多样性定义12.2基于最近邻的协同过滤推荐算法原理与实现基于近邻用户的协同过滤推荐的主要思想就是利用近邻用户的观点进行推荐,其可以描述为:当需要为一个用户A进行个性化推荐时,可先找到和用户A有相似兴趣的其他用户,然后把那些用户喜欢的、而用户A没有的物品推荐给A。12.2基于最近邻的协同过滤推荐算法原理与实现2.Top-N推荐Top-N推荐的数据来源一般是隐式的交互行为,这些隐式的行为也可以量化为具体的用户对物品的偏好程度。两个用户对各个项目的评分可分别用u和v表示,他们的余弦相似性可通过夹角余弦值度量:12.2基于最近邻的协同过滤推荐算法原理与实现(2)获取候选项目集合在确定了近邻用户集合后,可根据近邻用户集合中每个用户喜欢的物品与目标用户喜欢的物品进行对比,将目标用户没有发现过的物品作为候选项目集合。(3)计算目标用户对项目的兴趣度12.2基于最近邻的协同过滤推荐算法原理与实现3.评分预测对于显式的用户评分,在推荐过程中,通常先利用用户的近邻关系来为目标用户对未知项目进行评分预测,再根据预测评分大小产生推荐列表。与Top-N推荐的主要区别体现在计算用户之间的相似性方法与预测评分的方法上。12.2基于最近邻的协同过滤推荐算法原理与实现【例12-1】根据下面的用户对电影的评分数据,利用基于用户的协同过滤推荐算法为用户“冯小宁”推荐可能喜欢的影片。评分数据用Python字典表示如下:{'刘娜':{'马迭尔旅馆的枪声':2.5,'长津湖':3.5,'集结号':3.0,'今年这个夏天有异性':3.5,'东京爱情攻略':2.5,'熊出没':3.0},'吴林':{'马迭尔旅馆的枪声':3.0,'长津湖':3.5,'集结号':1.5,'今年这个夏天有异性':5.0,'熊出没':3.0,'东京爱情攻略':3.5},'冯小宁':{'马迭尔旅馆的枪声':2.5,'长津湖':4.0,'今年这个夏天有异性':3.5,'熊出没':4.0},12.2基于最近邻的协同过滤推荐算法原理与实现defrecomand2(self,user,n=1):item={}ave=dict()w_uv={}fornear_u,sindict(self.get_nearst_user(user,n)).items():#最相近的N个用户
print("推荐的用户:",(near_u,s))print(self.data[near_u],len(near_u))pre_rating=0.0form,ratingsinself.data[near_u].items():#推荐的用户的电影列表
ifmnotinself.data[user].keys():#当前user没有看过
ifmnotinitem.keys():item[m]={}item[m][near_u]=ratingsave[near_u]=float(sum(self.data[near_u].values()))/len(near_u)w_uv[near_u]=self.pearson(self.data[user],self.data[near_u])12.2基于最近邻的协同过滤推荐算法原理与实现12.2.2基于近邻项目的协同过滤推荐12.2基于最近邻的协同过滤推荐算法原理与实现余弦相似性计算两个项目的相似度。用户对项目的感兴趣程度:余弦相似度:12.3基于隐语义分析的推荐模型假设用户-项目评分矩阵为R,用户潜在因子矩阵为P,项目潜在特征因子矩阵为Q,则有:R为已知矩阵,P和Q是需要我们所要求解的矩阵。为了得到最优的P和Q,采用最小二乘法,使真实值R与预测值的误差最小即:
利用梯度下降法训练参数:12.3基于隐语义分析的推荐模型defrecommend(pre_list,k):#pre_list为排好序的项目列表,k为推荐的项目数量
recommend_list=[]#推荐列表
len=len(pre_list)ifk>=len:recommend_list=pre_listelse:foriinrange(k):recommend_list.append(pre_list[i])returnrecommend_list12.3基于隐语义分析的推荐模型迭代次数:0损失值:13.561690756251004迭代次数:4000损失值:0.11730824185649366推荐[(4,4.138192050686209),(2,3.5157664788522753)]预测的评分矩阵[[4.968252033.106006483.515766482.891672354.13819205][3.043441043.323938763.063317572.060513014.88266383][3.999693451.956655413.950659952.668899063.03512292][3.93402342.970954922.287813712.121575873.65345007][4.193748553.911016582.954715912.350897885.0648346]]12.4基于标签的推荐算法一个最简单的标签推荐系统就是利用用户给物品标注的情况,预测用户对物品感兴趣的程度:基于TF-IDF对以上用户对物品感兴趣的情况进行改进,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《利用农杆菌介导法将类胡萝卜素合成酶基因LycB导入番茄、菊花的研究》
- 《半导体异质结构光催化剂的制备及性能研究》
- 大班家长会第一学期发言稿范文(6篇)
- 2024至2030年计算机网上阅卷系统项目投资价值分析报告
- 2024至2030年中国环保防锈清漆行业投资前景及策略咨询研究报告
- 建筑施工设备供货实施方案
- 节假日旅游路线标志牌方案
- 交通事故处理费用协议书
- 旅游业网络信息安全方案
- 永辉超市部标准流程
- TCALC 003-2023 手术室患者人文关怀管理规范
- 航天工程的技术规范与质量管理
- 2024年上海市第二十七届初中物理竞赛初赛试题及答案
- 红旗汽车促销策划方案
- 小学科学人教鄂教版四年级上册期末练习题(2022秋)(附参考答案)
- 开展优生优育知识讲座
- 大数据分析与市场预测模型
- 《中国的海洋资源》示范课教学设计【湘教版八年级地理上册】
- 城市污水处理厂水质检测与安全生产
- 《食品毒理学》课件
- 消化系统常见疾病及护理
评论
0/150
提交评论