机器学习算法分享-《SVD》教学课件_第1页
机器学习算法分享-《SVD》教学课件_第2页
机器学习算法分享-《SVD》教学课件_第3页
机器学习算法分享-《SVD》教学课件_第4页
机器学习算法分享-《SVD》教学课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SVD特征值奇异值12SVD特征值12NetflixPrize背景介绍目标:悬赏100万美元,将Netflix的推荐算法预测准确度提高10%。数据结构:用户ID、电影名称、日期、分数(1-5之间的整数)训练数据:48万用户对两万部电影的上亿条评分包括一个与测试数据集分布相同的probe数据集,包含06年附近140多万条的数据点,每个用户至少对9部电影进行了打分,服从正态分布。测试数据:280万个数据点(隐藏的,参赛选手不能获得,并且参赛选手自己也不能获得自己模型作用在测试数据集上的最终效果)评测标准:均方误差根CineMatch精度:0.95122022/11/25NetflixPrize背景介绍目标:22022/11/2数据示例132022/11/25数据示例132022/11/22数据示例2

movie1movie2movie3movie4movie5movie6movie7movie8movie9movie10user11212442231user22211111321user31222341122user42431133114user54112132344user64133234444user71444211124user83142212231user92212344411user104332242123黄色数据点代表probe数据集,用于参赛选手自己做测试用蓝色数据点代表最终的测试数据,对参赛的人来说是隐藏的42022/11/25数据示例2movie1movie2movie3movie4矩阵运算(1)52022/11/25矩阵运算(1)52022/11/22矩阵运算(2)m×nn×mm×mn×mm×nn×n62022/11/25矩阵运算(2)m×nn×mm×mn×mm×nn×n62022矩阵运算(3)72022/11/25矩阵运算(3)72022/11/22线性空间线性空间:“客观”存在的一种空间,对加法和数乘具有封闭性。向量:既有大小又有方向的量,同时没有起点线性空间的基:描述空间内向量的一组“特殊”的向量,空间内的所有向量都能被一组基的线性组合表示。举例:直线就是一维的线性空间,平面就是二维线性空间,三维立体空间就是三维线性空间。82022/11/25线性空间线性空间:“客观”存在的一种空间,对加法和数乘具有封线性空间的基x=(1,0),y=(0,1),c(5,3)=5x+3y,则c在基x,y下的坐标为(5,3);a=(1.5,1.5),b=(2,0),c=(5,3)=2a+b,则c基a,b下的坐标为(2,1);基实际就是一组人为规定的参照物,用来描述空间内的其他向量92022/11/25线性空间的基基实际就是一组人为规定的参照物,用来描述空间内的线性映射&线性变换空间内的线性映射称之为线性变换。102022/11/25线性映射&线性变换空间内的线性映射称之为线性变换。10202线性变换的矩阵表示112022/11/25线性变换的矩阵表示112022/11/22线性变换二维空间上,对(x,y)做变换:对应矩阵A122022/11/25线性变换二维空间上,对(x,y)做变换:对应矩阵A12202求解特征值132022/11/25求解特征值132022/11/22求解特征向量142022/11/25求解特征向量142022/11/22特征值的几何意义(1)152022/11/25特征值的几何意义(1)152022/11/22特征值的几何意义(2)162022/11/25特征值的几何意义(2)162022/11/22特征值的几何意义(3)172022/11/25特征值的几何意义(3)172022/11/22对角化变换(特征值分解)如果线性变换的特征向量可以构成线性空间的一组基,那么有表示线性变换(矩阵)可以由其特征根和特征向量还原182022/11/25对角化变换(特征值分解)如果线性变换的特征向量可以构成线性空方阵还原矩阵维度相当大时,可以用对角化变化的方法来逼近矩阵:特征向量:矩阵的特征特征值:各特征所占的权重192022/11/25方阵还原矩阵维度相当大时,可以用对角化变化的方法来逼近矩阵:思考1特征值分解使用条件有限,仅适用于方阵,且要求是实对称矩阵。试想:如果需要分析的矩阵不是方阵(事实经常如此),该怎样处理呢?202022/11/25思考1特征值分解使用条件有限,仅适用于方阵,且要求是实对称矩SVD简介SVD:奇异值分解SVD可以看做是特征值分解的一种推广,或者说特征值分解可以看作是SVD的一种特例。当矩阵不是方阵时同样适用,应用很广。212022/11/25SVD简介SVD:奇异值分解212022/11/22SVD分解(1)非零奇异值,从大到小依次排序左奇异向量右奇异向量222022/11/25SVD分解(1)非零奇异值,从大到小依次排序左奇异向量右奇异SVD分解(2)奇异值从大到小依次排序232022/11/25SVD分解(2)奇异值从大到小依次排序232022/11/2SVD分解(3)奇异值从大到小依次排序242022/11/25SVD分解(3)奇异值从大到小依次排序242022/11/2SVD算法解析

可以看作是矩阵A的“平方”,而奇异值又是A“平方”阵的特征根的开方,因此奇异值可以看作是矩阵A的“伪特征向量”,左奇异向量可以看作矩阵A的“行特征向量”,右奇异向量可以看作是矩阵A的“列特征向量”。奇异值从大到小依次排序252022/11/25SVD算法解析可以看作是矩阵A的“平方”,而奇异值又SVD矩阵近似(1)奇异值从大到小依次排序262022/11/25SVD矩阵近似(1)奇异值从大到小依次排序262022/11SVD矩阵近似(2)272022/11/25SVD矩阵近似(2)272022/11/22SVD应用—推荐算法会员电影喜剧恐怖偏好ID宿醉东成西就大话西游八星报喜午夜凶铃咒怨林中小屋寂静岭喜剧至尊宝44552323.75小小宝55542231流氓兔54452312霹*雳54553212中原不败45542132恐怖魂飞魄散123253.87555荒村少年31224544憨豆豆21324545怪大叔22315554美味僵尸13214545282022/11/25SVD应用—推荐算法会员电影喜剧恐怖偏好ID宿醉东成西就大话SVD——矩阵变换44552323.7555542231544523125455321245542132123253.875553122454421324545223155541321454545554132214544521123554553233254554222112223254454323213.875555523113544543.75122254545126115133121909584881151171291138890868813312915113111111410711212111313112186907988908811186123128119125959011490128142124135848610779119124122122888811288125135122134292022/11/25SVD——矩阵变换44552323.755554223154SVD——求奇异值由于奇异值(特征的权重)下降的速度非常快,表明矩阵的信息量集中分布在前几个较大的特征值中,本例中提取前2个特征。302022/11/25SVD——求奇异值由于奇异值(特征的权重)下降的速度非常快,SVD——右奇异向量解析可以看作电影的本身的精彩程度的特征可以看做有关电影影片类型的特征影片类型片名特征1(29.7)特征2(11.4)得分均值喜剧宿醉0.340.393.20东成西就0.330.343.10大话西游0.400.293.70八星报喜0.330.403.10恐怖午夜凶铃0.35-0.313.30咒怨0.37-0.373.49林中小屋0.34-0.343.20寂静岭0.36-0.373.38312022/11/25SVD——右奇异向量解析可以看作电影的本身的精彩程度的特征可SVD——左奇异向量解析可以看做是会员的打分习惯特征可看做是会员对影片类型偏好的特征偏好ID特征1(29.7)特征2(11.4)打分平均值喜剧至尊宝0.340.233.59小小宝0.320.343.38流氓兔0.310.323.25霹*雳0.320.353.38中原不败0.310.313.25恐怖魂飞魄散0.32-0.333.36荒村少年0.30-0.273.13憨豆豆0.31-0.313.25怪大叔0.32-0.343.38美味僵尸0.30-0.343.13322022/11/25SVD——左奇异向量解析可以看做是会员的打分习惯特征可看做是SVD——模型打分(1)··29.711.4宿醉午夜凶铃东成西就寂静岭大话西游八星报喜各部分得分权重计算至尊宝对《寂静岭》的评分至尊宝0.340.23小小宝0.320.34流氓兔0.310.32霹*雳0.320.35中原不败0.310.31魂飞魄散0.32-0.33荒村少年0.30-0.27憨豆豆0.31-0.31怪大叔0.32-0.34美味僵尸0.30-0.340.340.330.400.330.350.370.340.360.390.340.290.40-0.31-0.37-0.34-0.37咒怨林中小屋影片相对客观分数影片类型适应度得分得分332022/11/25SVD——模型打分(1)··29.711.4宿醉午夜凶铃东成SVD——模型打分(2)··29.711.4宿醉午夜凶铃东成西就寂静岭大话西游八星报喜影片相对客观分数影片类型适应度得分得分各部分得分权重计算魂飞魄散对《咒怨》的评分至尊宝0.340.23小小宝0.320.34流氓兔0.310.32霹*雳0.320.35中原不败0.310.31魂飞魄散0.32-0.33荒村少年0.30-0.27憨豆豆0.31-0.31怪大叔0.32-0.34美味僵尸0.30-0.340.340.330.400.330.350.370.340.360.390.340.290.40-0.31-0.37-0.34-0.37咒怨林中小屋342022/11/25SVD——模型打分(2)··29.711.4宿醉午夜凶铃东成SVD结果简要测评至尊宝的观影历史显示其对喜剧类的电影评分较高,对恐怖电影普遍评分较低,因此可以推测他应该是不喜欢看《寂静岭》的,模型给出的打分为2.6,与实际情况是相符的。魂飞魄散的观影历史显示其对恐怖类的电影评分较高,对喜剧电影普遍评分较低,因此可以推测他应该是很喜欢看《寂静岭》的,模型给出的打分为4.9,与实际情况是相符的。偏好ID宿醉东成西就大话西游八星报喜午夜凶铃咒怨林中小屋寂静岭喜剧至尊宝44552322.6恐怖魂飞魄散123254.955352022/11/25SVD结果简要测评至尊宝的观影历史显示其对喜剧类的电影评分较SVD特征值奇异值362SVD特征值12NetflixPrize背景介绍目标:悬赏100万美元,将Netflix的推荐算法预测准确度提高10%。数据结构:用户ID、电影名称、日期、分数(1-5之间的整数)训练数据:48万用户对两万部电影的上亿条评分包括一个与测试数据集分布相同的probe数据集,包含06年附近140多万条的数据点,每个用户至少对9部电影进行了打分,服从正态分布。测试数据:280万个数据点(隐藏的,参赛选手不能获得,并且参赛选手自己也不能获得自己模型作用在测试数据集上的最终效果)评测标准:均方误差根CineMatch精度:0.951372022/11/25NetflixPrize背景介绍目标:22022/11/2数据示例1382022/11/25数据示例132022/11/22数据示例2

movie1movie2movie3movie4movie5movie6movie7movie8movie9movie10user11212442231user22211111321user31222341122user42431133114user54112132344user64133234444user71444211124user83142212231user92212344411user104332242123黄色数据点代表probe数据集,用于参赛选手自己做测试用蓝色数据点代表最终的测试数据,对参赛的人来说是隐藏的392022/11/25数据示例2movie1movie2movie3movie4矩阵运算(1)402022/11/25矩阵运算(1)52022/11/22矩阵运算(2)m×nn×mm×mn×mm×nn×n412022/11/25矩阵运算(2)m×nn×mm×mn×mm×nn×n62022矩阵运算(3)422022/11/25矩阵运算(3)72022/11/22线性空间线性空间:“客观”存在的一种空间,对加法和数乘具有封闭性。向量:既有大小又有方向的量,同时没有起点线性空间的基:描述空间内向量的一组“特殊”的向量,空间内的所有向量都能被一组基的线性组合表示。举例:直线就是一维的线性空间,平面就是二维线性空间,三维立体空间就是三维线性空间。432022/11/25线性空间线性空间:“客观”存在的一种空间,对加法和数乘具有封线性空间的基x=(1,0),y=(0,1),c(5,3)=5x+3y,则c在基x,y下的坐标为(5,3);a=(1.5,1.5),b=(2,0),c=(5,3)=2a+b,则c基a,b下的坐标为(2,1);基实际就是一组人为规定的参照物,用来描述空间内的其他向量442022/11/25线性空间的基基实际就是一组人为规定的参照物,用来描述空间内的线性映射&线性变换空间内的线性映射称之为线性变换。452022/11/25线性映射&线性变换空间内的线性映射称之为线性变换。10202线性变换的矩阵表示462022/11/25线性变换的矩阵表示112022/11/22线性变换二维空间上,对(x,y)做变换:对应矩阵A472022/11/25线性变换二维空间上,对(x,y)做变换:对应矩阵A12202求解特征值482022/11/25求解特征值132022/11/22求解特征向量492022/11/25求解特征向量142022/11/22特征值的几何意义(1)502022/11/25特征值的几何意义(1)152022/11/22特征值的几何意义(2)512022/11/25特征值的几何意义(2)162022/11/22特征值的几何意义(3)522022/11/25特征值的几何意义(3)172022/11/22对角化变换(特征值分解)如果线性变换的特征向量可以构成线性空间的一组基,那么有表示线性变换(矩阵)可以由其特征根和特征向量还原532022/11/25对角化变换(特征值分解)如果线性变换的特征向量可以构成线性空方阵还原矩阵维度相当大时,可以用对角化变化的方法来逼近矩阵:特征向量:矩阵的特征特征值:各特征所占的权重542022/11/25方阵还原矩阵维度相当大时,可以用对角化变化的方法来逼近矩阵:思考1特征值分解使用条件有限,仅适用于方阵,且要求是实对称矩阵。试想:如果需要分析的矩阵不是方阵(事实经常如此),该怎样处理呢?552022/11/25思考1特征值分解使用条件有限,仅适用于方阵,且要求是实对称矩SVD简介SVD:奇异值分解SVD可以看做是特征值分解的一种推广,或者说特征值分解可以看作是SVD的一种特例。当矩阵不是方阵时同样适用,应用很广。562022/11/25SVD简介SVD:奇异值分解212022/11/22SVD分解(1)非零奇异值,从大到小依次排序左奇异向量右奇异向量572022/11/25SVD分解(1)非零奇异值,从大到小依次排序左奇异向量右奇异SVD分解(2)奇异值从大到小依次排序582022/11/25SVD分解(2)奇异值从大到小依次排序232022/11/2SVD分解(3)奇异值从大到小依次排序592022/11/25SVD分解(3)奇异值从大到小依次排序242022/11/2SVD算法解析

可以看作是矩阵A的“平方”,而奇异值又是A“平方”阵的特征根的开方,因此奇异值可以看作是矩阵A的“伪特征向量”,左奇异向量可以看作矩阵A的“行特征向量”,右奇异向量可以看作是矩阵A的“列特征向量”。奇异值从大到小依次排序602022/11/25SVD算法解析可以看作是矩阵A的“平方”,而奇异值又SVD矩阵近似(1)奇异值从大到小依次排序612022/11/25SVD矩阵近似(1)奇异值从大到小依次排序262022/11SVD矩阵近似(2)622022/11/25SVD矩阵近似(2)272022/11/22SVD应用—推荐算法会员电影喜剧恐怖偏好ID宿醉东成西就大话西游八星报喜午夜凶铃咒怨林中小屋寂静岭喜剧至尊宝44552323.75小小宝55542231流氓兔54452312霹*雳54553212中原不败45542132恐怖魂飞魄散123253.87555荒村少年31224544憨豆豆21324545怪大叔22315554美味僵尸13214545632022/11/25SVD应用—推荐算法会员电影喜剧恐怖偏好ID宿醉东成西就大话SVD——矩阵变换44552323.7555542231544523125455321245542132123253.875553122454421324545223155541321454545554132214544521123554553233254554222112223254454323213.875555523113544543.75122254545126115133121909584881151171291138890868813312915113111111410711212111313112186907988908811186123128119125959011490128142124135848610779119124122122888811288125135122134642022/11/25SVD——矩阵变换44552323.755554223154SVD——求奇异值由于奇异值(特征的权重)下降的速度非常快,表明矩阵的信息量集中分布在前几个较大的特征值中,本例中提取前2个特征。652022/11/25SVD——求奇异值由于奇异值(特征的权重)下降的速度非常快,SVD——右奇异向量解析可以看作电影的本身的精彩程度的特征可以看做有关电影影片类型的特征影片类型片名特征1(29.7)特征2(11.4)得分均值喜剧宿醉0.340.393.20东成西就0.330.343.10大话西游0.400.293.70八星报喜0.330.403.10恐怖午夜凶铃0.35-0.313.30咒怨0.37-0.373.49林中小屋0.34-0.343.20寂静岭0.36-0.373.38662022/11/25SVD——右奇异向量解析可以看作电影的本身的精彩程度的特征可SVD——左奇异向量解析可以看做是会员的打分习惯特征可看做是会员对影片类型偏好的特征偏好ID特征1(29.7)特征2(11.4)打分平均值喜剧至尊宝0.340.233.59小小宝0.320.343.38流氓兔0.310.323.25霹*雳0.320.353.38中原不败0.310.313.25恐怖魂飞魄散0.32-0.333.36荒村少年0.30-0.273.13憨豆豆0.31-0.313.25怪大叔0.32-0.343.38美味僵尸0.30-0.343.13672022/11/25SVD——左奇异向量解析可以看做是会员的打分习惯特征可看做是SVD——模型打分(1)··29

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论