![第九届机器学习_第1页](http://file4.renrendoc.com/view/f22c19521e5d8b535656e196901c7780/f22c19521e5d8b535656e196901c77801.gif)
![第九届机器学习_第2页](http://file4.renrendoc.com/view/f22c19521e5d8b535656e196901c7780/f22c19521e5d8b535656e196901c77802.gif)
![第九届机器学习_第3页](http://file4.renrendoc.com/view/f22c19521e5d8b535656e196901c7780/f22c19521e5d8b535656e196901c77803.gif)
![第九届机器学习_第4页](http://file4.renrendoc.com/view/f22c19521e5d8b535656e196901c7780/f22c19521e5d8b535656e196901c77804.gif)
![第九届机器学习_第5页](http://file4.renrendoc.com/view/f22c19521e5d8b535656e196901c7780/f22c19521e5d8b535656e196901c77805.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
线性回归与Logistic回归邹伟2/83主要内容线性回归高斯分布最大似然估计MLE最小二乘法的本质Logistic回归分类问题的首选算法多分类:Softmax回归目标函数技术点梯度下降算法最大似然估计特征选择3/83股价预测方法:自回归参数:100阶4/83生猪价格预测背景生猪期货价格波动剧烈大/中型养殖户为主直接意义:预测半年到一年后的生猪价格,对当前养殖规模的确定有重大决策意义。模型实践:蓝色曲线为历史生猪价格,用于建模;绿色曲线为回测数据,用于验证模型;红色曲线为模型预测结果。5/83线性回归y=ax+b6/83多个变量的情形考虑两个变量7/83使用极大似然估计解释最小二乘误差ε(i)(1≤i≤m)是独立同分布的,服从均值为0,方差为某定值σ2的高斯分布。原因:中心极限定理8/83中心极限定理的意义实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。城市耗电量:大量用户的耗电量总和测量误差:许多观察不到的、微小误差的总和注:应用前提是多个随机变量的和,有些问题是乘性误差,则需要鉴别或者取对数后再使用。9/83似然函数10/83高斯的对数似然与最小二乘11/83话题:聊聊“假设”机器学习中的建模过程,往往充斥着假设,合理的假设是合理模型的必要前提。假设具有三个性质:内涵性简化性发散性12/83假设的内涵性所谓假设,就是根据常理应该是正确的。如假定一个人的身高位于区间[150cm,220cm],这能够使得大多数情况都是对的,但很显然有些篮球运动员已经不属于这个区间。所以,假设的第一个性质:假设往往是正确的但不一定总是正确。我们可以称之为“假设的内涵性”。13/83假设的简化性假设只是接近真实,往往需要做若干简化。如,在自然语言处理中,往往使用词袋模型(BagOfWords),认为一篇文档的词是独立的——这样的好处是计算该文档的似然概率非常简洁,只需要每个词出现概率乘积即可。但我们知道这个假设是错的:一个文档前一个词是“正态”,则下一个词极有可能是“分布”,文档的词并非真的独立。这个现象可以称之为“假设的简化性”。14/83假设的发散性在某个简化的假设下推导得到的结论,不一定只有在假设成立时结论才成立。如,我们假定文本中的词是独立的,通过朴素贝叶斯做分类(如垃圾邮件的判定)。我们发现:即使使用这样明显不正确的假设,但它的分类效果往往在实践中是堪用的。这个现象可以称之为“假设的发散性”。15/83θ的解析式的求解过程将M个N维样本组成矩阵X:X的每一行对应一个样本,共M个样本(measurements)X的每一列对应样本的一个维度,共N维(regressors)还有额外的一维常数项,全为1目标函数梯度:16/83最小二乘意义下的参数最优解参数的解析式若XTX不可逆或防止过拟合,增加λ扰动“简便”方法记忆结论17/83加入λ扰动后XTX半正定:对于任意的非零向量u对于任意的实数λ>0,正定,从而可逆,保证回归公式一定有意义。18/83线性回归的复杂度惩罚因子线性回归的目标函数为:将目标函数增加平方和损失:本质即为假定参数θ服从高斯分布。Ridge:Hoerl,Kennard,1970LASSO:Tibshirani,1996LeastAbsoluteShrinkageandSelectionOperatorLARS算法解决Lasso计算,BarsleyEfron,2004LeastAngleRegression19/83正则项与防止过拟合L2-norm:L1-norm:ElasticNet:20/83正则化与稀疏21/83L1-norm如何处理梯度?目标函数:给定:近似:梯度:二阶导:实践中,对于一般问题,如取:22/83机器学习与数据使用交叉验证如:十折交叉验证23/83Moore-Penrose广义逆矩阵(伪逆)若A为非奇异矩阵,则线性方程组Ax=b的解为,从方程解的直观意义上,可以定义:若A为可逆方阵,即为当A为矩阵(非方阵)时,称A+称为A的广义逆(伪逆)。奇异值分解SVD24/83SVD计算矩阵的广义逆对于m×n的矩阵A,若它的SVD分解为:则,A的广义逆为:可以验证,若A是n×n的可逆阵,则若A是不可逆阵或m≠n,则25/83梯度下降算法初始化θ(随机初始化)沿着负梯度方向迭代,更新后的θ使J(θ)更小α:学习率、步长26/83梯度方向27/83批量梯度下降算法28/83批量梯度下降图示29/83随机梯度下降算法30/83折中:mini-batch如果不是每拿到一个样本即更改梯度,而是若干个样本的平均梯度作为更新方向,则是mini-batch梯度下降算法。31/83回归Code32/83附:学习率Code33/83线性回归、rate、Loss34/83SGD与学习率35/83随机梯度下降SGD36/83批量与随机梯度下降37/83线性回归的进一步分析可以对样本是非线性的,只要对参数θ线性38/83Code39/83线性回归40/83线性回归41/83特征选择42/83超参与过拟合43/8344/83高阶系数与过拟合45/83CoefficientofDetermination对于m个样本某模型的估计值为计算样本的总平方和TSS(TotalSumofSquares):即样本伪方差的m倍计算残差平方和RSS(ResidualSumofSquares):注:RSS即误差平方和SSE(SumofSquaresforError)定义R2越大,拟合效果越好R2的最优值为1;若模型预测为随机值,R2有可能为负若预测值恒为样本期望,R2为0亦可定义ESS(ExplainedSumofSquares):TSS=ESS+RSS只有在无偏估计时上述等式才成立,否则,
TSS≥ESS+RSSESS又称回归平方和SSR(SumofSquaresforRegression)46/83TSS≥ESS+RSS47/83局部加权回归黑色是样本点红色是线性回归曲线绿色是局部加权回归曲线48/83局部加权线性回归LWR:LocallyWeightedlinearRegression49/83权值的设置ω的一种可能的选择方式(高斯核函数):τ称为带宽,它控制着训练样本随着与x(i)距离的衰减速率。多项式核函数在SVM章节继续核函数的讨论。50/83思考:用回归解决分类问题?51/83线性回归-Logistic回归紫色:线性回归绿色:Logistic回归左侧:线性回归右侧:Softmax回归52/83Logistic回归Logistic/sigmoid函数53/83Logistic回归参数估计假定:54/83对数似然函数55/83参数的迭代Logistic回归参数的学习规则:比较上面的结果和线性回归的结论的差别:它们具有相同的形式!56/83对数线性模型一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值。对数几率:logit函数57/83Logistic回归的损失函数58/83Logistic回归的损失:59/83分类:Logistic回归沿似然函数正梯度上升维度提升60/83异或61/83数据升维:“选取特征”62/83广义线性模型GLMy不再只是正态分布,而是扩大为指数族中的任一分布;变量xg(x)y连接函数g连接函数g单调可导如Logistic回归中的拉伸变换:63/83Softmax回归K分类,第k类的参数为,组成二维矩阵概率:似然函数:对数似然:随机梯度:64/83Code65/83Softmax分类66/83特征选择67/83骰子问题普通的一个骰子的某一次投掷,出现点5的概率是多大?等概率:各点的概率都是1/6对于“一无所知”的骰子,假定所有点数等概率出现是“最安全”的做法。对给定的某个骰子,经过N次投掷后发现,点数的均值为2.71828,请问:再投一次出现点5的概率有多大?68/83带约束的优化问题令6个面朝上的概率为(p1,p2…p6),用向量p表示。目标函数:约束条件:Lagrange函数:求解:69/83使用梯度下降计算Lagrange乘子根据pi的解:构造目标函数并计算梯度:70/83预测结果0.3010.2270.1710.1290.0980.07471/83目标函数的有效性72/83数据显示73/83拟合与预测y=2.877+0.046*TV+0.179*Radio+0.0035*Newspaper74/83小结本模型虽然简单,但它涵盖了机器学习相当部分的内容。使用75%的训练集和25%的测试集分析模型后,使用最为简单的方法:直接删除;反而得到了更好的预测结果。奥卡姆剃刀如果用简单模型可以解决问题,则不使用更复杂的模型。复杂模型往往增加不确定性,造成过多人力和物力成本,且容易过拟合。75/83鸢尾花数据集鸢尾花数据集或许是最有名的模式识别测试数据。早在1936年,模式识别的先驱Fisher就在论文“Theuseofmultiplemeasurementsintaxonomicproblems”中使用了它(直至今日该论文仍然被频繁引用)。该数据集包括3个鸢尾花类别,每个类别有50个样本。其中一个类别是与另外两类线性可分的,而另外两类不能线性可分。由于Fisher的最原始数据集存在两个错误(35号和38号样本),实验中我们使用的是修正过的数据。下载链接:76/83数据描述该数据集共150行,每行1个样本。每个样本有5个字段,分别是花萼长度(单位cm)花萼宽度(单位:cm)花瓣长度(单位:cm)花瓣宽度(单位:cm)类别(共3类)Irissetosa山鸢尾Irisversicolor杂色鸢尾IrisVirginica维吉尼亚鸢尾77/83鸢尾花的分类78/83波士顿房屋价格预测波士顿房价数据最早来自于卡耐基梅隆大学CMU的统计图书馆(StatLiblibrary),由HarrisonD.和RubinfeldD.L在1978年的著作Hedonicpricesandthedemandforcleanair中。数据下载链接:特征描述:79/83ElasticNet/LASSO的2阶特征预测80/83北京市区域犯罪率分析81/83北京市区域犯罪率分析82/83总结和思考Logistic/Softmax回归是实践中解决分类问题的最重要方法。方法简单、容易实现、效果良好、易于解释不止是分类:推荐系统特征选择很重要,除了人工选择,还可以用其他机器学习方法,如随机森林、PCA、LDA等。梯度下降算法是参数优化的重要手段,尤其SGD。适用于在线学习跳出局部极小值思考:计算可逆方阵的逆,可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度双方知识产权保密协议模板
- 施工进场申请书
- 申请入共青团的申请书
- 2025年度协议离婚法律援助与心理辅导服务合同
- 农村信用社个人申请书
- 2025年度华为开发者大会赞助合同
- 2025年度智慧社区以租代售商铺租赁服务合同
- 2025年度新能源车充电桩建设项目招投标管理与合同履行标准
- 二零二五年度铁矿石市场分析及预测咨询合同
- 北京市某节能环保产业基地建设项目可行性研究报告
- 2024年职业技能“大数据考试”专业技术人员继续教育考试题库与答案
- 新时代劳动教育教程(高校劳动教育课程)全套教学课件
- 慢病报卡系统使用流程图
- 2024年辽宁轨道交通职业学院单招职业适应性测试题库含答案
- 小升初数学总复习专题训练:平行四边形的面积与梯形的面积
- 物业安全开工第一课课件
- 化工设计自动控制方案
- 幼儿园幼小衔接考试试题一
- 天津事业单位笔试试题2024
- 《化妆品稳定性试验规范》
- (2024版)小学六年级数学考试命题趋势分析
评论
0/150
提交评论