Stanford机器学习---第二讲. Linear Regression with one variable_第1页
Stanford机器学习---第二讲. Linear Regression with one variable_第2页
Stanford机器学习---第二讲. Linear Regression with one variable_第3页
Stanford机器学习---第二讲. Linear Regression with one variable_第4页
Stanford机器学习---第二讲. Linear Regression with one variable_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章单变量线性回归(LinearRegressionwithonevariable)关键词单变量:输入变量只有一个,即模型只有一个变量线性:模型是一个线性函数回归:模型的输出是一系列连续的值1.模型表示(ModelRepresentation)之前的房屋交易问题为例,假使我们回归问题的训练集(TrainingSet)如下表所示:Sizeinfeet2(x)Price($)In1000s(y)210446014162321534315852178*我们将要用来描述这个回归问题的标记如下:m:训练集中实例的数量;x:特征/输入变量;y:目标变量/输出变量;(x,y):训练集中的实例;(x(i),

2、y(i):第i个观察实例;h:学习算法的解决方案或函数,也称为假设(hypothesis)。因而,要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学得到一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入给h,预测出该房屋交易价格作为输出变量输出为结果。对于我们的房价预测问题它只含有一个特征/输入变量,且输出的变量是一个连续的值,这样的问题叫作单变量线性回归问题,其模型表示方式为:(x)=e0+e1x。2.代价函(CostFunction)Pricein1000s(y)460232315178单变量线性回归的模型是he(x)=eo+e1X,X代表输入变量,因此要确定该

3、模型的关键是确定参数e,01的值。我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,参数可以为任何值,我们需要做的就是从中选出最适合的参数,使模型的准确率达到最优。TrainingSetSizeinfeet2(x)210414161534852Hypothesis:hox)=遍+3?ParametersHowtochoose?将变量X的一个值输入到参数已经确定的模型中,模型会输出一个值。模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modelingerror)32023X上图中,x代表一个样本点,直线代表所选择的模型。建模误差越小,弋表我们的模型越准确。

4、通常用代价函数(costfunction)来衡量建模误差的大小,代价函数有很多种,这里用的是m-蛊E(加(亦)沪Ti=i:我们的目标便是选择出可以使得代价函数能够最小的模型参数。当存在两个参数8,01时,costfunction是一个三维函数,这种样子的图像叫bowl-shape1D0-10function100和UF.iVieImenTIeDesitSo口Mad砂辰旳75-0杳50-25仏Eo-Om牛/(如=金龙佝()一代)t=lJminimize0乂0丄CostFunctton:tnTj(厲,门=需亡(阿(?()射)*-1Parameters:如下图所示,e1如果确定,直线he(X)是关于

5、x的函数;而确定好训练的数据后,代价函数J(01)是关于8的函数,对于不同的8,代价函数的值也不同。对于单参数的代价函数,其图像是一个开口向上的抛物线函数(二次函数),当e1取其对称轴所对应的e1时,代价函数取得最小值。*00=0?(functionoftheparameterI?)2J诃i)23(forfixed趴*thisisafuric:ticnofx)当存在两个参数eo月时,costfunction是一个三维函数,这种样子的图像叫bowl-shapefunctionm=磊(加仗)射)1=110075502510-10、7-10!-20-20%kr:x-1詛tafileEdn:ViewI

6、nserEToehDitsu.opnriowHelp可以看出在三维空间中存在一个使得J(e0,ej最小的点,该点对应的e0,e1就是最适合我们模型的参数。将上图中的costfunction向下投影,即可在二维上用不同颜色的等高线表示其代价函数。同一个等高线上,90,91的值虽然不同,但其对应的代价函数的值相同。如下右图所示,给定一个(90,91),可得出一个左图中对应的模型函数。这里让(90,91)取(800,-0.15),可以看到直线和样本点的拟合程度很不好,需要进一步调整参数。M=)*(forfixed%.札thisisafunctionofx)(functionoftheparamete

7、rs%0)TrainingdamiCurrenthypothesis100020003000Site(feet2)15&0加MV0DCHC2Frzi我们的目的是最小化代价函数二维的等高线图中,中心点对应的代价函数的值最小。即最后一幅图,让(8,%)取(450,0.12)的情况。二维的等高线图中,越靠近中心,代价函数的值越小。这里让:80,%)取(360,0),直线的拟合程度有所改善,但需要继续调整参数。(forfixedOn.thisisafunctionofx)(functionoftheparameters白山円)TrainLngdntaJ(如血)(forfixed尿.几thiskafun

8、ctionofk)(functionoftheparameters弘M)5001000200Q100IQOO2MQ3MK14D0QSixt(feet2Currenthypothesis曹旦讷左占训练出来的模型不能满足每一个样本点,即不能使每一个样本点都在直线上,但最后训练出来的模型的误差已经达到了最小。梯度下降(GradientDescent)梯度下降是一个求函数最小值的算法,我们可以使用梯度下降算法来求代价函数J(e,%)的最小值。梯度下降背后的思想是:开始时我们随机选择一个参数的组合(e,e1),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到得到一个局

9、部最小值(localminimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(globalminimum),选择不同的初始参数组合,可能会找到不同的局部最小值。ir00uStartingatdifferentpointsleadtodifferentlocalminimum批量梯度下降(batchgradientdescent)算法的公式为:(forj=0andj=1)feo沁jrepeatuntilconvergence其中,gradient即J在该点的切线斜率,在该点的斜率方向即为下降程度最大的方向。下图所示分别为slope(gradient

10、)为正和负的情况,都可以使函数值越来越小。其中a是学习率(learningrate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。a太大:容易过学习a太小:学习很慢如果学习率a太小,会导致eo,e1的变化速度很慢,而且很如意陷入局部极小。如果a太大,则会使e0,e1摇摆不定,得不到最小值。本图表示:无需逐渐减小a,就可以使下降幅度逐渐减小(因为梯度逐渐减小),而且对于单变量线性回归函数的代价函数来说,其图像是一个碗装型结构,因此无论初始参数取多少,总是可以用梯度下降的方法找到全局最小值,但对于其他模型的代价函数来说,用梯度下降在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。Correct:SimultaneousupdateIncorrect:(!C=梯度下降的直观理解(GradientDescentIntuition)左边为梯度下降算法,右边,为线性回归模型GradientdescentalgorithmLinearRegressionModelrepeatuntilconvergence屁仗)=%十0应(forj=1andj=0)皿)=击占(加(曲)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论