机器学习课件-机器学习基本方法 回归分析_第1页
机器学习课件-机器学习基本方法 回归分析_第2页
机器学习课件-机器学习基本方法 回归分析_第3页
机器学习课件-机器学习基本方法 回归分析_第4页
机器学习课件-机器学习基本方法 回归分析_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析议程公安应用案例:从足长和步幅预测身高预习总结:中国大学MOOC课程回归章节翻转抢答回归分析的深入认识:讨论(企业专家点评)应用拓展研讨:中天集团质量管理案例(企业专家点评)小组作业从一个实际问题谈起——身高预测根据样本的足长和步幅数据,拟合它们与身高的关系?可用于公安刑侦议程问题回归分析与分类方法有什么区别?回归方程的自变量怎么确定?回归分析前需要对自变量做哪些预处理?在回归分析时,自变量的相关性对分析结果有何影响?如何减少回归方程的过拟合问题?噪声数据对回归问题有什么影响?非线性回归如何转化为线性回归问题?统计分析回归分析是统计学的重要方法。统计学是研究如何搜集资料、整理资料和进行量化分析、推断的一门科学,在科学计算、工业和金融等领域有着重要应用,统计分析是机器学习的基本方法。与统计分析相关的基本概念有以下几个总体:根据定目的确定的所要研究事物的全体样本:从总体中随机抽取的若干个体构成的集合推断:以样本所包含的信息为基础对总体的某些特征作出判断、预测和估计推断可靠性:对推断结果从概率上的确认,作为决策的重要依据议程回归分析分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法就称为回归分析。常见的回归分析包括线性回归、多元回归、非线性回归、广义线性回归(对数回归、泊松回归)等。回归分析主要内容包括确定连续值变量之间的相关关系,建立回归模型,检验变量之间的相关程度,应用回归模型对变量进行预测等。$0$10$20利润年龄206040minimize客户利润和年龄的关系议程损失函数

议程参数估计参数估计是用样本统计量去估计总体的参数,即根据样本数据选择统计量去推断总体的分布或数字特征。参数估计是统计推断的种基本形式,其中除了最基本的最小二乘法和极大似然法、贝叶斯估计、极大后验估计,还有极小化极大熵法等。议程线性回归线性回归是种通过拟合自变量与因变量之间最佳线性关系,来预测目标变量的方法。回归过程是给出一个样本集,用函数拟合这个样本集,使样本集与拟合函数间的误差最小。回归分析包括以下内容:从众多的输入变量中,判断哪些变量对目标变量的影响是显著的如何做?确定输入变量与目标变量间的回归模型根据样本估计并检验回归模型及未知参数模型检验与预测精度评估线性回归和多元线性回归议程一元线性回归一元线性回归是描述两个变量之间线性相关关系的最简单的回归模型,如下图。在散点图中两个变量呈线性关系。一元线性回归模型表示为,其中a和b是系数,是随机变量。在这个线性模型中,自变量x是非随机变量。随机变量要求服从正态分布。发现一条拟合样本数据的直线,使得样本点尽量靠近直线。议程一元线性回归梯度下降法:也可以使用梯度下降法求解回归系数,尤其是多元回归和非线性回归问题尤其适合。议程线性回归举例已知一个贸易公司某几个月的广告费用和销售额,如下表所示可见随着广告费用的增加,公司的销售额也在增加,但是它们并非绝对的线性关系,而是趋向于平均,如下图所示上述线性回归模型的公司为:y=1.38*x+30.6,其中x表示广告费用,y表示销售额,通过线性回归的公式就可以预测企业的销售额了广告费(万元)10132237454859656668687184888989销售额(万元)196071746989146130153144128123127125154150议程线性回归检验

梯度下降法求回归系数通过图片识别PM2.5预测城市PM2.5(1)应用创新从衡量图像清晰程度的角度出发,对图像特征进行观察和分析,得到4个解释性变量:灰度差分的方差、清晰度、饱和度、高频含量等预测城市PM2.5(2)多元线性回归的拟合优度为0.82预测城市PM2.5(4)议程多元线性回归(1))议程多元线性回归(2)n》k议程多元线性回归(3)问题:可逆?议程多元线性回归案例(1)下表所示我国1988–1998年的城镇居民人均全年耐用消费品支出、人均全年可支配收入和耐用消费品价格指数的统计资料,试建立城镇居民人均全年耐用消费品支出y关于人均全年可支配收入x1和耐用消费品价格指数x2的回归模型。年份人均耐用消费品支出

y人均全年可支配收入x1耐用消费品价格指数x21988137.161181.4115.961989124.561375.7133.351990107.911510.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283.0140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39议程多元线性回归案例(2)估计的回归方程自变量之间相关怎么办?岭回归、LASSO回归和弹性网络模型误差=偏差(Bias)+方差(Variance)+数据本身的误差岭回归LASSO回归弹性网络通过正则化防止过拟合fromsklearn.linear_modelimportRidge,RidgeCVrigdeCV=RidgeCV(alphas=Lambdas,normalize=True,scoring='neg_mean_squared_error',cv=15)rigdeCV.fit(X_train,Y_train)predictedResult=rigdeCV.predict(X_test)

lasso_cv=LassoCV(alphas=Lambdas,normalize=True,cv=10,max_iter=10000)议程非线性回归模型在统计学中,非线性回归是回归分析的一种形式,非线性模型是由一个或多个自变量非线性组合。一些常见非线性模型分段函数样条曲线多项式函数其他议程非线性回归议程非线性回归思考:如果多个自变量之间是相互独立或弱相关的,能否分别研究因变量与各个自变量的关系,然后加权求和,求出整个非线性回归方程?分段函数求解或许是一种可行的选择。Logistic回归实战案例研讨耐热导线工厂质量管理数据分析杆的抗拉强度和丝的直径的关系(1)上述经验公式失灵了?业界经验估计杆的抗拉强度和丝的直径的关系(2)使用区间概念近似杆材强度与单线线径之间的非线性关系。

回归方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论