数据分析与数据挖掘课件 【ch06】回归分析_第1页
数据分析与数据挖掘课件 【ch06】回归分析_第2页
数据分析与数据挖掘课件 【ch06】回归分析_第3页
数据分析与数据挖掘课件 【ch06】回归分析_第4页
数据分析与数据挖掘课件 【ch06】回归分析_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章回归分析数据分析与数据挖掘01数据的预处理一元线性回归是量化地研究两个变量之间的线性关系。

一元线性回归求解步骤如下:①绘制自变量和因变量的散点图,观察自变量和因变量之间是否具有线性关系;②求解回归方程;③确认回归方程的精度;④总体回归的方差分析;⑤进行残差分析;⑥回归方程参数检验;⑦预测与控制。一元线性回归问题描述一元线性回归模型与求解

一元线性回归模型与求解寻找参数a和b使得由式(6.3)计算的残差平方和最小,正好属于著名的“最小二乘法”(Leastsquaremethod)求解或最小均方误差求解。残差平方和Se是由式(6.3)确定的,而其中包括的a和b是待求解参数,为了使得Se最小,要求a和b对应的偏导数为0,即满足式(6.4)。第4章中使用相关系数R来计算两个数值属性的线性相关程度,4.3.2节中得到x和y的相关系数R,,如式(6.9)所示,即如果将x和y分别看作两个向量,则相关系数R,代表x和y这两个向量去中心化的夹角余弦值。确认回归方程的精度由于回归方程是建立在多次实验上的,为便于描述和理解线性回归的条件,将式(6.1)改写为式(6.13)。总体回归的方差分析在回归分析中,个别异常数据会对回归方程的计算有较大影响,因此残差分析主要是利用回归技术发现那些可能是异常数据(离群点)的数据点,再由人工确认。对于确认属于异常数据的点,可以先去除再进行回归分析。残差分析回归方程参数检验令总体回归方程为p=Ax+B,总体的方差为σ²,则数理统计中已经证明E(a)=A,E(b)=B,而方差满足式(6.33)。当建立了回归方程,并且检验了回归方程的有效性后,回归方程常用于预测和控制。预测的形式包括两种:①进行点估计,直接利用回归方程计算得到;②进行区间估计,指定置信度1-α下的置信区间估计。回归方程预测与控制02多元线性回归多元线性回归问题描述

一元线性回归模型有一个因变量和一个自变量。多元线性回归是指存在一个因变量而存在多个自变量的线性回归分析。多元线性回归模型与求解多元线性回归分析的流程:①画出各自变量和因变量的散点图,以帮助分析是否各个自变量与因变量之间存在线性相关;②考虑自变量之间的多重共线性,常使用方差膨胀因子(VIP),见7.4节;③求解回归方程;④确认回归方程的精度;⑤进行回归系数检验;⑥进行总体回归模型的检验;⑦残差分析,常包括异常值剔除和残差序列自相关性分析;⑧进行解释或预测。根据回归方程式(6.53),可以计算X矩阵各行对应的预测值p。确认回归方程的精度

残差分析回归方程参数检验

多元线性回归中的标准误差s,也称均方误差MSE,如式(6.70)所示。式(6.69)中的D(e)也可以由式(6.70)中的s²来估计,当n较大时,1/n非常小,只是式(6.69)属于修正估计下的标准残差计算。

与一元线性回归进行点预测和区间预测相似,多元回归方程中的点预测是指利用回归方程计算出预测值。回归方程预测03常用的曲线回归曲线回归问题曲线回归是指对于自变量与因变量呈现非线性关系的变量进行回归分析。曲线回归中有一类曲线能够转换为线性回归问题,借助线性回归方法求解,有时也称曲线的线性化求解;还有一类曲线难以或不能转换为线性回归问题。对于不能借助线性回归求解的回归分析,有一部分回归方程可以计算偏导数,常借助最小二乘法通过梯度下降等策略求解;还有一部分无法计算偏导数,则可以借助穷举法、网格法、随机法或者智能优化算法求解回归方程系数。

回归函数是回归变量多项式的回归,称为多项式回归。自变量只有1个时,称为一元多项式回归;自变量有多个时,称为多元多项式回归。多项式回归在指数回归中,指数函数中的自变量x作为指数出现,其方程形如p=ap”。参数b一般用于描述增长或衰减的速度。指数回归也常转换为一元线性回归求解,如果y的观察值都是正数,p是正数,则将y=ap*两侧取自然对数,如式(6.85)所示。指数回归与对数回归其他常见曲线回归

04最小二乘法及其应用最小二乘法线性拟合伪逆矩阵求解Moore-Pseudo逆矩阵最小均方误差算法将式(6.91)最小误差平方和代入式(6.101),该式的最小化等价于式(6.102)的最小均方误差函数。所以,有时也将式(6.101)视作最小均方误差(LeastMeanSquared,LMS)函数。非线性回归非线性模型(Nonlinearmodel)指反映自变量与因变量间非线性关系的数学表达式,它相对于线性模型而言,其因变量与自变量间不能在坐标空间表示为线性对应关系。非线性模型的一般形式是Yi=f(Xn,X₂,…,Xk,β,…,Fm)+6,其中,Y是因变量,也称被解释变量,Y是第i个样本的因变量观察值;Xn,X₂,,Xu是自变量,也称解释变量,共k个解释变量;β,B,…,β是模型的参数,共m个模型参数;ε为误差项,E为第i个样本的误差项。智能优化求解技术此优化问题可使用智能优化算法,常包括遗传算法、粒子群算法、模拟退火算法、蚁群算法、禁忌搜索算法等,甚至使用这些算法的组合优化策略。智能优化算法求解时一般面临如下问题:①往往每次优化目标的计算都需遍历一次数据集,因此计算量可能会很大,特别是大规模数据集,计算代价较大;②智能优化算法属于启发式概率求解技术,找到最优解存在一定概率,不能保证找到最优解。05Logistic回归Logistic回归分类与基本函数Logistic回归系数计算06本章小结本章小结线性回归是最常用的回归分析,已应用在许多描述性任务和预测性任务中。在影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论