统计学第七章相关分析与回归分析_第1页
统计学第七章相关分析与回归分析_第2页
统计学第七章相关分析与回归分析_第3页
统计学第七章相关分析与回归分析_第4页
统计学第七章相关分析与回归分析_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第七章相关分析与回归分析第1页,共40页,2023年,2月20日,星期六第一节相关分析1.相关关系的种类(1)按相关程度划分

完全相关:Y的变化完全由X的变化确定;

不相关:Y与X不相互影响,各自独立变化;

不完全相关:Y与X之间有一定程度的相互影响。(2)按相关方向划分

正相关:X与Y同时变大或变小;

负相关:X变大,Y变小或X变小,Y变大。(3)按相关形式划分线性相关:Y与X的关系呈现出线性关系;非线性相关:Y与X的关系呈现出非线性关系。第2页,共40页,2023年,2月20日,星期六第一节相关分析1.相关关系的种类(4)按变量多少划分

单相关:指两个变量间的相关关系;复相关:指三个以上变量间的相关关系;偏相关:指多个变量情形下,固定其他变量,只考虑其中两个变量间的相关关系。(5)按相关性质划分

真实相关:两个变量确实存在内在的相关关系;

虚假相关:两个变量只是表现为数量上相关,并不存在内在的联系。第3页,共40页,2023年,2月20日,星期六第一节相关分析2.相关表和相关图(1)相关表将某一变量按其数值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到相关表。第4页,共40页,2023年,2月20日,星期六第一节相关分析2.相关表和相关图(2)相关图相关图又称散点图,是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量相对应的成对数据用坐标点的形式描绘出来,用于反映两变量之间的相关关系的图形。第5页,共40页,2023年,2月20日,星期六第一节相关分析3.相关系数及其计算方法相关系数的定义变量x与变量y之间的相关关系,可用数量指标来表示。通常以字母表示总体的相关系数,以表示样本的相关系数。定义如下:式中,是变量X与变量Y的协方差。

第6页,共40页,2023年,2月20日,星期六第一节相关分析3.相关系数及其计算方法(2)相关系数的特点a.r的取值介于-1到1之间;b.当r=0时,X与Y的样本观测值之间没有线性关系;c.在大多数情况下,。r>0,说明X与Y正相关;r<0,说明X与Y负相关。r值越接近1,X与Y的相关程度越高。微弱相关:低度相关:显著相关:高度相关:

第7页,共40页,2023年,2月20日,星期六第一节相关分析3.相关系数及其计算方法(3)相关系数的计算具体计算相关系数时,通常利用以下公式:【例7-2】基于表7-1中的数据,求广告费与年销售收入间的相关系数。

可见,广告费与销售收入间存在高度的相关关系。

第8页,共40页,2023年,2月20日,星期六第一节相关分析4.样本相关系数(Pearson)显著异于0的T检验在二维总体(X,Y)服从正态分布的前提下,Fisher给出了检验简单相关系数(Pearson)显著异于0的t统计量如下:式子中,n是样本容量,r是简单相关系数(Pearson)。设定假设:H0:r=0,H1:r≠0这是一个双尾检验问题。第9页,共40页,2023年,2月20日,星期六【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费和年销售收入之间的相关系数是否显著(设定显著水平α=0.05)?解:第一步,提出假设:

H0:;H1:第二步,计算检验的统计量第三步,统计决策。从下式中可以看出,相关系数显著。第一节相关分析4.样本相关系数(Pearson)显著异于0的T检验第10页,共40页,2023年,2月20日,星期六此时的偏相关系数计算公式为:式中,是普通样本相关系数。第一节相关分析5.剔除了一个变量Z的影响后,X、Y的偏相关系数6.剔除两个变量Z1,Z2的影响后,X、Y的偏相关系数此时的偏相关系数计算公式为:式中,是固定z1的偏相关系数。第11页,共40页,2023年,2月20日,星期六偏相关系数显著异于0的t统计量如下:,服从分布式中,n是样本容量,k是剔除了的变量数,r是偏相关系数。第一节相关分析7.偏相关系数显著异于0的T检验第12页,共40页,2023年,2月20日,星期六第二节一元线性回归分析1.相关分析与回归分析的关系(1)相关分析通过计算相关系数来确定两个变量之间的相关方向和密切程度,回归分析则是选择一个合适的数学模型,对具有相关关系的两个或多个变量之间的具体数量关系进行测定,以实现对因变量的估计或预测。(2)相关分析无需考虑变量作用顺序,回归分析则要考虑;(3)相关分析将变量都视为随机变量,回归分析则只将因变量视为随机变量,自变量被认为是非随机的。第13页,共40页,2023年,2月20日,星期六第二节一元线性回归分析2.一元线性回归模型与回归函数

总体回归模型

总体回归函数和是未知参数,又叫回归系数;是随机误差项。3.样本模型与样本函数样本回归模型样本回归函数称为截距项,称为趋势项,是残差项。

第14页,共40页,2023年,2月20日,星期六第二节一元线性回归分析

样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是采用适当的方法,充分利用样本提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。●第15页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS

所谓最小二乘法就是通过令样本的残差平方和达到最小,来求得截距项与趋势项的估计值的方法。大致包括三个步骤:第一,建立最小二乘函数;第二,应用极值定理对最小二乘函数求偏导数;第三,求解偏导数方程组。第16页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS(1)建立二乘函数:(2)基于极值定理对二乘函数求偏导数化简后可得第17页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS应用克莱姆法则解之得第18页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS和是样本值与均值的离差。对和做进一步的变形为其中特例第19页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS【例7-4】我们利用例7-1的表7-3的数据计算该公司广告费对年销售收入的回归方程(直线)。解:第一,观察原始数据的散点图;第20页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS第二,利用Excel表格计算截距项与趋势项中的各个值;第21页,共40页,2023年,2月20日,星期六第二节一元线性回归分析4.模型参数的点估计:最小二乘法OLS第二,利用Excel表格计算截距项与趋势项中的各个值;从而有因此,样本回归方程为

第22页,共40页,2023年,2月20日,星期六第二节一元线性回归分析5.如何利用样本残差估计总体方差

除了和外,一元线性回归模型中还包括另一个未知参数,那就是总体随机误差项的方差。在数学上已证明:因约束条件、,所以,自由度为

n-2。S2还可化简为:

第23页,共40页,2023年,2月20日,星期六第二节一元线性回归分析5.回归参数的区间估计因为所以

第一,考虑、的概率分布由于服从正态分布,也服从正态分布。、都是的线性组合,因而也服从正态分布。公式表述如下:

第24页,共40页,2023年,2月20日,星期六第二节一元线性回归分析5.回归参数的区间估计第二,考虑随机变量的方差的方差可用残差值来表示:是的无偏估计量,即因此,与的标准差估计值分别为:第25页,共40页,2023年,2月20日,星期六第二节一元线性回归分析5.回归参数的区间估计第三,利用t统计量求出置信区间置信区间为:第26页,共40页,2023年,2月20日,星期六第二节一元线性回归分析5.回归参数的区间估计【例7-6】根据例7-1中给出的有关数据和例7-4中已得到的回归参数的估计值,求回归系数的置信区间。解:由得进一步简化得0.224≤β1≤0.382第27页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度(1)什么是拟合优度?

拟合优度指的是模型对样本数据的拟合情况,回归线距离样本值越近拟合度越好,同时,说明X对Y的解释程度越强。拟合优度的评价指标为“样本可决系数”。第28页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度........YXYi

Xi

A0(2)什么是样本可决系数?

在给出可决系数的公式之前,我们先来看离差平方和的“神奇分解”。离差未被解被解释释的部的部分分对式子求平方和可得:第29页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度下面证明最后一项为0因而,有第30页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度其中是样本的总离差平方和;是样本的回归平方和;是样本的残差平方和。可见,总离差平方和=回归平方和+残差平方和第31页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度则记第32页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度(2)什么是样本可决系数呢?对上式移项可得就被称作样本的可决系数或决定系数或判定系数。第33页,共40页,2023年,2月20日,星期六是样本回归线与样本观测值拟合优度的度量指标,也是回归模型包含多少样本信息量的具体表现。第二节一元线性回归分析6.一元线性回归模型的拟合优度(2)什么是样本可决系数呢?说明变量X与Y之间不存在线性关系;说明变量X与Y之间存在线性关系,(X,Y)的样本点都落在同一条直线上。通常越接近1,样本回归线对样本值的拟合优度越好,X对Y的解释能力越强。第34页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度(3)样本可决系数的计算公式由最小二乘回归结果知:因此样本系数可表示为:其中:第35页,共40页,2023年,2月20日,星期六第二节一元线性回归分析6.一元线性回归模型的拟合优度【例7-7】利用例7-2中表7-3的资料,计算年销售收入对广告费的回归的判定系数,并解释其意义。解:方法1:方法2:第36页,共40页,2023年,2月20日,星期六第二节一元线性回归分析7.一元线性回归模型的显著性检验(1)未知参数的t检验

第一步:提出假设H0:;H1:第二步:确定显著性水平

=0.05*或0.01**

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论