版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学安徽建筑工业学院第一章总论第二章统计数据的描述分析第三章概率与概率分布第四章、统计量及其抽样分布第五章参数估计第六章参数假设检验第七章列联分析和方差分析第八章一元线性回归第九章多元线性回归第十章时间序列分析第十一章统计指数第一章总论
一、统计学的产生和发展二、统计学及其学科性质三、统计学的几个基本概念四、统计调查五、统计整理统计软件介绍返回
一、统计学的产生和发展(一)政治算术学派(英国:威廉.配第1623-1687)用大量的数字对英国、法国和荷兰三国的经济实力进行比较,用数字、重量、尺度等定量的方法进行分析比较,并配以朴素的图表来表达其思想和观点。马克思评价其为“政治经济学之父”约翰·格朗特编制世界上第一张死亡率统计表返回(二)国势学派(德国:康令1606-1681)“国势学”课程,并于1749年用“统计学”取代缺乏数字内容,用文字描述与政治算术学派共存200多年,但政治算术学派影响要大(三)数理统计学派(比利时:凯特勒1796-1874)把概率论、大数法则、误差法则、正态分布等概率方法引入统计学,并认为其适合任何观察科学的通用方法。是数理统计学的奠基人和先驱者,被尊称为“统计学之父”瑞士数学家J.贝努里(1654-1705)首次在《推算法》中给出了‘贝努里定理’的大数法则。法国数学家拉普拉斯(1749~1827)《概率论分析》:总结了前人的成果,并以大数法则为桥梁,使概率论与政治算术联系起来;德国大数学家高斯(1777—1855)是另一位将概率论引入统计学的杰出贡献者。利用最大似然法等数学知识将误差理论和概率分布理论结合起来,提出误差分布曲线,使用最小二乘法和高斯分布最终建立了误差理论。英国统计学大师费希尔(R.Fisher,亦译为费舍或费雪)建立了样本分布、区间估计以及假设检验等综合理论,确立了数理统计学的数学框架。返回二、统计学及其学科性质1、统计学(statistics):thescienceofcollecting,analyzing,presenting,andinterpretingdata.Copyright1994-2000EncyclopaediaBritannica,Inc.(不列颠百科全书)统计学是一门收集、处理、分析和解释数据并从数据中得出结论的科学。其目的是探索数据的内在数量规律性,从而为有关决策提供依据.搜集数据——整理数据——分析数据——解释数据2、争论:“方法论学科”“实质性学科”1)、描述统计和推断统计描述统计:注重汇总、图表显示、概括分析推断统计:研究用样本数据推断总体数量特征2)、应用统计学和数理统计学返回反映客观现象的数据总体数据描述统计(统计数据的搜集、整理、显示和分析等)总体内在的数量规律性样本数据推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)返回三、统计学的几个基本概念(一)总体和样本1、总体是由具有某种共同性质的许多个体组成的整体,构成总体的个体称为总体单位。两层含义:
①统计学研究的是大量现象的数量特征,总体包含了大量现象;
②统计单位具有某一共同性质,但其他的性质、特征是不同的,便于在差异中寻找规律。返回2、样本总体样本(二)参数和统计量
总体
样本平均数标准差比例参数
统计量
xsp(三)标志和指标1、标志是说明总体单位特征的名称,分为数量标志和品质标志。2、指标是说明总体综合数量特征的名称按其反映数量特点的不同,分为数量指标和质量指标。按其反映的时间特征的不同分为时期指标和时点指标。(四)变量分类变量:分类数据顺序变量:顺序数据数值型变量:数值型数据(五)存量与流量时期指标时点指标2009年中国国内生产总值为335,353亿元(49,092.81亿美元,同期日本为5.07万亿美元),比上年增长8.7%.
产业:第一产业增加值35477亿元,增长4.2%;第二产业增加值156958亿元,增长9.5%;第三产业增加值142918亿元,增长8.9%。返回四、统计调查统计报表制度:国家统计报表部门统计报表地方统计报表专门调查:普查典型调查重点调查抽样调查返回数据的误差抽样误差
80人10人,无偏估计非系统性误差非抽样误差:抽样框误差回答误差无回答误差系统性误差调查员误差测量误差返回五、统计整理
1、统计分组:统计分组是将统计总体按照一定标志区分成若干个组成部分的一种统计分析方法。按分组标志的不同,分为:品质数列单项数列:一个变量值是一个组变量数列组距数列:两个变量值构成的区间是一个组返回2、频数分布:统计分组后,每个组分配的总体单位数称为频数或次数频数/总体单位总数=频率(比率)分布类型1)钟型分布2)J型分布3)U型分布(a)对称分布(b)偏态分布左偏分布右偏分布钟形分布返回(c)J形分布正J形反J形(d)U形分布J型U型分布返回3、统计表:例、一批钢材,抽样测试其抗张力,随机抽取76个样本观察值如下:(单位:kg/cm2)41.037.033.044.230.527.045.028.540.634.831.233.538.541.543.045.542.539.036.227.538.835.532.529.532.634.537.539.535.829.142.845.142.845.839.837.233.831.231.529.529.035.237.841.243.848.043.641.844.536.536.634.831.032.033.537.440.844.740.041.540.241.338.834.131.834.638.341.344.237.130.035.237.540.538.137.3一批钢材抗张力分组表钢材抗张力频数(条)频率%组中值kg/cm2向上累计频数(条)向下累计频数(条)27-3030-3333-3636-3939-4242-4545-487101316151059.213.217.121.119.713.26.628.531.534.537.540.543.546.571730466171767669594630155合计76100------------累计频数分布数列1)各组频数向上、向下累计形成的数列。2)在经济学中的应用。———洛伦茨曲线———基尼系数=A/(A+B)统计表的格式和注意事项(p77-p78)横行标题:对象(总体(常以年份形式表示)、总体分组、总体各单位)纵栏标题:统计指标交叉部分:指标值注意事项:——数据居中,小数点对齐——左右不封口;——表下面注明资料来源。2009~2010年城镇居民家庭抽样调查资料项目单位2009年2010年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%元元元元
400443.141.7756.431.775888.775854.024615.91
4222.03.131.6853.671.866316.816279.984998.00资料来源:《中国统计年鉴2***》,中国统计出版社,2***,第***页。注:本表为城市和县城的城镇居民家庭抽样调查材料。
表头列标题行标题数字资料附加统计表的结构统计图(直方图和饼图)返回第二章统计数据的描述分析返回第一节集中趋势分析第二节离中趋势分析第三节偏度和峰度分析第一节集中趋势分析集中趋势指一组数据中心点的位置所在,是数据分布的中心,描述集中趋势的指标有平均数、中位数、众数等。代表数据的一般水平。一、众数二、中位数三、平均数三个测度值间的关系返回某单位80个工人一周生产的零数单位:个
6578886558766966806477786065857473656679748559696087858664937662914974787579866887979282669475568577678978798883736984955579775880687787707879614769899666768199Min=47max=99众数一、众数(M0)1、众数是指一组变量值中出现次数最多的变量值,一般用M0表示。可以测度分类数据、顺序数据和数值型数据。一组数据可能没有众数,也可能有两个甚至多个众数。2、众数的确定①未分组资料:M0就是出现次数最多的变量值。有时众数不止一个,上例中,78、79各出现5次,都是M0,数据分布是双峰的。返回②分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。二、中位数及分位数1、中位数①把一批数按照从小到大的顺序排列,处于数列中点的变量值就是Me②确定方法——未分组资料:(n+1)/2中位数的位置。前例Me=77———分组资料:根据向上或向下累计频数分布数列,按照确定中位数所在的组,然后确定值。返回返回2、分位数上四分位数QU=3n/4下四分位数QL=n/4三、平均数(一)、算术平均数(均值)分为简单算术平均数和加权算术平均数返回例、某单位80工人一周生产零件数。1、简单算术平均数2、加权算术平均数工人一周生产零件数工人数fi(人)组中值xi(个)Xifi(个)向上累计频数(人)向下累计频数(人)60以下60-7070-8080-9090以上721251985565758595385136518751615760728537280807352278合计80---6000------众数某单位某周生产零件数资料表
3、算术平均数与数学期望对于离散型随机变量X,设它的概率密度函数P(Xi)为,则数学期望为:实际上算术平均数等于期望值简单算术平均数:xi×1/n加权算术平均数情况:xi×ni/n4、算术平均数的缺陷1015202570去掉70后,从这个角度讲算术平均数不及众数和中位数(二)、几何平均数两种应用:年均增长率及银行复利计息平均利率(三)、调和平均数倒数平均数的倒数:返回四、综合(平均数、众数、中位数)1、三个测量度与三种类型数据间的对应关系2、三个测度值间的关系第二节离中趋势分析一、离中趋势概念1、离中趋势是数据分布的又一特征,它表明数据的离散程度,反应各变量值与均值间的平均偏离程度。2、意义:首先,可以衡量算术平均数的代表性大小。例:均值都为150的两组数
50,100,150,200,250100,125,150,175,200其次,进行产品质量管理和决策。3、离中趋势测度经常用到的指标有:异众比率、极差、平均差、方差和标准差、四分位差、离散系数等,它们也被称为变异指标。返回二、异众比率(非众数组频数所占比例)一般来说,异众比率越大,数据离散程度越大主要测度分类数据,也可适用其他数据三、四分位差1、四分位差用数列中第3/4位次与1/4位次的变量值之差除以2来表示。主要用于测度顺序数据,也可适用其他类型数据2、意义:——剔除了极端值,说明50%数据分布状况;——与中位数配合说明数据分布是否对称。若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2若不相等,则是非对称的。四、极差1、极差也称为全距,是一组变量中最大值与最小值的离差,表明变量值变动的范围。用R表示极差,其计算公式是:
2、缺点:易受极端值的影响。五、平均差1、平均差是指变量值与其算术平均数的离差绝对值的算术平均数,用符号A.D表示。计算公式:
2、优缺点:优点:恰当反应了数据与平均数间的平均偏离程度缺点:表达式中有绝对值,在数学处理上较麻烦六、方差与标准差1、方差与标准差是测定离中趋势最常用的指标。标准差是方差的平方根。2、计算公式(总体数据):P99
一般表达式与概率表达式
σ≥A.D3、标准分数(相对位置的度量)指某个具体数据偏离平均数几个标准差,以其反映该数的出类拔萃(或差)程度:自由度
(degreeoffreedom)自由度的概念由统计学家R.AFisher提出是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k七、离散系数(标准差系数、变异系数)特别注意:离散系数是比较数据间离散程度的最终指标返回第三节偏度和峰度分析一、偏态1、分布的偏态就是分布的不对称2、偏态的测量方法主要是两种:一种是Pearson偏态系数,二是三阶中心距。Pearson偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为:当SK=0时,呈对称分布;当SK>0时,分布是右偏(正偏)的;当SK<0时,分布是左偏(负偏)的。
返回矩法估计就是利用中心矩来衡量分布的偏度。用公式表示为:二、峰度1、峰度是变量分布的又一性质,它指的是分布曲线的高峰形态,也是分布曲线的尖峭程度2、衡量指标:峰度是用变量的四阶中心矩除以标准差四次方,并将结果再减3,用公式表示为:
当峰度指标K>0时,表示频数分布比标准正态分布更集中,分布呈尖峰状态;K<0时表示频数分布比标准正态分布更分散,分布呈平峰。返回第三章概率与概率分布一、随机事件的概率及法则P(A)=该事件的可能数/总的可能数加法法则:P(AUB)=P(A)+P(A)-P(A∩B)返回
二、贝叶斯公式P(AB)=P(A)P(B/A)P(AB)=P(B)P(A/B)所以:P(A)P(B/A)=P(B)P(A/B)即:P(A/B)=P(A)P(B/A)/P(B)当然:P(Ai/B)=P(Ai)P(B/Ai)/P(B)三、密度与概率分布离散型变量的密度即变量概率连续性变量的密度表示出现可能性的高低,但具体某个变量值的概率P(X)=0变量所有可能取值的概率之和等于1(对于连续性变量密度在定义域上的积分为1)期望值就是平均数四、正态分布1、正态分布的分析均转化为标准正态分布2、灵活计算标准正态分布的区间概率3、以大概率反过来求大概率区间的临界值4、二项分布的正态近似:二项分布X~B(n,p)近似于X~N(np,np(1-p))当n很大,p很小时,二项分布近似于泊松分布:返回第四章、统计量及其抽样分布一、统计量与抽样分布的概念二、三大推断分布三、常用统计量分布返回统计量样本函数称为统计量。设是来自总体X的一个样本,是的函数,若是连续函数且其中不含任何未知参数,则称是一个统计量。抽样分布统计量的概率分布称为抽样分布,总体的分布已知时,统计量的分布是确定的。返回一、统计量与抽样分布概念二、三大推断分布(一)分布1、设是来自总体N(0,1)的一个样本,则称统计量服从自由度为n的分布,记为。自由度是指包含的独立变量的个数。2、性质:(1)设,且独立,则即分布具有可加性。返回(2)α分位点(根据α查分位点(即临界点)一定要掌握)
若对于给定的,0<<1,存在使得则称点为分布的上分位点,如图所示。(二)t分布1、定义:设X~N(0,1),Y~x2(n),且X,Y相互独立,则称随机变量即服从自由度为n的t分布,记T~t(n)。t分布又称学生氏(student)分布特别的(P164):2、性质——关于y轴呈对称分布;当时,近似于N(0,1)分布。——α分位点对于给定的α,0<α<1,称满足的点为t分布的α分位点。(三)F分布1、设U~X2(n1),V~X2(n2),且U、V相互独立,则服从自由度为(n1,n2)的F分布,记为2、性质——F分布是非对称的——α分位点对于给定的α,0<α<1,称满足为F分布的α分位点。返回三、常用统计量分布1、样本均值统计量的抽样分布。(1)正态总体,方差已知
(2)总体非正态,方差未知,大样本(中心极限定理P166)(3)正态总体,方差未知,小样本2、样本方差s2的抽样分布:返回3、两样本均值差的抽样分布(1)已知(2)未知,但两者相等,小样本(P165)4、两总体方差比的分布5、样本成数的抽样分布返回第五章参数估计第一节参数估计的理论依据第二节区间估计第三节样本容量的确定返回第一节参数估计的理论依据根据中心极限定理样本平均数与总体平均数的联系
可以求出样本平均数在某区间内的概率进一步可以求出在一定的概率保证下样本平均数在哪一个范围之内通过转换可得出在相应概率保证下总体平均数的估计区间:返回同样的逻辑,可以推广到样本平均数的其他分布:参数估计的无偏性和有效性(p181)点估计时:估计量的期望值等于总体参数表现为无偏性估计量的方差越小,表明估计越有效越一致返回第二节区间估计(p198-p200)一、总体均值(比例)的区间估计(包括两个独立总体均值差的估计)二、方差的区间估计三、匹配样本问题一、总体均值(比例)的区间估计(包括差值的估计)1、正态总体、方差已知,或非正态总体、大样本(以s代替σ)
返回2、正态总体、方差未知、小样本(该处抽样成数不讨论)3、非正态总体、方差未知、小样本
不可求返回二、方差的区间估计方法:找出涉及方差的分布如果单个总体方差涉及卡方分布两个总体方差比涉及F分布单个总体:返回两个总体的方差比较:返回三、匹配样本问题两个独立样本:产品两种组装方法所需时间(两种方法各抽取12人)解答方法为两个独立总体均值差的区间估计:见p192,均值差的估计范围为:0.14分钟~7.26分钟方法1方法2方法1方法228.327.636.031.730.122.237.226.029.031.038.532.037.633.834.431.232.120.028.033.428.830.23026.5返回
产品两种组装方法所需时间(同一组人用两种方法)两种组装方法时间差D的估计区间为:3.03±t0.025(11)*2.88/3.46即:3.03±2.201*0.83,估计范围为:1.2分钟~4.9分钟方法1方法2差值d方法1方法2差值d28.327.60.736.031.74.330.126.23.937.229.08.229.031.0-238.532.06.537.633.83.834.431.23.232.128.04.128.028.4-0.428.828.20.63026.53.5返回第三节样本容量的确定决定样本容量的因素1、总体方差一定2、给定允许误差E3、给定概率保证程度返回在既定的总体方差情况下,要达到给定的允许误差和概率保证,则唯一可以做到是寻求适宜的样本容量来达到这个要求第六章假设检验第一节假设检验的基本原理和步骤第二节常见的参数假设检验统计量假设检验的两类错误返回第一节假设检验的基本原理和步骤一、假设检验的原理假定:在一次抽样中小概率事件不可能发生比较:在总体为真时样本统计量分布的大概率区间vs实际发生样本的统计量值对应的位置取舍:当二者不够一致时,由于样本是客观发生的,不可否认,该否定的只能是总体参数。而当二者没有显著性矛盾时,不能否定假定的总体参数。返回二、方法和步骤(原假设以总体均值为例)1、如果问与总体参数是否相同、一致、有无显著性差别等,则为双侧检验,原假设H0:u=u0,否定域为临界点两侧,临界点为+Zα/2(或T检验+tα/2、F检验
卡方检验
);2、如果问总体参数是否高于、超过某值等,则为右单侧检验,原假设H0:u≤u0,否定域为右侧小概率区间,临界点为Zα(或tα、F1-α、);3、如果问总体参数是否低于、有显著性降低等,则为左单侧检验,原假设H0:u≥u0,否定域为左侧小概率区间,临界点为-Zα(或-tα、F1-α、)。注:当单侧检验没有否定原假设时,只能说没有足够的理由支持备选假设,而不宜直接表述为接受原假设的内容。1234
5
6返回第二节常见的参数假设检验统计量一、单个总体均值的检验二、两个总体均值差的检验三、单个总体成数的检验四、两个总体成数差的检验[p235]五、单个正态总体方差的检验六、两个正态总体方差比的检验七、匹配样本的检验返回一、单个总体均值的检验
(一)大样本,或虽为小样本但总体方差已知
检验统计量:
双侧临界点:
+Zα/2(p212-216例8.1、例8.4)左单侧临界点:-Zα
(p219例8.2)右单侧临界点:+Zα(p224例8.6)
对照返回(二)小样本,总体方差未知检验统计量:双侧拒绝域:(p225例8.7)单侧临界点:对照二、两个总体均值差的检验
(一)大样本,或小样本但总体方差已知检验统计量:双侧拒绝域:(p231例8.10)单侧临界点:+Zα对照返回(二)小样本,两总体方差未知,但相等检验统计量:双侧拒绝域:单侧临界点:对照(三)小样本,两总体方差未知且不等检验统计量:(p233例8.11)返回三、单个总体成数(比例)的检验只考虑大样本检验统计量:双侧拒绝域:(p227例8.7)单侧临界点:+Zα返回只考虑大样本检验统计量:两个总体比例相等的假设:p=(p1n1+p2n2)/(n1+n2)[参考p191](p235例8.12)两个总体比例不相等的假设:(p236例8.13)双侧拒绝域:
单侧临界点:+Zα四、两个总体成数差的检验[p235]返回检验统计量:(p236例8.9)双侧拒绝域:或者左单侧拒绝域:左单侧拒绝域:五、单个正态总体方差的检验返回对照六、两个正态总体方差比的检验检验统计量:双侧检验条件下,双侧拒绝域F<或者F>(p238例8.14)单侧:单侧拒绝域F>或者F<对照七、匹配样本的检验(p238)
在某俱乐部训练前后体重记录单位:千克能否支持该俱乐部宣称可以使肥胖者减轻8.5千克的声明?训练前94.5101110103.59788.596.5101104116.5训练后8589.5101.5968680.58793.59310214.5117.59.58117.58.511.59.5差值X解答方法:把差值X作为一个新的样本返回参数检验的两类错误(p213)第一类错误:“弃真”总体参数是正确的,但检验时否定了(统计量落在小概率区间)。有α概率犯这种错误的可能性,减小α可以减少这类错误的概率。第二类错误:“取假”总体参数是错误的,但检验时没有否定(统计量落在大概率区间)。有β概率犯这种错误的可能性,增加α可以减少这类错误的概率。返回第七章列联分析与方差分析第一节列联分析第二节方差分析返回第一节列联分析一、列联分析所要解决的问题一致性问题:各比例是否一致的问题各比例是否与某参考值一致的问题独立性问题:两个分类变量间是否存在关联问题检验统计量:返回二、一致性检验例1:某公司中各分公司对改革方案的态度统计单位:人(37)(30)(40)(34)期望值fe31334532观察值f0反对改革方案(73)(60)(80)(66)期望值fe79577568观察值f0赞成改革方案四分公司三分公司二分公司一分公司例2:广告前后市场占有率变化如调查200人时期望值fe比例200200100%合计163015%其它828040%B1029045%A广告后调查200人(观察值f0)广告前公司三、独立性检验例:某原料产地与质量等级抽样资料单位:件期望值fe观察值f0期望值fe观察值f0期望值fe观察值f0500150150188188162162合计18956.707471.066561.2450丙地区17151.305264.305955.4060乙地区14042.002452.646445.3652甲地区合计三级二级一级返回第二节方差分析一、概述二、单因素方差分析三、双因素方差分析返回一、概述(一)问题的提出方差分析:在若干个能够相互比较的资料组中,判别各组资料是否存在差异以及分析差异原因的方法和技术。可表述为判断分类型自变量对数值型因变量是否有显著影响,或表述为判别多个总体均值是否相等的检验。返回(二)方差分析的三个假定条件
1、对于各因素的每个水平,其总体服从正态分布;
2、各个总体的方差σ2必须相同
3、各个观测值之间是独立的(三)方差分析的基本思想1、将组间数据差异与组内数据差异进行比较2、因素是否会对结果有影响就转化为各组均值是否相等3、即通过方差的比较来实现对均值的比较。返回二、单因素方差分析(一)单因素方差分析1、三个离差平方和
总离差平方和:组间离差平方和:组内离差平方和:返回2、假设检验拒绝域:返回三、两因素方差分析(一)无重复两因素方差分析1、前提假定及四个平方和与前面单因素方差分析的三个前提假定相同返回其中:2、假设检验拒绝域:(二)有交互作用的双两因素方差分析1、交互作用2、五个平方和:3、样本统计量的分布第八章相关与回归(一元线性回归)变量间的关系相关关系的描述与测度(相关系数)一元线性回归D.W检验(自相关检验)返回一、变量间的关系1、函数关系反映现象(变量)之间存在一一对应的数量关系,可以用数学表达式表达出来。2、无关系3、相关关系反映现象(变量)之间确实存在的依存关系,但是又不是确定(一一对应)的依存关系。返回相关关系的图示
不相关
负线性相关
正线性相关
非线性相关
完全负线性相关完全正线性相关
二、相关系数Pearson相关系数:(样本相关系数r)
0.8≤|r|<1为高度相关,0.5≤|r|<0.8为中度相关0.3≤|r|<0.5为低度相关,|r|<0.3可以认为不相关总体相关系数,记为
返回相关关系的测度
(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加三、一元线性回归回归模型类型:一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归返回回归模型与回归方程当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归对于只涉及一个自变量的简单线性回归模型可表示为:y=b0+b1x+e(几个假定P322)误差项
是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)一元回归方程:E(y)=b0+b1x(P322图形)回归方程是在y与x之间不确定的关系中寻找规律性(确定性)由于是得到的总是样本数据,所以能求的只能是估计的回归方程:xy(xn
,yn)(x1,y1)
(x2,y2)(xi,yi)}ei
=yi-yi^回归方程的解(P324通过偏导数为0求得)离差平方和的分解
(图示)xyy{}}
离差分解图离差平方和的分解
(三个平方和的关系)2.两端平方后求和可以证明有:从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){样本决定系数
(判定系数R2
)1.回归平方和占总离差平方和的比例可以证明判定系数等于相关系数的平方即R2=r2估计标准误差回归方程的显著性检验
(检验的步骤)1.提出假设H0:线性关系不显著2.
计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F
作出决策:若F
F
,拒绝H0;若F<F
,接受H0回归系数的显著性检验
(样本统计量的分布)
的抽样分布回归系数的显著性检验
(步骤)提出假设H0:b1=0(没有线性关系)H1:b1
0(有线性关系)计算检验的统计量
确定显著性水平,并进行决策
t>t
,拒绝H0;t<t
,接受H0利用回归方程进行估计和预测
(置信区间估计)
y的期望值的置信区间估计利用估计的回归方程,对于自变量x的一个给定值x0
,求出因变量y
的期望值E(y0)的估计区间,这一估计区间称为置信区间
E(y0)
在1-
置信水平下的置信区间为式中:Se为估计标准误差利用回归方程进行估计和预测
(预测区间估计)
y的个别值的预测区间估计利用估计的回归方程,对于自变量x的一个给定值x0
,求出因变量y
的一个个别值的估计区间,这一区间称为预测区间
y0在1-
置信水平下的预测区间为注意!置信区间、预测区间、回归方程xnyx
x预测上限置信上限预测下限置信下限返回第九章多元线性回归一、概念一个因变量与两个及两个以上自变量之间的线性回归描述因变量y如何依赖于自变量x1
,x2
,…,
xm
和误差项
的方程称为多元线性回归模型涉及m个自变量的多元线性回归模型可表示为
b0
,b1,b2
,,bm是参数
是被称为误差项的随机变量
说明了包含在y里面但不能被m个自变量的线性关系所解释的变异性,ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立返回多元线性回归方程描述y的期望值如何依赖于x1,x1
,…,xm的方程称为多元线性回归方程多元线性回归方程的形式为
E(y)=
0+
1x1
+
2x2
+…+
mxmb1,b2,,bm称为偏回归系数
bi
表示假定其他变量不变,当xi
每变动一个单位时,y的平均变动值多元线性回归方方程的直观解释二元线性回归模型(观察到的y)回归面
0
ix1yx2(x1,x2)}二、多元线性回归的估计方程总体回归参数是未知的,利用样本数据去估计用样本统计量代替回归方程中的未知参数
即得到估计的回归方程
是估计值是y
的估计值参数的最小二乘法
(要点)根据最小二乘法的要求,可得求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得
。即三、多重判定系数R2
(多重样本决定系数)1.回归平方和占总离差平方和的比例等于多重相关系数的平方,即R2=r2修正的多重判定系数R2
(修正的多重样本决定系数)由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,m表示自变量的数目,修正的多元判定系数的计算公式可表示为四、显著性检验(一)线性关系的检验检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验
(线性关系的检验)提出假设H0:
1
2
m=0线性关系不显著H1:
1,
2,,
m至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度m、分母自由度n-m-1找出临界值F
4.作出决策:若F
F
,拒绝H0;若F<F
,接受H0(二)回归系数的显著性检验如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi
对因变量y的影响是否显著对每一个自变量都要单独进行检验应用t
检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验回归系数的显著性检验
(步骤)提出假设H0:bi=0(自变量xi与
因变量y没有线性关系)H1:bi
0(自变量xi与
因变量y有线性关系)计算检验的统计量t
确定显著性水平,并进行决策
t
t
,拒绝H0;t<t
,接受H0五、多重共线性(一)概念当回归模型中两个或两个以上的自变量彼此相关时,回归模型存在多重共线性。由于提供了重叠性信息,使回归模型变量解释产生扭曲。(二)多重共线性的判别依据1、各自变量间显著相关;2、模型的线性关系检验显著,而回归系数的检验不显著;3、某变量回归系数的正负号与实际解释背离。(三)多重共线性的处理1、将各相关自变量尽量剔除;2、避免对单个变量回归系数的解释;3、用回归模型进行预测时,自变量要在样本数据范围内取值。六、变量选择与逐步回归(一)向前选择1、将因变量与所有自变量(K个)分别拟合一元线性回归模型,找出F统计量值最高的自变量作为首选自变量;2、将余下的自变量逐一与首选自变量拟合二元线性回归模型(K-1个),将使F值最大的新加自变量作为第二个选入的自变量;3、按上述方式逐个增加自变量,直到加入新变量后模型不再显著为止。返回(二)向后剔除1、将Y与所有自变量(K个)拟合回归模型,判别是否存在多重共线性2、如存在多重共线性,则分别拟合K个含K-1个变量的回归模型,将使SSE增加最少的变量剔除;3、如果仍存在多重共线性,再按上述方式减少自变量;4、直到用剩余自变量所求的回归模型不存在多重共线性为止。返回补充:可化为线性回归的
曲线回归1. 因变量y与x之间不是线性关系2. 可通过变量代换转换成线性关系3.用最小二乘法求出参数的估计值4.通过检验线性关系的显著性来检验曲线关系的显著性返回几种常见的非线性模型
指数函数3.线性化方法两端取对数得:lny
=ln
+
x令:y’=lny,
’=ln
,则有y’
=’+
x基本形式:2.图像
几种常见的非线性模型
幂函数3.线性化方法两端取对数得:lg
y=lg
+
lgx令:y'=lgy,x'=lg
x,则y'
=lg
+x'基本形式:2.图像0<<1
1
=1-1<
<0
<-1
=-1几种常见的非线性模型
双曲线函数3.线性化方法令:y'=1/y,x'=1/x,则有y'
=
+
x'基本形式:2.图像
<0
>0几种常见的非线性模型
对数函数3.线性化方法x'=lgx
,则有y'
=
+
x'基本形式:2.图像
0
<0几种常见的非线性模型
S型曲线线性化方法令:y'=1/y,x'=e-x,则有y'
=
+
x'基本形式:图像返回第十章时间序列分析第一节概述第二节长期趋势第三节季节变动的测定季节指数分析
返回第一节概述一、什么是时间序列例:
16515162832一般要求:1、间隔时间相等2、时间序列上指标值含义相同198419881992199620002004200851返回
二、时间序列的分解返回三、描述性分析(一)发展水平与平均发展水平时点数列序时平均数的求法(二)发展速度与平均发展速度几何平均法(三)指数平滑法第二节长期趋势的测定最小平方法:∑[y-ŷ]2最小散点图:返回1)根据最小二乘法得到求解a
和b
的标准方程为2)取时间序列的中间时期为原点时有
t=0,上式可化简为解得:解得:直线趋势方程的解抛物线方程当一组数据二级增长量大致相等,可设趋势方程:yc=a+bt+ct2指数方程当一组数据环比发展速度大致相等时,可设趋势方程:yc=abt三和法:令趋势值的三
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论