




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计之都COS Capital Of Statistics人大统计学专业课笔记IN THE NAME OF STATISTICS, UNITE!1统计之都COS Capital Of Statistics统计学(贾俊平)参数估计参数估计 :统计推断的重要内容之一,以抽样和抽样分布为基础,用样本统计量来估计未知总体参数。估计量:估计总体参数的统计量。估计值:用具体样本计算出的估计量的值,即估计量的实现。点估计:用某个估计值作为总体参数的估计。区间估计 :以点估计为基础,给出总体参数估计的一个区间X围,由点估计量加减边际误差得到。能由抽样分布给出估计量与总体参数接近程度的概率度量,
2、即置信水平。置信区间 :总体参数的估计区间。 统计学家在某种程度上确信它会包含总体参数真值,是随机区间。置信水平(置信度):重复构造置信区间多次,其中包含总体参数真值的区间个数所占的比例。它是针对随机区间而言的。估计量评价标准: 无偏性、有效性、一致性。理论基础大数定律 :揭示了大量随机现象均值的稳定性。常见的有伯努利大数定律(频率稳定性),辛钦大数定律(简单随机样本均值依概率收敛于总体均值) ,切比雪夫大数定律。是用样本估计总体的理论基础。中心极限定理 :揭示了独立同分布随机变量之和的极限分布是正态分布。常见的有伯努利试验场合、 独立同分布试验场合的中心极限定理。是区间估计和假设检验的理论基
3、础。抽样分布基本定理 (正态假定)a.X N ( , 2 / n) ; b.(n 1)S2 /2 2 (n 1) ;c.X 与 S2 相互独立;d.Xn t( n1) ;S /e.S12/ S22独立样本;12/ 22 F (n1 1,n21) ()IN THE NAME OF STATISTICS, UNITE!2统计之都COS Capital Of Statisticsf.( XY )( 12 ) t (n1n22) ( 独立样本,12 = 22 ) 。1 Sp n1 n2单总体参数估计目标量: , , 2。影响因素: a. 是否是正态总体; b. 总体方差是否已知; c.
4、 是大样本还是小样本。抽样分布a.ZX N (0,1) ;b.tX t (n1) ,/n N(0,1) (大样本 ) ;S / nc.Zp N (0,1) ( 大样本, np5, n( np)5) ;p( p1)nd.2(n1)S2 /2 2 (n1) 。11. 两总体参数估计目标量: 1 2, 12, 1222 。影响因素: a. 是否是正态总体; b. 两总体总体方差是否已知、是否相等; c. 是大样本还是小样本,两样本量是否相等; d. 是独立样本还是匹配样本。抽样分布a.Z( X1X 2 )(12 ) N(0,1) (独立样本 ) ;2212n1n2b.Z( X1X 2 )(12 )
5、N(0,1) (独立大样本 ) ;S12S22n1n2c.t( X1X 2 )(12 ) t (n1 n22) ( 独立样本,12= 22) ;Sp12n1n2d.Zd(12 )匹配样本);d /n N (0,1) (e.Zd(12 )匹配大样本);Sd /n N (0,1) (IN THE NAME OF STATISTICS, UNITE!3统计之都COS Capital Of Statisticsf.Z( p1p2 ) (12 ) N (0,1) (独立大样本 ) ;p1(1 p1 ) p2 (1 p2 )n1n2g.FS12/ S221,n2)(独立样本 ) 。2/2
6、F ( n1212. 确定样本量: E z /2z2/22n2(1 表示可靠性, E表示精度 ) 。nE假设检验假设检验 :统计推断的重要内容之一,先对总体参数提出一个假设,然后利用样本来检验该假设是否成立。原假设 与备择假设 :假设检验是围绕原假设是否成立展开的,若拒绝原假设,就用备择假设来替换。推翻原假设需要样本落入否定域,这是小概率事件,故在一次试验中原假设具有优势而备择假设不易发生,一旦发生,我们就有足够的理由推翻原假设,这意味着新结论的诞生。弃真错误 ( 错误)与取伪错误 ( 错误):前者是原假设为真却被拒绝所犯的错误,后者是原假设为假却没被拒绝所犯的错误。样本量一定时,两者是此消彼
7、长的关系;若增大样本量,则两者同时变小。假设检验中遵循“首先控制犯错误”的原则。小概率原理 :发生概率很小的随机事件在一次试验中几乎不可能发生。统计量检验与 P 值检验否定域:由一个直观上有明确意义的统计量确定。P 值:当原假设为真时,得到所观测结果或更极端结果的概率。比较:统计量检验是先确定一个显著性水平 从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差; P 值是检验的真实显著性水平,可利用 P 值直接决策或将 P 值与 进行比较,不需要查表,具有可比性。6. 假设检验流程图(见图1)方差分析IN THE
8、 NAME OF STATISTICS, UNITE!4统计之都COS Capital Of Statistics基本思想:表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源。观察到的数据一般是参差不齐的,我们用 SST度量数据总的变异,将它分解为可追溯到来源的部分变异 SSE与 SSA之和,若后者的平均 MSA明显比前者的平均 MSE大,图 1就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。基本假定: a. 各总体服从正态分布;
9、 b. 各总体方差相同; c. 各观测值相互独立。方差分析与两两均值检验:两两均值检验会增加犯第累错误的概率( 1(1)n ( n 1)/2),而且随着检验次数的增多,偶然因素导致差别的可能性也会增加;方差分析是同时考虑所有样本,排除了错误的累积,减少了偶然因素的不利影响,也简化了检验的过程。单因素方差分析数据结构C1C2Ckx11x12x1 kx21x22x2 kxn1 1xn2 1xnk IN THE NAME OF STATISTICS, UNITE!5统计之都COS Capital Of Statistics1方差分析模型由基本假定 , xij N (j ,2 ),i
10、1, n j ; j1, k令 ijxijj N(0,2 )有 xijjij令总均值1 kn j j( nknj )n j1j1kk有nj ( j)n jj0(j称为第 j个水平的 效应 )j1j 1得单因素方差分析模型xijjij , i1, , n j ; j 1, , kij N (0,2 ),各 ij 相互独立kj 1 n jj0步骤a. 提出假设: H 0 : 1k1k0 H1:j ( j1, , k)不全相等 ;b. 构造检验统计量: FMSAH0 F ( k1,nk ) ;MSEc. 统计决策。方差分析表差异源SSDFMSFP-valueF crit组间SSAk-1MSAMSA/
11、MSE组内SSEn-kMSE总计SSTn-12有交互作用的双因素方差分析(等重复试验情况) :数据结构(见表 3)方差分析模型IN THE NAME OF STATISTICS, UNITE!6统计之都COS Capital Of Statistics由基本假定 , xijl N ( ij ,2 ), i1, s; j1,k; l1, m令ijlxijlij N (0,2 )有 xijlijijlC1Ckx111x1k1R1x11mx1kmxs11xsk1Rsxs1mxskm3令1s k1ij ,ik1ij ,jsijski 1 j 1kj 1si 1令行、列、交互 效应ii,
12、jj, ()ijijij得有交互作用因素方差分析模型xijlij() ijijl , i1, , s; j1, k;l 1, , mijl N(0,2), 各 ijl相互独立skski 1 jj 1ji 1 ()ijj 1 ()ij0原假设与检验统计量H01 :1s1sH02 :1k1sH 03 : 两因素个水平间无交互作用00()11() sk0SSR/ ( s1)SSC/ (k1)SSRC / ( s 1)(k 1)FR1), FC1), FRCSSE/ sk (mSSE / sk(mSSE / sk( m 1)IN THE NAME OF STATISTICS, UNIT
13、E!7统计之都COS Capital Of Statistics无交互作用的双因素方差分析数据结构(见表 4)方差分析模型由基本假定 , xij N ( ij ,2 ), i1, s; j1, k令ijxijij N (0,2 )C1CkR1x11x1kRsxs1xsk表 4有 xijijij令1s k1ij ,ik1ij ,jsijski 1 j 1kj 1si 1令行、列、交互 效应ii,jj, () ijijij0得无交互作用因素方差分析模型xijijij , i 1, , s; j 1, , kij N(0,2 ), 各 ij 相互独立sk0i 1jj1j原假设与检验统计量H01 :1
14、s1sH02 :1k1s00SSR/ ( s 1)SSC / (k 1)FR, FCSSE / ( s 1)(k 1)SSE/ ( s 1)(k 1)多重比较:当方差分析拒绝原假设时,为进一步分析到底是哪些均值不相等,于是将各均值配对检验,但检验统计量不是 t 统计量。试验设计IN THE NAME OF STATISTICS, UNITE!8统计之都COS Capital Of Statistics含义:收集样本的计划,通过科学安排试验,用尽可能少的试验获得尽可能多的信息。主要数据分析方法是方差分析。完全随机化设计 :将各种处理随机指派给试验单元。数据分析方法是单因素方差分析
15、。随机化区组设计 :将试样单元划分为若干区组,再将各种处理随机指派给各区组。划分区组可消除试验单元的差异造成的影响。因每个区组只做一次试验,故只能采用无交互作用双因素方差分析方法。因子设计 :考虑两个或多个因素搭配的试验设计,每种搭配可重复试验。数据分析方法是有交互作用双因素方差分析。数据整理与展示数据类型与图示法图 2几种图示法的比较条形图与直方图:前者用长度表视频数(率) ,宽度固定,各矩形分开排列,主要展示分类数据;后者用面积表示频数(率) ,宽度为组距,各矩形连续排列,主要展示数值型数据。茎叶图与直方图:前者类似于横直直方图,既能展示数据分布状况,又保留了原始数据,适用于小批量数据;后
16、者也能很好显示数据分布状况,但不能保留原始数据,适用于大批量数据。饼图与环形图:前者只能显示一个样本或总体的比例数据;后者可以同时显示多个样本或总体的比例数据,有利于比较。IN THE NAME OF STATISTICS, UNITE!9统计之都COS Capital Of Statistics数据分布特征描述统计量(见图 3)众数、中位数、平均数的比较众数:一组数据分布的峰值,不受极端值影响,不具有唯一性,没有利用全部数据,适用于较大量的分类数据。中位数:一组数据中间位置的代表值,不受极端值影响,只利用了一个数据,信息图 3浪费严重,适用于偏斜度较大的顺序数据。平均数 :一
17、组数据的重心,应用最广泛的集中趋势测度值,具有优良的数学性质,是统计推断的基础,利用了全部数据,易受极端值影响,适用于偏斜度不大的数值型数据。IN THE NAME OF STATISTICS, UNITE!10统计之都COS Capital Of Statistics应用时间序列分析 (王燕)时间序列 :按时间顺序记录的观察值序列。理论上用一组按时间顺序排列的随机变量 X t ,tT 表示一个随机事件的时间序列, 用 xt , t1, n 表示 X t , tT 的长度为 n 的观察值序列。2. 平稳时间序列 :基本上只包含随机波动的时间序列。分为严平稳与宽平稳两种。严平稳要
18、求序列所有统计性质(联合概率分布族)不随时间推移而发生变化。宽平稳认为序列统计性质主要由二阶矩决定,只要保证二阶矩平稳,就能保证序列主要性质近似平稳。存在二阶矩的严平稳序列一定是宽平稳序列,宽平稳正态序列也是严平稳序列。时间序列的每个随机变量在任一时刻只能获得一个观察值,样本信息太少,若序列平稳,则能得到基于全体观察值的均值和自协方差的估计值,从而极大地简化了分析的难度,也提高了估计的精度。非平稳时间序列 :包含趋势、季节性或周期性的时间序列。时间序列成分趋势:时间序列在长期中呈现出来的某种持续上升或下降的变动。季节性 :时间序列在一年中呈现出来的和季节变化相关的稳定的周期性变动。比较有规律,
19、周期多为一年。周期性 :时间序列呈现出来的围绕长期趋势的某种波浪式变动。无固定规律,周期多为一年以上且长短不一。随机性:时间序列中除去趋势、季节性、周期性之外的偶然性波动。5. 时间序列模型加法模型: xtTtStI t 。乘法模型: xtTt StI t 。混合模型: xtStTtI t , xtSt(TtI t ) 。季节多元回归模型: xta0a1tb1Q1b2Q2 b3Q3I t。趋势季节成分随机波动ARMA(p,q)模型(自回归移动平均模型 )IN THE NAME OF STATISTICS, UNITE!11统计之都COS Capital Of Statistic
20、sxt01 xt 1p xt pt1 t 1q t q ( p , q0)E(t )0, Var (t )2, E(st )0 ( st)E(xs t )0 ( st )ARIMA(p,q,d,T)模型(求和自回归移动平均模型 )( B)Td xt( B)tE( t )0, Var (t )2, E( st ) 0 ( s t)E(xst )0 ( st )符号说明a.B 为一阶延迟算子( Bxtxt1 );b.( B)11Bp B p(p0) 为自回归系数多项式;c.( B)11 Bq Bq(q0) 为移动平均系数多项式;d.d(1B)d 为 d阶差分算子;e.T 为步长为周期T 的 T 步
21、差分算子。6. 平滑法 :利用修匀技术,削弱短期随机波动,使序列平滑而显示出变化规律。分为简单平均法 、移动平均法 、指数平滑法 。可短期预测平稳序列,也可使序列平滑以描述其趋势。季节指数 :用简单平均法计算的周期内各时期季节性影响的相对数,反映了该季节平均值与总平均值之间的一种比较稳定的关系,可以用来确定并分离季节成分。计算步骤如下a. 计算周期内各期平均值( m 期为一周期,共 n 个周期)1nxki 1 xik , k1, , mn计算总平均值1xnmmi 1 k 1 xik计算各期季节指数xkSk, k1, m时间序列分析过程IN THE NAME OF STATIST
22、ICS, UNITE!12统计之都COS Capital Of Statistics图 4预处理:平稳性检验与白噪声检验。前者有图检验法(时序图、自相关图)和单位根检验法;后者用 Q统计量检验。平稳时间序列分析(见图5)图 5非平稳时间序列分析确定性分析:将序列进行确定性因素分解。该方法重点提取确定性信息,而对随机信息浪费严重,使得模型拟合精度不高;b. 随机性分析:拟合 ARIMA模型,大大提高拟合精度,但直观解释比较困难。IN THE NAME OF STATISTICS, UNITE!13统计之都COS Capital Of Statistics应用回归分析(何晓群)概述
23、回归分析的任务:用观测数据来估计回归方程,以揭示因变量对自变量的依赖关系,讨论有关的点估计、区间估计和假设检验等问题,应用于结构分析、预测和控制。回归分析的步骤IN THE NAME OF STATISTICS, UNITE!14统计之都COS Capital Of Statistics图 6一元线性回归一元线性回归是很多实际现象的近似,能较好地反映回归分析的核心思想。回归模型与方程理论回归模型y01xE()0, Var ( )2理论回归方程E( y | x)01x样本回归模型yi01 xii , i 1, , nE( i )0, Cov(i , j )2ij经验回归方程y?
24、IN THE NAME OF STATISTICS, UNITE!15统计之都COS Capital Of Statistics参数估计普通最小二乘估计 ( OLSE)Q(0,1)( yiE( y )2( yi0 x ) 22i1 iiQ(?,?min Q(0, 1)( yi?2?)2201)01xi )( yi yiei0 , 1Q0Q?00?12 ( yixi )2 ei 0eiei 001n1?10?0?2 xi ( yi2 xiei 0 xi ei001 xi )11?1n ?0(x) ?1yiixi ) ?02?1(xi )xi yi?y?01 x?( xi x
25、 )( yiy)Lxy1( xix )2Lxx最大似然估计 (MLE):利用总体密度函数或概率分布及样本信息来估计参数,使得样本落在已知样本值附近的概率最大。L (22 ) n /2exp12( yi01xi ) 22ln Ln ln(2)n ln212( yi0 1 xi )222221?212?M( yi)ei01 xinn4.OLSE的性质无偏性: E( ?j )j , E( y?i )yi 。有效性( Guass-Markov 定理):在 G-M条件下, ?j 是j 的唯一最小方差线性无偏估计。估计量(协)方差IN THE NAME OF STATISTICS, UNI
26、TE!16统计之都COS Capital Of StatisticsVar ( ?1 )Var ( ?0 )Cov( ?0 ,Var (xix y )( xix )222LxxiL2xxLxxVar ( y? x )Var ( 1x ( xix) ) y )(1x ( xi x ) 2 21nLxxinLxx(1x 2 ( xix ) 22x ( xix )221 x 2222nLxx)()nLxxnLxx?1 )Cov( 1x ( xix) ) yi ,xix yi )nLxxLxx( 1 x( xi x ) ) xix2x2nLxxLxxLxx?1 x (xix )x0 x01 x0 )V
27、ar () yiyi )Var ( y0 ) Var (nLxxLxxVar (1 ( x0 x )( xix)(Lxx) yi )n(1(x0 x)( xix ) )2 2nLxx1( x0 x )22h002()nLxx5. 区间估计(正态假定)?12 N (1,)Lxxt? t (n2)11?2 / Lxx?t /2?1Lxx假设检验(正态假定)必要性:检验经验回归方程是否真正描述了因变量与自变量之间的统计规律性。 t 检验a.H0:1 0H1: 10 ;b.?H0t1 t (n2) 。?2 / LxxF 检验: FSSR/1H0 F (1,n 2) 。SSE/ (n2)
28、IN THE NAME OF STATISTICS, UNITE!17统计之都COS Capital Of Statistics相关系数检验a.H 0 :0 ;b.rn 2H0 t (n 2)。tr 2t 统计量与 F 统计量的关系?Lxxn21Lyy?r n21tr 2?2 Lxx11?2Lxx ) / Lxx11L yy( L yy1n2?11SSE?2 / Lxxn/ Lxx2SSR/1?12 Lxxt2F?2SSE / (n 2)拟合优度检验a. 决定系数 : r 2SSR , 反映了因变量变异中能用自变量解释的比例,描述了回归SST直线拟合样本观测值的优劣程度;b. 调整决定系数 :
29、当 n 较小时, r 2 接近于 1,包含虚假成分,可结合 n 和 p 对 r 2 进行调整;c. 拟合优度检验与F 检验的比较: F 统计量与 r 2 统计量是等价的,但不能相互代替。F 统计量有精确的分布, F 检验可在给定显著性水平下给出严格的统计结论;r 2 统计量没有精确的分布,拟合优度检验得出的结论比较模糊。F(n 2) SSRSSRSSE2F n 2(n 2)SSRr2SSTnSSE残差分析残差与随机误差的比较iyiE ( yi )yi01xi (总体模型误差 )?样本模型误差eiyiyi01xi ()yi残差的性质a. 期望:(ei)(yi? ) 0;EEI
30、N THE NAME OF STATISTICS, UNITE!18统计之都COS Capital Of Statistics方差Var ( ei )Var ( yiVar ( yiVar (11(1n2(1n2(1n1(1?)Var ( yi01xi )yi1( xix)( xjx )(Lxx) y j )jn1 ( xix)21( xix )( xjx ) y j )nLxx) yi(Lxxjin(xix )2)21( xix )( xj x )22Lxx(Lxx)j i n2( xix )22(1( xix)( x jx)22Lxx)nLxx)j2( xix )2 ) 2( 1( xix
31、 )2 ) 2LxxnLxx(xix )2 ) 2(1 h ) 2Lxxiic.ei1ei0,xi ei0, E(ei2)2。nn2E(ei212)1Var ( ei1(1 hii )22)E(ein2)nn2n2n( 1(xix) 2)nLxx22n2改进残差a.标准化残差 (半学生化残差 ): ZREiei ;?b. 学生化残差 : SREiei。? 1hii残差图:诊断模型是否满足基本假定,是否存在异常值,因变量与自变量是否线性相关,等等。8. 预测与控制单值预测: ?2。1 x0 N ( 0 1 x0 , h00 )y00 y0 的预测区间(随机变量)? N (0,(1 h00 )2)
32、y0 IN THE NAME OF STATISTICS, UNITE!19统计之都COS Capital Of Statisticsy0?ty0 t(n 2)1h00?t/2?y01 h00 ( y02 ) E( y0 ) 的置信区间(未知参数)E( y0 )? N (0, h002)y0?t /2?h00y0控制T1y?02 ?yy?02 ?T2PT1yT21多元线性回归1. 多元线性回归模型:yX。基本假定:解释变量为非随机变量,不存在多重共线性,与随机扰动项不相关。Guass-Markov 假定: E( ) 0, Var ( )2I n 。正态假定: N (0, 2
33、 I n ) 。参数估计 OLSE? ( X X ) 1 X y ;?2 SSE/ (n p 1)。MLEL (22 ) n/2exp12 ( yX) ( yX )2ln Ln ln(2)n ln21( y X) ( y X )?2222(XX)1X yM2SSE / nMOLSE的性质IN THE NAME OF STATISTICS, UNITE!20统计之都COS Capital Of Statisticsa. 无偏性: E( ?), E(SSE)2 ;np1SSE ( yX) ( yX)( yX ( X X ) 1 X y)( y X (X X ) 1 X y)y (
34、I X ( X X ) 1 X ) y y( I H ) y( X)(I H)(X)(I H)E(SSE)E(IH )E(tr (IH )E(tr ( IH )tr (E (IH )tr ( IH )E()tr (IH ) 2I n )2tr ( IH )2 (ntr ( H )(n p 1)b. 有效性( Guass-Markov 定理):在 G-M条件下, c ?是 c的唯一最小方差线性无偏估计(正态假定下是最小方差无偏估计);c. 估计量(协)方差:Var ( ?)2 ( X X ) 1 , Cov( ?, e)0 ;Cov( ?, e)Cov( X X ) 1 X y,( IH ) y
35、)2(XX) 1X (IH)0d. 正态假定下:? N ( , 2 ( X X ) 1), SSE/ 2 2 ( n p 1) 。假设检验回归方程显著性检验a.H0: 1p0 ;b.SSR/ pH 0 F ( p, np 1) 。FpSSE/ (n1)回归系数显著性检验a.H 0 j : j0, j 1, , p ;?H 0 jSSR( j ) /1H 0 jb.jt (n p 1), Fjt j2 F (1,n p 1) 。t jSSE / ( n p 1)? c jj拟合优度检验a. 决定系数 : R2SSR;SST调整决定系数IN THE NAME OF STATISTI
36、CS, UNITE!21统计之都COS Capital Of StatisticsRa21 (1 R2)n1R2 ( p0时 , Ra2R2 ; p越大 , Ra2与 R2 相差越大 )np 1c. FR2 / p, R2F。(1 R2 ) / (n p 1)n p 1Fp违背基本假设情况异方差性起因:是一种随机误差现象。由于实际问题的复杂性,建立回归模型时经常出现某些未用解释变量表示的因素随着解释变量观测值的变化而对被解释变量产生不同影响,导致随机误差项产生不同的方差。截面数据、时序数据测量误差、平均数样本数据都易产生异方差性。后果参数估计量仍是无偏的,但丧失有效性;参数估计量方差不能正确确
37、定;c.t检验失效( t 值高估), F 检验也失效;回归方程预测精度降低。诊断a. 残差图检验;b.Spearman检验(等级相关系数法) ;c.White 检验;d.ARCH检验;e.Goldfeld-Quandt(G-Q)检验。克服a. 加权最小二乘法 ( WLS):以牺牲大残差项为代价来改善小残差项的拟合效果,适用于误差项服从异方差正态分布且因变量与自变量有线性相关性场合;Qwwi ( yixi120 xip )( yX) W ( yX )(Wdiag w1, , wn )?(XWX)1X Wyw11wii2or xijmb. Box-Cox 变换法(综合治理,因变量变换) ;c. 方
38、差稳定性变换 (因变量变换);d. 广义最小二乘法 ( GLS):由一系列变换使模型随机扰动项同方差,再使用普通最小二乘估计。自相关性起因:是一种随机误差现象,有虚假自相关和真正自相关。来源于经济变量的惯性作用、关键变量的遗漏、不恰当的回归模型、随机项本身序列相关、数据的加工与整理等。IN THE NAME OF STATISTICS, UNITE!22统计之都COS Capital Of Statistics时序数据易产生自相关性。后果参数估计量丧失有效性且对抽样波动非常敏感;参数估计量方差不能正确确定;t 检验( t 值高估)与 F 检验失效;回归方程预测失效。诊断残差图检
39、验法;DW检验法(一阶自相关);H 0 :0ne)2ne e( e? ?t 2DWt 2tt 12(1t t 1n2)nnt 2 ett 2 et2t 2 et2 1?DW-14(-1,0)(2,4)02(0,1)(0,2)10自相关性完全负自相关负自相关无自相关正自相关完全正自相关表 5图 7回归检验法。克服a. 广义差分法(广义LSE的特殊情况);一阶差分法;c.Cochrane-Orcutt迭代法;d.Durbin两步法(高阶自相关)。IN THE NAME OF STATISTICS, UNITE!23统计之都COS Capital Of Statistics多重共线性
40、起因:通常是一种样本现象,由解释变量之间的高度相关引起的。具体说来,解释变量存在共同变化趋势(时间序列数据易出现) ,滞后变量较多等都可能造成多重共线性。后果参数估计量方差很大;回归方程整体显著,某些回归系数却通不过显著性检验;回归系数的符号与实际不符;回归方程可靠性降低,预测精度降低。注:若用模型作结构分析,要尽量避免多重共线性;若用于预测,只要保证解释变量相关性类型的稳定性,即便有多重共线性,预测效果也不差。诊断a. 方差扩大因子法;b.特征根法;c. 简单相关系数矩阵法;d.t检验和 F 检验综合判断法;解释变量之间拟合回归方程或剔除某个解释变量拟合回归方程法。克服a. 剔除不重要自变量
41、;增大样本容量;回归系数有偏估计: 以牺牲无偏估计为代价以提高估计量的稳定性, 有主成分法 、岭回归法 、偏最小二乘法 等。自变量的选择必要性:模型中自变量的数目一般追求“少而精” ,丢掉一些不太重要的自变量后,虽然使估计量产生了有偏性,但会更加稳定,预测精度也会提高。准则: Ra2 达最大; AIC 达最小; C p 达最小。(注: SSE或 R2 不宜作为准则,因为自变量子集扩大时, SSE会减小, R2 会增大,包含虚假成分。以上准则适用于自变量不多情形)前进法 :只进不出。每次引入一个最显著变量,变量由少到多,直至没有可引入的变量为止。优点是计算量小,缺点是“终身制” 。后退法 :只进
42、不出。先用全部变量建立回归方程,再逐个剔除最不显著变量,变量由多到少,直至没有可剔除变量为止。优点是每个变量都有展示自己的机会,缺点是计算量大,“一棍子打死”。逐步回归法 :有进有出。逐个引入变量,每引入一个变量后,对已入选变量逐个检验,剔除不再显著变量,再考虑引入,如此下去,直至无显著变量可引入,也无不显著变量可剔除为止。吸收了前进法与后退法的优点并克服了它们的不足。要求进出 ,否则可能产生死循环。IN THE NAME OF STATISTICS, UNITE!24统计之都COS Capital Of Statistics抽样技术(杜子芳)基本概念调查:一种系统地搜集总体信
43、息的活动。本质是一种测量活动。全面调查调查概率抽样调查(狭义抽样调查)非全面调查(广义抽样调查)非概率抽样调查抽样调查 :现今最重要的调查方式。实施原因: a. 找到总体所有单元几乎不可能; b. 能找到总体所有单元,但时间、费用不允许; c. 能找到总体所有单元,时间、费用也允许,但在保证精度的前提下不必要这么做。与全面调查相比,概率抽样调查的优点是时间短速度快、费用少成本低、结果较准确、应用广泛,局限性是用部分推断总体必存在代表性误差,只提供总体目标量估计,不能提供许多子总体信息。概率抽样 :以一定的概率通过一定的随机化程序从总体抽取样本。优点是可避免人为因素的干扰,保证样本的代表性;可估
44、计抽样误差;可根据精度要求计算必要的样本量。非概率抽样 :按照人的主观意愿抽取样本,样本被抽到的概率不确定。缺点是不能保证随机性,难以评价样本代表性,无法估计抽样误差,偏倚往往较大,只有参考意义。总体:所有个体的集合。 目标总体 :研究对象的全体。 抽样总体 :从中抽取样本的总体,是有限的、不假定分布的总体。个体:构成总体的基本单元(不可再分的单元) 。 单元:构成总体的个体或子总体。抽样框:抽样总体化表现。抽样单元 :构成抽样框的单元。样本:抽样的结果。 样本点:构成样本的抽样单元。 样本量:样本点的数目。抽样比:样本量与抽样单元总数之比。总体特征: 总体总量 、总体均值 、总体比例 、总体
45、比率 。误差与精度:误差是测量值或估计值与真实值之间的差异。 分为系统误差 、随机误差 、粗大误差 或者抽样误差 与非抽样误差 。抽样误差是由抽样的随机性造成的,影响因素有样本量、抽样方法、估计方法,在概率抽样下可以计量,可由抽样设计加以控制,根本方式是改变样本量。非抽样误差主要包括 抽样框误差 (抽样总体与目标总体不一致) 、测量误差 、无回答误差 ,一般不会随样本量增加而下降,往往造成估计量有偏,不易计量。精度是误差的反面,是信度与效度的综合。 信度就是可信程度,是多次测量结果之间的符合程度。 效度就是IN THE NAME OF STATISTICS, UNITE!25统
46、计之都COS Capital Of Statistics有效程度,是多次测量结果均值与真值之间的符合程度。第一种场合 与第二种场合 :前者指对同一 客体的同一对象重复测量,即“一点多次”测量;后者指对多个客体的同一对象进行测量,即“一次多点”测量。均方误差( MSE):估计量误差平方的期望,精度在第二种场合的表现,可分解估计量方差与估计量偏倚平方之和。 标准误 :均方误差的平方根。 标准差 :估计量方差的平方根。偏倚:估计量期望与真值之差的绝对值。MSE( ?) E( ?)2E? E(?)E( ?) 2E?E(?2 E(?2)?2?V ( )B ()抽样调查程序确定目标; 选择抽样框和抽样方法
47、;设计问卷;实施调查(搜集数据) ;整理与分析数据;写调查报告。调查报告内容主题; 调查时间与地点;调查主题、客体、对象;数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法;结论描述;精度、质量评估;责任;参考文献。简单随机抽样1“简单”之含义单纯。直接从总体(非层之类的子总体)中抽取个体(非群之类的大单元) ,遵循随机原则。基本。是其它概率抽样方式的基础,如分层抽样层内可采用简单随机抽样,整群抽样以群为单位进行简单随机抽样。容易。日常生活中广泛使用“抓阄” 、“掷色子”、“摇奖”等。随机抽样(等概率抽样)四种情形放回有序(放回简单随机抽样) N n不放回无序(不放回简单随机抽样) C
48、Nn 放回无序 N n CNn不放回有序 ANIN THE NAME OF STATISTICS, UNITE!26统计之都COS Capital Of Statistics3. 简单随机抽样 ( Simple Random Sampling )概念:从单元数为N 的总体中逐个不放回等概率抽取n 个单元或者一次性随机抽出个单元,得到简单随机样本。适用场合:总体N 较小,总体方差 S2 与任意局部方差相等。若N较大或总体各单元差异较大,会增大总体目标量的估计误差,且 N 较大时拥有完整抽样框很困难,样本单元也比较分散,会增加调查时间和费用,故一般与其它抽样方法结合使用。估计方法
49、:简单线性估计、比率估计、回归估计。简单估计量参数估计 与抽样估计 的比较:前者的总体一般无限或可无限次重复观察,总体分布假定已知,样本观察值独立同分布,采用等概率抽样,考察抽样误差;后者的总体通常有限,难以重复观察,总体分布一般未知,样本观察值不独立,采用包括等概率抽样在内的多种抽样方式,考察抽样与非抽样误差。期望a.?E( y ) E(Y )Y ;CNny (i ) P( i)CNny (i ) 1E ( y)i 1i1CNn1CNn1 ( y(i )y( i ) )CNni 1n1n1 1CnN(i )y( i ) )( yN CNn11 i 11n11CnN(Yi1Yin )N CNn
50、 11 i 11NYYiN i 1b.E(Ny )?NYY ;E(Y)c.E( p)?P ;E( p)d.?较大。E(r )E(R)R ( n)方差a.抽样理论核心定理 : V ( y)1fS2 ;nb.V (Ny )1 f N 2S2 ;nc.V ( p)1fNP);nP(1N 1IN THE NAME OF STATISTICS, UNITE!27统计之都COS Capital Of Statisticsd.1f1N2V (r )(Yi RXi )较大)。nN( n1 i 1方差估计a.v( y )1fs2,无偏 ;nb.v( Ny )1nf N 2 s2,无偏 ;c.v(
51、 p)1fp(1p),无偏 ;nv(r ) 1 f 1i ri xi )2 ( n较大 ) 。 n n 1 i 1比率估计量 (比值关系)辅助变量的特点:与主变量高度相关;总体总值或均值已知,或更易获得。(yn?y?YRyR RXX,YRNRXRX,渐进无偏,均方误差较小。NyRx回归估计量 (线性相关关系)条件:有较好辅助变量可以利用,主变量与辅助变量回归线不过原点。? ylr y( X x) Ylr 。 可事先给定,此时 ylr 无偏;也可进行最小二乘估计,此时ylr 渐进无偏。简单估计量与比率估计量都是回归估计量的特例(0 ,?)。R7. 设计效应 (design effect,deff
52、 )定义:样本量相同时, 某一抽样方式估计量方差除以简单随机抽样方式估计量方差。deffV ( y )Vsrs ( y)a. 简单随机抽样 deff1;21N 1S2nN1b. 放回简单随机抽样deffnN;fNnN11S2S2nnnNc. 分层随机抽样 deff1;d.整群随机抽样 deff1;e. 系统抽样 deff 1。IN THE NAME OF STATISTICS, UNITE!28统计之都COS Capital Of Statistics确定样本量必要性:实施抽样的必要前提,关系到调查的时间、费用、精度等。影响因素:总体规模、总体方差、调查精度(置信度与绝对误差限
53、度) 、抽样方法、估计方法、有效回答率等。V ( y ) 1 f S2( 11 )S2nnN1 V ( y)n NS2P| yY |dP | y Y |du /2 1V ( y)V ( y)11d 2nNu2/2 S2步骤a. 确定估计精度( 1, d );b. 按保守原则预估S2 ,并考虑 N ;c. 由简单随机抽样方式及100%回答率计算初始样本量 n0 ;n0 1/1d 2Nu2/2 S2d. 确定抽样方式,由deff 调整样本量为 n1 ;n1n0deffe. 确定有效回答率 r ,将样本量进一步调整为n2 ;n2n1 / re.权衡其它各种因素,确定最终样本量n3 。3 分层抽样1.
54、 分层抽样 (Stratified Sampling ):先将总体划分为不同的层,然后在层内进行抽样,各层抽样相互独立。若各层是简单随机抽样,则称为 分层随机抽样 。适用场合:几乎所有大型抽样调查。特点:不仅能估计总体,也能估计各层;样本在总体中分布较均匀,代表性较好;抽样单元较集中,各层抽样方法可以不同,组织便利;估计精度较高。分层抽样的精度与各层方差以及样本量在各层的分配有关, 若各层的划分或样本量的分配不合理, 精度会大打折扣。IN THE NAME OF STATISTICS, UNITE!29统计之都COS Capital Of Statistics层的划分要求层内差
55、异小、层间差异大。估计方法:先对各层进行估计,再将各层估计量加权平均。?ystLLN hyh(无偏 )YstWh yhNh1h 1L2 1fh2L Wh2 Sh2L Wh Sh2V ( yst )WhShnhh 1Nh 1nhh 1LWh2 1 fh sh2 ( 无偏 )v( yst )h1nh整群抽样整群抽样 (Cluster Sampling ):先将总体划分为不同的群,然后只对初级抽样单元抽样,并调查被抽中的初级单元的所有次级单元,不调查未被抽中的初级单元。以上是单阶段整群抽样的定义,还可以进一步定义多阶段整群抽样。适用场合:总体可看成许多子总体组成,子总体间性质差别不大但空间相隔较远,
56、基本单元与子总体的联系比与总体的联系更密切。特点:样本单元比较集中,节约成本;抽样框编制简单。主要缺点是精度较差(群内单元的相似性),但可凭借较低成本,在相同花费下增大样本量来提高精度,另外对于某些特殊结构总体,整群抽样反而有较高精度,比如欲估性别比,以家庭为群比直接抽取个人精度高。群的划分:原则是群间差异大而群内差异小。一般有两类,一类是根据行政区划或地理区域形成的群,另一类是调查人员认为确定的群。可用方差分析原理说明,总体方差可分解为群间方差与群内方差,两者此消彼长,群间方差是抽样误差主要影响因素。群规模大,精度差但费用小,反之精度高但费用大。群规模不宜过大,不然就得采用多阶段抽样。多阶段
57、抽样多阶段抽样 (Multi-stage Sampling ):分多个阶段逐级抽样,然后逆序逐级估算总体指标。整群抽样可看作第二阶段抽样比 100%的二阶段抽样。分层抽样可看作第一阶段抽样比100%的二阶段抽样。适用场合:常用于大型抽样调查,多与整群抽样结合使用,前几阶为多阶段抽样,最后一阶为整群抽样。特点:具有整群抽样样本集中、调查方便、不需完整次级单元抽样框的优点,而且对群内相似单元进行再抽样,减少了浪费,充分发挥了抽样效率。每阶段可采用不同抽样方法。估计量方差估计复杂,阶段数越多误差累积越多。IN THE NAME OF STATISTICS, UNITE!30统计之都C
58、OS Capital Of Statistics系统抽样系统抽样 (Systematic Sampling ):先将总体单元排序,然后随机抽取一个初始单元,再按给定规则抽取其它样本单元。又称为 机械抽样 或伪随机抽样 。常见的有 直线等距抽样( N nk )、循环等距抽样 ( N nk )、不等概率系统抽样 。系统抽样可看成从 k 个群众随机抽取 1 个群的整群抽样,也可视为从每层中抽取一个单元的分层抽样。“系统”的含义:一是除了初始单元的抽取是随机的,其余的并不随机,因而是系统的;二是一旦抽出第一个样本点,整个样本就完全确定,具有“牵一发而动全身”的系统性。特点:实施简便,对抽样框要求不高,
59、某些场合甚至不需要抽样框。若总体单元排列有规律可循,会使样本单元有好的代表性,且会取得很高的估计精度。缺点是估计量方差的估计困难,难以找到设计意义下的无偏估计量,而且如果缺乏对总体的认识,比如对隐藏有周期性波动的总体直接进行等距抽样,那么样本代表性会很差。IN THE NAME OF STATISTICS, UNITE!31统计之都COS Capital Of Statistics多元统计分析(何晓群)概述1. 多元统计分析 ( Multivariate Statistical Analysis):运用数理统计的方法来研究多变量问题,以p 个变量的 n 次观测数据矩阵为依据研究
60、降维问题(主成分分析、因子分析、对应分析),归类问题(聚类分析、判别分析) ,变量相互关系问题(回归分析、典型相关分析)以及统计推断问题(参数估计、假设检验)等。正态性检验一元数据正态性检验: 图检验( Q-Q图、P-P 图), 2 拟合优度检验, 偏度峰度检验, “ 3 ”原则检验。多元数据正态性检验:图检验、主成分检验(将多元数据正态性检验化为几个相互独立的一元数据(主成分)的正态性检验) 。聚类分析基本思想:建立一种分类方法,将一批样品或指标按照它们的相似程度进行分类。分Q型和 R型聚类。特点:能解决许多实际问题,但方法比较粗糙,理论还不完善,常与其它方法结合起来使用,比如判别分析。系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中职文明课件
- 教育心理学在在线学习中的情感支持作用
- 云南省玉溪市新平一中2025年高二物理第二学期期末联考模拟试题含解析
- 智能教育工具对学生学习效果的深度影响
- 广东省清连中学2025届物理高一第二学期期末检测试题含解析
- 教育与科技的完美结合以毛细管电泳仪为例
- 教育政策与心理健康教育的结合
- 智能教学系统在校园的普及与推广
- 教育技术推广中的伦理挑战与机遇
- 数字化转型背景下的教育行业培训需求
- 摄影入门基础知识 课件
- 工程设计费收费标准
- 钢管现场安装施工方案
- 人教A版高中数学《数列的概念》优秀1课件
- 祛斑销售回答方法介绍
- 勘察外业见证合同
- 光伏组件开路电压测试记录
- 铁程检用表(共47页)
- 物理化学:9-表面现象-液体表面1
- 霍尼韦尔DC中文说明书
- 2022小升初语文训练真题试卷
评论
0/150
提交评论