统计量表汇总_第1页
统计量表汇总_第2页
统计量表汇总_第3页
统计量表汇总_第4页
统计量表汇总_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、名称 符号 公式 意义 应用 其他 众值Mode Mo 中位值Median Md 均值Mean x 离异比率Variation 质异指数(Index of qualifative variatio n) v (nfmo)/ 检验非众数的比例 F检验 F F (Rss/k)/Ess/(n k 1) 检验用X表小Y的准确性: 解释误差/未解释误差 多元回归中B是否为0 F越大越显著 sigF检验 sigF 检验F的显著水平 越小越显著 置信度 置信度=1- T检验 t t Rssj(n % Rss2) 与F检验类似,t专用二分 变量 多元回归中bj是否为0 T越小越显著 SigT检验 sigT 检

2、验T的显著水平 越小越显著 相关系数 r (X X)(Y Y) r 1 一 2 - 2 J (X X) ? (Y Y) 两个变量之间的相关程度 越接近 1越显著 容限度toleranee tolera nee 2 Tolerance=1- Ri Xi作为自变量对其他自变 量回归时所得到的余差比 例,代表Xi与其他变量信息 的重复性。 Toleranee越大,Xi与其 他变量的信息重复性越 小,Xi越独立,对Y的 边际解释越大。0.1 VIF VIF=1/tolera nee VIF越小对Y的解释力 越大,10 四分位差(in terquartile ran ge) Q Q=Q 3-Q1 标准差

3、 (standard deviation) S S J (x x)2/ n 打门 x2 ( x)2 n y 表示总样本对平均量的平 均的偏离量。 S越小样本越集中 标准误 s / jn 方差(varianee) S2 S2越小样本越集中 正 态分布 (normal distribution ) f (x).exp (x x) /2s V2 ?s X以均值x为中心,在左右 两边以S为单位分布 标准值 (standard score) Z z (x x) /s 表示X偏离x的距离,以S 为单位 标准正态分布 (sta ndardno rmal distribution ) 1 f (x). exp

4、( x/2) J2 标准正态分布中,S=1,x =0. 尤拉Q系数(Yules Q) Q Q (ad bc)/(ad bc) 计算二分变量间的关系 疋类一疋类(李书 70) 越大表示关系越强 消减误差比例测量法 (properti on ate reduct ion in error) PRE PRE=1-E2/E1 表明用E2来表示E1所能消 减的百分误差 李书78 PRE越大,表明用E2表 达E1的可靠性越高。 系数 mxmy (Mx My) 2n (Mx My) 表明用x来表示y所能消减 掉的误差比例 李书81疋类一疋类或 疋类一疋序 越大表示x的说明程 度越高。 y系数 y my M

5、y yn M y 表明用x来表示y所能消减 掉的误差比例。其中x为自 变量,y为依变量 李书81疋类一疋类或 定类一疋序 同上 Tau-Y相关系数 Tau-y +Ei E2 tau y Ei 表明两个疋序/疋类变量之 间的相关关系 李书84疋类一疋类 或疋类一疋序 越大相关性越高,关系 越密切 Gamma系数 G cNs Nd Ns Nd 表示两个定序变量之间的 相关关系 李书86定序一一 定序 越接近正负1,相关程 度越大 dy系数 dy ,Ns Nd dy Ns Nd Ty 表示两个定序变量之间的 相关关系 李书88定序一一 定序 越接近正负1,相关程 度越大 皮尔逊积矩相关系数 r (x

6、 x)(y y) J (x x)2 Q (y y)2 表示两个定距变量之间的 相关关系 李书105定距 定距 越大相关性越强 相关比率 Eta2 2 2(y y)2(y yJ2 E 2 (y y) 表示疋类变量与疋序/疋类 变量直接的关系 疋类疋序 疋类疋类 卡方检验 2 2(f e)2 e 表示疋类变量与疋序/疋类 变量直接的关系 李书183疋类疋 类疋类疋序 卡方越大表明相互关系 越强 确定系数 R2 m2( y y)2 R 2 (y y) 代表回归方程中变量对 y的 解释能力 确定系数应尽量接近 1 多元相关系数 R r Jr2 表明y与所有x之间的多元 线性相关程度 R应尽量接近1 偏

7、确定系数 Ry2 d2RSS(1,2)-RSS(I) Ry2 1ESS(1) Ry? R:? 表示X2对y的边际影响 1Ry? 偏相关系数 rab c 严r abracrbc Jira:c JirbC 在控制Xc的条件下,Xa与 Xb的相关程度 协方差 COV(X , Y)=E(X-E(X)(Y-E(Y) 考察自变量是否相互独立 协方差越大,越不独立 反印象相关矩阵 矩阵中的值是负的偏相关 系数,如果值比较大,则不 适合做因子分析。 Bartlett球体分析 分析是否做因子分析,应该 有检验值PV0.0001 KMO测量 分析是否是合作因子分析, KMO越接近于1越好,0.5 以上可以接受。

8、方差分析 分析两组或两组以上的数据之间的相似程度。两组数据(x,y )将生成三个平均数:第一组数据平均a;第二组数据平 均b;总数据平均c。因此得到三组离差:总离差S1区c)2(yic)2,组内离差S:区 a)2(yib)2, 以及组间离差S3 S1 s2 虚拟变量 当一个变量X,共有N (比如是5)个值,例如,民族为汉、蒙、回、满、藏时,不能够将之变成定序变量,而且在 统计中出现的非整数无法解释(如,3.5究竟表示五个变量之间怎样的比例,就完全无法解释了)。因此必须将有五个 值的一个变量变成五个不冋的变量,分别为汉族=0/1,家古族=0/1,回族=0/1,满族=0/1,臧族=0/1,虽然变量

9、的数目 变多了,但是关系变清晰了。但五个虚拟变量其实没有必要,因为不存在五个变量,即X1X5都为0的情况。所 以删去其中任何一个变量,只留下N-1个变量,当四个变量都为0时,第五个必为1。 *虚拟变量必为0/1变量! 抽样分布 标准误 一/品 x 二项分布 标准误 x J 1Fn Stan dardno rmal distributi on Z=x对应的值表示当 Z=x时对应的的0 x之间的总面积的大小S, 0.5 S 2 基本公式: 2 2 2 (1) D (x)Ex E(x) E(x ) E(x) 旧闻梳理: 1,泊松分布:P X k k ,k为正整数; k! 标准正态分布概率:f(x)

10、1 2 2 正态分布概率为:f (x) 1 e 、2 se 正态分布的可加性: XN( 2 i ),Y N( Y N( k e : e nn / (1 -) e ( n ) k! n k 泊松公式:当n很大,p很小时,有C: pk(1 p)n k e ,其中 叩 k! 1 t Gamma 函数:() t e dt o (,)f (x)( ) e , 0 x 1 t () t e dt 0 ,其中有 Gamma分布:当f(y)的概率密度满足如下公式时,即为Gamma分布: Gamma分布依据k值的不同,曲线如右。 k 2 2 2 2 2,卡方分布:对于独立的标准正态分布函数 X,函数Z=ZXkd

11、k满足分布,且有Xj, 0 其中 XN(0,1) 卡方分布的密度函数为f (y) (齐)。卡方分布的数学期望与方差为: E( 2) E(X2) D(XJ E2(Xj)D(XJ 0(1) n D( 2)D(X:)E(X:) E2(X:)3 1 2n,其中,有 E(x4)x4 x3f(x)0 f (xi)x4f(x)dx k 2 3x f (x) (多次分部积分法) dx dx 1J 当n足够大时,有2 (n) (z . 2n 1)2 卡方分布的可加性,2(n1)2(n2) 2(ni n2) 3, t检验需要考虑自由度 df,而Z检验不需要,因为z检验时的标准误中的是总体参数,与sample大小n

12、无关。而 T检验中的s是样本参数,与 sample大小有关。 4,X的n次方期望 就是密度函数乘x5积分! !因为x的分布不随其n次方改变,因而密度函数不变,只是x增大而已。 5,t分布的方差为v/(v-2),v为自由度(通常v=n-1),其期望为0,具体证明: 卡方分布的方差 很好计算 因为自由度为 N的卡方分布其实是系数为N/2,1/2的Gamma分布 而Gamma函数的性质让我们很容易计算出X的任何 阶期望具体方法是: X的n次方期望就是密度函数乘x5积分这时你把x5放进密度函数你的积分函数里面就得到x的N/2-1+ n次方也就是说系数从N/2变成了N/2+n同 样你把分式下面的Gamm

13、a函数和1/2A(N/2)提到积分外部然后添加需要的系数(使得该式变为系数为 N/2+n和1/2的Gamma分布 对1积分为一)然后除 以你添加的系数最后积分外部的所有系数就是你的xAn的期望了 .设X服从N(0,1)Z服从自由度为N的卡方分布 X和Z独立那么D(T)=E(TA2)-E(T)A2 其中 E(T)=E(X/sqrt(Z/N)=E(X)*E(1/sqrt(Z/N)=0 所以 D(T)=E(TA2)=E(XA2/(Z/N)=E(XA2)*E(N/Z)=N*E(XA2)*E(1/Z) 其中E(XA2)=1 E(1/Z)=1/(N-2)( 通过密度函数计算同第一题卡方分布的1/2次方期望

14、可以很容易求出) 所以 D(T)=N/(N-2) 6,t分布的概率密度函数为: h(t) (n 1)/2 .n (n/2) 2 (n 1)/2 t12/2 ,t函数不是正态分布,但当n趋近于无穷大时,可有: limh(t) =et/2,即接近于标准正态分布。 n 2 T分布的表达式为: X2 t ,其中 XN(O,1),丫(n) 常Y / n 7, F分布的概率函数为: (x) n. /2(叫/2) 1 1 X 1 (n./2) (n2/2)1 (n.x/n2) n2)/2 (m n 2)/2( n! ri2) F的定义函数为F 咒,其中与V分别为卡方分布,即为 2(nJ , 2 2 (n2)

15、,即F分布可以用来描述两个分布的比。 有:当FF( nn?),必有1/FF ( nzE)。F (口,n2)表示,在n确定的情况下,F点右方曲线所封闭的面积为1- a。因此,F函数有两个自由度 厲和n2 , 8, Z、T、 2、F、的一些定理。 (1),正态总体为N (,2),样本为X, X为样本均值,有 X N (,2/n ),则有以下定理: 定理A: 2 (n Vs2(n 1),且X与S相互独立。(证明需用到矩阵,见概率论与数理统计P146) 定理B: X t(n 1)。(证明见概率论与数理统计P143) S/ -n 2 2 Xi N( 1, 1 ), Y N( 2,2 )相互独立,其均值分

16、别为 X与Y,方差为S1与S2,则有: S2/S2F(n1 1,n2 1),且当 1= 2=时,有氏1)(Y 12/ I 2) )1 1 Sw、 n2 证明,由 N函数与 2 函数的可加性可知,有: (X Y)n( i 2 2,),因而有U= n1n2 (X Y)( t( nj n2 12) N(0,1)。 1 n2 2)。其中,有SW(ni庸仇1)S2 2 (n2 1)S2 2(ni n2 2)。 则有 t(n1+n 2-2)。 V / Jrb2) 即为(X 1)(Y i fl 2)t( n1 压 2) n2 9,样本均值的方差=总体方差/n的证明(即标准误的证明) D(x) 。 n x11

17、 标准误(standard error)= D(x) D(一)2 D( x) 2 (nD(x) nnn 因此有 10,对比分布中效应量 ES的证明:ES表示表示(X 丫)( 12),是实验组值与对照组值的差,比上对照组的标准差。表示的是实验组与对照组之 间,不受样本大小影响的标准间距,(或者说是实验组与对照组之间的总体标准间距) 。ES没有具体的统计意义,也不实际存在,其值为 ? Z。因为 v n 11, ES本身不受样本大小的影响,因而可以自由在不同大小的样本中进行变换,是一个总体恒量。 此时的对照组总体的标准差满足 Z分布的可加性,有X Y ( 12),1 2),选取样本之后的样本总量(

18、DF )为m门22,其标准误为 S(niS一(n21)S2,这里用到了样本标准误S,之所以是n-1而不是n,是因为为保证样本均值为卩,已经去掉了一个 ni 压 2m 门22n 1 自由度。 因而有:ES= (XY)( 12)=(x1)(Y2)=( X 1)(Y2)*11 = t SwS h 1V n1 rh卜乱 w n1 n2n2 证明秩和检验的均值和方差: 秩和检验中在数一组有 ni个,二组有n2个,则有这些数的分布为 1至(ni+n2)。 现在检验数组I的秩和的均值和方差,得到,其秩的和分布于(ni 1)ni ,n2 ni (n2 ni E 1)ni, 2 2 是一个等差数列,等差为 I

19、(即自然数列)。则有其均值为: Eg) ni(mn2 i) 2 (ni i)ni 门2 ni (压 m m i)m / 2 2 2 其方差为 D( nJ E(ni2) E2( nJ E(n2) ni( ni n2 2 i) (2 - (2 (m i)nii)(ni i)n,g i)ni -22 /( nin2 6 八小i(ni n2 I)-厂 i) 2 mn 2(m n2 i) I2 i2, Dependent sample t test 方法(关联样本 t检验): A,将相互对应的个体一一对应,求出其差值为D (differenee scores); B,求出D的平均值M d,其理论值为 。

20、 C,求出D的方差为Sd2,其标准误为Smd D,构建t函数,t值为:t MD,其自由度为df np 1 13, 构建 Wilcoxon T m检验的方法 A,将相互对应的个体一一对应,求出差值D,并根据D的绝对值|D|开始排行,由1开始,直到最大;其中为 0者全部去掉,不参与排序。由此得 到的即为Rank值,Rank的最大值为np; B,根据D的正、负将Rank分为R+与R,任何一组都可以用作计算。 C,任何一组中,有其均值为 Tm 叶(np1) 4 其标准差为 Tm (2 np 1)( np 24 D,构建Tm检验的z函数,得到z Tm 14, 两样本对比方差的方法 A,对两样本分别求方差

21、,为 S;与S;,两样本大小分别为 n1与n2; B,求F值为:F SS;,自由度为(n1,n2); C,求对应自由度与 a的F值,如果所求F在其右方,为拒绝域,左方为接受域。 与其他分部不同,F分部的中心值是1,即两个方差相同。F值越大越右偏,一般只计算 F大于1的状态。 15, 多样本的方差对比与 ANOVA 、多样本的方差对比。 多个样本Xa,Xb,Xc贩XK组成总样本X, j为组数,i为每组个体数。j最大为k。 每个方差的个体数为:j a,b,c贩穔 且:i N。 因此我们可以定义每一个个体为Xji,每组j个个体,组数为i,此时对这些样本而言,形成三个方差: 每组的平均数为Xj总平均数

22、为X,共有k个组,N个个体。 方差一:总体方差SST (X.)2 N(X)2 1 .j 方差二:组内方差 SSW : 1(x.j)2 j (Xy 方差三:组间方差SSB:j(X)j(X) 则有SST SSW SSBSSW表示组内的差异,SSB表示组间的差异。如果 各个样本来自同一个总 体,则 组间与组内就是一个概念因而没有分别,因此有 F MSB SSB/(K 1) MSW SSW/(N K) 接下来可以用F分布的方法来测量 F值,确定是否可以接受 MSB=MSW,从而是否能接受各样本方差一致。 二、多样本中任何两个样本均值的对比 protected t test。 H0失败的那个异己项。为验

23、证任何两个样本之间的均值是否一致,将构造 (M1 M2) 0 且有SMt M2 Protected t test只有在HO被推翻在之后才能使用,目的是找出导致 t函数。此时: M2 三、关联抽样的 ANOVA 在关联抽样中,不仅像独立抽样中分成了组,还分成了 “块”,每一群相关联的个体构成一个块“block” 在方差分析时,方差表示数据之间离散的差异程度,方差越大差异性越大。而且因为方差是平方和因此不 会出现正负中和的现象, SSB SST k 22 1n jXj I 即方差之间的离散和总有一个SST,表示总体离散和,大于其他任何离散和,且为 其他离散和的总和。构 成以下方差: i2 1x2

24、Nx。表示所有离散的总和。其自由度为N,为所有个体总量 Nx。SSE构建了 k个全新的样本,每个样 本中的个体一摸一样,都是其平均数,即这样 的样本 中组内没有任何离散,因此SSB计算出的是组间的离散。其自由度为k 1, k为组数。 SSBI i 2 1BI2 k 2 Nx。SSB其实只构建了一个样本,共i个个体,每个个体都是k组中对应个体的平均数,即这一 SSE SST 其实 个样本中没有组内差别也没有组间差别,只有块间差别。其自由度为BI 1 i 1 SSB SSB为余差项,是SSBWSSB不能覆盖的部分,表示 的是没有解释的离散程 度,其自由度为 (n 1)?( k 1) 关联抽样的AN

25、OVA为F MSBI/MSE. SSBI SSE SSW,因此F表示的其实是,在组内离散中,块造成的离散与余差之间的比例。 四、多样本方差对比中的Kruskal-Wallis H 检验:非参数分析 for independent samples Kruskal-Wallis H检验是秩和检验的升级。秩和检验只用来检验均值而此时可以用来检验方差。首先按照秩和检验的方法将数据排序,得到 组数为j, j最大为k,每组个体数为nj,且有总个体数诶n j N。每一组的秩和为 Tj,得到: 2 Ssb:卫_ N(n 1)为组间方差。则有 1山 4 H 12SSb 2(k 1),k为组数。H是一个卡方分布,其最 大概率值为df本身。 N(N 1) 2 由得到的H值进行对比,若在点右侧即为拒绝,表明方差不统一,总体间有差异。 五、多样本方差对比中的Friedman Fr检验:非参数分析for dependent samples 如下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论