(完整版)统计学复习资料整理

上传人：n*** IP属地：天津上传时间：2022-02-18 格式：DOC 页数：8 大小：203KB 积分：22 举报 版权申诉

免费预览已结束，剩余4页可下载查看

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、极差：一组数据的最大值与最小值之差称为极差，也称全距，用R 表示。其计算公式为：R=max （ xi ） min （ xi ）离散系数：也称为变异系数，它是一组数据的标准差与其相应的平均数之比。其计算公式为：V=S/X 。离散系数是测量数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。三大统计分布：卡方分布、T分布、F分布卡方分布（2）定理：设n 个相互独立并且都服从正态N（ 0,1）分布的随机变量X1 、X2 ， Xn ，记则随机变量 2 服从自由度为n 的 2 分布。统计变量服从卡方

2、分布，其含义是：在给定概率的条件下，满足或者说表达式的概率为。T 分布定理：设随机变量x，y 相互独立， XN （0,1），Y 2（ n）记。则随机变量 T 服从自由度为n 的 t 分布。设Tt（n），01，对于满足下列等式的数 ta（ n），称为 t（ n）分布的上侧分位数。对于较大的n（ 45）可以同标准正态分布的上侧分位数ua 作为 t（ n）分布的上侧分位数F 分布定理：设随机变量x，y 相互独立， X 2（ n1）， Y 2（ n2）记，则随机变量 F 服从第一自由度为n1，第二自由度为n2 的 F 分布，记作：FF（ n1， n2）若 FF（

3、 n1，n2），易知：，若则统计量：描述样本特征的概括性数字度量。完全由样本决定的量，叫做统计量；或者说不含有其他未知量的样本的函数称为统计量。统计量可以看做是对样本的一种加工，它吧样本中所包含的关于总体的其一方面的信息集中起来。最常用的统计量是样本均值和样本1方差 S2。自由度：随机变量所包含的独立变量的个数。参数估计：就是用样本统计量去估计总体的参数。在参数估计中，用来估计总体参数的统计量的名称称为估计量，用符号表示。样本均值、样本比例、样本方差等都可以是一个估计量。而根据一个具体的样本计算出来的估计量的数值称为估计值。参数估计的方法有点估计和区间估计两种。点估计：就是用样本

4、统计量的某个取值直接作为总体参数的估计值。区间估计：是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。与点估计不同，进行区间估计时，根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。样本量：从总体中抽取的一部分元素的集合为样本，构成样本的元素的数目为样本量。样本量的大小是选择检验统计量得一个要素。置信区间：在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间。置信水平：将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平。表示为（ 1） %，为是总体参数未在区间内的比例。也

5、称置信度或置信系数。假设检验：利用样本信息，对提出的命题进行检验的一套程序和方法。事先对总体参数或分布形式作出某种假设，然后利用样本信息来判断假设是否成立；有参数假设检验和非参数假设检验。采用逻辑上的反证法，依据统计上的小概率原理。单侧检验：拒绝域在右侧或者在左侧的假设检验，左单侧检验右单侧检验双侧检验：拒绝域在两侧的假设检验原假设：提出一个或两个参数是否等于或大于、小于某个特殊值的命题。H0 ：有待检验的假设，又称0 假设，收集证据予以反对的假设（总是有等号）备择假设： H1 ：又称研究假设，收集证据予以支持的假设。与原假设相对立的假设（总是有不等号）方差分析：缩写为 ANOV

6、A ，就是通过检验各总体的均值是否相等来判断分类型对数值型变量是否有显著影响的统计方法。因子和处理：在方差分析中，所要检验的对象称为因素或因子，是所研究的分类型变量的另一个名称。因素的不同表现称为处理或水平。总平方和：记为 SST。它是全部观测值xij与总均值 x 的误差平方和。组间平方和：记为 SSA，它是各组均值xi 与总均值 x 的误差平方和，反应各样本之间的差异程度，因此又称为因素平方和。组内平方和：记为 SSE，它是每个水平或组的各样本数据与其组均值的误差平方和，反应了每个样本观测值的离散情况，因此称为组内平方和。该平方和反应了随机误差的大小。SST、 SSA、 SSE 之

7、间的关系：nkknkn2nii2kii2xx2nixix2xijijx 2iiiji1j1i 1i1j1i 1j1i 1i1j1组间方差： SSA 的均方，也称为组间均方，记为MSA ，其计算公式为：MSA= 组间平方和 /自由度 =SSA/k 1组内方差： SSE 的均方，也称为组内均方，记为MSE ，其计算公式为：MSE= 组内平方和 /自由度 =SSE/n k将上述 MSA 与 MSE 进行对比，即得到所需要的检验统计量F。当 H0 为真时，二者的比值服从分子自由度为k 1、分母自由度为n k 的 F 分布。单因素方差分析：研究一个分类型自变量同数值型因变量之间关系的一种统计方法。2双

8、因素方差分析：研究两个分类型自变量同数值型因变量之间关系的一种统计方法。当方差分析中涉及两个分类型自变量时，称为双因素方差分析。无重复双因素分析有重复双因素分析相关关系：变量之间存在的不确定的数量关系，称为相关关系，一个变量的取值不能由另一个变量唯一确定。相关系数：是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为；若使根据眼根数据计算的，则称为样本相关系数，记为 r。样本相关系数的计算公式为：nxyxyr2222x22n x 2ny 2yLSD ：最小显著差异法。存在一定的缺陷。在都与对照相比时可以使用该法。是对检验两

9、个总计均值是否相等的t 检验方法的总体方差估计加以修正（用MSE 来代替）而得到的。式中， t /2 为 t 分布的临界值，通过查 t 分布表得到，其自由度为（n k），这里的 k 是因素中水平的个数； MSE为组内方差； ni 和 nj 分别是第i 个样本和第j 个样本的样本量。简述评价估计量好坏的标准。1. 无偏性：估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为，所选择的估计量为，如果 E（） =，则称为的无偏估计量。2. 有效性：对同一总体参数的两个无偏点估计量有更小标准差的估计量更有效。在无偏估计的条件下，估计量的方差越小，估计也就越有效。3. 一致性：随着样本容量的增大，

10、估计量的值越来越接近被估计的总体参数。换而言之，一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。怎样理解置信区间？在区间估计中，又样本统计量所构造的总体参数的估计区间称为置信区间，其中区间的最小值称为置信下线，最大值称为置信上线。由于统计学家在某种程度是上确信这个区间会包含真正的样本的总体参数，所以给它取名为置信区间。什么是假设检验中的两类错误？两类错误之间存在什么样的数量关系？一类错误是原假设 H 0 为真却被我们拒绝了，犯这种错误的概率用表示，所以也称错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概率用表示，所以也称错误或者取伪错误。和在数量上是此

11、消彼长的关系。3简述假设检验的基本步骤。1. 提出假设2. 确定适当的检验统计量3. 规定显著性水平4. 计算检验统计量的值5. 作出统计决策方差分析包括哪些类型？它们有何区别？1. 单因素方差分析：研究一个分类型自变量最一个数值型因变量的影响。2. 双因素方差分析：究两个分类型自变量同数值型因变量之间关系的一种统计方法。当方差分析中涉及两个分类型自变量时，称为双因素方差分析。无重复双因素分析：两个影响因素相互独立；可重复双因素分析：两个因素有交互作用，结合后产生新的影响。简述方差分析的基本思想。方差分析的基本假定： 1.每个总体都应服从正态分布 2.各个总体的方差必须相同（同质性） 3.观察

12、值是独立的方差分析的基本思想和原理：1.判断均值之间是否有差异时需要借助于方差。2,。通过对数据误差来源的分析判断不同总体的均值是否相等。3.即：判断均值之间是否有差异需要进行方差分析。解释 R 2 的含义和作用。R2 称为多重判定系数，在无重复双因素方差分析中用于关系强度的测量。行因素所产生的误差平方和记为SSR，列因素所产出的误差平方和记为SSC，这两个平方和加在一起则度量了两个自变量对因变量的联合效应，联合效应与总平方和的比值定义为R2，其平方根R则反映了这两个自变量合起来与因变量之间的关系强度。即：R2=联合效应/总效应=SSR+SSC/SST简述相关系数的性质。1. r 的取值范围为

13、 -1 到 1， r=1 时，完全正线性相关 R=-1 时，完全负线性相关 R=0 时，不存在线性相关关系0>r>=-1, 负线性相关 0<r<=1, 正线性相关R 越趋近于 + 1，线性相关关系越密切R 越趋近于0，线性相关关系越不密切2.r 具有对称性。 x 与 y 之间的相关系数和y 与 x 之间的相关系数相等。3. r 数值大小与 x 和 y 的原点及尺度无关。4. r 仅仅是 x 与 y 之间线性关系的一个度量，它不能用于描述非线性关系。5.r 虽然是两个变量之间线性关系的一个度量，却不一定意味着x 与 y 一定有因果关系。简述相关系数显著性检验的步骤。1.

14、提出假设： H0:p=0;H1:P 不等于 02.使用 t 检验的方法，根据公式计算检验的统计量得出tt(n-2)3. 根据置信度 a，查表，确定接受区域和拒绝区域44.检验 t 在哪个区域：若t 在拒绝域，则拒绝H0；若 t 在接受域，则不拒绝H05. 如果求出两变量之间的线性相关系数，并且证明了两者有显著相关性，则考虑用一简述参数最小二乘估计的基本原理。未知量的最可能值是使各项实际观测值和计算值之间差的平方乘以其精确度的数值以后的和为最小。在回归分析中，F 检验和 t 检验各有什么作用？F 检验（线性关系检验）是检验自变量 x 和因变量 y 之间的线性关系是否显著，或者说，它们之间能否用一

15、个线性模型 y= 1+ 2x+来表示。t 检验（回归系数检验）是要检验自变量对因变量的影响是否显著。参数估计：1，样本均值根据 1-a%这样的概率水平构造了一个置信区间，而总体均值在这个区间里的概率为 1-a%，即置信水平为 1-a%，显著性水平为 a%。1，一个总体参数的估计的评估：首先看其是否是无偏性，即估计量的抽样分布的数学期望与被估计的总体参数一样；其次，对同一总体参数的两个无偏点，以其方差小的更有效；一致性，即随着样本容量逐渐增大，估计量应该越来越接近被估计的总体参数。2，关键掌握几个公式（1），总体均值的估计区间（ 2），总体方差的估计区间方差分析：1，就是比较组间方差

16、和组内方差，如果相等，则说明组间没有显著性差异，也就是说不同品种不造成影响。因为组间方差既包含系统误差也包含随机误差，组内方差只包含随机方差。2，误差来源也就是说是组间的还是组内的，方差分析就是对误差来源的分析，判断均值是否相同。前提是三个假定：正态分布，每组的组内方差相同，相互独立个线性关系式表达两者之间的线性关系单因素方差分析：（1），提出假设：H0,H1（2），计算出每组的平均值X1,计算出总体的平均值X0 ，计算出总平方和SST，即所有数值的分散情况（ 3），计算出组间平方和 SSA，即各组均值的分散情况（ 4），计算出组内平方和 SSE，即各个观察值与该组的均值的平方和之和（所有组

17、）SST(总误差 )=SSA （系统误差和随机误差）+SSE（随机误差）所以，如果没有显著性差异，则应该是不存在系统误差，那么就是说SSA/ 自由度 =SSE/自由度SST 自由度为 n-1SSA 自由度为k-1SSE 自由度为 n-k所以现在需要计算的是SSA/(k-1) 与 SSE/(n-k) 的值，即MSA/MSE ，得到的值遵循F 分布，其实也就是得到一个F 值，然后在给定的显著性水平下，根据k-i 和 n-k 的值在表中查到一个对应的 Fa 值，比较两者的大小，如果 Fa>F，则不接受 H0 双因素方差分析：5（ 1），同单因素一样，首先进行假设，H0,H1 ；H0,H1(

18、因为是两个因素，所以要分别的假设，最后的结果也是分开的，分别的检验)（ 2），求出总误差平方和SST,自由度为kr-1行误差平方和SSR,自由度为k-1列误差平法和SSC,自由度为r-1随机误差项平方和SSE,自由度为 (k-1)(r-1)SST=SSR+SSC+SSE(3),根据各误差平方和和自由度，求出各均方，MST,MSE,MSR,MSC下面的步骤和单因素类似，根据行误差均方和随机误差均方的比值MSR/MSE=Fr根据列误差均方和随机误差均方的比之MSC/MSE=Fc分别就两种因素中的一种检验，根据自由度，给定的置信度，查出Fa。分别查找行行和列的，分别比较回归分析与相关分析的区别1.相关分析中，变量x 变量y 处于平等的地位；2.回归分析中，变量y 称为因变量，处在被解释的地位，x 称为自变量，用于预测因变量的

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(完整版)统计学复习资料整理

文档简介

温馨提示

最新文档

评论

(完整版)统计学复习资料整理

文档简介

温馨提示

最新文档

评论

相关文档