统计学重点重点_第1页
统计学重点重点_第2页
统计学重点重点_第3页
统计学重点重点_第4页
统计学重点重点_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章1、数据类型:按照所采用的计量尺度不同,我们将数据分为:分类数据(归于某一类别的非数字型数据,ex:血型),顺序数据(有序类别的非数据型数据,ex:喜好,产品等级),数值型数据(按照数字尺度测量的观测值)2、统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数,样本统计量通常用小写英文字母表示,若存在未知变量就不是统计量。第二章1、概率抽样(随机抽样):(1)特点:按一定的概率以随机原则抽取样本(抽取样本时使每个单位都有一定的机会被抽中)。每个单位被抽中的概率是已知的,或是可以计算出来的。当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

2、(2)简单随机抽样:体现在每一个样本点的选取上(简单直观方便,但是效率低)(3)分层抽样:适用于总体差距大,体现在每一层样本点选取上(精度最高)(4)系统抽样:第一个样本点的选取是随机的(简单,提高精度,但是方差估计难)(5)整群抽样:要求:群集间互斥且周延,群集与群集间差异小,群集内类似总体每一群的选取是随机的(简单,相对集中,方便,但是精度较差)(6)多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。2、非概率抽样(1)抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查(2)有方便

3、抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式3、比较:4、抽样误差:所有样本可能的结果与总体真值之间的平均性差异 影响因素:样本量的大小、总体的变异性第三章1、数据审核:(1)原始数据:完整性,准确性;(2)二手数据:适用性,时效性,确认是否有必要做进一步的加工整理2、分类数据的图示:(1)条形图:主要反映分类数据的频数分布(2)帕累托图:各类别数据出现的频数多少排序的柱形图,用于展示分类数据分布。(3)饼图:主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。(4)环形图:同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。用于结构比较研究、用于展示分

4、类和顺序数据3、数值型数据的整理:(1)分组方法:1、单变量值分组,2、组距分组(1、等距分组,2、异距分组)4、组距分组:(1)等距分组:连续性组距数列的统计原则:“上组限不在内”等距分组一般在变量值变动比较均匀的条件下所有。做法:先用定性方法确定组数,再用全距除以组数得组距。 即:组距(i)=全距(R)/组数(k)(2)异距分组:异距分组一般在变量值变动不均匀,急剧上升或下降的条件下所有。或当变量值按一定比例发展变化时使用。需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况。Ex:5、图示(1)分组数据-直方图:(与条形图的区别)1、条形图是用条形的长度(横置时)表示各类别频数的

5、多少,其宽度(表示类别)是固定的2、直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3、直方图的各矩形通常是连续排列,条形图则是分开排列4、条形图主要用于展示分类数据,直方图则主要用于展示数值型数据(2)分组数据-折线图:是在直方图的基础上,把直方图顶部的中点(组中值)连接起来。(3)未分组数据-茎叶图:以高位数值作树茎,低位数字作树叶,适用于小批量数据(4)未分组数据-箱线图:由最大值、最小值、中位数和两个四分位数绘制而成。(5)时间序列数据-线图:长宽比例大致为10 : 7,时间一般绘在横轴,数据绘在纵轴(6)多变量数据-二维

6、散点图:展示两个变量之间的关系(7)多变量数据-气泡图:展示三个变量之间的关系,数据点的大小依赖于第三个变量。 (8)多变量数据雷达图:蜘蛛图,在显示或对比各变量的数值总和时十分有用6、统计表的设计1. 合理安排统计表的结构2. 总标题内容应满足3W 要求3. 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明4. 表中的上下两条横线一般用粗线,其他线用细线5. 通常情况下,统计表的左右两边不封口6. 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一7. 对于没有数字的表格单元,一般用“”表示8. 必要时可在表的下方加上注释第四章1、众数:

7、异距数列,用频数密度2、中位数:3、四分位数:4、分类数据-异众比率:非众数组的频数占总频数的比例,对分类数据离散程度的测度5、顺序数据-四分位差:对顺序数据离散程度的测度,用于衡量中位数的代表性,上四分位数与下四分位数之差,即Q3-Q1。6、方差和标准差:分组数据方差(重复抽样):(fi为组中值,u为均值,若是样本,除以N-1)不重复抽样:方差加法定理:总方差=组内方差的平均数+组间方差组间方差是:分组均值与总均值的差的平方乘以组内个数的和除以总数。7、标准分数:服从N(0,1)分布。8、相对离散程度-离散系数:标准差与其相应的均值之比,9、偏态:偏态系数=0为对称分布,偏态系数> 0

8、为右偏分布,偏态系数< 0为左偏分布10、峰态:峰态系数=0峰度适中,峰态系数<0为扁平分布,峰态系数>0为尖峰分布第六章1、中心极限定理:设从均值为m,方差为s 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布2、样本均值的抽样分布:3、均值的抽样标准误:所有可能的样本均值的标准差,测度所有样本均值的离散程度,小于总体标准差,计算公式为:4、比例:5、样本比例的抽样分布:6、比率的抽样标准误:7、两个样本均值之差的抽样分布:(1)两个总体都为正态分布,即,(2)两个样本均值之差的抽样分布服从正态分布,(3)数学期望

9、为两个总体均值之差:,(4)方差为各自的方差之和。8、两个样本比例之差的抽样分布:(1)两个总体都服从二项分布(2)分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似(3)分布的数学期望为(4)方差为各自的方差之和 第七章1、评价估计量的标准无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数2、总体均值的区间估计3、总体比率的区间估计假定条件:总体服从二项分布、可以由正态分布来近似。总体比率p在1

10、-a置信水平下的置信区间为。正态分布统计量 z: 4、两个总体均值之差的区间估计其中:,5、两个总体比率之差的区间估计假定条件:两个总体服从二项分布、可以用正态分布来近似、两个样本是独立的两个总体比率之差p1-p 2在1-a 置信水平下的置信区间为6、估计总体均值时样本容量的确定估计总体均值时样本容量n为,样本容量n与总体方差s 2、允许误差E、可靠性系数Z或t之间的关系为:与总体方差成正比、与允许误差成反比、与可靠性系数成正比7、估计总体比率时样本容量的确定根据比率区间估计公式可得样本容量n为。第八章1、两类错误:显著性水平为a影响 b 错误的因素:1、随着假设的总体参数与真实参数值差异的减

11、小而增大2、当显著性水平a 减少时增大3、当总体标准差 s 增大时增大4、当样本容量n减少时增大。2、假设检验:3、单边检验单边检验解题步骤: 1、计算样本均值,2、用样本均值和要比较的K 比较,若样本均值大于K,则右边检验。若样本均值小于k则左边检验3、画图4、计算统计量值5、查找临界值并和统计量值比较其中:右边检验:,拒绝域在右边左边检验:,拒绝域在左边4、假设检验步骤与注意点步骤:1、陈述原假设和备择假设2、从所研究的总体中抽出一个随机样本3、确定一个适当的检验统计量,并利用样本数据算出其具体数值4、确定一个适当的显著性水平,并计算出其临界值,指定拒绝域5、将统计量的值与临界值进行比较,

12、作出决策a) 统计量的值落在拒绝域,拒绝H0,否则不拒绝H0b) 也可以直接利用P值作出决策注意点:(1)当检验统计量落在拒绝域内,不代表我们证明原假设为错误的。只能说我们对于原假设所陈述的内容真实性有很大的怀疑零假设不是不正确,就是极不可能发生,(2)当检验统计量落在无法拒绝域中,并不是证明原假设为真,仅是表示证据不足以推翻我们的假设。5、P值(1)在原假设为真的条件下,P值是抽样分布中大于或小于样本统计量的概率即:双侧检验为分布中两侧面积的总和、左侧检验为小于等于检验统计量部分的面积、右侧检验为大于等于检验统计量部分的面积(2)反映实际观测到的数据与原假设H0之间不一致的程度(3)被称为观

13、察到的(或实测的)显著性水平(4)决策规则:若p值< a ,拒绝 H0(5)P0.10代表有“一些证据”不利于原假设、P0.05代表有“适度证据”不利于原假设、P0.01代表有“很强证据”不利于原假设6、一个参数总体均值的检验7、一个参数总体比率的检验8、两个总体均值之差的检验其中:,9、两个总体比率之差的检验(1)(2)其中:第九章一、单因素方差分析1、误差平方和-ss组内平方和SSE:,每个组各样本数据与其组平均值的离差平方和组间平方和SSA:,组平均值与总平均值离差平方和总平方和SST:全部观察值与总平均值的离差平方和总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平

14、方和 (SSA) 之间的关系,即SST = SSA + SSE三个平方和的作用:1、SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小2、如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差3、判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小2、平方和除以相应的自由度-均方(方差)MS(1)各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影

15、响,需要将其平均,这就是均方,也称为方差,计算方法是用误差平方和除以相应的自由度。(2)三个平方和对应的自由度分别是:SST 的自由度为n-1,其中n为全部观察值的个数;SSA的自由度为k-1,其中k为因素水平(总体)的个数;SSE 的自由度为n-k。组间方差:组间误差经过平均后的数值(MSA)组内方差:组内误差经过平均后的数值(MSE)3、计算检验统计量 F(1)将MSA和MSE进行对比,即得到所需要的检验统计量F(2)当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即 (3)根据给定的显著性水平a,在F分布表中查找与第一自由度df1k-1、第二自由度df

16、2=n-k 相应的临界值 Fa 。若F>Fa ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响4、关系强度的测定(1)变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映;自变量平方和占总平方和的比例记为R2 ,即5、方差分析中的多重比较(1)提出假设H0: mi = mj (第i个总体的均值等于第j个总体的均值)H1: mi ¹ mj (第i个总体的均值不等于第j个总体的均值)(2)计算检验的统计量: (3)计算LSD:(4)决策:若,拒绝H0,若,不拒绝H0二、双因素方差分析综述: 分析两个因素(

17、行因素和列因素)对试验结果的影响,如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析,如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析。基本假定:(1)每个总体服从正态分布(2)各个总体方差相同(3)观察值是独立的6、无交互作用的双因素方差分析(1)数据结构:(2)计算平方和(ss)(3)总离差平方和(SST)、水平项离差平方和 (SSR和SSC)、误差项离差平方和(SSE)之间的

18、关系:SST = SSR +SSC+SSE即:(4)均方的计算(ms)(总离差平方和SST的自由度为 kr-1)(5)双因素方差分析列平方和与行平方和加在一起则度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为R2:7、有交互作用的双因素方差分析(估计不考,根本不懂)8、试验设计:第十一章1、相关分析与回归分析的联系区别:联系:共同的研究对象:都是对变量间相关关系的分析。只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义。相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析。区别:(1)从研究目的看:相关分析主要通过相应

19、指标来研究变量间相互联系的方向和密切程度;而回归分析要在变量之间建立其联系的具体数学形式 ,并根据自变量的取值去估计因变量的取值.(2)从对变量的处理来看:相关分析中的变量不需区分自变量与因变量,它们是对等的关系;而回归分析中要区分自变量与因变量, 自变量与因变量之间要具有一定的因果关系,且作为自变量的必须是可控制变量,作为因变量的必须是随机变量。2、相关关系的测度(1)总体相关系数:对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为: 。总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X与Y数值既定,总体相关系数是客观存在特定数值。(2)样本相关系数

20、:通过X和Y样本观测值估计样本相关系数变量,X和Y的样本相关系数通常用表示.或特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。 3、相关系数的显著性检验(1)检验两个变量之间是否存在线性相关关系(2)等价于对回归系数b1的检验,采用t检验检验的步骤为:1、提出假设:H0:r = 0 ;H1: r ¹ 02、计算检验的统计量:3、确定显著性水平a,若|t|>ta/2,拒绝H0 若|t|<ta/2,接受H04、一元线性回归模型:概念:当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归

21、,对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系,描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。模型:(1)对于只涉及一个自变量的简单线性回归模型可表示为y = b0 + b1 x + (其中,误差项是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性) (2) 描述 y 的平均值或期望值如何依赖于x的方程称为回归方程,E( y ) = b0+ b1 x(b0是回归直线在 y 轴上的截距,b1是直线的斜率,称为回归系数) (3)估计回归方程:总体回归参数和是未知的,用样本数据去估计,用样

22、本统计量和代替回归方程中的未知参数和,就得到估计回归方程。5、参数 b0 和 b1 的最小二乘估计最小二乘法:使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。根据最小二乘法的要求,可得求解和的标准方程如下:6、离差平方和的分解:SST = SSR + SSE(1)总平方和(SST):反映因变量的 n 个观察值与其均值的总离差。(2)回归平方和(SSR):反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。(3)残差平方和(SSE):反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和.7、样本判决系数(判定系数 r2)回归平方和占总离差平方和的比例:判定系数等于相关系数的平方,即r2(r)28、估计标准误差Se:实际观察值与回归估计值离差平方和的均方根,反映实际观察值在回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论