统计学复习串讲(已更新)解答_第1页
统计学复习串讲(已更新)解答_第2页
统计学复习串讲(已更新)解答_第3页
统计学复习串讲(已更新)解答_第4页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、导论参数:描述总体的特征,总体平均数 ,总体标准差统计量:描述样本的特征,样本平均数X ,样本标准差SD数据 /变量的类型:统计数据的分类按计量层次按收集方法按时间状况分顺数观实截时类序值察验面序的的型的的的的数数数数数数数据据据据据据据类别型(品质型)变量(分类的数据),如性别,男、女(男、女表示两种不同类别);数值型变量(数值型数据),如身高, 170cm。数据的搜集数据搜集方法:二手数据:网络、年鉴、报纸、白皮书、研究报告、咨询机构的调研报告;一手数据:观察、访谈、问卷调查(自填式、面访式、电话式)、实验。收集一手数据时,由于人力物力财力的限制,很难穷尽所有的研究对象(普查),只能抽取量

2、一定的研究对象,构成样本。 借助样本的信息,推断总体的状况。但样本毕竟不等于总体,两者的差别称为抽样误差。增加样本的容量以及采用不同的抽样方法能一定程度降低误差,但误差不能根除。按照抽样过程是否受主观的因素的影响,分为概率抽样 (客观抽样)和非概率抽样(主观抽样) 。概率抽样具体分为:简单随机抽样;分层抽样;系统抽样(等距随机抽样) ;整群抽样(抽样以群体为单位,如华软学院被抽中了,则全院的教师和学生都成为样本) ;多阶段抽样(每阶段随机抽取样本既可以是以个体为单位,又可以是以群体为单位) 。概率抽样的实施必须找到清晰的抽样框,也就是研究对象的总体界限必须明确, 实际中大部分研究的对象包含哪些

3、并不明确,转而采用非概率抽样。非概率抽样第1页共6页具体分为:方便抽样;配额抽样;判断抽样;自愿样本;滚雪球抽样。非概率抽样的耗时短,成本低,无需确定抽样框,但是样本质量不高,不能有效推断总体的状况,只能起到了解总体概况的作用。数据的误差: 两类型的来源抽样误差与非抽样误差。采用概率抽样的方法能减少抽样误差。非抽样误差包括:抽样框误差、回答误差、无回答误差、调查员误差、测量误差。数据的图表展示频数:条形图(每组频数的统计可以借助Excel 的数据透视表模块实现)比例:饼图变化趋势:折线图X 与 Y 的关系:散点图数据的分布状况:直方图,先将数值型数据排序,然后分组(组中距和组数),画条形,条形

4、之间没有间隔,勾画出该组数据的全貌。数据的概括性度量(一)集中趋势众数:频数最多的组对应的指标值中位数:处于中间位置的数据。步骤排序;定位(50%位置);抽取数值。平均数:数据质量高,但易受极端值的影响。类型简单平均数;加权平均数(结合例题 P95 习题 4.5);几何平均数(平均增长率、平均盈利率)。(二)离散趋势指标异众比率:非众数对应的频数除以总频数极差(全距):最大值 -最小值四分位差: 3rd 四分位数 -1st 四分位数平均差:( mean deviation)每一数据与平均数的差的绝对值,再求和, 最后求平均数 (用nXiX得比较少)。 M di 1n第2页共6页nX ) 22(

5、 X i方差:SDi 1,记得一般提供的是样本数据,分母是n-1,到了后面的n1n( XiX )2章节 n-1 称为自由度。总体数据的话,2 = i 1。n标准差:方差的开方,由于标准差与原始数据同一个等级,带单位。标准差系数(离散系数):用于比较多组数据离散(波动)程度的差异。由于离散系数SD能克服各组数据单位的差别以及平均值的差异,所得结论更为精确。v S =。X(三)数据分布指标:偏态和峰态偏态系数SK, SK>0 右偏, SK<0 左偏, SK=0 无偏。 SK>1 ,严重右偏; SK<-1 ,严重左偏。这里要注意绘图,如右偏,长尾巴在右,高峰在左,则众数<

6、;中位数 <平均数。峰态系数 >0,则分布形状又高又窄;峰态系数<0,则分布形状又矮又宽。指数指数反映的是某指标随时间推移的变化。 经济管理中, 生产者关注销售量变化, 消费者关注价格变化, 因此,常见的指数包括销售量指数和价格指数。实际情况下,要合并几种不同种类产品的价格或销售量,但每种产品的价格、销售量的单位都不相同,需要借助销售额的形式进行合并,所求指数称“加权综合指数” 。加权综合指数的计算步骤为“先综合(求和, pq),后对比(作差或作商;作差称为绝对指数,带单位;作商称为相对指数,不带单位)”。加权综合指数中, 为了分离价格的变化, 研究者需要将销售量固定在相同的

7、时期 (此时销售量称为同度量因素) 。如果选择固定在基期( q0),该加权综合指数称为拉氏指数;如果选择固定在报告期(q1),该加权综合指数称为帕(派)氏指数。分离销售量的变化时,则将价格固定即可。对于指数的因素分析过程,p0q0 变为 p1q1,研究者规定,先量变(销售量的影响,p0q0变为 p0q1),后质变(价格的影响,p0q1 变为 p1q1)。抽样分布研究者用概率抽样的方法获得代表性高的样本,重复N 次抽样后获得N 个样本,每个第3页共6页样本包含n 个元素( n 称为样本容量)计算出X ,这些 X 构成的分布称为“抽样分布”。抽样分布的形状根据以下规则判断:总体分布为正态,则抽样分

8、布为正态分布;总体分布状况为偏态或未知,如果样本容量n>30,则抽样分布趋近于正态分布(此定理称 “中心极限定理” );如果 n<30,则抽样分布形状未能确定。抽样分布的数量估计关系紧记下列两条公式:X=,X=n区间估计理论上研究者用N 个样本的均值去推断总体的均值和标准差,现实由于人力物力财力的限制, 研究者大都用一个样本均值推断总体均值。但是 X 只会落在 附近,做出 X =的推断未免太绝对了,因而研究者围绕 X (以 X 为对称轴)构造一个区间 X -ZX , X +ZX ,这个区间包含 ,作出这个结论的把握为95%,95%称为置信水平,22另外 1-95%=5% 则称为 错

9、误, ZX 称为允许误差(边际误差、估计误差) 。2假设检验假设包括原假设H 0 和研究(备择)假设H 1,两者是对立的关系,因此检验的时候只需检验其中一个即可,一般选择H 0。检验 H 0 的时候,存在错误是难免的,只是这个错误比较小,在研究者可承受的范围内即可。这里规定了两种类型的错误:第类错误,也称错误(弃真),当 H 0 正确时,研究者拒绝了H 0,犯错了,此时的错误为 错误;第类错误,也称 错误(取伪),当 H0 错误时,研究者接受了H0,犯错了,此时的错误为错误。根据题目写假设,按照英语的思维:H0, but H I ,H1 由研究者提出,研究者通常会做抽样的工作,当题目陈述样本情

10、况时,则是研究者的观点(H 1),之前的内容就是H0。建议先写 H 0,再写 H1,因为 H0 一般交代总体均值 状况,写假设只涉及 。如 H0: =1000,则H1: 1000。继而进行假设检验先绘制正态分布图,然后标记H 1 的区域(由于 H1 为研究者, 即少数人的观点,小块面积。上述H 1: 1000,包含两种情况, <1000,在正态分布图的左侧, >1000,在正态分布图的右侧,分别标记H 1 的区域), H1 的区域同时也是H0 的拒第4页共6页绝区域。 X 定位,计算ZXi- X,与 Z 临界值比较,这里需要区分双侧检验还是单侧X检验。双侧的话, ZZ (左侧)或

11、ZZ (右侧)。单侧情况,左侧的话 Z - Z;而22右侧则是 Z Z。一旦出现这些结果,做出结论,支持H1,拒绝 H0;反之亦然。方差分析n( Xi X )2(离均差平方和)方差 = i 1SS(均方)n-1=MSdf (自由度)数据的总的变异以总方差表示,总方差分解为两个来源,一个是组间方差,另一个是组内方差。 组间方差 ( MSB )表示自变量造成的影响(药剂: A 、B、C、D),组内方差 ( MSW )表示干扰因素造成的影响(同一组内4 棵水稻苗高不相等,由于遗传因素的影响造成,但遗传因素不是本实验探讨的重点,称为干扰因素)。PK 两个方差时作商,构造出F 统计量,组间均方( MSB

12、)F组内均方( MSW)。研究者预期,自变量造成的影响远大于干扰因素造成的影响,因此 F 越大越好,对应只需要看F 值是否越过右侧的临界值Fcrit 即可。若F>Fcrit ,则 H1 成立。方差分析的H0 和 H 1 都比较固定。 H0: 1= 2= 3= 4(至少有3 组总体的平均值) ,H1: 1、 2、 3、 4 不全相等。可见,方差分析的目的就是检验3 组或以上的总体平均数是否相等,但是使用的途径则是方差的分解以及F 统计量。方差分析有三个前提必须满足:数据正态分布、 自变量是类别型 (自变量的取值或水平level )相互独立、各组方差要齐性。具体解释可查阅课本。相关与回归分析

13、两个变量的关系最简单的考察方式是绘制散点图,如果要精确地加以衡量,则需要使用相关系数或回归系数。相关分析和回归分析都是考察两个变量的关联程度,只是相关分析中两变量 X(吸烟)与Y(肺癌)的影响方向是双向的,属于共变关系,不能确切地说哪个影响哪个;但回归分析中明确规定由X (收入)影响Y (消费),属于典型的因果关系。分析不同的问题,我们将视情况选择相关分析或回归分析。相关系数 r-1,1 ,正负号反映相关的方向,r>0 正相关表示X 与 Y 同方向变化,r<0第5页共6页负相关表示X 与 Y 反方向变化,r=0 零相关表示X 与 Y 不存在线性相关。其中,r=1 为完全正相关, r

14、=-1 为完全负相关。相关系数的数值表示相关的程度大小,r 0.8 为高度(强)相关, 0.5 r<0.8 为中等相关, 0.3r<0.5 为低度(弱)相关。回归方程y=B 1x+B 0,回归系数 B 1 表示当 x 变化一个单位时, y 平均变化 B1 个单位。(注意: r 和 B1 的计算公式的区别)而回归直线与散点的拟合程度( fit ),则用判断(可决)系数 R2 表示,一般要求 R275%(越大越好) ,表示 100 个散点中,有75 个或以上的点落在直线附近,说明该直线能较好地代表散点的位置关系,或者说直线能较好地拟合这堆散点(拟合度高)。时间序列分析与预测时间序列指的是按时间先后顺序排列的数据,反映某指标随时间推移的变化规律,用于预测该指标在未来一期或未来几期的数值。指数虽然也是反映某指标随时间推移的变化趋势(增加或减少),但其并不能用于预测未来一期的具体数值,其次不能还原指标变化的具体过程(有可能是先增后减,然后过一段时间又重复先增后减的趋势,总的来说呈现出增加的趋势)。遇到增长率的问题,用连乘,然后减 1 计算累计增长率;对连乘结果开方(几何平均数),然后减 1 计算平均增长率。时间序列按照波动幅度大小分为平稳序列(波动幅度小) 和非平稳序列 (波动幅度大) 。平稳序列的预测通常用三种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论