统计学复习要点_第1页
统计学复习要点_第2页
统计学复习要点_第3页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 统计学是收集、分析、表述和解释数据的科学(不列颠百科全书)2. 按照计量层次分:分类数据、顺序数据、数值型数据3. 按收集方法分:观测数据和实验数据4. 按时间状况分:截面数据和时间序列数据5. 总体:所研究的全部个体(数据)的集合,其中的每一个个体也称为元素6. 样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量7. 参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值,所关心的参数主要有总体均值(J、标准差(J、总体比例(7)等8. 统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算岀来的一些量,是样本的函数, 所关心的样本统

2、计量有样本均值 (x)、样本标准差(s)、样本比例(p)等9. 数据的间接来源:系统外部的数据和系统内部的数据10. 二手数据的特点:搜集容易,采集成本低、作用广泛、在研究中应优先考虑11. 二手数据的可靠性评估:数据是谁搜集的?为什么目的而搜集的?数据是怎样搜集的?什么时候搜集的?12. 数据的直接来源:调查数据、实验数据13. 概率抽样的特点:按一定的概率以随机原则抽取样本,每个单位被抽中的概率是已知的,或是可以计算 岀来的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率14. 简单随机抽样:从总体 N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的,

3、最基本的抽样方法,是其它抽样方法的基础。15. 分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、 随机地抽取样本16. 整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查17. 系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取 叶k,叶2k等单位18. 多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取岀若 干个单位进行调查19.

4、 非概率抽样:相对于概率抽样而言。抽取样本时不是依据随机原则,而是根据研究目的对数据的要求, 采用某种方式从总体中抽岀部分单位对其实施调查。有方便抽样、判断抽样、自愿样本、滚雪球抽样、配 额抽样等方式20. 方便抽样:调查过程中由调查员依据方便的原则,自行确定入抽样本的单位21. 判断抽样:研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本22. 自愿样本:被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息23. 滚雪球抽样:先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对 象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去

5、,就会形成滚雪球效应24. 配额抽样:先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位25. 概率抽样与非概率抽样的比较:概率抽样依据随机原则抽选样本;样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样:不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体26. 问卷调查的方式:自填式问卷调查;面访式问卷调查;电话式问卷调查27. 实验往往将研究对象分为两组:实验组和对照组28. 抽样误差:由于抽样的随机性所带来的误差,它是所有样本可能的结果与总体真值之间的平均性差异。29. 影响抽样误差的大小的因素:样

6、本量的大小,总体的变异性30. 非抽样误差。相对抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之 间的差异。存在于所有的调查之中:有抽样框误差、回答误差、无回答误差、调查员误差、测量误差31. 非抽样误差的控制:调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制32. 原始数据审核的要点:完整性审核;准确性审核;适用性审核;时效性审核33. 数据的排序与筛选要用到excel中哪个选项按钮?34. 分类数据的排序:汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的 升序降序之分35. 数据的整理与显示:对分类数据和顺序数据主要是作分类

7、整理,对数值型数据则主要是作分组整理。36. 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据37. 饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题38. 环图与饼图区别:饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环39. 确定组数:在实际分组时,组数一般为5乞K £1540. 做图形时,图形的长宽比例大致为10 : 741. 二维散点图展示二个变量之间的关系42. 气

8、泡图展示三个变量之间的关系43. 雷达图是展示多个变量之间关系的图形44. 众数:一组数据中出现次数最多的变量值。不受极端值的影响。一组数据可能没有众数或有几个众数。主要用于分类数据,也可用于顺序数据和数值型数据。45. 中位数:排序后处于中间位置上的值。不受极端值的影响主要用于顺序数据,也可用数值型数据,但不 能用于分类数据46. 中位数位置二口247. 9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 163048. 10个家庭的人均月收入数据排序:660 750 780 850 960 1080 1250 1500 1630 200

9、049. 平均数集中趋势的最常用测度值易受极端值的影响有简单平均数和加权平均数之分50. 一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为 4.5%、2.1%、25.5%、1.9%计算该投资者在这四年内的平均收益率不同品牌饮料的频数分布饮料品牌频数比例百分比()果汁60.1212矿泉水100.2020绿茶110.2222其他80.1616碳酸饮料150.3030计50110052. 四分位差上四分位数与下四分位数之差Qd = QU反映了中间50%数据的离散程度 不受极端值的影响用于衡量中位数的代表性53. 方差和标准差数据离散程度的最常用测度值反映了各变量值与均

10、值的平均差异54. 经验法则表明:当一组数据对称分布时约有68%勺数据在平均数加减1个标准差的范围之内约有95%勺数据在平均数加减 2个标准差的范围之内约有99%勺数据在平均数加减 3个标准差的范围之内55. 离散系数标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较56. 概率非负性对任意事件 A,有0 _ P(A) < 1规范性必然事件的概率为1;不可能事件的概率为 0。即P ( ' J ) = 1 ; P () = 0可加性若 A 与 B 互斥,则 P ( AU B ) = P( A ) + P ( B )推广

11、到多个两两互斥事件A1,A2,,An,有P( A1UA2UUAn)= P(A1)+ P (A2)+P (An )57. 连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列岀每一个值及其相应的概率58. 设XN(0 , 1),求以下概率:(1) P(X <1.5); (2) RX >2) ; (3)R-1<X_3); (4)P(| X | - 2)解: P(X <1.5)=住(1.5)=0.9332(2)(3)RX >2)=1- RX <2)=1-0.9973=0.0227P(-1< X

12、 i3)= P(X <3)- P(X <-1)=G(3)- :.:(-1)= :G(3) - 1- :.:(1)=0.9987-(1-0.8413)=0.84(4)P(| X |< 2) =R-2Xm 2)= :.:(2)-:.:(-2)=(2)- 1-: <2)=2:.:<2)- 1=0.954559.设 XN(5,(1)32),求以下概率P(X £10); (2)P(2<X<10)60. 设X1,X2,,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,,Xn,不依赖于任何未知参数,则称函数T(X1,X2,

13、,Xn是一个统计量样本均值、样本比例、样本方差等都是统计量61. 样本统计量的概率分布,是一种理论分布62. 分布、t分布、F分布,常称之为统计三大分布。63. 分布的变量值始终为正64. 可加性:若U和V为两个独立的 2分布随机变量,l 2(n1),W 2(n2),则L+V这一随机变量服从自由度为n 1+n2的2分布65. 从均值为4方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为 卩、方差为b 2/ n的正态分布66. 6.4设从一个均值为10、标准差为0.6的总体中随机选取容量为 36的样本。假定该总体不是很偏的, 要求:(1) 计算样本均值小于

14、 9.9的近似概率。(2) 计算样本均值超过 9.9的近似概率。(3) 计算样本均值在总体均值10附件0.1范围内的近似概率。P(X :9.9) =P(X -100.19.9-100.1-0 1二 P(Z )=P(Z:_1)0.1=1 -P(Z :1) =1- :(1)= 1 0.8413 = 0.1587X109.910P(X 9.9) =P()0.1 0.1-0.1= P(Z ) =P(Z -1)0.1=1 _P(Z : _1) = G(1) =0.84139.9-10 X -1010.1-10、P(9.9 : X <10.1) = P()0.10.10.110.1-9.99.9-1

15、0、=P(Z) _ P(Z)0.1 0.1二 P(Z :1) _P(Z : _1) =2(1) -1=2 0.8413-1 =0.682667. 样本比例的数学期望二(1 -二nE(p)二二=105X解:XN (9 22),根据上述 性质10X也服从正态分布,由于重复抽样,样本比例的方差为:;-pp68.设 XN(9 22)试描述10X的抽样分布E(10X)=10E(X)=90D(10X)=100D(X)=100 X 22=400所以 10X N ( 90,400 )69. 常用的置信水平值有 99%, 95%, 90%,相应的 :.为0.01 , 0.05 , 0.1070. 一家食品生产企

16、业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3解:已知Xh 102),n=25,1- o=95% z创2=1.96。根据

17、样本数据计算得:由于是正态总体,且方差已知。总体均值在1-:置信水平下的置信区间为解:已知X、 ,102),n=25, 1- :=95% /芒丨一曲。根据样本数据计算得:。由于是正态总体,且方差已知。总体均值在1- 置信水平下的置信区间为=(1CI1该食品平均重量的置信区间为101.44g109.28g71. 一家保险公司收集到由 36个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人平均年龄 90%的置信区间36个投保人年龄的数据233539273644364246433133425345544724342839364440394938344850343945

18、484532解:已知n=36, 1-削;,。根据样本数据计算得:总体均值 在1-置信水平下的置信区间为疋土F注m i如x W=39.5 ± 2,13r(37 .3741 .<i3)投保人平均年龄的置信区间为37.37岁41.63岁72. 已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取 16只,测得其使用寿命(单位:h)如下建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据1510152014801500145014801510152014801490153015101460146014701470解:已知X 飞;,2) , n=16, 1-屈;,1 mil根

19、据样本数据计算得:,总体均值在1-:置信水平下的置信区间为j24 77丘土F.毎亍- =±2J31 x芳詁=1490 士 L3 .2=(1476 ,»J5Q3 ,2)该种灯泡平均使用寿命的置信区间为1476.8h1503.2h100名下岗职工,其中65人为女性职工。73. 某城市想要估计下岗职工中女性所占的比例,随机地抽取了 试以95%勺置信水平估计该城市下岗职工中女性比例的置信区间解:已知 n=100,p = 65% ,1 -95%,Z-.2=5%该城市下岗职工中女性比例的置信区间为55.65%74.35%74. 某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近

20、似服从正态分布,其总体均值为-0=O.O81mm总体标准差为;二0.025 。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异? (:= 0.05 )解:H 0 :- 0.081 H : 0.081 = 0.05 n=200决策:在,-0.05的水平上拒绝H 0结论:有证据表明新机床加工的零件的椭圆度与以前有显著差异75. 根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N1020 , 1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿 命是否有显著提高? ( :.= 0.05)解:口+1020H 1 :. 1020:-=0.05n =16检验统计量:x-A_I080-1020血s L r *©6 lOQs/16决策:在:.=0.05的水平上拒绝H 0结论:有证据表明这批灯泡的使用寿命有显

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论