统计学(第六版)贾俊平_第1页
统计学(第六版)贾俊平_第2页
统计学(第六版)贾俊平_第3页
统计学(第六版)贾俊平_第4页
统计学(第六版)贾俊平_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——统计学(第六版)贾俊平

第一章导论

1.1.1

(1)数值型变量。(2)分类变量。(3)离散型变量。(4)顺序变量。(5)分类变量。1.2

(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1.3

(1)总体是所有IT从业者的集合。(2)数值型变量。(3)分类变量。(4)截面数据。1.4

(1)总体是所有在网上购物的消费者的集合。(2)分类变量。

(3)参数是所有在网上购物者的月平均花费。(4)参数

(5)推断统计方法。

其次章数据的搜集

1.什么是二手资料?使用二手资料需要注意些什么?

与研究内容有关的原始信息已经存在,是由别人调查和试验得来的,并会被我们利用的资料称为“二手资料〞。使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。

2.比较概率抽样和非概率抽样的特点,举例说明什么状况下适合采用概率抽样,什么状况下适合采用非概率抽样。

概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。假使调查的目的在于把握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。

非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合摸索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。

3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?

试验式、观测式等。

4.自填式、面方式、电话式调查个有什么利弊?

自填式优点:调查组织者管理简单,成本低,可以进行较大规模调查,对被调查者可以刻选择便利时间答卷,减少回复敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。

面谈式优点:回复率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。

电话式优点:速度快,对调查员比较安全,对访问过程的控制比较简单,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回复时,不宜劝服。

5.请举出(或设计)几个试验数据的例子。

不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6.你认为应当如何控制调查中的回复误差?

对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法消去被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。

7.怎样减少无回复?请通过一个例子,说明你所考虑到的减少无回复的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回复率降到最低程度。无回复出现后,分析武回复产生的原因,采取补救措施。譬如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回复时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。

第三章数据的图表搜集

一、思考题

3.1数据的预处理包括哪些内容?答:审核、筛选、排序等。

3.2分类数据和顺序数据的整理和显示方法各有哪些?

答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,

假使是两个或两个以上变量可以制作交织表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。

对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。

3.3数值型数据的分组方法有哪些?简述组距分组的步骤。

答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;其次步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏〞和“上限不在内〞的原则。

3.4直方图和条形图有何区别?

答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。

3.5绘制线图应注意问题?

答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。

3.6饼图和环形图的不同?

答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞〞,每个样本或总体的数据系类为一个环。

3.7茎叶图比直方图的优势,他们各自的应用场合?

答:茎叶图既能给出数据的分布状况,又能给出每一个原始数据,即保存了原始数据的信息。在应用方面,直方图寻常适用于大批量数据,茎叶图适用于小批量数据。

3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。3.9制作统计表应注意的问题?

答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加解释,注明数据来源。

二、练习题3.1答:

(1)表中数据属于顺序数据。(2)用Excel制作一张频数分布表。

(3)绘制一张条形图,反映评价等级的分布。

(4)绘制评价等级的帕累托图。

92118120112

95142136146

127135117113

104125108126

3.2某行业管理局所属40个企业2023年的产品销售收入数据如下求:

(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数:K12、确定组距:

组距=(最大值-最小值)组数=(152-87)6=10.83,取10

12411910888

129114105123

116115110115

10087107119

103103137138

lg40lg(n)1.60206

116.32,取k=6lg(2)lg20.30103

3、分组频数表

(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

3.3某百货公司连续40天的商品销售额如下:

单位:万元

41463542

25362836

29454637

47373437

38373049

34363739

30454442

38432632

43333836

40444435

要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。答:1、确定组数:K1

lg40lg(n)1.60206116.32,取k=6

lg(2)lg20.30103

2、确定组距:

组距=(最大值-最小值)组数=(49-25)6=4,取53、分组频数表(根据实际资料,调整成分5个组)

4、直方图

3.4利用下面的数据构建茎叶图和箱线图。

572335182121答:茎叶图

294751264643

292339504119

362818295242

312846332820

FrequencyStemLeaf

3.001.8895.002.011337.002.68889992.003.133.003.5693.004.1233.004.6673.005.0121.005.7

箱线图

3.5答:频数分布表

直方图

从直方图看,数据的分布呈左偏分布。

3.6答:频数分布表

K1

2、确定组距:

lg100lg(n)2116.64,取k=7

lg(2)lg20.30103

组距=(最大值-最小值)组数=(61-40)7=3,取3

3、分组频数表(根据实际资料,调整成分5个组)

从直方图看,数据的分布呈双峰分布。

3.7频数分布表

从直方图看,数据的分布呈左偏分布3.8

(1)数值型数据(2)频数分布表

lg60lg(n)1.77815

K1116.91,取k=7

lg(2)lg20.30103

2、确定组距:

组距=(最大值-最小值)组数=(9+25)7=4.86,取5

从直方图看,数据的分布呈左偏分布。3.9

自学考试人员年龄分布集中在20-24之间,分布图呈右偏。3.103.11

3.12(1)复式条形图

(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。(3)根据雷达图,两班成绩分布不相像。

3.13

3.14

第四章习题答案

4.1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;

中位数:10平均数:9.6

(2)四分位数:QL位置==2.5.所以QL=4

1214QU位置=4=7.5,所以QU==13

47

=5.52

(3)标准差:4.17

(4)峰度—0.25,偏度—0.694.2

(1)众数:19;23

中位数:23平均数:24

(2)四分位数:QL位置=25=6.25.所以QL=19+0.25^0=19QU位置=4=18.75,所以QU=25+2^0.75=26.5

(3)标准差:6.65(4)峰度0.77,偏度1.084.3(1)茎叶图略

(2)平均数:7,标准差0.71(3)第一种方式的离散系数其次种方式的离散系数vs

vss

s1.97

==0.287.20.71==0.107

所以,其次种排队方式等待时间更集中。

(4)选择其次种,由于平均等待的时间短,而且等待时间的集中程度高4.4(1)平均数:274.1,中位数:272.5

(2)QL位置=30=7.5.所以QL=258+0.25^3=258.75QU位置=4=22.5,所以QU=284+7^0.75=289.25(3)日销售额的标准差:21.174.5.

甲企业总平均成本

M

i1

k

i

fi

n

=

6600

=19.41(元)340

乙企业总平均成本

M

i1

k

i

fi

n

=

6255

18.29(元)342

所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B生产的产量比乙企业多,所以把总平均成本提高了。4.6计算数据如表:

利润总额的平均数

M

i1

k

i

fi

=

n

51200

426.67(万元)120

=

利润总额标准差

k

2

x*fn

i

1614666

115.99(万元)

120

峰态系数K

(M

i1

)4fi

3

ns4

2.3523—0.6479

51087441648

3

120(115.99)4

偏态系数SK

(M

i1

k

i

)fi

3

3

(M

=

i1

5

i

426.67)3fi

0.2057

ns120(115.99)3

4.7(1)不同。1000名的平均身高较高;(2)不同。100名的样本容量的标准差更大;

(3)不同,调查1000名的样本容量得到最高和最低者的机遇较大。

4.8对于不同的总体的差异程度的比较采用标准差系数,计算如下:

vs男

s5s58.3%;vs女10%6050

(1)女生的体重差异大,由于离散系数大;

(2)以磅为单位,男生的平均体重为132.6磅,标准差为11.05磅;女生的平均体重为110.5磅,标准差为11.05磅

vs男

s11.05s11.05

8.33%vs女10%132.6110.5

(3)zi

xi6560

1,所以大约有68%的人体重在55kg~65kg之间;s5xi4050

2,所以大约有95%的女生体重在40kg~60kg之间。s5

(4)zi

4.9zi

xi1151001;s15

zi

xi4254000.5;s50

由此可以判断其次项测试更理想。4.10

可以看出,周一和周六两天生产线失去了控制。

4.11(1)采用离散系数,由于假使比较身高差异,儿童和成年人属于不同的总体;(2)vs成年

s4.20s2.50

2.44%,vs儿童3.5%172.171.3

所以,儿童的身高差异更大。

4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的方式

(2)选择方法A,由于A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装数量的离散系数只有0.012,所以选择A方法。4.13(1)用离散系数(2)商业类(3)高科技

第六章统计量与抽样分布

1、设X1,X2,,Xn是从总体X中抽取的容量为n的一个样本,假使由此样本构造一个函数TX1,X2,,Xn,不依靠于任何未知参数,则称函数TX1,X2,,Xn是一个统计量。

由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。

构造统计量的主要目的就是对总体的未知参数进行推断,假使统计量中含有总体的未知参数就没方法再对参数进行统计推断。

2、T1和T2是统计量,T3和T4在和未知的状况下不是统计量。

3、设X1,X2,,Xn是从总体X中抽取的一个样本,X(i)称为第i个次序统计量,它是样本X1,X2,,Xn满足如下条件的函数:每当样本得到一组观测值x1,x2,,xn时,其由小到大的排序x1x2xixn中第i个值xi就作为次序统计量XX1,X2,,Xn称为次序统计量。(i)的观测值,而

4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。

5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。

6、2分布和正态分布关系:n时,2分布的极限分布是正态分布。

t分布和正态分布的关系:t分布的密度函数曲线与标准正态分布的密度函数曲线十分相像,但tn分布的密度函数在两侧的尾部都要比标准正态的两侧尾部粗一些,方差也比标准正态分布的方差大。随着自由度n的增加,t分布的密度函数越来越接近标准正态分布的密度函数。

F分布和正态分布关系:若X~tn,则X2~F1,n。并且随着自由度n的增加,X也越来越接近于标准正态分布,若把X看成近似听从标准正态分布的一个随机变量,则X~F1,n。

2。

7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。

8、中心极限定理:设从均值为,方差为2的任意一个总体中抽取样本量为n的样本,当n的抽样分布近似听从均值为的

n

正态分布。中心极限定理解决了在总体为非正态的状况下,样本平均数的抽样分布问题,为总体参数的推断提供了理论基础。

2

二、练习

1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量听从正态分布,均值为,

标准差为

n

1

,故3

Pz0.90.6319P0.3P0.93

0.30.95,即0.31.96,P0.30.952、若,则P

nnn

1.96

又知1,n42.68,故n43。

0.3

3、易知

2

Z

i1

6

2i2

听从自由度为6的卡方分布,得b0.95(6)12.59(左侧分位数)

n1S2

4、由于

2

听从2(n1)分布,我们已知n10,1,故9S听从2(9)

2

分布,

Pb1S2b2P9b19S29b20.9

,我们若取

2

P9S29b20.05,P9S29b10.05,则可以得到9b20.95(9)16.92,2

(题中均为左侧分位数)9b10.05(9)3.33,故b10.37,b21.88。

第七章参数估计

7.1(1)

n

5

0.7940

2

(2)由于1-α=95%α=5%Z1.96

所以估计误差Z

2

n

1.96

5

1.5540

7.2(1)

n

15

2.1449

(2)由于Z1.96所以Z

2

2

n

1.96

15

4.2049

(3)μ的置信区间为Z

2

n

1204.20

7.3由于Z1.9610456085414n=100

2

所以μ的95%置信区间为

Z

2

n

1045601.96

85414

10456016741.14s12811.645811.97n7.4(1)μ的90%置信区间为Z

2

(2)μ的95%置信区间为Z

2

s12811.96812.35ns12812.58813.096n3.5

250.8960

(3)μ的99%置信区间为Z

2

7.5(1)Z

2

n

251.96

(2)Z

2

s23.89119.62.326119.66.416n75s0.9743.4191.6453.4190.283n(3)Z

2

7.6(1)Z

2

n

89001.96

500

8900253.035(2)Z

2

n

89

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论