




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
笠训备——欢迎小栽
第一章导论
1.1
(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均
收入。
1.3
(1)总体是所有1T从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4
(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(4)参数
(5)推断统计方法。
第二章数据的搜集
1.什么是二手资料?使用二手资料需要注意些什么?
与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的
资料称为“二手资料”。使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、
搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免
错用、误用、滥用。在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情
况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可
以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽
样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体
参数的置信区间,就使用概率抽样。
学习必■备——欢迎小裁
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用
某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而
且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为
更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数
据的方法?
实验式、观察式等。
4.自填式、面方式、电话式调查个有什么利弊?
自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以
刻选择方便时间答卷,减少回答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜
集过程中遇到问题不能及时调整。
面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充
分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问
题,被访者会有压力。
电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地
区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。
5.请举出(或设计)几个实验数据的例子。
不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。
6.你认为应当如何控制调查中的回答误差?
对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩
短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调
查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。
7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好
各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,
采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调
查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高
回收率。
第三章数据的图表搜集
一、思考题
3.1数据的预处理包括哪些内容?
答:审核、筛选、排序等。
3.2分类数据和顺序数据的整理和显示方法各有哪些?
答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,
学习必■备——欢迎小裁
如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼
图、环形图等。根据不同的资料或者目的选择不同的图。
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘
制条形图、饼图、环形图等。
3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的
多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,
根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3.4直方图和条形图有何区别?
答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表
示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;
2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示
数值型数据。
3.5绘制线图应注意问题?
答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从
0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同?
答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总
体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
3.7茎叶图比直方图的优势,他们各自的应用场合?
答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的
信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
3.8鉴别图标优劣的准则?
答:P65明确有答案,我就不写了。
3.9制作统计表应注意的问题?
答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;
3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空
白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。
二、练习题
3.1答:
(1)表中数据属于顺序数据。
(2)用Excel制作一张频数分布表。
服务等级家庭数目(个)
好14
较好21
笠训备——欢迎小栽
一般32
较差18
差15
(3)绘制一张条形图,反映评价等级的分布。
(4)绘制评价等级的帕累托图。
35120.00%
30100.00%
2580.00%
20
60.00%
频15
1040.00%
520.00%
00.00%
售后服务等级的帕累托图
3.2某行业管理局所属40个企业20XX年的产品销售收入数据如下:
1521241291161001039295127104
10511911411587103118142135125
117108105110107137120136117108
9788123115119138112146113126
要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
笠训备——欢迎小栽
叱,lg(n),1g(40),1.60206
1、确定组数:*=1+葩=1+百=1+53^=6.32,取k=6
2、确定组距:
组距=(最大值-最小值)+组数=(152-87)+6=10.83,取10
3、分组频数表
销售收入频数频率%向上累计频数向上累计频率%
80-902525
90-10037.5512.5
100-110922.51435
110-12012302665
120-130717.53382.5
130-1404103792.5
140-15025.03997.5
150以上12.540100
合计40100.0一一
(2)按规定,销售收入在125万元以上为先进企业,115〜125万元为良好企业,105〜
115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后
企业进行分组。
频数频率%向上累计频数向上累计频率%
先进企业10251025
良好企业12302255
一般企业922.53177.5
落后企业922.540100
合计40100——
3.3某百货公司连续40天的商品销售额如下:
单位:万元
41252947383430384340
46364537373645433344
35284634303744263844
42363737493942323635
要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
答:1、确定组数:
笠训备——欢迎小栽
।lg(n),1g(40)11.60206
K1+—=1+_______=1+_______6,32,取k=6
lg(2)1g20.30103
2、确定组距:
组距=(最大值-最小值)+组数=(49-25)-4-6=4,取5
3、分组频数表(根据实际资料,调整成分5个组)
销售收入(万元)频数频率%向上累计频数向上累计频率%
30以下410410
30-356151025
35-401537.52562.5
40-45922.53485
45以上61540100
合计40100.0——
3.
5729293631
2347232828
3551391846
1826502933
2146415228
2143194220
答:茎叶图
FrequencyStem&Leaf
3.001.889
5.002.01133
7.002.6888999
2.003.13
学习必■备——欢迎小裁
3.003.569
3.004.123
3.004.667
3.005.012
1.005.7
箱线图
工
3.5答:频数分布表
灯泡寿命频率向上累积频率(%)
660以下22%
660-67057%
670-680613%
680-6901427%
690-7002653%
700-7101871%
710-7201384%
720-7301094%
730-740397%
740以上3100%
合计100一
直方图
学习必■备——欢迎小裁
从直方图看,数据的分布呈左偏分布。
3.6答:频数分布表
lg(100)_],2
lg(〃)=
K==6.64,取k=7
ig(2r-lg2——+0.30103
2、确定组距:
组距=(最大值-最小值)+组数=(61-40)+7=3,取3
3、分组频数表(根据实际资料,调整成分5个组)
食品重量(g)频数频率%向上累计频数向上累计频率%
43以下3343
43-46991212
46-4924243636
49-5219195555
52-5524247979
55-5814149393
58以上77100100
合计100100.0——
从直方图看,数据的分布呈双峰分布。
学习必■备——欢迎小裁
3.7频数分布表
重量误差(g)频数频率%向上累计频数向上累计频率%
19-29510510
29-397141224
39-498162040
49-5913263366
59-699184284
69-796124896
79-892450100
合计50100——
从直方图看,数据的分布呈左偏分布
3.8
(1)数值型数据
(2)频数分布表
jlg(〃)-1g(60)1.77815
K=1+------=1+---------=1+-----------=0.91
lg(2)1g20.30103
2、确定组距:
组距=(最大值-最小值)+组数=(9+25)+7=4.86,取5
气温(℃)频数频率%向上累计频数向上累计频率%
(-25,-20)610.00610.00
(-20,-15)813.331423.33
(-15,-10)1016.672440.00
(-10.-5)1321.673761.67
(-5.0)1220.004981.67
(0,5)46.675388.33
(5,10)711.6760100.00
合计60100——
学习必■备——欢迎小裁
从直方图看一,数据的分布呈左偏分布。
3.9
自学考试人员年龄分布集中在20-24之间,分布图呈右偏。
3.10
3.11
3.12(1)复式条形图
学习必■备——欢迎小裁
(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。
(3)根据雷达图,两班成绩分布不相似。
3.13
笠训备——欢迎小栽
进口车帝售排行前】。名
日产分她宝马大众汽车克莱斯勒本田萧克萨斯曼独
国产军.S5M指竹侑】0力
爱第色
3.14
国内生产总值
160000
140000
120000
100000
80000
60000
40000
20000
1995199619971998199920002001200220032004
笠训备——欢迎小栽
1995199619971998199920002001200220032004
第四章习题答案
4.1数据排列:2,4,7,10,10,10,12,12,14,15
(1)众数:10;
中位数:10
平均数:9.6
4+7
(2)四分位数:Q位置=将=2.5.所以Q=—=5.5
L4L2
Q位置=由=7.5,所以Q=-«-M-=13
U4U2
(3)标准差:4.17
(4)峰度一0.25,偏度-0.69
4.2
(1)众数:19;23
中位数:23
平均数:24
(2)四分位数:Q位置=奏=6.25.所以Q=19+0.25"0=19
L4L
Q位置=w=18.75,所以Q=25+2'0.75=26.5
U4U
(3)标准差:6.65
(4)峰度0.77,偏度1.08
4.3(1)茎叶图略
(2)平均数:7,标准差0.71
s197
(3)第一种方式的离散系数v=-=--0.28
x7.2
第二种方式的离散系数v=-=—-=0.10
sX7
学习必■备——欢迎小裁
所以,第二种排队方式等待时间更集中。
(4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高
4.4(1)平均数:274.1,中位数:272.5
(2)Q位置=珀=7.5.所以Q=258+0.25-3=258.75
L4L
Q位置=的=22.5,所以Q=284+7".75=289.25
V4U
(3)日销售额的标准差:21.17
4.5.
单位成本总成本/元产量
产品名称
(元)甲企业乙企业甲企业乙企业
A1521003255140217
B203000150015075
C30150015005050
合计—66006255340342
f
甲企业总平均成本彳=口~—=5522=19.41(元)
n340
EMf
乙企业总平均成本x=...11=—=18.29(元)
n342
所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B生产的产
量比乙企业多,所以把总平均成本提高了。
4.6计算数据如表:
按利润额分组组中值企业数利润额1(X_1)2/
(万元)(个)
200〜300250194750593033
300〜4003503010500176349
400〜500450421890022860
500-600550189900273785
600以上650117150548639
合计-120512001614666
利润总额的平均数x=a———=426.67(万元)
n120
笠训备——欢迎小栽
后Q__)2*fH614666,,uCCF_、
利润总额标准差。=J-------------=。='=115.99(万兀)
Vnv120
£.(叱-幻4/
c51087441648
峰态系数K=a一:--------―3=----------
ns120x(115.99)4
=2.352-3=—0.6479
£(M-江/t(M-426.67)3/
ii
偏态系数SK=q_:------1=0.2057
ns3120x(115.99)3
4.7(1)不同。1000名的平均身高较高;
(2)不同。100名的样本容量的标准差更大;
(3)不同,调查1000名的样本容量得到最高和最低者的机会较大。
4.8对于不同的总体的差异程度的比较采用标准差系数,计算如下:
v男=±=-^―=8.3%;v女=±=10%
■«x605x50
(1)女生的体重差异大,因为离散系数大;
(2)以磅为单位,男生的平均体重为132.6磅,标准差为11.05磅;女生的平均体重为110.5
磅,标准差为11.05磅
什,s11.05八一~,s11.05…
v男=_=-----=8.33%v女_=-----=10%
sX132.6sX110.5
所以大约有68%的人体重在55kg~65kg之间;
(4)所以大约有95%的女生体重在40kg~60kg之间。
4.9Z
尤-X425-400
—i—=
由此可以判断第二项测试更理想。
4.10
时间周一周二1司•.周四周五周六周日
产量3850367036903720361035903700
笠训备——欢迎小栽
z值130.60.20.41.8I2.20
可以看出,周一和周六两天生产线失去了控制。
4.11(1)采用离散系数,因为如果比较身高差异,儿童和成年人属于不同的总体;
4.20S2.50
(2)v=2.44%,v=3.5%
s成年X172.1s儿童X713
所以,儿童的身高差异更大。
4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小
的方式
(2)选择方法A,因为A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装
数量的离散系数只有0.012,所以选择A方法。
4.13(1)用离散系数
(2)商业类
(3)高科技
第六章统计量与抽样分布
1、设X:X,,…,X。是从总体X中抽取的容量为n的一个样本,如果由此
样本构捻一本函数Y(XjX,,…,X”)不依赖于任何未知参数,则称函
数T(X,X,…,X慎二个镰计量J
I2n
由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,
把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统
计量。
构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中含有总体的
未知参数就没办法再对参数进行统计推断。
2、T和T是统计量,T和T在曰和b未知的情况下不是统计量。
1234
3、设X,X,…,X是从总体X中抽取的一个样本,X称为第i个次序统计量,
它是样本(X,X,…,X)荫足如下条件的函数:每当样本得到一组观测值
12n
x,…,x时,其由小到大的排序x«xWx<・・・《x中第i个值x就作
12n(1)(2)(i)(n)(i)
为次序统计量X的观测值,而X,、,X..,•••,X/、称为次序统计量。
(i)(1)(2)(n)
4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计
量称充分统计量。
5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由
变化的资料的个数。
笠训备——欢迎小栽
6、%2分布和正态分布关系:n->+8时,y2分布的极限分布是正态分布。
t分布和正态分布的关系:t分布的密度函数曲线与标准正态分布的密度函数
曲线非常相似,但t(nM布的密度函数在两侧的尾部都要比标准正态的两侧
尾部粗一些,方差也比标准正态分布的方差大。随着自由度n的增加,t分布
的密度函数越来越接近标准正态分布的密度函数。
F分布和正态分布关系:若X~t(n)贝0X2~FG,n)并且随着自由度的增加,X也越
来越接近于标准正态箭,若才取看成近似服从标准正箫布的一个随机变量,则
X2~f4nl
7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统
计量的抽样分布。
8、中心极限定理:设从均值为内方差为。2的任意一个总体中抽取样本量为n
的样本,当n充分大时,样本均值X的抽样分布近似服从均值为出方差为早的
正态分布。中心极限定理解决了在总体为非正态的情况下,样本平均数的抽样
分布问题,为总体参数的推断提供了理论基础。
二、练习
1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为
O1
标准差为G=1==7,故
*赤3
小厂一川《0.3)=40.9=P(区0.9)=
=0.6319
2、若—N区0.3)=0.95,则<白1=0.95,即-2^=1.96,又
(196V
知"=1,n=1——1=42.68,故〃=43。
3、易知千Z2服从自由度为6的卡方分布,得匕=%2(6)=12.59(左侧分位数)
i0.95
i=l
Q-1*2,,、
4、因为--------•服从%2(〃-1)分布,我们已知”.=10,o=1,故9s2服从为2(9)分
O2
549s249。)=0.9,我们若取
布,pC<S2<b)=PG
1212
P6S2>9b)=0.05,P(S2N9b)
'=0.05,则可以得到%=%2(9)=16.92,
2120.95
%=%2(9)=3.33,故Z?=0.37,b=1.88。(题中均为左侧分位数)
10.0512
笠训备——欢迎小栽
第七章参数估计
7.1(1)u=3=-J==0.79
工yinV40
(2)由于1-a=95%a=5%Z=1.96
2
所以估计误差Z—=—1.96x«1.55
aJn<40
2
O15c14
7.2⑴°广五=折2.14
(2)因为Z=1.96所以Z-^=r=1.96x-j_^=«4.20
aaJnJ49
22
⑶口的置信区间为"4金=]2°±4.2°
2
7.3由于Z=1.96x=104560a=85414n=100
2
所以□的95%置信区间为
85414
x+Z-CT=104560±1.96x「=-=104560±16741.14
ay.!ny/100
2
vI?
7.4(1)u的90%置信区间为X±Z=81±l.645x^==81±1.97
a"x/100
2
(2)u的95%置信区间为x±z[=81±L96X」2==81±2.35
aJ100
2
cI?
(3)u的99%置信区间为X±Z——=81±2.58x=81土3.096
V100
2
(1)x+Z二=25±1.96x±l=25±0.89
7.5
a5阿
2
CQC
(2)x±Z-L=119.6±2.326x¥=119.6±6.416
ayiny/75
2
v0974
(3)x±Z-^=3.419±1.645x=3.419±0.283
£Lgyf32
2
冷垓备——欢迎小莪
(1)r±Z4-=8900±1.96x292,=8900±253.035
7.6
•4nA/15
2
X±Z-^==8900±1.96X^22,=8900±165.650
(2)
735
2
(3)x±Z=8900±1.645x^21=8900±139.028
ay/nV35
2
4==8900±2.326xT=8900±196.583
(4)x±Z
ayfnJ35
2
—!—光Q-口=1.609
7.7Y==3.317
nin-1•
z=i
90%置信区间为X±Z;3.317±1.645x1^22=3.317±0.441
•TnJ36
2
c1609
95%置信区间为X±Z-^=3.317±1.96x_rZ=3.317±0.526
2
3.317±2.576xL竺=3.317±0.6908
99%置信区间为了±Z-=
ayinV36
2
—LZG一。=3.464
7.8T=-=10s=
nin—1i
i=l
s3464
所以95%置信区间为丫±,7=10±2.3646x—=10±2.896
气J8
2
7.9X=£=9.375由于,
1(15)=2.131
n('%)0.025
2
I」—ZQ-x)=4.113
1i
v4113
所以95%置信区间为了—=9.375±2.131x__=9.375±2.191
%_1)声V16
2
,193
7.10(1)x+Z二=149.5±1.96x^=149.5±0.63
a/、/36
2
(2)中心极限定理
笠训备——欢迎小栽
(1)x=lZx=J-X5066=101.132
7.11
ni50
I1
i------xl31.88=1.641
i)n-1
S1641
X±z一=101.32±1.96x-^=101.32±0.455
□yjnJ50
(2)由于。=加=0.9
所以合格率的95%置信区间为
p±Z11=0.9±1.96x1°,9x01=0.9±0.083
VnV50
2
7.12由于x=!Zx=16.128t=t(24
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 无线电频率管理汇报
- 采购合同模板大全
- 酒店预订服务合同范本
- 企业合同风险防范:实战技巧
- 2024潍坊市新航科技职业中等专业学校工作人员招聘考试及答案
- 2024江西赣州三江高级技工学校工作人员招聘考试及答案
- 2024河池市职业教育中心学校工作人员招聘考试及答案
- 建筑设备租赁合同协议
- 原地舒展运动课件
- 蔬菜种子购销合同书
- 2025年03月中央社会工作部所属事业单位公开招聘11人笔试历年参考题库考点剖析附解题思路及答案详解
- 2025年中高端女装市场趋势与前景深度分析
- 2025北京清华附中高三(下)统练一数学(教师版)
- 2025-2030中国孵化器行业市场发展前瞻及投资战略研究报告
- 5.3基本经济制度 课件 2024-2025学年统编版道德与法治八年级下册
- Unit4 Breaking Boundaries 单元教学设计-2024-2025学年高中英语外研版(2019)选择性必修第二册
- T-CCTAS 61-2023 桥梁承重缆索抗火密封综合防护技术规程
- 2025慢性阻塞性肺病(GOLD)指南更新要点解读课件
- 2024年05月湖北中国邮政储蓄银行湖北省分行春季校园招考笔试历年参考题库附带答案详解
- 铁路行车组织 课件 项目4 调车工作
- 小学道德与法治实践性作业的设计与评价
评论
0/150
提交评论