




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章统计数据的收集与整理
1.1算术平均数是怎样计算的?为什么要计算平均数?
n
Ez-
y=-^1—
答:算数平均数由下式计算:〃,含义为将全部观测值相加再被观测值的个数除,所得之商称为
算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。
1.2既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?
答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
1.3标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?
答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。
1.4完整地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。
1.5下表是我国青年男子体重(k0。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,
体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。
6z6c6zc6zzz6C6c6<6zc61z16C6z5-66cZz6C
c-zo-o-lC2-zoJoC-l?c✓Oc
>*--7二
・r6z5Cz-6z6Z6-6Z6z66z6z/6<66czz6c6z
vColLLc7cl22o-r/
/-,-~-v
-二--
6-6z6cz*6J6Z66zc6c616z66c6<zc6Czc6<
cco-Lzo-zo/-zzoCoc
-i?--J---
,6
6-6C6<z7f6c6z6cz-6zzzC6czr5-6-6Zzc6二
Czo二ozcooCoeLoc
/------//二
66/6Cz6-6f66czc6/zZN-6-z-6cz-6-zz6CZ6
zz二zZ
-cCov-ocoJo/o/?olCO-?
---/----
二
,
二
5cz✓6£65zz66,6/z-67r6-7r6l676c6-/-
二
occo二co?i<zzo
二//
二'k-/
~Z*二
6zzC66<7]zT66T666(7f6z6/6c6N67Z
z二z
r-z二z
~oC-o--‘vcL-
~।二~4
二
6z(7Z6C6£z6c6-6zzC6c6c6二6-67f666-zC
zoLCo-oC>二k1/o
6zzc6-67)~6-6c6zc6</6C-6二6c646676cz
/z4二
co?t4-oC//o/
》
6~6二6C-666-6-666-
z-71z(6czc7czc6cc二zzc/6ICZC
zcJoo/,occl-CO
/)))-)-c)1-
/N~
一
6z66zzz6r616C6z5czc6fzzz6c6716c6_6二
-colJC/ooko-o//•Jt
-v6,--二
5c6z1\Czc6Z66czCz-6zzZzc7二6C6fz_6
oJ0CoL-zoCo/-zo-zoIoCkoc二
/66二V-66
3Cz-6czcc6c6z7<zcz6-z/z1z666lz
Co/o,o2o?ooJ-
二~-
676zcz6-~6Cz-6661zz61z二zC6c66c-6-zz7(
二
二z
Coo/Ck/■/JocJooCo-l
-6-二
zc766z6cz6-z-66zz<6u64zc6r6,6c66z6Z
o/-.-./o/koz)o-v二-/c.
答:首先建立一个外部数据文件,名称和路径为:E^lat^xerl-5e.dat所用的SAS程序和计算结果
如下:
procformat;
valuehfmt
5a5.5^-5758-5X58-5960-61=60-6f
62-63=^62-63'64-6片64-65'66-67-
68-69=^68~6夕70-71=70-7V72—7”72—73'
74-7片74-75';
rurg
dataweight;
infilezE\flata\gxerl—5e.dat';
inputbw函
ru"
procfreq
tableb\y
formatbwhfmt.;
run;
TheSASSystem
Cumulative
Cumulative
BVFrequencyPercentFrequency
Percent
5a5731.03
1.0
58-5941.37
2.3
60-^1227.329
9.7
62-634615.375
25.0
64Y8327.7158
52.7
6^-677725.7235
78.3
68Hs94515.0280
93.3
70-71134.3293
97.7
72-7351.7298
99.3
74-7520.7300
100.0
1.6将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样
本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什
么吗?答:用means过程计算,两个样本分别称为必和乃,结果见下表:
TheSASSystan
VariableNNfeanStdDev
Y11064.50000003.5039660
Y21063.90000003.1780497
随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量
有自己的分布,很难得到平均数和标准差都相等的两个样本。
1.7从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求
的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互
独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽
取样本,具体说应当采用放回式抽样。
才(乂-9丫寸,其中y;=y±c。乂,_0
L8证明I-=■若用.。或必一。力编码时,前式是否仍然相
等?
答:(1)令x'=y±c
则9'=歹±C平均数特性之③。
Z(x-y)2
i=l
=£[(M±C)-G±C)F
f=l
=t(y-y)2
i=\
2
(2)令,c
_y
y——
则C平均数特性之②。
i(/-r)2
£(—)2
_i=l____________
一c2
用第二种编码方式编码结果,两式不再相等。
1.9有一个样本:如为,…,先,设耿其中任意一个数值。证明只有当8时,
£"一"最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。
肛(一『_0
答:令p=Z(y—时,为求使凝最小之厅令油
2Z(i)=08=&=歹
则«
1.10检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下叫
10.(9.三7,9.8:&(10.:10.(9.(10.1
1
7.(6.:9.:7.10.:7.(&19.(7.(C.Z
8
10.(7.:7」5.7.=&:7.16.]5」6.£
0
10.(9J7.:4.7.(.7.(9.;6,&(6J
5
ar&(10.(44.、7.(&:&L7.€7.:
8
6.(10.(6.:9.&二11.(9.;6.(10.(5.(
5
6.:&(&L&7,7.4&]7.:7.:7.1
3
7.£7.(&(6.7.(6.46.:6.:6,11.(
0
io.:7.»5.(&7.(7.45.26.:9.(&(
0
4.(6J3.:6.9.;6.,5.,6.L9.三6.,
2
编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。
答:首先建立一个外部数据文件,名称和路径为:E\dat^xrl-10e.dat.SAS程序及结果如下:
oo99女•In
00-OOI001c
oo4T-TX4•o
00T6我6oo1ITIW.a
00-6L6L^
oo歹37.
飞y^W
00989oo£^7c-7晨
oo,妙政oo1c.
TIT7
00-TZIZoo6花
00,0101oo6
1I我
00I
juazu汨Aousnb^jj111931阳ADusnb^jjiq月!。q
gA![B[nurQOAH引mm。
。1叩。30乜CSHJ2HL
间sXsSVS也
linj
^SlSO^jn>ISSSU^^SJBAUB9LU19SUI
^unoa=9{BDSAXiiBjSo^siq
!4qSi9qJBA
5^UIjdousoiqdBjS\iqBdBDDOjd
iinj
:WjqiqXi叫lurnoj
Aq@!叫sjqni
tbgjjooJd
iinj
殛)叫耳!叫indui
901—[JxN]它p\d/9UJUI
2它。眇u]它p
iinj
:方IIT,oimiiroi/oir,6mmr,6
力6S*8mR力IZmIZ力ZT9用ZT9
力・,汽》.,力力
叫jqonjBA
tlEtmojooid
21叩ousuondo
heilM
1.11北太平洋宽吻海豚羟丁酸脱氢酶(比田数据的接收范围频数表团如下:(略作调整)
H2田数据的接收范围
频数
/V-U1)
<2141
<245.909J
<277.818;11
<309.727:lc
<341.63642(
<373.545二22
<405.45421]
<437.363(1:
<469.272;(
<501.181,
<533.090c
根据上表中的数据作出直方图。
答:以表中第一列所给出的数值为组界,直方图如下:
1.12灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹崎。纹崎有许多特征,这些特征在
胚胎形成之后是终生不变的。人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。在手指第一节的
基部可以找到一个点,从该点纹崎向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点,箕形纹有
一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹崎数目称为纹崎数(fingerridge
count,网。将双手十个指尖的全部箕形纹的纹崎数和残斗形纹两个纹峭数中较大者相加,称为总纹
崎数(totalfingerridgecount,TFRQ。下表给出了大理白族人群总纹喳数的频数分布吗
TFRC分组中值频数
113(2(
315(4(]
517(6(
719(8(2<
9111(10(5,
11113(12(6:
13115(14(6,
15117(16(5]
17119(18(U
19121(20((
首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。
答:总纹脊数属计数数据。
计数数据的频数分布图为柱状图,频数分布图如下:
样本特征数(以1ERC的中值计算)SAS程序:
optionsnodag
datatfrc;
doi=lto1。inputy
inputn@
doj=lto"
output;
eng
en4
cards;
202
401
608
8029
10054
12063
14068
16051
18018
2006
run;
procmeansmeanstdskewnesskurtosis;
vary;
ru耳
结果见下表:
TheSASSystem
AnalysisVariable:Y
MeanStdDevSkewness
Kurtosis
126.5333333328366112-0.2056527
-0.0325058
从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为140的那一组。分布不对称,
平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显,基本上还可以认为是对
称的,峭度几乎为零。
1.13海南粗槌叶长度的频数分布囱:
叶长度/nn中值频数
2022
222239(
2422434
26226张
283254(
6%
8033
3233
3433
3633
884367;
13;
nag
4044
424466:
444434€
181
绘出频数分布图,并计算偏斜度和峭度。
答:表中第一列所给出的数值为组限,下图为海南粗概叶长度的频数分布图。
计算偏斜度和峭度的SAS程序和计算结果如下:
optionsnodag
datalength
doi=lto13;inputy@
inputn函
doj=lto"
output;
en«
end,
cards;
2.1390
231434
2.52643
273546
295692
3.15187
3.34333
3.52767
3.71677
3.91137
4.1667
4.3346
45181
rur;
procmeansnskewnesskurtosis;
vary;
ru吗
TheSASSystem
AnalysisVariable:Y
nSkewness
Kurtosis
300000.4106458
0.0587006
样本含量n=30000,是一个很大的样本,样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41,有一
个明显的正偏。
1.14马边河贝氏高原纵繁殖群体体重分布如下吗
体质量乃中值雌鱼雄鱼
2oo3oz25z1Z
x(lJ
3oo4oZ35rz-
Ill
V-/
4oo,oz45z1Iu
fX
\l~
5oo6o(15r3zC
kf
ooo65k-
6z(zlz2cC
x)-
7oo0ozZ5-1zn
C(rz
5oxLtk
8ooGz5-2J1
T(Q±
-f-c>
9oolz-5f1c1z
t(1
oxvlck
Qa1L
o005(1r
11.0012,(11.5(
0
12.0013.(12.5(
0
首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、偏斜度和峭
度并比较两者的变异程度。
答:鱼的体重为度量数据,表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的分布
绘在了同一张图上,以不同的颜色表示。
计算统计量的SAS程序与前面的例题类似,这里不再给出,只给出结果。
雌鱼:____________________________________________________________
TheSASSystan
AnalysisVariable:Y
NNfeanStdDevSkewness
Kartosis
1477.2414966214568200.2318337
-0.6758677
雄鱼:
TheSASSystem
AnalysisVariable:Y
NNbanStdDevSkewness
Kurtosis
1326.78030301.9233971-0.1322816
-0.5510332
直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者较
多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。
1.15黄胸鼠体重的频数分布五:
组界与频数
yV1c1kr
0<y3~2
1<lrcz
35<y4k3
<clf
40<y<6r-2
5<v
6y<-c2
()=/-z
y1-
X/
59<9<(1z
01<Xc
05<
0y1z
5<X-
1<
22y0
eZ
01<<
33y5z
51<-
50
Hy
l
65
总数165
绘制频数分布图,从图形上看分布是对称的吗,说明什么问题?
答:下面是频数分布图:
从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体重
者的数量。另外,似乎峭度也有些低。
1.1625名患者入院后最初的白细胞数量(X10!)ra如下表:
£:L411(W;12
::1]U11'((
1(144::
计算白细胞数量的平均数、方差和标准差。
答:用means过程计算,程序不再给出,只给出运行结果。
TheSASSystan
AnalysisVariable:Y
NNfeanVarianceStdDev
257.840000010.30666673.2103998
1.17细胞珠蛋白基因(也君可能是非小细胞肺癌(应LQ的抑制基因之一。一个研究小组研
究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。下面列
出了其中15名患者的基因表达(肿瘤患者/E常对照,肿瘤患者与正常对照甲基化指数差
样本号「MtlHVtk
o141(
o101/
o3c-1c
--
36:o4z3oz
-o-
31(o5z17(
36(-/
8Q24
0zlz
11u-Q24
z-
134Q36z
23~G05J
Q52
25,r
二-l
26f0(
-z
34]31tr0
fI-
3金35t-6z
•)
32:42Q—t-7Z
36(QI—L
44QCJ3-
33(//
计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么?
答:记P*为必,为)’2,用means过程计算,SAS运行的结果见下表:
TheSASSyston
VariableNNfeanStdDev
CV
Y1150.18580000.1505624
81.0346471
Y2150.21000000.1465274
69.7749634
两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同
单位的影响了。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机关电子办公设备管理制度
- 档案馆机房设施设备管理制度
- 汽车修理厂环境保护管理制度
- 煤气公司湿电除尘管理制度
- 物业公司测量设备管理制度
- 猪肉门店管理销售管理制度
- 电力安全体验中心设备管理制度
- 石墨烯新材料车间设备管理制度
- 移动公司网格内部管理制度
- 自动化测试与代码质量评估的研究-洞察阐释
- 《Python少儿编程》PPT课件(共11章)第二章 Python 编程基础
- 配对样本t检验表格
- YS/T 682-2008钌粉
- GB/T 91-2000开口销
- 青花瓷中国风ppt
- 2021年汽车吊载人吊篮作业安全专项措施
- 质量管理之CAPA教学课件
- 泌尿外科健康教育2膀胱冲洗健康宣教
- 焊接件通用技术要求
- 星子港件杂货港区总平面布置与码头结构设计
- 水墨印刷机操作规程
评论
0/150
提交评论