版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章统计数据的收集与整理1.1算术平均数是怎样计算的?为什么要计算平均数?-y =答:算数平均数由下式计算:1n,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。1.4 完整
2、地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。1.5 下表是我国青年男子体重(kg)。由于测量精度的要求,从表面上看像是离散型数据,不要 忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。6669646564666865626469616168665766696665706458676666676666626666646262656465667260666561616667626565616462646562656868656768626370656465626662636865685767666863646668646360646965666
3、767676567676668646759666563566663636667637067706264726967676668646571616361646467697066646564637064626970686563656664686965636763706568676966656766746469656465656867656566677265676267716965657562696868656366666562616865646766646061686763596560646369627169606359676168696664696568676464666973686060633
4、86267656569656765726667646164666363666666636563676866626361666163686566696466706970636465646767656662616565606365626664答:首先建立一个外部数据文件,名称和路径为:E:dataexeN-5e.dat。所用的SAS程序和计算结果如下:proc format;value hfmt56-57='56-57' 58-59=58-59 60-61='60-61'62-63='62-63' 64-65='64-65' 66-6
5、7='66-67'68-69='68-69' 70-71=70-71' 72-73='72-73' 74-75='74-75'run;data weight;infile 'E:dataexer1-5e.dat'input bw ;run;proc freq;table bw;format bw hfmt.;run;The SAS SystemCumulative CumulativeBW Frequency Percent Frequency Percent56-57 3 1.0 3 1.058-59 4
6、 1.3 7 2.360-61 22 7.3 29 9.762-63 46 15.3 75 25.064-65 83 27.7 158 52.766-67 77 25.7 235 78.368-69 45 15.0 280 93.370-71 13 4.3 293 97.772-73 5 1.7 298 99.374-75 2 0.7 300 100.0用随机数字表从该总体中随机抽出含量为10的两它们的平均数相等吗?标准差相等吗?能够解和,结果见下表:1.6 将上述我国男青年体重看作一个有限总体, 个样本,分别计算它们的平均数和标准差并进行比较。 释为什么吗?答:用means过程计算,两个样本
7、分别称为The SAS SystemVariable N Mean Std Dev Y1 10 64.5000000 3.5039660Y2 10 63.9000000 3.1780497随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果
8、与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。其中若用1心-py=£&-讨1.8 证明“"时,前式是否仍然相等?答:(1)令M =翦土c则平均数特性之。力±c)/- 户 -(/如.i=c(2)令Ly=则 C平均数特性之。如-两£“寸 C2=y用第二种编码方式编码结果,两式不再相等。1.9 有一个样本:设b为其中任意一个数值。证明只有当最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。组(”城0p 23 "7,为求使p达最小之b,令明o1.10检测菌肥的功效,在施
9、有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下10.09.37.29.18.58.010.510.69.610.17.06.79.57.810.57.98.19.67.69.410.07.57.25.07.38.77.16.15.26.810.09.97.54.57.67.09.76.28.06.98.38.610.04.84.97.08.38.47.87.56.610.06.59.58.511.09.76.610.05.06.58.08.48.37.47.48.17.77.57.17.87.68.66.07.06.46.76.36.411.010.57.85.08.07.07.
10、45.26.79.08.64.66.93.56.29.76.45.86.49.36.4编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。答:首先建立一个外部数据文件,名称和路径为:E:dataexn-10e.dat。SAS程序及结果如下:options nodate;proc format;value hfmt3.5-4.4=35-4.4' 4.5-5.4='4.5-5.4' 5.5-6.4='5.5-6.4'6.5-7.4=6574' 7.5-8.4='7.5-8.4' 8.5-9.4='8.5-9.4&
11、#39;9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4'run;data wheat;infile 'E:dataexr1-10e.dat'input height ;run;proc freq;table height;format height hfmt.;run;proc capability graphics noprint;var height;histogram/vscale=count;inset mean var skewness kurtosis;run;The SAS SystemThe FR
12、EQ ProcedureCumulative Cumulativeheight Frequency Percent Frequency Percent 3.5-4.4 1 1.00 1 1.004.5-5.4 9 9.00 10 10.005.5-6.4 11 11.00 21 21.006.5-7.4 23 23.00 44 44.007.5-8.4 24 24.00 68 68.008.5-9.4 11 11.00 79 79.009.5-10.4 15 15.00 94 94.0010.5- 11.4 6 6.00 100 100.00匕岫L1.11 北太平洋宽吻海豚羟丁酸脱氢酶( HD
13、BH )数据的接收范围频数表2如下:(略作调整)HDBH/(U . L-1)频数<2141<245.909 13<277.818 211<309.727 319<341.636 426<373.545 522<405.454 511<437.363 613<469.272 76<501.181 83<533.090 92根据上表中的数据作出直方图。答:以表中第一列所给出的数值为组界,直方图如下:1.12 灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹崎。纹崎有许多特征,这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型
14、,大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点,从该点纹崎向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点, 箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹崎数目称为纹崎数(finger ridge count, FRC )。将双手十个指尖的全部箕形纹的纹崎数和/或斗形纹两个纹崎数中较大者相加,称为总纹崎数(total finger ridge count, TFRC )。下表给出了大理白族人群总纹崎数的频数分布 3.TFRC111302023150401517060871908029911101005411113012063131150140681
15、5117016051171190180181912102006首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。答:总纹脊数属计数数据。计数数据的频数分布图为柱状图,频数分布图如下:*0 4ii 血 W (ni t£-Oi 144j痴(的 *(hi中 ffi样本特征数(以 TFRC的中值计算)SAS程序:options nodate;data tfrc;do i=1 to 10; input y ;input n ;do j=1 to n;output;end;end;cards;20 240 160 880 29100 54120 63140 68
16、160 51180 18200 6;run;proc means mean std skewness kurtosis;var y;run;结果见下表:The SAS SystemAnalysis Variable : 丫Mean Std Dev Skewness Kurtosis 140的那一组。分布不对126.5333333 32.8366112 -0.2056527 -0.0325058从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为称,平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显,基本上还可以认为是对称的,峭度几乎为零。1.13海南粗根叶
17、长度的频数分布4 :叶长度/mm中值频数2.02.22.13902.22.42.31 4342.42.62.52 6432.62.82.73 5462.83.02.95 6923.03.23.15 1873.23.43.34 3333.43.63.52 7673.63.83.71 6773.84.03.91 137nag 4.04.24.16674.24.44.33464.44.64.5181绘出频数分布图,笄计算偏斜度和峭度。答:表中A列所给出的数值为组限,一F图为海南粗植叶长度的频数分布图。计算偏斜度和峭度的SAS程序和计算结果如下:options nodate;data length;d
18、o i=1 to 13; input y ;input n ;do j=1 to n;output;end;end;cards;2.1 3902.3 14342.5 26432.7 35462.9 56923.1 51873.3 43333.5 27673.7 16773.9 11374.1 6674.3 3464.5 181;run;proc means n skewness kurtosis;var y;run;The SAS SystemAnalysis Variable : Yn Skewness Kurtosis 30000 0.4106458 0.0587006偏斜度为0.41,有
19、样本含量n= 30000,是一个很大的样本, 样本的偏斜度和峭度都已经很可靠了。个明显的正偏。1.14 马边河贝氏高原纵繁殖群体体重分布如下5/g12.003.002.50143.004.003.50674.005.004.5013115.006.005.5030256.007.006.5025257.008.007.5016238.009.008.5021179.0010.009.50181610.0011.0010.5012411.0012.0011.50312.0013.0012.502首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、偏斜度和 峭度并比较两
20、者的变异程度。答:鱼的体重为度量数据,表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的分布绘在了同一张图上,以不同的颜色表示。计算统计量的SAS程序与前面的例题类似,这里不再给出,只给出结果。The SAS SystemAnalysis Variable : YN Mean Std Dev Skewness Kurtosis 147 7.2414966 2.1456820 0.2318337 -0.6758677雄鱼:The SAS SystemAnalysis Variable : YN Mean Std Dev Skewness Kurtosis132 6.7803030 1.9
21、233971 -0.1322816 -0.5510332直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者 较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。1.15 黄胸鼠体重的频数分布6:频数组界/g0<y< 151015<y<302630<y<453045<y<602260<y<752275<y<901790<y& 10516105<y工 12140120<& 1356135<< 1504150<< 16521余数169绘制频数分布图,从图形上看分布是对称的吗,说明什么问题?答:下面是频数分布图:从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体 重者的数量。另外,似乎峭度也有些低。1.16 25名患者入院后最初的白细胞数量(X103) 7如下表:851241168771273111411966561014455计算白细胞数量的平均数、方差和标准差。答:用means过程计算,程序不再给出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盘扣式支架专项施工方案
- 加油站拆除项目施工方案
- 开题报告幼儿园绘本活动的实践研究方案
- 幼儿园招生策划实施方案
- 建筑工地扬尘治理实施方案
- 活动方案之幼儿园团队建设方案
- 专业短信发送解决方案服务协议2024一
- 西南医院智慧教学5G专网建设方案
- 2024-2030年真空采血装置行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年留在护发素里行业市场现状供需分析及投资评估规划分析研究报告
- Unit+5+Fun+Clubs+Section+A++(1a-1d)教学课件-2024-2025学年人教新目标(2024)七年级英语上册
- 超聚变 FCIA 考试题库
- 运输方式和交通布局与区域发展的关系课件
- 第四单元达标测试卷(单元测试)-2024-2025学年统编版语文四年级上册
- 双减背景下“减负增效”初中数学作业设计策略研究课题开题报告
- 中国人寿保险股份有限公司招聘考试试卷2022
- 省级赛课大赛一等奖人音版二年级上册音乐《四小天鹅舞曲》课件(内嵌音视频)
- 《国土空间规划》-课程教学大纲
- 《4 给植物画张“像”》(教学设计)-2024-2025学年教科版科学一年级上册
- 小学劳动技术三年级上册《小纽扣 自己缝》教学设计及反思
- 苏科版2024-2025学年九年级数学上册2.14 直线与圆的位置关系(专项练习)(培优练)(含答案)
评论
0/150
提交评论