《兽医统计学》02资料整理_第1页
《兽医统计学》02资料整理_第2页
《兽医统计学》02资料整理_第3页
《兽医统计学》02资料整理_第4页
《兽医统计学》02资料整理_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.1异常数据的判断和处理2.2资料的分类2.3数据的频率分布2.4统计表2.5统计图2.6集中趋势的度量2.7离散趋势的度量

第二章资料的整理1.资料的整理原始资料常常经过较长时间或较多人员的积累,量大且“杂乱无章”,不能直接用于统计分析,必须进行整理1)审核与订正(保证数据的可靠性)2)分组或汇总3)计算数字特征(描述性统计)4)构成统计图表2.资料的分类资料的分类(一)连续性资料(continuousdata)

在一定范围内可取任何实数值的数据资料

例如动物个体的重量等,又称计量资料(quantitativedata)连续性资料

测量得到数据有度量衡单位连续性变异资料如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)

(二)离散性资料(discretedata)

在一定范围内只取有限种可能值的数据资料1、计数资料(countingdata)7811141012111010710121110101191281012101011810810111310911121012991110111113111413101113111310109111189911107101312121310119表2-170头经产母猪窝产仔数资料单位:头2、分类资料(categoricaldata)(1)一般分类资料(nominaldata)(2)等级资料(rankeddata)毛色次数(f)频数(%)白色黑色花色332962273.7821.334.89合计450100.00白猪和黑猪子二代的毛色分离情况如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为治愈、有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。离散性资料计数得到数据整数间断性资料连续性资料

测量得到数据有度量衡单位连续性变异资料2.3数据的频率分布离散型资料:对于分类资料,其频率分布就是属于不同类别的观测值出现的次数(频数)和所占的比例(频率)。对于计数资料,则以每个自然值代表一类,计算各类中观测值出现的频数和频率。产仔数频数累计频数频率(%)7222.868577.14991612.8610203628.5711175324.291286111.431376810.00142702.86总和70

100.00表2-270头经产母猪窝产仔数资料的频数分布表自然分组二、资料的整理(一)计数资料的整理2.3数据的频率分布2.连续型资料:首先要将资料进行分组,然后将各个观测值归入相应的组中,计算各组中观测值出现的频数和频率。17.011.014.313.015.510.013.516.011.514.512.016.513.012.815.511.513.013.012.09.011.819.314.015.014.011.515.013.513.012.314.815.513.015.017.59.013.514.513.09.510.314.017.512.014.512.511.512.815.018.013.514.314.58.515.317.510.512.59.013.010.512.515.58.912.517.514.513.013.511.017.913.013.516.515.315.013.514.59.010.519.012.513.014.512.513.012.516.513.012.59.512.010.012.011.012.511.011.510.012.59.312.011.511.011.510.511.512.09.516.511.311.58.811.59.513.012.513.012.514.511.011.514.514.012.512.511.513.09.013.513.310.012.517.511.510.010.011.011.59.016.615.015.816.813.512.59.010.515.014.016.315.512.311.014.013.017.012.017.011.516.512.011.513.511.516.09.011.015.011.511.017.014.515.011.018.812.013.514.011.515.012.015.515.011.317.016.012.015.511.812.59.810.014.512.512.010.513.016.011.8表2-3200头金华猪二月龄体重资料单位:kg2.3数据的频率分布1)数据分组:将观测值的值域划分为若干个互不相交且长度相同的区间。

求全距:计算最大值与最小值之差,本例为19.3-8.5=10.8;确定组数:看样本资料中数据的多少确定组距:每组的最大值与最小值之差,全距除以组数后取整,本例为10.8/12=0.9,取整数1为组距;计算各组中值、组下限与组上限:通常先确定第一组的组中值,使它与资料中的最小值相近,本例为8.5;

然后依次计算其它各组的组中值(本例为9.5,10.5,等等)及各组的组下限(本例为8,9,等等)与组上限(本例为9,10,等等);89101112131415161718198.59.5等等组中值8.99.9等等组限89等等组下限最后计算各组中观测值出现的频数和频率。7.9左闭右开频数分布表(frequencydistribution)组中值(classmid-value)问题:频数分布表的目的?原始数据的转换??分类资料的整理2011-09答10级动科班问中位数到底是什么?P20E(XY)=E(X)*E(Y)吗?P29中位数(第50百分位数、0.5分位数)表示(呈偏态分布)数据的集中趋势。直观印象描述:一半比“我”小,一半比“我”大。定义:样本观测值按大小排序后位于中间的一个观测值或两个观测值的算术平均数。(P21)(另见《大学数学,概率论及试验统计,第二版》,余家林/朱倩军主编,高教出版社)也就是说:中位数可以在这组数据中,也可以不在其中。意义:反映了全体数据的一般水平,是样本数据所占频率的等分线,不受极端值的影响。中位数(举例)2、3、4、5、6、7,median=(4+5)/2=4.5“张村有个张千万,隔壁九个穷光蛋,平均起来算一算,人人都是张百万”:1000、0、0、0、0、0、0、0、0、0:Mean=(1000+0+0+0+0+0+0+0+0+0)/10=100Median=(0+0)/2=01、4、4、4、4、6、6、6:med=(4+4)/2=41、4、4、4、4、6、6:med=41、4、4、4:med=(4+4)/2=4中位数涵义中位数指示的是(有序)数列中间位置的大小,也就是说中间这个位置应该是多大才可以将数据尽量等分,而与数据本身没有直接关系;1、2、3数列,Md=2,与数据本身的2没有直接关系,意思是至少有一半的数小于等于2,有一半的数大于等于2;1、2、3、4数列,Md=2.5,可不在数列中;0、0、0、4极端偏态数列,Md=0,数据不可能被分为大致相等的两半;中位数是“人大代表”,代表大多数的大小;百分位数(点):将一组n个数据由小到大排序后,如果小于某个数值的数据个数为(不少于)全体数据个数的x%,则称该数为x%分位数(点)。25%分位数又称为下四分位数,0.25n个数后一位50%分位数又称为中位数,0.50n个数后一位75%分位数又称为上四分位数。0.75n个数后一位

8个数1、2、2、2、4、6、6、6Md=(2+4)/2=3,4≠3,问题在哪儿??百分位数percentile的“模糊”定义第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。例子:高等院校的入学考试成绩排名如某个考生的原始分数为54分,相对于其他学生来说,他的成绩如何并不容易知道,但是如果54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。常用的分位数是四分位数quartile第0个Quartile实际为通常所说的最小值第1个Quartile(1stQuartile)第2个Quartile实际为通常所说的中位数第3个Quartile(3rdQuartile)第4个Quartile实际为通常所说的最大值8个数1、2、2、2、4、6、6、6Q1Q3Q4Q0Q2证据:/wiki/Percentile/wiki/Quartile分位数(包括中位数)还没有统一标准,我们规定:Median:P21Percentile:P13异常数据答疑结束表1虽然在形式上构成三线表,但并不符合三线表的原意;因为“凹槽深度”不是“曝光时间”和“显影时间”的属性或特征,而“0.5、1、1.5、2、2.5、3”更不能单独放在项目栏作为项目名称。78910111213142592017872(频数)27163653616870(累计频数)2.91022.951.475.787.197.1100(累计频率)25%分位数Q1为10,

50%分位数Med为10,75%分位数Q3为11。由小到大排序后三、常用统计表和统计图编辑学报ACTAEDITOLOGICA2006-08-18(4)三线表使用中常见的2种错误刘祥娥林琳(青岛科技大学学报编辑部,266042,山东青岛)摘要

三线表因其结构简明、排版方便等优点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论