第二章 资料的整理教材_第1页
第二章 资料的整理教材_第2页
第二章 资料的整理教材_第3页
第二章 资料的整理教材_第4页
第二章 资料的整理教材_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计工作的步骤研究、设计:搜集资料:调查、实验整理资料:检查与核对、制作次数分布表和分布图分析资料统计描述统计推断参数估计假设检验第二章试验资料的整理与特征数的计算

由调查或试验收集来的原始资料,往往是零乱的,无规律性可循。只有通过整理,才能发现内部的联系和规律性,从而揭示事物的本质。资料整理是进一步统计分析的基础。第一节试验资料的分类正确进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为两大类:一、数量性状资料二、质量性状资料一、数量性状资料(dataofquantitativecharacter)

数量性状资料:能够以测量或计数的方式表示的资料。数量性状资料为计量资料和计数资料两种。(一)计量资料用度、量、衡等计量工具测定的数量性状资料。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。(二)计数资料指用计数方式得到的数据。各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如猪的产仔数、鸡的产蛋数、鱼的尾数等,各观察值是不连续的,因此该类资料也称为非连续性变量资料或间断性变量资料。二、质量性状资料(dataofqualitativecharacter)质量性状资料:能观察到而不能直接测量的资料,如颜色、性别、血型等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对观察结果作数量化处理。方法:(一)统计次数法统计次数法:根据某一质量性状的类别统计其次数,以次数作为该质量性状的数据。由质量性状数量化得来的资料又叫次数资料。(二)评分法:对某一质量性状,因其类别不同,分别给予评分。例如,试剂pH值由酸到碱分成14个等级。

两种不同类型的资料可根据研究的目的和统计方法的要求互相转换。

例,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。对试验资料进行分类是统计归纳的基础。数量性状资料质量性状资料(属性性状资料)计数资料(非连续变量资料)计量资料(连续变量资料)变量定量变量定性变量连续变量非连续变量资料转换数量性状资料第二节资料的整理在对原始资料进行整理之前,首先要对全部资料进行检查与核对,然后再根据资料的类型及研究的目的对资料进行整理。一、资料的检查与核对二、资料的整理方法调查试验原始数据核对:数据本身是否有错误检查:取样是否有差错订正:不合理数据的订正一、资料的检查与核对目的:在于确保原始资料的完整性和正确性。完整性:原始资料无遗缺或重复。正确性:原始资料的测量和记载无差错或未进行不合理的归并。二、资料的整理方法对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。(一)计数资料的整理计数资料基本上采用单项式分组法进行整理。特点:用样本变量自然值进行分组,每组用一个变量值或一个变量值范围来表示。171214131412111413161414131715141416141415151414

141113121413141315141315141314151616141314151315131515

151414161415171316141615131414

14

14161213121412151615161413151714131412171415表2-1

100只来亨鸡每月的产蛋数11~17来亨鸡每月产蛋数变动范围:分为7组统计各组次数计算频率和累积频率制表每月产蛋数次数频率累积频率

FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.28

14350.350.6315210.210.8416110.110.951750.051.00表2-2

100只来亨鸡每月产蛋数次数分布表1自然值进行分组,最大值17,最小值11。2数据主要集中在14,向两侧分布逐渐减少。表2-3小麦品种300个麦穗穗粒数的次数分布表每穗粒数次数频率累积频率

FrequencyPercentCumulativePercent

18-2230.01000.010023-27180.06000.0700

28-32

380.12670.1967

33-37510.17000.3667

38-42680.22670.5934

43-47530.17660.7700

48-52410.13670.906753-57220.07330.980058-6260.02001.000045组?9组计量资料一般采用组距式(组限式)分组法。全距组数组距组限归组制表(二)计量资料的整理表2-4

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距(极差)(range):

R=Xmax-Xmin

=85-37=48(cm)(2)确定组数和组距(classboundary)

组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。组数组距多小统计数精确,计算不方便少大统计数不精确,计算方便组数的确定样本容量分组数

30~60

5~860~100

7~10100~200

9~12200~500

10~18>500

15~30表2-5样本容量与分组数的关系组距:即每组内的上下限范围。组距=全距/组数=48/10=4.810组5cm(3)确定组限(classlimit)和组中值(classmidvalue)组限

是指每个组变量值的起止界限。上限下限组中值是两个组限的中间值。组中值=下限+上限2=组距2下限+=组距2上限-第一组的组中值最好接近或等于资料的最小值表2-4

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737

467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值;先确定第一组组中值,再确定组限。组限可取到10分位上。35~,40~,45~,…,85~。(4)归组、编制次数分布表——资料的展现将原始资料中各观测值归于各组,计算各组的观测值次数、频率、累积频率,制成一个次数分布表。

组限组中值次数频率累积频率

FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467

55~57.540

0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000表2-6

150尾鲢鱼体长的次数分布表三、资料的展现——统计表统计资料的基本表现形式,也是最常见的形式。使得数据具有条理性、清晰易懂、便于比较和分析。形式:标题、纵列标题、横列标题、表体见表2-5类型:简单表(一组横标目和一组列标目)复合表(多组横标目和一组列标目、一组横标目和多组列标目、多组横标目和多组列标目)见p114表和p204表统计表简单三线表复合三线表项目内容156789289843项目总结果12341678929843简单三线表举例收益来源金额(万元)百分比(%)商品猪35044.87

种猪20025.64

种植13016.67

其他10012.82

合计780100.00

表1

张庄养牛场经济收益情况分析表

表2某养殖公司各种畜禽的养殖情况(千羽、枚)场

别种类合计

肉仔鸡商品蛋鸡

种鸡青年鸡

种蛋其他界南分场136271811782边河分场6314259360五通分场16139155462

岗峰分场21019815871合

计562269664022275复合三线表举例三、资料的展现——次数分布图和频率分布图定义:把次数(频率)分布资料画成统计图形。特点:直观、形象包括:条形图、饼图、直方图、多边形图和散点图统计图绘制的基本要求:(1)标题简明扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。条形图(barchart)或柱形图计数资料特点:柱形之间要间隔一定的距离

属性资料图2.1月产蛋数次数分布柱形图2饼图(piechart)图1来亨鸡月产蛋次数分布图计数资料属性资料计数资料属性资料表几种动物性食品的营养成分例:牛奶牛肉鸡蛋咸带鱼图2.3鲢鱼体长次数分布图3直方图(histogram),又称矩形图计量资料354045505560657075808590特点:各组之间没有距离4多边形图(polygon)或折线图(broken-linechart)计量资料图2.3鲢鱼体长次数分布图特点:横坐标用组中值表示。5散点图(scatter)123456432112345643211234564321a.正向直线关系b.负向直线关系c.曲线关系计数资料属性资料集中性:变量在趋势上有向某一中心聚集,或以某一数值为中心而分布的性质。离散性:变量有离中、分散、变异的性质。变量分布的基本特征:集中性和离散性。第三节试验资料特征数的计算图2.1月产蛋数次数分布柱形图图2.3鲢鱼体长次数分布直方图354045505560657075808590集中离散集中性离散性平均数变异数算术平均数中位数众数几何平均数极差方差标准差变异系数调和平均数特征数一、平均数

平均数是统计学中最常用的统计量,表示资料中观测值的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。(一)平均数的种类算术平均数中位数众数几何平均数调和平均数1.算术平均数(arithmeticmean)定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。总体:样本:2.中位数(median)

资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。Md3.众数(mode)

资料中出现次数最多的那个观测值或次数最多一组的组中值。M0注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。

如有n个观察值,其相乘积开n次方,即为几何平均数,用G代表。其计算公式如下:

为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即:

4.几何平均数(geometricmean)应用范围:主要用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。如畜禽、水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。

例【1】某波尔山羊群1997—2000年各年度的存栏数见表2—3,试求其年平均增长率。

表2-3

某波尔山羊群各年度存栏数与增长率年度存栏数(只)增长率(x)Lgx1997140——19982000.429-0.36819992800.400-0.39820003500.250-0.602

∑lgx=-1.368

=lg-1[(-0.368-0.398–0.602)/3]

=lg-1(-0.456)=0.3501

即年平均增长率为0.3501或35.01%。

各观测值倒数的算术平均数的倒数,称为调和平均数,记为H。即

5.调和平均数(harmonicmean)应用:在某些场合,调和均数适于计算比或率的平均值。用于速度类资料,或者数据中有个别极端大的值的情况。例:用某药物救治12只中毒的小猫,它们的存活天数记录如下:8,8,8,10,10,7,13,10,9,14,另外有两只未死亡,求平均存活天数。解:未死亡的存活天数记为∞,为极端右偏态,用算术平均数不合理。各个集中趋势度量指标之间的关系和评价一、各个集中趋势度量指标之间的关系

1.在完全对称分布情况下,算数平均数、中位数和众数三者相等。2在微偏态分布中,众数(M0)与中位数(Md)及算术平均数(X)三只之间存在如下关系:M0=3Md-2X3几何平均数(G)、算术平均数(X)、调和平均数(H)关系:H﹤G﹤X(二)算术平均数的计算方法直接计算法减去(或加上)常数法加权平均法

1、样本各观测值与平均数之差的和为零,即离均差之和等于零。

或简写成(三)算术平均数的重要性质

2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。(常数)或简写为:(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。

集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。二、变异数产仔数总和平均数品种甲8,4,16,12,22,17,6,14,6,511011品种乙14,8,11,9,11,12,10,14,13,811011

仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的统计量。变异数的种类极差方差标准差变异系数变异性指标1.极差(全距,range)

极差是数据分布两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。例:150尾鲢鱼体长R=85-37=48(cm)R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min三组同年龄、同性别儿童体重(kg)的数据:

I组:26283032348

II组:202530354020

III组:232730333714例:

一定程度上说明样本波动幅度,但只受两个极端值大小的影响,不能反映样本中各个观测值的变异程度.如何准确地表示样本内各个观测值的变异程度?离均差:各个观测值与平均数的离差。离均差可以反映出一个观测值偏离平均数的性质和程度。但离均差之和为零。?2.方差平方和(SS)总体方差样本方差离均差之和样本总体自由度:以样本的统计量来估计总体的参数时,样本中可以自由变动的变量的个数。自由度=样本个数-样本数据受约束条件的个数3.标准差(standarddeviation,Sd)样本总体对已分组资料:2.1标准差的计算公式变形x=411x2=18841X’=6X’2=76

表2-89名男子前臂长(cm)标准差计算前臂长x2x’=x—45x’245202500421764-39441936-11411681-41647220924502500525472209244621161149240141618841-411*41199-1S==3.0(cm)76-6*699-1S==3.0(cm)根据:例:s=20-1135524-=1.7502(cm)株高x次数ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396总和20164613552416462202.2标准差特性及作用标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,其离均差也大,因而标准差也大,反之则小1各观测数加上或减去一个常数,其标准差不变;2各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。3正态分布2s3s68.27%95.46%99.73%标准差的作用1表示变量分布的离散程度。4估计平均数的标准误。3进行平均数的区间估计和变异系数计算。2可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。(四)变异系数(coefficientofvariability,CV)定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。CV=s/x×100%特点:是样本变量的相对变异量,不带单位。可以比较不同样本相对变异程度的大小。【例】已知甲品种一龄牛平均体重为190kg,标准差为10.5kg,而乙品种一龄牛平均体重为196kg,标准差为8.5kg,试问两个品种的牛,那一个体重变异程度大。由于,甲品种牛体重的变异系数:

乙品种牛体重的变异系数:

所以,甲品种牛体重的变异程度大于乙品种猪。变异系数的用途1比较度、量、衡单位不同的多组资料的变异度。例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异情况。身高:CV=2.98%体重:CV=9.23%该地20岁男子体重的变异大于身高的变异。用途2比较均数相差悬殊的多组资料的变异度

表某地不同年龄组男子身高(CM)的变异程度年龄组人数均数标准差变异系数3-3.5岁10096.13.10.03230-35岁100170.25.00.03儿童身高的变异大于成年人身高的变异。

注意:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。指

标平均值标准差变幅变异系数%物理性状水分

%13.000.6711.75-14.505.18容重

g/L766.025.0694-8433百粒重

g34.485.9714.59-44.8617.30百粒体积ml28.064.8711.0-35.817.34籽粒密度

g/ml1.230.031.14-1.332.81营养品质淀粉

%69.551.3563.82-72.061.95粗蛋白

%10.970.928.63-13.888.39粗脂肪

%4.511.162.89-9.6925.63灰分

%1.460.111.20-1.787.38粗纤维

%2.190.291.58-2.8513.31表赞皇大枣果皮厚、角质层厚测量结果搜集、归纳原始数据用表格、图形来表达数据用量化的统计学指标来描述一组定量数据的分布特征小结课后作业,教材23页:习题2.5-2.8;判断:1分组时,组距和组数成反比。()21995年南京市雨花区蔬菜生产基地测量全部粉团萝卜肉质根重,所得的总体,称为无限总体。()。3.中位数与样本内的每个值都有关,它的大小受到每个值的影响。()任意样本的离均差的算术平均数应当等于零。()填空:1、连续型资料的整理和分组是采用____

分组法;间断性资料的整理和分组是采用__

分组法。2、在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:1080、750、1080、850、960、2000、1250、1080、760、1080、950、1080、660,则其众数为

,中位数为

。练习题:1、某连续变量数列,其首组为50以下。又知其邻近组的组中值为75,则首组的组中值为().A24B25C26D272、资料中最大值与最小值之差称为()。A、组距B、组限C、组中值D、全距3.3、某年某地区甲乙两类职工的月平均收入分别为1060元和3350元,标准差分别为230元和680元,则职工月平均收入的离散程度()。

A、甲类较大B、乙类较大C、两类相同4、各观察值均加(或减)同一数后()。A.算术平均数不变,标准差改变B.算术平均数改变,标准差不变

C.两者均改变D.两者均不改变5、增加样本容量,理论上可使其变小的是(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论