《生物统计学》02 试验资料的整理与特征值的计算_第1页
《生物统计学》02 试验资料的整理与特征值的计算_第2页
《生物统计学》02 试验资料的整理与特征值的计算_第3页
《生物统计学》02 试验资料的整理与特征值的计算_第4页
《生物统计学》02 试验资料的整理与特征值的计算_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二章试验资料的整理与特征数的计算第三节

试验资料特征数的计算第二节

试验资料的搜集与整理第一节

统计工作的基本步骤2一、研究设计二、搜集数据三、整理数据四、分析数据五、结果呈报与解释第一节

统计工作的基本步骤3制定计划,对整个过程进行安排。是整个工作的关键。如何进行设计?举例:背景-目的-方法-内容-经费预算。⒈调查设计对研究对象不施加任何干预,通常建立随机抽样方案。⒉实验设计对研究对象施加干预,如动物实验研究、临床试验,通常建立随机分组方案。一、研究设计4实验设计的三个基本原则随机化对照重复

Fisher在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。“试验完成后再找统计学家,无异于请统计学家为试验进行“尸体解剖”。统计学家或许只能告诉你试验失败的原因。”5根据计划取得可靠、完整的资料。收集资料的方法有三种:统计报表日常性工作专题调查要遵循准确、完整、及时三个原则。资料搜集计划包括:①选择搜集资料的地点、人员和时间;②搜集资料人员的培训方案;③预调查或预实验方案拟定;④资料的记录方式;⑤调查表的拟订和印刷;⑥调查或实验仪器、试剂的准备;⑦调查资料的抽样复核比例和方法;⑧搜集资料所需经费的准备等。二、搜集数据6原始资料的整理、核对,使其条理化、系统化便于计算和分析。可借助于计算机(常用软件:SPSS、SAS、Excel)。编码,将数据输入计算机;纠错改错、补漏等。三、整理数据7OfficeExcel的界面8SPSS软件的数据界面9SAS软件的数据界面10统计学的关键所在。运用统计学的基本原理和方法,分析计算有关的指标和数据,揭示事物内部的规律。四、分析数据11描述统计内容搜集数据整理数据展示数据目的描述数据特征找出数据的基本规律12推断统计内容参数估计假设检验目的对总体特征作出推断13一、资料的分类二、资料的整理三、常用统计表与统计图第二节

试验资料的搜集与整理14资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为:数量性状资料质量性状资料半定量(等级)资料一、资料的分类15数量性状(quantitativecharacter):

是指能够以量测、称量或计数的方式表示其特征的性状。数量性状资料(dataofquantitativecharacteristics):观察测定数量性状而获得的数据就是。1、数量性状资料16计量资料(measurementdata):

指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。特征:数据用长度、容积、重量等来表示各观测值不一定是整数两相邻的整数间可以有带小数的任何数值出现变异是连续性的计数资料(countdata):指用计数方式获得的数量性状资料。

特征:各观察值只能是整数两相邻整数间不得有任何带小数的数值出现变异不连续

计量资料Vs计数资料17计量资料计数资料18例1:例2:

在研究猪的肉色遗传时,常用的方法是将屠宰后2小时的猪眼肌横切面与标准图谱对比,由浅到深分别给予15分的评分。质量性状(qualitativecharacter):是指能观察到而不能直接测量的性状。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,方法有二:统计次数法评分法2、质量性状资料19半定量或等级资料(semi-quantitativeorrankeddata):是指按照观察单位按所考察的性状或指标等级进行分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。此类数据在医学上最常见,如:癌症分期早、中、晚药物疗效治愈好转无效死亡3、半定量(等级)资料204、三类资料间关系

例:一组2040岁成年人的血压计量资料

<8低血压

8

正常血压

12

轻度高血压

15

中度高血压

17

重度高血压等级资料以12kPa为界分为正常与异常两组质量资料21㈠、资料的检查与核对检查和核对原始资料的目的在于确保原始资料的完整性和正确性。完整性指原始资料无遗缺或重复。正确性指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。二、资料的整理22㈡、资料的整理方法当观测值不多(n≤30)时,不必分组,直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。231、计数资料的整理若观察值较多,变异范围较大的资料,可扩大为以几个相邻观察值为一组,适当减少组数。24基本步骤和方法:求全距全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即

R=Max(x)-Min(x)确定组数组数要适当,一般以达到既简化资料又不影响反映资料的规律性为原则。2、计量资料的整理──组距式分组法25确定组距每组最大值与最小值之差称为组距,记为i。分组时要求各组的组距相等。

组距(i)=全距/组数确定组限组限(组下限,组上限)组中值:每组的中点值,是该组观察值的代表值。

组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。注意,最末一组的上限应大于资料中的最大值。归组划线计数,作次数分布表26R=65.0-37.0=28.0(kg)n=126,初定为10。i=28.0/10≈3.027为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。练习

组距式分组做次数分布表28R=24-19=5n=50,组距初定为1。i=5/1+1=6293、质量性状资料、半定量(等级)资料的整理

对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。30统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析。统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果。三、常用统计表与统计图31㈠、统计表⒈

统计表的结构统计表由标题、横标目、纵标目、线条和数字构成,其基本格式如下表:32①标题标题简明扼要、准确地说明表的内容②标目标目分横标目和纵标目两项横标目列在表的左侧,用以表示被说明事物的主要标志纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等③数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致无数字的用“─”表示数字是“0”的,则填写“0”④线条

表的上下两条边线略粗纵、横标目间及合计用细线分开表的左右边线可省去,表的左上角一般不用斜线。33⒉统计表的种类根据分组标目的复杂程度,统计表可大致分为简单表和复合表。简单表(simpletable):只按一个特征或标志分组。如表2-11。复合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表2-12。34⒊

不良统计表的修改举例35㈡、统计图⒈统计图的结构统计图由以下几个部分组成:①标题②标目③点线条面④刻度⑤图例36Excel绘制的图形37统计图绘制的基本要求:标题简明扼要,列于图的下方。纵、横两轴应有刻度,注明单位。横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。图中需用不同颜色或线条代表不同事物时,应有图例说明。以下图形均由计算机绘制!ExcelSTATISTICA38⒉常用统计图及其绘制方法

常用的统计图有长条图、圆图、线图、直方图和折线图等。计量资料采用直方图、线图和折线图。计数资料、质量性状资料、半定量(等级)资料常用长条图或圆图等。39⑴、长条图(barchart)用等宽长条的高低表示某一研究指标的数量或频率分布。可分为:单式(simple)条图具有一个统计指标、一个分组标志。如图2-2。复式(clustered)条图每组涉及两个或两个以上的统计指标。如图2-3。40分段(stacked)条图具有两个统计指标,一个分组,分段显示。如图2-4。误差条图(error-bar)用条图或线图表示均数的基础上,附上标准差的范围。如图2-5。41纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。绘制条图注意事项:42

用于表达事物内部的百分构成比大小。用于表示计数资料、质量性状资料的构成比例。圆图每3.6°圆心角所对应的扇形面积为1%。圆图上各部分按资料顺序或大小顺序,以时钟12时为起点,顺时针方向排列。⑵、圆图(piechart)43用线段的升降来表示事物或现象的变化发展情况。单式线图表示某一事物或现象的动态。复式线图在同一图上表示两种或两种以上事物或现象的动态。⑶、线图(linechart)44用矩形面积表示连续变量的频数分布。横轴:连续变量的组段;纵轴:频数,从0开始。各矩形条之间不留空隙。矩形的高度为频数,宽度为组距。⑷、直方图(histogram)45频数(人)1512963105110115120125130135140日加工零件数(个)直方图下的面积之和等于1图2-11某车间工人日加工零件数的直方图我一眼就看出来了,大多数人的日加工零件数在120~125之间!46折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是:第一个矩形的顶部中点连接相邻矩形的顶部中点,最后一个矩形顶部中点与其竖边中点连接到横轴。折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。⑸、折线图(linechart)471512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等!图2-12某车间工人日加工零件数的折线图48第三节

试验资料特征数的计算资料的集中性平均数资料的分散性标准差变异系数49一组数据向其中心值靠拢的倾向和程度不同类型的数据具有不同的集中趋势测度值可用峰度值β(或其它参数)表示,β>3属于尖顶曲线,

β越大,峰度越尖(高)集中趋势(Centraltendency)50离中趋势的各测度值是对数据离散程度所作的描述可用β(或其它参数)表示,β>3属于尖顶曲线β越小,峰度越平,离中趋势越明显β值接近于1.8时,呈水平矩形分布形态离中趋势51

平均数是用来表明资料中各观测值相对集中较多的中心位置。主要包括有:算术平均数(arithmeticmean)中位数(median)众数(mode)几何平均数(geometricmean)调和平均数(harmonicmean)一、平均数(mean)

52算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为。根据样本大小及分组情况而采用直接法或加权法计算。1、直接法用于样本含量n≤30以下、未经分组资料平均数的计算。公式:㈠、算术平均数53【例1】某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。

即10头种公牛平均体重为528.5kg。542、加权法对于样本含量n≥30

以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数。公式:xi

—第i组的组中值;fi

—第i组的次数;k—分组数。55计算1,3,3,7,7,9,9,9的均数?56【例2】将100头长白母猪的仔猪一月窝重(kg)资料整理成次数分布表如下,求其加权数平均数。57【例3】某牛群有黑白花奶牛1500头,其平均体重为750kg,而另一牛群有黑白花奶牛1200头,平均体重为725kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?计算若干个来自同一总体的样本的平均数时,如果样本含量不等,也应采用加权法计算。583、平均数的基本性质样本各观测值与平均数之差的和为零,即离均差之和等于零。样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。59将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。㈡、中位数1、未分组资料中位数的计算方法

n为奇数Md=x(n+1)/2n为偶数60【例4】观察得9只西农莎能奶山羊的妊娠天数为144、145、147、149、150、151、153、156、157,求其中位数。此例n=9,则:Md=x(n+1)/2=150(天)

即西农莎能奶山羊妊娠天数的中位数为150天。【例5】

某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。此例n=10,则:即10只仔犬从发现症状到死亡天数的中位数为11.5天。612、分组资料中位数的计算方法公式:式中:L—中位数所在组的下限;i—组距;f

—中位数所在组的次数;n

—总次数;c—小于中位数所在组的累加次数。62【例6】某奶牛场68头健康母牛从分娩到第一次发情间隔时间整理成次数分布表,求中位数。i=15,n=68中位数只能在累加头数为36所对应的“57—71”这一组。L=57,f=20,c=16即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。63

n个观测值相乘之积开n次方所得的方根,称为几何平均数,记为G。公式:或㈢、几何平均数【例7】某波尔山羊群1997—2000年各年度的存栏数见表2-19,试求其年平均增长率。64资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为Mo。㈣、众数65资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H。【例8】某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,4世代210头,试求其平均规模。㈤、调和平均数66对于同一资料:算术平均数几何平均数调和平均数最常用的是算术平均数。67㈠、全距(极差)一组数据的最大值与最小值之差表示资料中各观测值变异程度大小最简便的统计量易受极端值影响未考虑数据的分布二、标准差(standarddeviation)当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。681、离均差能表示一个观测值偏离平均数的性质和程度离均差有正、有负,离均差之和为零,即不能用离均差之和来表示资料中所有观测值的总偏离程度2、平均差各变量值与其均值离均差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少㈡、平均差69离散程度的测度值最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差离均差的平方和,记为SS解决离均差有正、有负,离均差之和为零的问题。均方(MS),记为S2消除样本大小的影响。㈢、方差和标准差70方差的计算公式:直接法加权法标准差的计算公式:直接法加权法1、总体方差和标准差712、样本方差和标准差方差的计算公式:直接法加权法标准差的计算公式:直接法加权法试推导公式7273样品方差的换算公式74总体方差样本方差【例9】计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。3、简化公式n=10Σx=5400Σx2=295500075【例10】利用某纯系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论