资料的整理与基本分析_第1页
资料的整理与基本分析_第2页
资料的整理与基本分析_第3页
资料的整理与基本分析_第4页
资料的整理与基本分析_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章资料的整理与基本分析下一张

主页

退出

上一张

数据资料的分类数据资料的整理常用统计表与统计图数据资料的特征值分析精选ppt正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为计量资料、计数资料和等级(半定量)资料三大类。下一张

主页

退出

上一张

第一节资料的分类

精选ppt下一张

主页

退出

上一张

数据资料的来源1、实验观察所得的科学实验记录

2、调查研究所得的资料

3、生产记录、病理等现场资料精选ppt下一张

主页

退出

上一张

一计量资料(数值变量)指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。体现:动物的各种生理、生化指标,药动力学指标等,如血液中血红蛋白含量。精选ppt下一张

主页

退出

上一张

二计数资料(无序分类变量)指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。如:畜禽疫病感染个数、发病数、死亡数、呼吸次数、单位容积内细胞数、细菌数等。精选ppt

等级或半定量资料(rankeddata

or

semi-quantitative)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。也称为分类资料。下一张

主页

退出

上一张

三、等级(半定量)资料(有序分类变量)精选ppt下一张

主页

退出

上一张

如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的供试畜禽数。

半定量资料在医学研究中是常见的。在生物医学中,这类资料常用相对数(率)或构成比的形式表示(如:发病率、死亡率、感染率、治愈率、免疫率、阳性率等)精选ppt率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)×比例基数

比例基数:100%、1000‰、10000/万、100000(1/10万)等

如:发病率、死亡率、发生率、阳性率、患病率等构成比(proportion):说明某一事物内部,各组成部分所占的比重。也叫百分比。

构成比=(某部分观察单位数/各组成部分观察单位总数)×100%

如:教研室16人中高级职称有4人,占20%(1/5)。相对比(relativeratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。

如:男:女、医生:护士、教师:学生下一张

主页

退出

上一张

精选ppt率与构成比率构成比概念发生的频率或强度各组成部分所占的比重强调点随机发生事件各部分的构成(分类)资料获得较难容易特点不一定合计为100%下一张

主页

退出

上一张

精选ppt1.1白猪和黑猪子二代的毛色分离情况率与构成比的例子下一张

主页

退出

上一张

占精选ppt年龄组(周)⑴受检个数⑵白内障例数⑶患者周龄构成比(%)⑷患病率(%)⑸=(3)/(2)4~5~6~7~≥8合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.361468448100.0030.521.24周龄以上仔猪患某一疾病的记录下一张

主页

退出

上一张

存在分类随机事件精选ppt应用注意事项1、不能以构成比代替率。2、计算相对数的分母不宜过小。小则直接叙述。3、进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。4、正确求平均率。例:若P1=x1/n1

P2=x2/n2P3=x3/n3

P=(x1+x2+x3)/n1+n2+n3)(正确)

P=(P1+P2+P3)/3(错误)下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。

例如,医学临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,或者按白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料。小结精选ppt第二节资料的整理

下一张

主页

退出

上一张

统计学精选ppt一、资料的检查与核对目的:确保原始资料的完整性和正确性。

完整性:指原始资料无遗缺或重复。

正确性:指原始资料的测量和记载无差错或未进行不合理的归并。

检查中要注意:

1.数据本身差错2.取样差错3.数据资料的不合理合并和归类下一张

主页

退出

上一张

检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。精选ppt

当变数不多(n≤30)时,不必分组,直接进行统计分析。当变数较多(n>30)时,宜将变数分成若干组,以便统计分析。将变数分组后,制成次数分布表(统计学上把经过数据整理后得到的反映变数在各组内的分布情况表格),即可看到资料的集中和变异情况。资料的性质不同,整理方法不同。二、资料的整理方法下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt表2-250枚受精种蛋出雏天数的次数分布表下一张

主页

退出

上一张

精选ppt

问题:有些计数资料,观察值较多,变异范围较大,若以每一变数为一组,则组数太多,而每组内包含的变数太少,资料的规律性显示不出来。

方法:可扩大为以几个相邻变数为一组,适当减少组数,增加每组的变数。这样资料的规律性就较明显,对资料进一步计算分析也比较方便。变数较多,变异幅度较大的资料整理下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

【例2-1】对100例患病的断奶仔猪血液涂片显微镜下病变红细胞数资料进行整理分组。(原始资料略),病变红细胞数变异范围在6-21个,如果以一个单独观测值为一组,分16组就太多,不易看出资料的分布规律。如每间隔2个分为一组,则可使组数适当减少。经适当合并后分为9组,资料的分布规律就比较明显,见表2-3。精选ppt表2-3100例血液涂片病变红细胞数的次数分布表

下一张

主页

退出

上一张

病变细胞数(个)组中值(x)划线计数次数()5~67~89~1011~1213~1415~1617~1819~2021~225.57.59.511.513.515.517.519.521.5|||||卌卌|卌卌卌卌卌卌卌卌卌卌|卌卌卌|卌卌|卌|14112031161151合计

100精选ppt(二)、计量资料的整理计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部变数划线计数归组。

——频数与频数分布下一张

主页

退出

上一张

精选ppt1概念下一张

主页

退出

上一张

频数:某个(组)测量值的个(例)数。频数分布表(frequencydistributiontable):又称频数表。是将原始数据值适当分组后得到各组的频数。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。精选ppt2频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。

(2)决定组数、组限和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。

(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划线计数:用划记法将所有数据归纳到各组段,得到各组段的频数。下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

(1)、求全距

全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即

R=Max(x)-Min(x)

本例R=65.0-37.0=28.0(kg)精选ppt下一张

主页

退出

上一张

(2-1)、确定组数

组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2-5。精选ppt表2-5样本含量与组数

本例中,n=126,根据表2-5,初步确定组数为10组。下一张

主页

退出

上一张

精选ppt(2-2)、确定组距

每组最大值与最小值之差称为组距,记为i。分组时要求各组的组距相等。组距的计算公式为:组距(i)=全距/组数

本例i=28.0/10≈3.0(化整)下一张

主页

退出

上一张

精选ppt(2-3)、确定组限及组中值

各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距

由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。注意精选ppt下一张

主页

退出

上一张

(3)列出组段表2-2中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以第一组的下限为:37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为:36.0+3.0=39.0;第二组的上限也就是第三组的下限为:39.0+3.0=42.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止。于是可分组为:36.039.0,39.042.0,……。精选ppt为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。第一组记为36.0,第二组记为39.0,……下一张

主页

退出

上一张

精选ppt

下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。注意精选ppt

(三)等级(半定量)资料的整理

对于等级(半定量)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。下一张

主页

退出

上一张

精选ppt

表2-7F2代山羊的有角无角分离情况下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

表2-8仔猪死亡情况精选ppt第三节常用统计表与统计图

下一张

主页

退出

上一张

使用统计表和统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。精选ppt一、统计表任何反映统计资料的表格(广义)统计整理与分析阶段使用的表格(狭义)下一张

主页

退出

上一张

用表格形式来表示数据间的数量关系精选ppt(一)统计表的结构和要求统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:下一张

主页

退出

上一张

精选ppt编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:下一张

主页

退出

上一张

1.统计表的结构

××.××┋┋×.××××.××纵标目总标目(单位)××.××××××××合计┋┋┋┋┋┋┋┋×.××××××┋××.××××××××横标目纵标目纵标目纵标目总标目横标目的总标目备注:表号标题(包括何时、何地、何事)精选ppt下一张

主页

退出

上一张

1、标题标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。2、标目标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等。2.统计表的要求

精选ppt下一张

主页

退出

上一张

3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。4、线条表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。精选ppt(二)统计表的种类

下一张

主页

退出

上一张

统计表可根据纵、横标目是否有分组分为简单表和复合表两类。

1、简单表由一组横标目和一组纵标目组成,纵横标目都未分组。此类表适于简单资料的统计,如表2-9。精选ppt下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

2、复合表由两组或两组以上的横标目与一组纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的统计,如表2-10。精选ppt表2-10几种动物性食品的营养成分下一张

主页

退出

上一张

猪场

消化道疾病发病数其它情况黄白痢肠炎寄生虫病水肿病甲乙丙丁35113023812043821714423652426225317712684113212合计83910351316535精选ppt下一张

主页

退出

上一张

常用的统计图有长条图(barchart)、园图(piechart)、线图(linearchart)、直方图(histogram)和折线图

(broken-linechart)等。一般情况下,计量资料采用直方图和折线图,计数资料、半定量(等级)资料常用长条图、线图或园图。二、统计图精选ppt

1、标题简明扼要,列于图的下方。2、纵、横两轴应有刻度,注明单位。3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4、图中需用不同颜色或线条代表不同事物时,应有图例说明。下一张

主页

退出

上一张

(一)统计图绘制的基本要求精选ppt(二)常用统计图及其绘制方法软件绘制,直接输出,很方便!下一张

主页

退出

上一张

统计学精选ppty下一张

主页

退出

上一张

1、直方图(柱形图,矩形图)直方图(histogram)适用于表示连续性变数的次数分布。

横轴为各组组限,纵轴为分布次数(f)横坐标与纵坐标的长度要有合适的比例(一般为5:4或6:5为好),绘成的图形能明显表明次数分布情况。精选ppt次数(f)图2-1126基础母羊体重的次数分布柱形图下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

图2-3水稻杂种二代植株米粒分离情况的次数分布条形图性状次数(f)3、条形图条形图(bardiagram)适用于间断性变数和属性变数资料。一般横坐标表示间断的组中值或分类性状,纵坐标表示次数。精选ppt下一张

主页

退出

上一张

饼图

(piediagram)适用于间断性和属性资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百分比。4、饼图精选ppt第四节数据资料的特征值分析下一张

主页

退出

上一张

统计学

离散性特征值

集中性特征值精选ppt生物学数据资料(观测值)的分布具有两个重要的特征:

集中性

离散性

观测值向中心位置聚集的趋势。

反映数据资料集中性的特征值是平均数,包括算术平均数、几何平均数、调和平均数、中位数和众数等。观测值偏离中心位置的分散情况。

反映数据资料离散性的特征值是极差、方差、标准差和变异系数等。下一张

主页

退出

上一张

精选ppt一集中性特征值平均数(mean)是统计学中最常用的统计量,用来表明数据中各观测值相对集中较多的中心位置,反映了一组观察值的平均水平,是一组数据资料的代表值。

可以用来说明一组数据资料的平均水平或集中趋势,具有典型性

可以用来进行组间比较,以判断一组数据资料与另一组数据资料的差别,具有代表性平均数的作用:下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt【例】某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。由于Σx=500+520+535+560+58+600+480+510+505+49=5285,n=10下一张

主页

退出

上一张

直接法:主要用于样本含量n≤30以下、未经分组资料平均数的计算精选ppt1.3重要性质

样本各观测值与平均数之差的和为0,即离均差之和为0

证明下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt1.4加权平均数对于样本容量≥30且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数。xi—第i组的组中值

fi—第i组的次数

k—组数

采用加权法计算得到的平均数就称为加权平均数(weightedmean)

加权平均数不具备算术平均数的两个性质下一张

主页

退出

上一张

精选ppt组别组中值(x)次数fx10-1534520-25615030-352691040-4530135050-5524132060-65852070-753225合计1004520【例】将100头仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。仔猪一月窝重次数分布表下一张

主页

退出

上一张

精选ppt利用式得:即这100头长白母猪仔猪一月龄平均窝重为45.2kg。计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。

下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt几何平均数(geometricmean):n个观测值相乘之积的n次方根■利率、畜禽数的增长率、药物的效价、抗体的滴度等非线性数据,采用几何平均数比用算术平均数更能代表其平均水平。例1为研究人群中流感的抗体水平,测得12名儿童的血清对流感病毒的血凝抑制抗体效价的倒数为:5,5,5,5,5,5,5,10,10,10,20,40,试计算平均血凝抑制抗体效价。解:

答:平均血凝抑制抗体效价约为1∶8平均血凝抑制抗体效价约为1∶10

2.几何平均数下一张

主页

退出

上一张

精选ppt3.调和平均数调和平均数(harmonicmean):资料中各观测值倒数的算术平均数的倒数。■调和平均数主要适用于速度类的资料,或有个别极端大观测值的数据资料。

主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。下一张

主页

退出

上一张

精选ppt当观测值的个数是偶数时,以中间两个观测值的平均数作为中位数

■数据资料呈偏态分布或分布情况不清楚时,中位数的代表性优于算术平均数4.中位数中位数(median):将资料中所有观测值按从小到大依次排列,位于中间位置的那个观测值,简称为中数下一张

主页

退出

上一张

(1)未分组资料中位数的计算方法精选ppt下一张

主页

退出

上一张

精选ppt下一张

主页

退出

上一张

精选ppt(2)已分组资料中位数的计算方法【例】某奶牛场68头健康母牛从分娩到第一次发情间隔时间整理成次数分布表如下表所示,求中位数。下一张

主页

退出

上一张

精选ppt5.众数

众数(mode):在数据资料中出现次数最多的一个观测值或次数最多一组的组中值

有的资料可出现多个众数,有的资料则没有众数下一张

主页

退出

上一张

所列出的次数分布表中,57—71这一组次数最多,其组中值为64天,则该资料的众数为64天。精选ppt总结对于同一资料:算术平均数>几何平均数>调和平均数上述五种平均数,最常用的是算术平均数。精选ppt二离散性特征值平均数主要是用来说明数据的集中趋势和集中程度的,是一组数据的代表值。平均数的代表性如何,还要看数据的变异情况:

数据越是集中,

则平均数的代表性就越强

仅用平均数对一个数据资料的特征进行统计描述是不完善的,还必须要有另外一个统计量来衡量数据变异程度的大小、说明平均数的代表性。

数据越是分散(离散),则平均数的代表性就越差

用来衡量数据变异程度的统计量有很多,常用的有:极差、方差、标准差和变异系数。下一张

主页

退出

上一张

精选ppt1.极差(全距)极差(range):数据资料中最大观测值与最小观测值之间的差■极差主要用来说明传染病和食物中毒的最短、最长潜伏期(1)没有充分利用数据中全部观测值的信息

优点:极差是衡量数据资料变异程度大小的最简便的统计量

缺点:(2)不能准确反映数据中各观测值的分布状况

(3)样本之间难以进行比较

(4)极差的抽样误差较大,不稳定下一张

主页

退出

上一张

精选ppt2.方差

极差:仅用全部观测值中较为特殊的两个点值,比较粗糙充分利用数据资料中的每一个观测值,将每一观测值都和某一个特定的值相比,可以求出每一个观测值与平均数的差值,即离均差

有多少个观测值就可以得到多少个离均差,还是不能说明整个数据资料的变异程度

将各个离均差相加是最简单的方法,

■可以用离均差平方和来衡量数据的变异程度仅仅进行简单地相加,还是不能反映数据资料中所有观测值的总偏离程度最理想的特定值就是平均数下一张

主页

退出

上一张

精选ppt离均差平方和简称为平方和(sumofsquares),用SS表示

样本平方和:总体平方和:用平方和衡量数据的变异程度:

离均差平方和消除了离均差正、负值的影响

离均差平方和的大小除了与变异程度有关外,还随样本容量的大小而改变为了消除样本容量大小的影响,可以取其平均数,即用平方和除以样本容量,即

下一张

主页

退出

上一张

精选ppt平方和的平均数称为方差(variance)

在求离均差平方和的平均数时,分母不用样本容量n,而用自由度n-1

样本方差:总体方差:

下一张

主页

退出

上一张

为了使所得统计量是相应总体参数的无偏估计值,统计学证明,在求离均差平方和的平均数时,分母不用样本含量,而必须用自由度.精选ppt注意用方差衡量数据的变异程度:■同类资料进行比较时,方差越大就意味着数据资料的变异程度越大,因此方差是衡量数据资料变异程度的一个重要指标■方差是通过平方求和得来的,在对观测值进行平方的同时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论