生物统计学 第二章 试验资料的整理与资料特征数的计算_第1页
生物统计学 第二章 试验资料的整理与资料特征数的计算_第2页
生物统计学 第二章 试验资料的整理与资料特征数的计算_第3页
生物统计学 第二章 试验资料的整理与资料特征数的计算_第4页
生物统计学 第二章 试验资料的整理与资料特征数的计算_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试验资料的整理特征数的计算与第二章XYZ华中师范大学生命科学学院一、总体与样本二、参数与统计数三、变量与资料四、因素与水平五、处理与重复六、效应与互作七、误差与错误八、准确性与精确性回顾:第一章绪论在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料(data)。原始数据无序有序统计分析资料整理揭示事物本质第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理对试验资料进行分类是统计归纳的基础。数量性状资料质量性状资料计数资料(非连续变量资料)计量资料(连续变量资料)变量定量变量定性变量连续变量非连续变量资料对资料进行分类整理是,必须坚持“同质”的原则。

数量性状(quantitativecharacter)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacter)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。一、数量性状资料指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。例如,鱼的尾数只可能是1,2,3,4,…,n1、计数资料(enumerationdata)指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,它们之间的变异是连续性的,因此计量资料也称为连续变量资料。例如,小麦的株高是8095cm,可以是86.5cm或86.54cm。2、计量资料(measurementdata)

质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(dataofqualitativecharacter),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:1.统计次数法;2.评分法

二、质量性状资料

1、统计次数法(frequencycounting)株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫次数资料。在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,小麦感染锈病的严重程度可划分为0级(免疫)、1级(高度抵抗)、2级(中度抵抗)、3级(感染)。

2、评分法(pointsystem)

两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理样本资料的搜集(collection)是统计分析的第一步,也是全部统计工作的基础。没有数据,就没有发言权。调查试验资料搜集的方法普查抽样调查随机抽样简单随机抽样分层随机抽样整体抽样双重抽样顺序抽样典型抽样二、试验资料的搜集调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查(census)

是对研究对象的每一个个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。消耗大量的人力、物力和时间一、调查(survey)人口普查在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记。人口普查工作包括对人口普查资料的搜集、数据汇总、资料评价、分析研究、编辑出版等全部过程,它是当今世界各国广泛采用的搜集人口资料的一种最基本的科学方法,是提供全国基本人口数据的主要来源。从1949年至今,中国分别在1953年、1964年、1982年、1990年、2000年与2010年进行过六次全国性人口普查。抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况极少,多数情况下还是进行抽样调查。2、抽样调查(samplingsurvey)“你不必吃完整一头牛,才知道它的肉是咬不动的。”

————SamelJohnson抽样的方法有多种,主要有:随机抽样法、顺序抽样法和典型抽样法,一般情况下在统计学中常常采用随机抽样的方法。要使样本无偏差地估计总体,除了样本容量要足够大之外,重要的是采用科学的抽样方法,抽取有代表性的样本,取得完整而准确的数据资料。

背景法兰克罗斯福总统争取连任、肯萨斯州州长兰登为共和党总统候选人美国经济正由大萧条中逐渐恢复九百万人失业,于1929年至1933年间实际所得降低三分之一宣称一:《文学文摘》认为兰登将以57%对43%赢此选战。此数字基于二百四十万人之民意调查结果。宣称二:盖洛普民意测验所采用分层抽样调查了3000人,预测罗斯福将当选为美国的新一任总统。选举结果罗斯福以62%对38%赢此选战。为什么?抽样的广泛应用缘于大选前的民意测验《文学文摘》的取样办法:通过登记的电话簿发放问卷在当时仅有一千一百万个部宅用电话,而全国人口超过1.2亿。

可能问题的所在取样偏差:Digest杂志的取样中包含过多的富人,而该年贫富间选举倾向相距极大

怎样才能预测准?----样本要有代表性。

1)随机抽样(randomsampling)又被称为概率抽样(probabilitysampling),必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。(1)简单随机抽样纯随机抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。N方法:将总体内所有抽样单位全部编号,采用随机方法确定被抽单位编号,这些编号所对应的抽样单位抽出来放在一起就构成一个随机样本。适用对象:个体间差异较小、所需抽取的样本单位较少的情况。4368652571421044038905138052511121014032905例2.1(2)分层随机抽样(stratifiedrandomsampling)分层随机抽样是一种混合抽样。其特点是将总体按变异原因或程度划分成若干区层,然后再用简单随机抽样方法,从各区层按一定的抽样分数抽选抽样单位。抽样分数(samplingfraction):一个样本所包括抽样单位数与其总体所包括的抽样单位数的比值。方法:(1)将总体变异原因与程度划分成若干区层,使得区层内变异尽可能小或变异原因相同,而区层间变异比较大或变异原因不明。(2)在每一个区层按一定的抽样分数独立随机抽样。相等配置比例配置最优配置如果各区层抽样单位数相等,可采用相等配置如果各区层抽样单位数不等,可按相应的抽样分数,将欲抽取的抽样单位总数分配到各区层根据各区层抽样单位数、抽样误差和抽样费用,确定各区层应抽取的抽样单位。在变异范围较大的区层,抽样分数应大一些;在抽样费用较高的区层,抽样分数应小一些。分层抽样的抽样单位数目配置方法(1)若总体内各抽样单位间的差异比较明显,那么就可以把总体分为几个比较同质的区层,从而提高抽样的准确度;(2)分层随机抽样既运用了随机原理,也运用了局部控制原理,这样不仅可以降低抽样误差,也可以运用统计方法来估算抽样误差;例2.2现有一块麦田,其长势呈单向趋向式变化,欲抽样估产,如何进行抽样?好坏长势(3)整体抽样(clustersampling)整体随机抽样是把总体分成若干群,以群为单位,进行随机抽样,对抽到的样本进行全面调查。如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样;若主要变异来源明显来自区层内各单位间,且每一区层所占面积较小,则宜用整体随机抽样。例如,估计麦田的害虫啃食率,钢材的合格率等;优点1由于一个整体只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便;2与简单随机抽样相比较,它常提供较为准确的总体估计值。3只要各群抽选单位数相等,整体抽样也可提供总体平均数的无偏估计。(4)双重抽样(doublesampling)变量1变量2简单变量复杂变量如果所研究的性状是不容易观察测定的,或必须有较多费用,或要求有精密设备、复杂计算过程与耗费较多调查时间的,或必须进行破坏性测定才能获得观察结果的,由于上述种种原因,直接调查研究这一类型性状是有困难的。首先,抽取一个初步样本(样本量较小),并搜取一些简单项目以获得有关总体的信息:做一次随机抽样,调查y(复杂)和x(简单)两种性状,从中求出y依x的回归方程。这个样本容量n不一定很大,但希望x和y有较大的幅度。然后,在此基础上再进行深入抽样。双重抽其具体步骤双重抽样的优点:1.对于复杂性状的调查研究可以通过仅测定少量抽样单位而获得相应于大量抽样单位的精确度;2.当复杂性状必须通过破坏性测定才能调查时,则仅有这种双重抽样方法可用。2)顺序抽样(ordinalsampling)顺序抽样又称为系统抽样、机械抽样、等距抽样它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构成样本。这种抽样方法可避免人们主观偏见的影响,且使用简便如果总体内存在周期性变异,则可能会得到一个偏差很大的样本,这种现象在统计上称为系统误差。由顺序抽样得到的样本不能计算抽样误差,估计总体值。首先,先将总体从1~N相继编号,计算抽样距离K=N/n。式中N为总体单位总数,n为样本容量;然后,然后在1~K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K……,直至抽够n个单位为止。顺序抽其的基本做法是:将总体中的各单元先按一定的顺序排列、编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体例如:欲求100匹马的体重,你抽取20匹马作为样本来称重。1,K=100/20=5;2,15中随机选择3,接着抽取8(3+5),13(8+5),…,98为止。3)典型抽样(typicalsampling)根据初步资料或经验判断,有意识、有目的的选取一个典型群体作为代表(样本)进行调查,以估计整个总体,这种抽样方法就称为典型抽样。典型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种抽样方法。这种抽样多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。试验是通过处理获得样本资料的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控制。二、试验(experiment)第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理三、资料的整理(一)原始资料(rawdata)的检查与核对调查试验原始数据核对:数据本身是否有错误检查:取样是否有差错订正:不合理数据的订正检查和核对原始资料的目的:确保原始资料的完整性和正确性。完整性:是指原始资料无遗缺或重复。正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。不必分组直接进行统计分析小样本n<30将数据分成若干组以便统计分析大样本n≥30次数分布表次数分布图统计分析样本大小整理的步骤(二)次数(频数)分布表统计表的结构和要求:结构简单,层次分明,安排合理,重点突出,数据准确。总横标目(或空白)纵标目1纵标目2……横标目1横标目2数字资料……表号标题1、标题简明扼要、准确地说明表的内容,有时须注明时间、地点。2、标目标目分横标目和纵标目两项。横标目列在表的左侧,纵标目列在表的上端,标目需注明计算单位,如%、kg、cm等等。3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。4、线条多用三线表,上下两条边线略粗。1.计数资料的整理采用单项式分组法进行整理。特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。1712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-2

100只来亨鸡每月的产蛋数11~17来亨鸡每月产蛋数变动范围:分为7组统计各组次数计算频率和累积频率制表表2-3

100只来亨鸡每月产蛋数次数分布表每月产蛋数次数频率累积频率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.001自然值进行分组,最大值17,最小值11。2数据主要集中在14,向两侧分布逐渐减少。表2-4小麦品种300个麦穗穗粒数的次数分布表每穗粒数次数频率累积频率FrequencyPercentCumulativePercent

18-2230.01000.010023-27180.06000.0700

28-32

380.12670.1967

33-37510.17000.3667

38-42680.22670.5934

43-47530.17660.7700

48-52410.13670.906753-57220.07330.980058-6260.02001.000045组?9组2计量资料的整理计量资料一般采用组距式(组限式)分组法。全距组数组距组限归组制表表2-5

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距,又称极差(range):R=Xmax-Xmin

=85-37=48(cm)(2)确定组数和组距(classboundary)组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。组数组距多小统计数精确,计算不方便少大统计数不精确,计算方便组数的确定样本容量分组数

30~60

5~860~100

7~10100~200

9~12200~500

10~18>500

15~30表2-6样本容量与分组数的关系组距的确定即每组内的上下限范围。组距=全距/组数=48/10=4.810组5cm(3)确定组限(classlimit)和组中值(classmidvalue)组限

是指每个组变量值的起止界限。上限下限组中值是两个组限的中间值。组中值=下限+上限2=组距2下限+=组距2上限-第一组的组中值最好接近于资料的最小值表2-5

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737

467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值;组限取到10分位或5分位上,计算方便;临界值就高不就低。35~,40~,45~,…,85~。(4)归组确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。计数的方法卡片法唱票法画“正”字画””表2-6

150尾鲢鱼体长的次数分布表

组限组中值次数频率累积频率FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467

55~57.540

0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000(三)次数分布图和频率分布图定义:把次数(频率)分布资料画成统计图形。特点:直观、形象包括:条形图、饼图、直方图、多边形图和散点图统计图绘制的基本要求:(1)标题简明扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。图2.2月产蛋数次数分布柱形图图2.2月产蛋数频率分布柱形图条形图(barchart),又称柱形图计数资料特点:柱形之间要间隔一定的距离属性资料2饼图(piechart)图2-3来亨鸡月产蛋次数分布图计数资料属性资料图2.3鲢鱼体长次数分布图3直方图(histogram),又称矩形图计量资料354045505560657075808590特点:各组之间没有距离组中值4多边形图(polygon),又称折线图(broken-linechart)计量资料图2.3鲢鱼体长次数分布图组中值5散点图(scatter)来亨鸡月产蛋数次数分布散点图计数资料5散点图(scatter)计量资料图2.3鲢鱼体长次数分布散点图学会函数:max,min,sum,countif,countifs等;Excel中次数分布图表的制作Previousreview原始数据无序有序统计分析资料整理调查试验资料搜集的方法数量性状资料质量性状资料计数资料(非连续变量资料)计量资料(连续变量资料)变量定量变量定性变量连续变量非连续变量资料不必分组直接进行统计分析小样本n<30将数据分成若干组以便统计分析大样本n≥30次数分布表次数分布图统计分析样本大小离散数据:单项式分组法连续数据:组距分组法Previousreview第二节试验资料特征数的计算集中性

是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。离散性

是变量有着离中分散变

异的性质。变量的分布具有两种明显的基本特征:集中性和离散性。集中性离散性平均数变异数算术平均数中位数众数几何平均数极差方差标准差变异系数调和平均数特征数一、平均数平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。(一)平均数的种类:算术平均数中位数众数几何平均数1.算术平均数(arithmeticmean)定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。总体:样本:样本统计量的抽样分布-SamplingdistributionSimmental如果抽样是随机的,样本平均数也是随机变量第二节试验资料特征数的计算总体样本1样本2样本m平均数的抽样分布n

统计量?样本平均数的分布总体样本1样本2样本mn

统计量?正态总体样本标准差的分布标准差的抽样分布2.中位数(median)资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。中位数将该组数值分为两半,理论上有50%的变量小于md,,有50%的变量值大于

md,故又称百分之五十位数,记为P50。Md1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:

Md=

2、当观测值个数为偶数时,n/2和(n/2)+1位置的两个观测值之和的1/2为中位数,即:

高平常测验:

0.2~0.25招生考试或水平考试:0.3~0.4m1mdm2区分度=m1Tm2T-m2-m1T=试卷区分度3.众数(mode)资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。M04.几何平均数(geometricmean)资料中有n个观测数,其乘积开n次方所得数值。G适用范围:几何平均数适用于变量x为对数正态分布,经对数转换后呈正态分布的资料。G=(二)算术平均数的计算方法:直接计算法减去常数法加权平均法1、直接计算法

样本含量n<30以下、未经分组资料平均数的计算。例:随机抽取20株小麦测量它们的株高(cm)分别为:

79858486848382838384818081828182828280

求小麦的平均株高。若变量xi的值都比较大(或都比较小),且接近某一常数a时,可将它们的值都减去(或加上)常数a,得到一组新的数据,计算其平均数,再重新加上(或减去)常数a。例:设a为80(cm)则有:

798584868483828383

2-154643233818081828182828280

4101212220“-80”2、减去(加上)常数法通常对样本容量n≥30且已分组的资料,多在次数分布表的基础上采用加权法计算平均数。第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量,因此将fi

称为是xi的“权数”,加权法也由此而得名。若为计数资料,且不分组,且,此时直接用自然值乘以次数来计算,即3、加权平均法例:表2-8株高x次数ffx791798021608132438264928332498432528518586186式中:—

第i组的组中值;

第i组的次数;

分组数

若为分组资料,则用每组组中值乘以该组次数之和再除以总次数来计算,计算公式为:例:将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权平均数。

表100头长白母猪仔猪一月窝重次数分布表组别组中值(x)次数(f)fx10~1534520~25615030~352691040~4530135050~5524132060~65852070~753225合计1004520即这100头长白母猪仔猪一月龄平均窝重为45.2kg

计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。设是n1个数的平均数,是n2个数的平均数,那么全部n1+n2个数的算术平均数是:

例:某牛群有黑白花奶牛1500头,其平均体重为750kg,而另一牛群有黑白花奶牛1200头,平均体重为725kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:(三)算术平均数的重要性质算术平均数与样本内的每个值都相关,它的大小受每个值的影响;若每个Xi都乘以相同的数k,则原平均数亦应乘以k;若每个Xi都加上相同的数a,则原平均数亦可直接加上a。离均差之和等于零。离均差平方和最小。(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。

用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数对样本的代表性弱。三组同年龄、同性别儿童体重(kg)的数据:

I组:2628303234

II组:2025303540

III组:2327303337三组的平均数均为30,变异如何体现?例:

集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的统计量。

变异性指标二、变异数变异数的种类:极差方差标准差变异系数(一)极差(全距,range)极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min表2-5

150尾鲢鱼体长(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737

467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263R=85-37=48(cm)三组同年龄、同性别儿童体重(kg)的数据:

I组:26283032348

II组:202530354020

III组:232730333714例:极差简单明了当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。除最大、最小值,不能反映组内其他数据的变异。样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。优点缺点用途极差如何准确地表示样本内各个观测值的变异程度平均数可以求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为零。?图1图2图3图4平方和(SS)平方和的平均数样本量越大,𝑺𝑺会越大!(二)方差(Variance)样本总体?现有一N=3的近似正态总体,具有变量3,4,5,可以求出μ=4,

σ

2=0.6667,σ

=0.8165。现以n=2作独立的有放回式抽样。总共可得到Nn=32=9个样本样本编号样本值

xs2s13,33.00.00.000023,43.50.250.533,54.01.01.044,33.50.250.554,44.00.00.064,54.50.250.575,34.01.01.085,44.50.250.595,55.00.00.0Σ36.03.04.0

平均

4.00.33330.4444

μ=4σ2=0.6667σ

=0.8165自由度(degreeoffreedom,df)自由度指当以样本的统计量来估计总体的参数时,样本中可以自由变动的变量的个数。自由度=样本个数-样本数据受约束条件的个数在总体平均数未知时,要计算标准差就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。所以,為了避免使用有bias的estimator,我們通常使用它的修正值S²:

正态总体中样本方差的分布(三)标准差(standarddeviation,Sd)样本总体样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出样本方差的平方根。x=411x2=18841X’=6X’2=76表2-89名男子前臂长(cm)标准差计算前臂长x2x’=x-45x’245202500421764-39441936-11411681-4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论