第二章 资料整理.doc_第1页
第二章 资料整理.doc_第2页
第二章 资料整理.doc_第3页
第二章 资料整理.doc_第4页
第二章 资料整理.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 资料整理第一节 几个常用术语一、总体总体:指根据试验目的确定、符合指定条件的全部观察对象。总体中的每一个成员称为个体。构成总体的个体数称为总体容量()。根据总体容量的大小,一般可将总体分为有限总体和无限总体两大类。对总体的全部个体进行观察测定所获得的总体特征数,称为总体参数,主要由两个指标,即总体平均数()和总体方差()。参数是反映总体规律性的数值,科学试验的目的在于对总体参数的了解和把握。但对于无限总体由于个体数无穷而不可能直接获得总体参数;对于有限总体也常由于个体数太多或由于破坏性试验而难以对每一个个体都进行调查分析。因此,在统计学上需通过对总体的一部分个体进行观察测定从而了解总体的特征和规律性。二、样本样本:指从总体中按一定的方法所抽取出来的一部分个体。一个样本所包含的个体数称为样本容(含)量(),的样本称为大样本,而的样本称为小样本。对一个样本的全部个体进行观察测定所获得的样本特征数,称为样本统计数,主要有两个指标,即样本平均数()和样本方差(,又称均方)。统计分析的核心在于由样本统计数推断总体参数,因此获取样本仅仅是一种手段,而推断总体才是真正目的。从总体中按一定方法抽取个体组成样本的过程称为抽样(取样),达到通过样本准确推断总体的特征,抽样必须要注意以下三个问题:1. 总体要真实。2. 抽样要随机。3. 样本容量要适当。三、变数观察值:对每一个个体的某一性状通过观察测定所获得的数值。变 数:同一性状全部观察值的集合。变 量:变数中的每一个成员,即变量的具体数值就是观察值。根据变数的来源和性质,可以将资料分为数量性状资料和质量性状资料。1. 数量性状资料 指用工具测量、度量、称量、分析化验或计数的方法所获得的数据资料,可以直接用数字表示。根据数据获取的方式和性质的不同,又可分为:1.1 连续性变数资料(计量资料) 由测量、度量、称量、分析化验等方式获得。各个观察值并不限于整数,在相邻的两个变量之间,随着测试工具精度的提高,还会有其它数值存在,如产量、株高、Vc含量等。1.2 间断性变数资料(计数资料) 又称不连续性变数资料,由计数的方法获得,其变量分布仅限于非负整数,如植株数、结果数、开花数。2. 质量性状资料质量性状指只能观察描述而不能量测的性状,如果色、花色等。质量性状资料是指只能用文字描述而不能直接用数字表示大小的资料,但可以通过赋值(给分)法或统计次数法来获得这类性状的数量资料进行间接表示,结果类似间断性变数。第二节 数量性状变数资料的整理一、次数分布表 对观察值较多的原始数据要求通过一定的方法加以整理,以便分析整个资料的集中性和变异情况,从而对资料得到一个初步的认识和了解。 在资料的初步整理中,最常用的方法是制作次数分布表。操作步骤如下:1. 排序 将原始数据按从大到小或从小到大的次序排列成依次表。2. 求极差 即资料中最大值与最小值之差(),表示整个资料的变异幅度,为下一步的分组提供依据。3.分组3.1 确定组数 根据极差的大小和观察值个数的多少来确定组数。观察值个数与分组时组数之间的关系如教材。 确定组数的原则是即要便于计算,同时又能反映出整个资料的集中性和变异情况。3.2 确定组距(i) 组距是指相邻两组间数据差距的大小。,然后取整数。4. 确定组限和组中值 组限是各组的变异范围,即各组的上下限度。在各组中的最小值称该组的下限,最大值则称该组的的上限。 确定组限最关键的是确定第一组的下限,当第一组的下限加上组距就可以得到第一组的上限(也就是第二组的下限),再加上组距就可以得到第二组的上限和第三组的下限,其余依此类推,即可完成。 第一组下限确定的原则是:第一组的下限不应该由原始资料的最小值开始,但原始资料的最小值又必须包含在第一组之内,在确定第一组的下限时,可以用原始资料最小值减去组距的一半作为下限。各组上下限的平均值即为该组组中值,作为这一组变量的平均数的代表值。5.资料归组 将各个观察值用划记号的方法逐个归入相应的组内,并统计次数,制成资料分布表。 为了更详细地了解各组次数分布的情况,还应计算各组的相对次数和累积次数。 次数分布表中各组次数分布应该近似于正态分布。质量性状资料的次数分布表制作比较简单,先根据性状表现进行分级,然后直接统计各级的次数即可。特别强调:当前统计表一般要求用“三线表”,同时完整的表格必须包含表序、表题和表格三个部分,并且缺一不可。表序和表题一般位于表格上方中间位置。二、次数分布图 除了用次数分布表来表示试验资料的分布情况外,还可以依据次数分布表绘制成次数分布图,可以更形象、更直观地表现次数分布的情况。常用的分布图有方柱形图、多边形图、条形图和饼图。在绘图时,纵横轴总长度的比例一般为4:5或5:6较好。(一)、方柱形图(柱形图) 先以纵横轴总长度的比例一般为4:5或5:6的比例建立平面直角坐标系,以横轴表示变数,纵轴表示次数,然后将横轴按组数进行等分,纵轴的最大刻度等于或略大于单组次数的最大值。横轴上的各个等分点即是各组的下限和下限。再在下限和上限处分别作一条垂直于横轴的直线,高度等于该组的次数,然后用线段连接各级顶点。方柱形图主要用于表示连续性变数资料的次数分布。如教材P40图3.1。(二)、多边形图(折线图) 多边形图的绘制方法与方柱形图相似,仅是横轴上的刻度值以组中值表示而不是各组的组限值,同时图形无垂直于横轴的纵线,而是在相应组中值的分布次数位置描点,然后将各点用线段连接即可。多边形图也是用于表示连续性变数资料的分布情况,其优点是可以进行多组资料的比较,即可以将多组资料的多边形图绘制在同一幅图上比较。如教材P40图3.2。(三)、条形图适用于间断性变数资料和质量性状。在绘图时,在横轴上以间断性变数的中点值或质量性状资料的分级性状(或其代表值)表示刻度,然后根据出现的资料描点,并分别连成条状。它是以条开的高低或长短来表示次数多少的一种统计图。如教材P40图3.3。(四)、饼图(面积图)适用于间断性变数和质量性状资料,用来表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的比例。如教材P40图3.4。特别强调:规范的统计图必须包含图序、图题和图形三个部分,并且缺一不可。图序和图题一般位于图形下方中间位置。第三节 表达数据特征的两个特征数一、平均数 平均数是试验数据的代表值,表示整组资料的中心位置,也可以作为资料的代表数与另一组资料进行比较,从而明确两者的差异。 平均数的种类主要有:1. 算术平均数,简称平均数或均数。对于小样本资料,可以直接采用该公式进行计算(直接法)。1.1 在计算时应注意以下三个问题:1.1.1 计算结果一般要求比原始观察值多保留一位小数。1.1.2 计算结果要求采用“四舍六入五留双”的原则进行数字取舍(GB8170-87)。1.1.3 平均数是有单位的量,计算结果中必须列出其相应的单位。1.2 算术平均数的特性1.2.1 离均差之和为零,即。离均差指样本中某个观察值与样本平均数的差值。 1.2.2 离均差的平方之和最小,即即离均差的平方和总是小于或等于各个观察值与任意数之差的平方和,即。 设任意数a,,则 离均差的平方和简称平方和,用SS表示。2. 中数(Md) 指在依次表中排列在最中间的观察值。若总观察值个数为偶数,则为最中间的两个观察值的算术平均值。3. 众数(Mo) 资料中出现次数最多的观察值或次数分布表中出现次数最多的一组的组中值。4. 几何平均数 ,主要用于某些性状的遗传规律(例如果实重量遗传)以及增长、增殖方面的研究。二、变异数 平均数作为整组资料的代表值,也是作为其相应总体的估计值,但其代表总体的可靠性受样本观察值变异程度的影响,若变异程度小,则代表性强,相反,若变异程度大则代表性差,因此要通过样本描述总体,除平均数外,还应该有变异数。常用的变异数有极差、方差、标准差和变异系数四种。1. 极差(R) 即样本观察值中最大值与最小值之差,即,又称全距。 极差表示整组资料的变异范围,但由于只由两个极端值决定,没有涉及到样本中的所有观察值,因此特别容易受到资料中不正常观察值的影响,故用极差表示变异数存在较大的问题,当n10时由于计算简便而常用。2. 方差 方差是统计学中较为常用的表示变异程度的一个指标,具有以下优点:1. 方差的计算涉及到每一个观察值,因此能全面、合理地表示变异程度的大小。2. 离均差平方之后累加,可以清除负数以克服离均差之和为零而不能表示变异程度的缺陷。3. 离均差平方之后可以扩大较大离均差的份量,可以增强反映变异程度大小的灵敏度。4. 通过平方和除以观察值个数,可以消除样本容量大小的不同对变异程度的影响。但如果以上述公式计算样本方差,根据平均数的第二个特性,由于平方和总是偏小,则其所估计的总体方差总是偏小,因此,样本方差的计算公式需要进行校正,根据数理统计的研究,校正公式如下: 其中n-1称为自由度,用df或表示。 为了区别样本方差和总体方差,一般将总体方差称为方差,用2表示,即,其中N总体容量。 而将样本方差称为均方,用s2表示,即:即: 方差尽管是有单位的量,但其单位没有统计学意义。3. 标准差 指方差的正平方根值。将方差开平方根,目的是将变异数的单位恢复到数据的单位。相应地,有: 小样本资料可以直接通过以下公式进行计算: 标准差由于具有方差的优点并将度量单位恢复到和原始资料相同,因此它是应用最广泛的变异数。平均数和标准差是资料的两个最重要的参数,前者表示资料的集中性,后者则表示资料的变异性,两者共同决定资料的性质,一般可以共同表示为。标准差越小,平均数越有代表性,相反,标准差越大,平均数的代表性越差。4. 变异系数 ,其作用有: 1. 标准差偏离平均数的程度。2. 可以进行两个度量单位不同的样本之间的比较。 变异系数是由平均数和标准差共同决定的,受两者的影响,因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论