数据资料的特征值.ppt_第1页
数据资料的特征值.ppt_第2页
数据资料的特征值.ppt_第3页
数据资料的特征值.ppt_第4页
数据资料的特征值.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数据资料的特征值,离散性特征值,集中性特征值,生物学数据资料(观测值)的分布具有两个重要的特征:,集中性,离散性,观测值向中心位置聚集的趋势,反映数据资料集中性的特征值是平均数,观测值偏离中心位置的分散情况,反映数据资料离散性的特征值是极差、方差、标准差和变异系数等,众数,算术平均数,几何平均数,调和平均数,中位数,第一节 集中性特征值,平均数(mean)是统计学中最常用的统计量,用来表明数据中各观测值相对集中较多的中心位置,反映了一组观察值的平均水平,是一组数据资料的代表值, 可以用来说明一组数据资料的平均水平或集中趋势,具有典型性, 可以用来进行组间比较,以判断一组数据资料与另一组

2、数据资料的差别,具有代表性,平均数的作用:,1. 算术平均数,算术平均数(arithmetic mean):数据资料中各观测值的总和除以观测值的个数所得的商,简称平均数或均数。记为,1.1 基本概念, 算术平均数适合描述对称分布资料的集中趋势,1.2 计算公式,观测值为 :x1,x2,xn,则:,对于总体来说,则有:,设有一随机变量x,,1.3 重要性质,样本各观测值与平均数之差的和为0,即离均差之和为0,证 明,样本各观测值与平均数之差的平方和为最小,即离均差平方和最小,证 明,则有:,1.4 加权平均数,对于样本容量30且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,xi 第

3、i组的组中值,fi 第i组的次数,k 组数,采用加权法计算得到的平均数就称为加权平均数(weighted mean),加权平均数不具备算术平均数的两个性质,几何平均数(geometric mean): n个观测值相乘之积的n次方根, 适用于利率、畜禽数的增长率、药物的效价、抗体的滴度等非线性数据,例1 为研究人群中流感的抗体水平,测得12名儿童的血清对流感病毒的血凝抑制抗体效价的倒数为:5,5,5,5,5,5,5,10,10,10,20,40,试计算平均血凝抑制抗体效价。,解:,答:平均血凝抑制抗体效价约为18,平均血凝抑制抗体效价约为110,2. 几何平均数,3. 调和平均数,调和平均数(h

4、armonic mean):资料中各观测值倒数的算术平均数的倒数, 调和平均数主要适用于速度类的资料,或有个别极端大观测值的数据资料,4. 中位数,中位数(median):将资料中所有观测值按从小到大依次排列,位于中间位置的那个观测值,简称为中数,5. 众数,众数(mode):在数据资料中出现次数最多的一个观测值或次数最多一组的组中值,有的资料可出现多个众数,有的资料则没有众数,当观测值的个数是偶数时,以中间两个观测值的平均数作为中位数, 数据资料呈偏态分布或分布情况不清楚时,中位数的代表性优于算术平均数,第二节 离散性特征值,平均数主要是用来说明数据的集中趋势和集中程度的,是一组数据的代表值

5、,平均数的代表性如何,还要看数据的变异情况:,数据越是集中,,则平均数的代表性就越强,仅用平均数对一个数据资料的特征进行统计描述是不完善的,还必须要有另外一个统计量来衡量数据变异程度的大小、说明平均数的代表性,数据越是分散(离散),则平均数的代表性就越弱,用来衡量数据变异程度的统计量有很多,常用的有:极差、方差、标准差和变异系数,1. 极差,极差(range):数据资料中最大观测值与最小观测值之间的差, 极差主要用来说明传染病和食物中毒的最短、最长潜伏期,(1)没有充分利用数据中全部观测值的信息,优点:极差是衡量数据资料变异程度大小的最简便的统计量,缺点:,(2)不能准确反映数据中各观测值的分

6、布状况,(3)样本之间难以进行比较,(4)极差的抽样误差较大,不稳定,2. 方差,极差:仅用全部观测值中较为特殊的两个点值,比较粗糙,充分利用数据资料中的每一个观测值,将每一观测值都和某一个特定的值相比,,可以求出每一个观测值与平均数的差值,即离均差,有多少个观测值就可以得到多少个离均差,还是不能说明整个数据资料的变异程度,将各个离均差相加是最简单的方法,, 可以用离均差平方和来衡量数据的变异程度,仅仅进行简单地相加,还是不能反映数据资料中所有观测值的总偏离程度,最理想的特定值就是平均数,根据平均数的第二个性质可知,离均差平方和最小,也就是说将离均差平方后相加之和是最稳定的一个值,而且这个值不

7、等于0,离均差平方和简称为平方和(sum of squares),用SS表示,样本平方和:,总体平方和:,用平方和衡量数据的变异程度:,离均差平方和消除了离均差正、负值的影响,离均差平方和的大小除了与变异程度有关外,还随样本容量的大小而改变,为了消除样本容量大小的影响,可以取其平均数,即用平方和除以样本容量,即,平方和的平均数称为方差(variance),为了使所得的统计量是相应总体参数的无偏估计量,在求离均差平方和的平均数时,分母不用样本容量n,而用自由度n-1,样本方差:,总体方差:,样本均方S2是总体方差2的无偏估计值,3. 标准差,用方差衡量数据的变异程度:,同类资料进行比较时,方差越

8、大就意味着数据资料的变异程度越大,因此方差是衡量数据资料变异程度的一个重要指标,方差是通过平方求和得来的,在对观测值进行平方的同时,它的单位也相应地进行了平方,因此在实际应用时很不方便,样本方差S2的平方根称为样本标准差(standard deviation),3.1 关于自由度的讨论,(1)对于样本容量为n的样本来说,每一个观测值都要与平均数相比,都有一个离均差,即有n个离均差,但由于受到“离均差之和为0”的限制,其中只有n-1个离均差是自由的,有一个离均差必定失去自由,(2)在统计学中,计算某个统计量时,如果该统计量受到了k个条件的限制,那么它的自由度就为n-k,(3)使用自由度的目的之一

9、就是为了能无偏地估计总体方差,总体方差2的平方根称为总体标准差,3.2 标准差的计算,(1)直接法,对于未分组或小样本资料,可用标准差的概念公式来直接计算:,(2)校正值法,大样本资料一般采用校正值法,(3)加权法,对于分组资料可用加权法计算标准差:,3.3 标准差的性质,(1)标准差的大小,受数据资料中每个观测值的影响,观测值间变异大,标准差大;观测值间变异小,则标准差小,(2)各观测值同时加减一个常数,标准差不变,(3)各观测值乘上一个常数a,所得标准差将扩大a倍,各观测值除以一个常数a,所得标准差将缩小a倍,(4)标准差可以近似地估计观测值的分布情况。当资料服从正态分布时,观测值的分布为:,68.26%的观测值分布在的范围内,95.45%的观测值分布在2的范围内,99.73%的观测值分布在3的范围内,1.96的范围内包含了95%的观测值,2.58的范围内包含了99%的观测值,4. 变异系数,标准差是衡量数据变异程度的最好特征值,标准差的大小说明了数据的变异程度,当两个性质、单位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论