生物统计学第一章课件_第1页
生物统计学第一章课件_第2页
生物统计学第一章课件_第3页
生物统计学第一章课件_第4页
生物统计学第一章课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、任课教师:陈彦云 授课时数:51课时 学分:3分,生物统计学,内 容: 介绍科学研究中常用的、基本的 生物统计方法与试验设计方法 : 资料的整理; 平均数、 标准差与变异系数; 常用概率分布;平均数的统计推断;方差分析; 2 检验;直线回归与相关;试验设计的基本原理和方法及对比设计、随机区组设计,正交设计等。,第一章 概 论,第一节 生物统计学的概念及主要内容,一、概念,统计学:是把数学的语言引入具体的科学研究领域,将所研究的问题抽象为数学问题的过程,是搜集、分析和解释数据的一门科学。 生物统计学(Biostatistics):是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来认识、

2、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。,二、主要内容,生 的 物 基 统 本 计 内 学 容,试 验 设 计,统 计 分 析,基本原则 方案制定 常用试验设计方法,资料的搜集和整理 数据特征数的计算 统计推断 方差分析 回归和相关分析 协方差分析,对比设计 随机区组设计 裂区设计 正交设计,三 生物统计学的基本作用:,提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。,运用显著检验,判断试验结果的可靠性或可行性。,提供由样本推断总体的方法。,提供试验设计的的一些重要原则。,学习的功用,提供整理和描述数据的科学方法; 提供由样本推论总体的科学

3、方法; 提供由误差分析以鉴定处理效应的科学方法; 提供探索事物间相互联系的科学方法; 提供进行试验设计的一般方法和重要原则。,第二节 生物统计学发展概况,统计发展史可以追溯到远古的原始社会,但是,能使人类的统计实践上升到理论上予以概括总结,成为一门系统的统计学,却是近代的事情,距今只有三百余年的短暂历史。 现代统计学起源于17世纪,统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态。,统计学发展史中的重大事件与重要代表人物,J.Bernoulli(贝努里,瑞士,16541705) 系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。,P.S.

4、 Laplace(拉普拉斯,法国,17491827) 研究了最小二乘法,提出了“拉普拉斯定理”(中心极限定理的一部分),初步建立了大样本推断的理论基础,为后人开创了抽样调查方法。,Gauss(高斯,德国,17771855) 正态分布理论最早由De Moiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。,F. Galton(高尔登,英国,18221911) 19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,引入了中

5、位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文自然界的遗传。1901年Galton和他的学生Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。,K. Pearson(卡.皮尔逊,英国,18571936) Pearson的一生是统计研究的一生。1900年独立发现了X2分布,提出了有名的卡方检验法,对“回归与相关”进一步作了发展,在18971905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相

6、关理论,还为之建立了数学基础。,W.S.Gosset(歌赛特,英国,17771855) 在生产实践中对样本标准差进行了大量研究,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础。,R.A.Fisher(费歇尔,英国,18901962) 1923年发展了显著性检验及估计理论,提出了F分布和F检验,首创“方差”和“方差分析”两个概念,1925年提出随机区组和正交拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了Fishe

7、r Yates随机数字表。,统计学在中国的传播,我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授翻译了英国统计学家尤尔的著作统计学之理论(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。,新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。 随着计算机的迅速普及,统计软件SAS(Statistical Analysis System)、SPSS(Statistical Package for Social Science) 、DPS、 Excel

8、等的引进,统计学在中国的应用与研究出现了崭新的局面。,统计分析软件,第三节 常用统计学术语,一、总体与样本,总体:具有相同性质的个体所组成的集合,它是指研究对象的全体; 个体:组成总体的基本单元; 样本:从总体中抽出若干个体所构成的集合; 总体又分为有限总体和无限总体: 有限总体:含有有限个个体的总体; 无限总体:包含有极多或无限多个体的总体.,样本单位:构成样本的每个个体; 样本容量(样本大小):样本中所包含的个体数目,常记为n。 小样本:一般在生物学研究中,通常指n30的样本; 大样本:n 30的样本。 对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。 研究的目的是要了解总体

9、,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。 参数:描述总体特征的数量,也称参量。常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差; 统计数:描述样本特征的数量,也称统计量。常用拉丁字母表示统计数,例如用 表 示样本平均数,用s表示样本标准差。,二、参数与统计数,三、变量与资料,变量(变数):指相同性质的事物间表现差异性的某项特征或性状。 (如植物叶片叶绿素含量,人体身高、体重等),通常记为x。 资料:变量的结果,也成为数据或观测值。,变 量,定性变量,定量变量,

10、连续变量,非连续变量,只有整数出现,可以有任何小数出现,定量变量:通过测量所获得的、用具体数值与特定计量单位表明表达的数据。(数值变量) 连续变量:在变量范围内可抽出某一范围的所有值,变量之间是连续的、无限的。 非连续变量:在变量数列中仅能取固定数值。 定性变量:变量值是定性的,表示某个体属于几种互不相容的类型中的一种。,四、 因素与水平,试验因素:试验中所研究的影响试验指标的原因或原因组合。(处理因素,简称为因素或因子)常用大写字母A、B、C等表示。 因素水平:每个试验因素的不同状态,简称为水平。 可控因素:固定因素 非控因素:随机因素,五、 处理与重复,试验处理:对受试对象给予的某种外部干

11、预。(处理)。 受试对象:在试验中能接受不同试验处理的独立的试验载体。(动植物的个体、组织、器官等) 单因素:试验中涉及的因素只有一个。 多因素:两个或两个以上因素。 重复:在试验中,将一个处理实施在两个或两个以上的试验单位上。,六、效应与互作,效应:试验因素相对独立的作用。(主效),互作:又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应与负效应之分。,七、准确性与精确性,准确性(准确度):指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。 精确性(精确度) :指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。,试验数据的误差和精确性,a、准确性和

12、精确性都好,b、准确性差、精确性甚佳,c、准确性和精确性都很差,d、有一定的准确性,但精确性很差,八、误差与错误,变异,效应,误差,随机误差,系统误差,错误,误差:观测值偏离真值的差异。 随机误差(抽样误差):是由于试验中无法控制的内在和外在的偶然因素所造成。 如试验动物的初始条件、饲养条件、管理措施等 尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。 如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消除。 统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。,系统误差(片面误差

13、):是由于试验处理意外的其他条件明显不一致所产生的带有倾向性的或定向性的偏差。 错误:是指在试验过程中,人为因素所引起的差错。,试验资料的整理,特征数的计算,与,第二章,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,对试验资料进行分类是统计归纳的基础。,试验资料类型,数量性状资料,质量性状资料,计数资料非连续变量资料,计量资料连续变量资料,数量性状(quantitative character)是指能够以计数和测量或度量的方式表示其特征的性状。 数量性状资料:一般是由计数和测量或度量得到的。 因而数量性状资料又分为计数资料和计量资料两种。,(一)数量性状资料,1、计数资料:指用计

14、数方式获得的数量性状资料。 它的各个观察值只能以整数表示,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或离散变量资料。,2、计量资料 : 指用测量或度量法获得的数量性状资料。 其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,它们之间的变异是连续性的,因此计量资料也称为连续变量资料。,(二)质量性状资料 质量性状:是指能观察到而不能直接测量的性状。质量性状资料:观察质量性状而获得的数据。 不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:,1、统计次数法 在一定的总体或样本中,根据某一质量性状的类别

15、统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。,这种由质量性状数量化得来的资料又叫次数资料。,2、评分法 对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,调 查,试 验,资料搜集的方法,(一)调查 调查是对已经存在的事情的资料按某种方案进行收集的方法。资料的调查又可以分为两种:普查和抽样调查。 1、普查 是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确

16、和全面。,2、抽样调查 是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。 随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。,抽样方法的正确与否,直接关系到样本的代表性,影响由样本所得估计值的准确性。,随机抽样,典型抽样,顺序抽样,随机抽样,简单随机抽样,分层随机抽样,双重随机抽样,整体随机抽样,它是最简单、最常用的一种抽样方法,要求被抽总体内每一个体,被抽

17、取的机会完全相等。,简单随机抽样就是采用随机的方法直接从总体中抽选若干个抽样个体组成样本的抽样方法。,随机数字,分层随机抽样是一种混合抽样。其特点是将总体按变异原因或程度划分成若干区层,然后再用简单随机抽样方法,从各区层按一定的抽样分数抽选抽样单位。,抽样分数:一个样本所包括抽样单位数与其总体所包括的抽样单位数的比值。,()将总体变异原因与程度划分成若干区层,使得区层内变异尽可能小或变异原因相同,而区层间变异比较大或变异原因不明。,()在每一个区层按一定的抽样分数独立随机抽样。,相等配置,比例配置,最优配置,如果各区层抽样单位数相等,可采用相等配置,如果各区层抽样单位数不等,可按相同的抽样分数

18、,将欲抽取的抽样单位总数分配到各区层,根据各区层抽样单位数、抽样误差和抽样费用,确定各区层应抽取的抽样单位。,在变异范围较大的区层,抽样分数应大一些;在抽样费用较高的区层,抽样分数应小一些。,()若总体内各抽样单位间的差异比较明显,那么就可以把总体分为几个比较同质的区层,从而提高抽样的准确度;,()分层随机抽样既运用了随机原理,也运用了局部控制原理,这样不仅可以降低抽样误差,也可以运用统计方法来估算抽样误差;,整体随机抽样是把总体分成若干群,以群为单位,进行随机抽样,对抽到的样本进行全面调查。,如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样;若主要变异来源明显来自

19、区层内各单位间,且每一区层所占面积较小,则宜用整体随机抽样。,优点,由于一个整体只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便;,与简单随机抽样相比较,它常提供较为准确的总体估计值。,只要各群抽选单位数相等,整体抽样也可提供总体平均数的无偏估计。,变量,变量,简单变量,复杂变量,顺序抽样,顺序抽样(系统抽样、机械抽样),它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构成样本。,这种抽样方法可避免人们主观偏见的影响,且使用简便,如果总体内存在周期性变异,则可能会得到一个偏差很大的样本,这种现象在统计上称为系统误差。,由顺序抽样得到的样本不能计算抽样误差,估计总体值

20、。,典型抽样,根据初步资料或经验判断,有意识、有目的的选取一个典型群体作为代表(样本)进行调查,以估计整个总体,这种抽样方法就称为典型抽样。,典型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种抽样方法。,这种抽样多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。,(二)试验 常见的试验设计方法有:对比设计、随机区组设计、裂区设计、拉丁方设计、正交设计等等。 试验设计须遵循的三大原则是:随机、重复和局部控制。,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,(一)原始资料的检查与

21、核对,调查,试验,原始 数据,核对,检查,订正,检查和核对原始资料的目的:确保原始资料的完整性和正确性。,计数资料基本上采用单项式分组法进行整理。,特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。,(二)次数分布表,1117,来亨鸡每月产蛋数变动范围:,分为7组,统计各组次数,计算频率和累积频率,制表,1 自然值进行分组,最大值17,最小值11。,2 数据主要集中在14,向两侧分布逐渐减少。,表2-3 小麦品种300个麦穗穗粒数的次数分布表,计量资料一般采用组距式分组法。,全距,组数,组距,组限,归组,制表,表2-4150尾鲢鱼体长(cm),(1) 求全距, 又称极差 (rang

22、e):,R=Xmax- Xmin =85-37 =48(cm),(2) 确定组数和组距(class boundary),组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。,组数,组距,多,小,统计数精确,计算不方便,少,大,统计数不精确,计算方便,组数的确定,表2-5样本容量与分组数的关系,组距的确定,即每组内的上下限范围。,组距全距/组数48104.8,10组,5cm,(3)确定组限(class limit)和组中值(class midvalue),组限 是指每个组变量值的起止界限。,上限,下限,组中值 是两个组限的中间值。,表2-4150尾鲢鱼体长(cm),最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值; 临界值就高不就低。,35,40,45,85。,(4) 分组,确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。,组限 组中值 次数 频率 累积频率 Frequency Percent Cumulative Percent 35 37.5 3 0.0200 0.0200 40 42.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论