版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、任课教师:陈彦云 授课时数:51课时 学分:3分,生物统计学,内 容: 介绍科学研究中常用的、基本的 生物统计方法与试验设计方法 : 资料的整理; 平均数、 标准差与变异系数; 常用概率分布;平均数的统计推断;方差分析; 2 检验;直线回归与相关;可直线化非线性回归分析;协方差分析;试验设计的基本原理和方法及对比设计、 随机区组设计,裂区设计,正交设计等。,方 法: 用CAI课件教学,以课堂讲授为主 要 求: 了 解 基本原理; 熟练掌握 所介绍的几种试验设计方法,能 独立进行试验设计; 熟练掌握 所介绍的几种生物统计方法,能 独立进行试验结果的统计分析; 熟练掌握 电子计算器的使用。,下一张
2、,主 页,退 出,上一张,培 养 严谨的治学态度 精细的治学作风 独立的自学能力,下一张,主 页,退 出,上一张,成绩评定: 平时作业,30% 期末考试,70% 作业要求: 独立思考 演算正确 作图清楚 书写整齐,下一张,主 页,退 出,上一张,主 要 教 学 参 考 文 献,1明道绪主编. 生物统计. 中国农业科技出版社,1998。 2明道绪主编. 兽医统计方法. 成都科技大学出版社,1991。 3南京农业大学主编. 田间试验与统计方法 (第二版). 农业出版社,1988。 4莫惠栋 . 农业试验设计. 上海科学技术出版社,1984。 5(美)G.W.斯奈迪格著,杨纪珂等译. 应用与农学和生
3、物学实验的数理统计方法. 科学出版社,1964。 6(美)RGD斯蒂尔, JH托里著, 杨纪珂等译. 数理统计的原理与方法. 科学出版社,1976。 7 李春喜等编著。生物统计学学习指导。科学出版社,2008,下一张,主 页,退 出,上一张,每天 都是向既定目标 迈进的一步,赠 言,下一张,主 页,退 出,上一张,zlcc,E-mail: nxchenyy 陈彦云 宁夏大学生命科学学院第一章 概 论,第一节 生物统计学的概念及主要内容,一、概念,生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来认识、分析、推断和解释生
4、命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。,二、主要内容,生 的 物 基 统 本 计 内 学 容,试 验 设 计,统 计 分 析,基本原则 方案制定 常用试验设计方法,资料的搜集和整理 数据特征数的计算 统计推断 方差分析 回归和相关分析 协方差分析 主成分分析 聚类分析,对比设计 随机区组设计 裂区设计 拉丁方设计 正交设计,三 生物统计学的基本作用:,提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。,运用显著检验,判断试验结果的可靠性或可行性。,提供由样本推断总体的方法。,提供试验设计的的一些重要原则。,第二节 生物统计学发展概况,统计发展史可以追溯到远古
5、的原始社会,但是,能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。 现代统计学起源于17世纪,主要有两个来源: 1政治科学需要,2当时贵族阶层对机率数学理论很感兴趣而发展起来的。另外,研究天文学的需要也促进了统计学的发展。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态。,一、发展概况,原 始 社 会,奴 隶 社 会,封 建 社 会,资 本 主 义 社 会,迅速发展 形成分支,生物统计学,形成不同学派:,1、政治算术学派 起源于17世纪60年代的英国 代表人物:威廉.配第(Will
6、iam Petty,16231687) 约翰.格朗托(John Graunt,16201674) 代表作:政治算术 但未采用“统计学”这个词,2、国势学派,又叫记述学派 创建于17世纪的德国 代表人物:海尔曼.康令(Herman Conring,16061681) 阿痕瓦尔(Gottfried Achenwall,17911772) 代表作:近代欧洲各国国势论首次采用“stastistik” 德国经济学家和统计学家克尼斯(K . G . A Knies,18211898)在1850年发表的论文独立科学的统计学中主张把“国家论”作为“国势学”的科学命名,“统计学”作为“政治算术”的科学命名。,3
7、、数理统计学派 产生于19世纪中叶 代表人物:阿道夫.凯特勒(L.A.J Quetelet,17961874) 高尔登(F.Galtonl,18221911) 皮尔逊(K.Pearson,18571936 ) 逐渐形成一门独立的应用数学。 1867年韦特斯坦(T.Wittstein)把既是数学,又是统计学的新生科学命名为数理统计学。,4、社会统计学派 以德国为中心,创建于19世纪后期 代表人物:恩格尔(C.I.E. Engel,18211896) 梅尔( C.G.V. Mager ,18411925) 认为统计学研究的对象是社会科学,而数理统计学是一门应用数学。 19世纪中叶诞生了马克思主义的
8、统计理论,后来,列宁对其进行了丰富和发展。,二、统计学发展史中的重大事件与重要代表人物,J.Bernoulli(贝努里,瑞士,16541705) 系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。,P.S. Laplace(拉普拉斯,法国,17491827) 最早系统的把概率论方法运用到统计学研究中去,建立了严密的概率数学理论,并应用到人口统计、天文学等方面的研究上。,Gauss(高斯,德国,17771855) 正态分布理论最早由De Moiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“
9、误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。,F. Galton(高尔登,英国,18221911) 19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,测量9337人的资料,探索能把大量数据加以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文自然界的遗传。1901年Galton和他的学生Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。,K.
10、 Pearson(卡.皮尔逊,英国,18571936) Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图,如今已成为最基本的统计方法之一;观察到许多生物的度量并不呈现正态分布,利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等;1900年独立发现了X2分布,提出了有名的卡方检验法,后经Fisher补充,成为小样本推断统计的早期方法之一; Pearson对“回归与相关”进一步作了发展,在18971905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相关理论,还为之建立了数学基础。,W.S.Gosset(歌赛特,英国,17771855) 在生
11、产实践中对样本标准差进行了大量研究。于1908年以“Student(学生)”为笔名在该年的Biometrika上发表了论文平均数的概率误差,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。,R.A.Fisher(费歇尔,英国,18901962) Fisher一生论著颇多,共写了329篇。他跨进统计学界是从研究概率分布开始,1915年在Biometrika上发表论文无限总体样本相关系数值的频率分布,被称为现代推断统计学的第
12、一篇论文。1923年发展了显著性检验及估计理论,提出了F分布和F检验,1918年在孟德尔遗传试验设计间的相对关系一文中首创“方差”和“方差分析”两个概念,1925年提出随机区组和正交拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了Fisher Yates随机数字表。,另外 Neyman(18941981)和S.Pearson进行了统计理论研究,分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学
13、、F.Yates对田间试验设计等都作出了杰出贡献。,三、统计学在中国的传播,我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授(1882?)翻译了英国统计学家尤尔的著作统计学之理论(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。 在20世纪30年代,生物统计与田间试验就作为农学系的必修课,1935年王绶(18761972)编著出版的实用生物统计法是我国出版最早的生物统计专著之一。随后1942年范福仁出版了田间试验技术等,这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。
14、,新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会,全面引进了前苏联的社会经济统计理论和统计制度,对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现,统计工作和统计科研迅速发展。1984年1月1日颁布实施中华人民共和国统计法,1987年2月国家统计局又发布中华人民共和国统计法实施细则,1996年5月八届人大十九次会议通过了关于修改的决定。 随着计算机的迅速普及,统计电算程序SAS(Statistical Analysis System)、SPSS
15、(Statistical Package for Social Science) 、 Excel等的引进,统计学在中国的应用与研究出现了崭新的局面。,第三节 常用统计学术语,一、总体与样本,具有相同性质或属性的个体所组成的集合称为总体 (population),它是指研究对象的全体; 组成总体的基本单元称为个体(individual); 从总体中抽出若干个体所构成的集合称为样本(sample); 总体又分为有限总体和无限总体: 含有有限个个体的总体称为有限总体(finitude popuoation); 包含有极多或无限多个体的总体称为无限总体(infinitude popuoation).,
16、构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(sample size),样本容量常记为n。 一般在生物学研究中,通常把n30的样本叫小样本,n 30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。 研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,二、变量与常量,变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。 常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。,变 量,定性变量,定量变量,连续变量,非连续变量,只有整数出现,可以有任何小数出现,为了表示
17、总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。 描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差; 描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用 表 示样本平均数,用S表示样本标准差。,三、参数与统计数,四、效应与互作,通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。,互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用
18、)与负效应(拮抗作用)之分。,五、机误与错误,变异,效应,误差,随机误差机误(Random error),系统误差错误(Systematic error),随机误差,也叫 抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。,系统误差,也叫片面
19、误差 (lopsided error)。 这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。,六、准确性与精确性,准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x|越小, 则观测值x的准确性越高; 反之则低。 精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观
20、测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi xj |越小,则观测值精确性越高;反之则低。,试验资料的整理,特征数的计算,与,第二章,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,对试验资料进行分类是统计归纳的基础。,试验资料类型,数量性状资料,质量性状资料属性性状资料,计数资料非连续变量资料,计量资料连续变量资料,数量性状(quantitative character)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料 (data of quantitative characteristics)。数量性状资料的获得有
21、计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。,一、数量性状资料,1、计数资料 指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。,2、计量资料 指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定, 它们之间的变异是
22、连续性的,因此计量资料也称为连续变量资料。,二、质量性状资料 质量性状(qualitative character)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(data of qualitative characteristics),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:,1、统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。,这种由质量性状数
23、量化得来的资料又叫次数资料。,2、评分法 对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,调 查,试 验,资料搜集的方法,一、调查 调查是对已经存在的事情的资料按某种方案进行收集的方法。资料的调查又可以分为两种:普查和抽样调查。 1、普查 是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。,2、抽样调查 是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征
24、数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。 随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。,二、试验 试验是对已有的或没有的事物加以处理的方法。 常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。 试验设计须遵循的三大原则是:随机、重复和局部控制。,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,三、试验资料的整理,(一)原始资料的检查与核对,调查,试验,原始 数据,核对,检查,订正,检查和核对
25、原始资料的目的:确保原始资料的完整性和正确性。,三、试验资料的整理,(二)次数分布表,统计表的结构和要求: 结构简单,层次分明,安排合理,重点突出,数据准确。,表号 标题,1、标题 简明扼要、准确地说明表的内容,有时须注明时间、地点。 2、标目 标目分横标目和纵标目两项。横标目列在表的左侧 ,纵标目列在表的上端,标目需 注 明计算单位,如、kg、cm等等。 3、数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致, 无数字的用“”表示,数字是“0”的,则填写“0”。 4、线条 多用三线表,上下两条边线略粗。,三、试验资料的整理,计数资料基本上采用单项式分组法进行整理。,特点:用样本变量自然值
26、进行分组,每组用一个或几个变量值来表示。,1117,来亨鸡每月产蛋数变动范围:,分为7组,统计各组次数,计算频率和累积频率,制表,1 自然值进行分组,最大值17,最小值11。,2 数据主要集中在14,向两侧分布逐渐减少。,表2-3 小麦品种300个麦穗穗粒数的次数分布表,45组?,9 组,三、试验资料的整理,计量资料一般采用组距式分组法。,全距,组数,组距,组限,归组,制表,表2-4 150尾鲢鱼体长(cm),(1) 求全距, 又称极差 (range):,R=Xmax- Xmin =85-37 =48(cm),(2) 确定组数和组距(class boundary),组数是根据样本观测数的多少及
27、组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。,组数,组距,多,小,统计数精确,计算不方便,少,大,统计数不精确,计算方便,组数的确定,表2-5 样本容量与分组数的关系,组距的确定,即每组内的上下限范围。,组距全距/组数48104.8,10组,5cm,(3)确定组限(class limit)和组中值(class midvalue),组限 是指每个组变量值的起止界限。,上限,下限,组中值 是两个组限的中间值。,表2-4 150尾鲢鱼体长(cm),最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值; 临界值就高不就低。,35,40,45,85。,(
28、4) 分组,确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。,计数的方法,卡片法,唱票法,画“正”字,组限 组中值 次数 频率 累积频率 Frequency Percent Cumulative Percent 35 37.5 3 0.0200 0.0200 40 42.5 4 0.0267 0.0467 45 47.5 17 0.1133 0.1600 50 52.5 28 0.1867 0.3467 55 57.5 40 0.2666 0.6133 60 62.5 25 0.1667 0.7800 65
29、67.5 17 0.1133 0.8973 70 72.5 6 0.0400 0.9333 75 77.5 7 0.0467 0.9800 80 82.5 2 0.0133 0.9933 85 87.5 1 0.0067 1.0000,表2-6 150尾鲢鱼体长的次数分布表,三、试验资料的整理,(三)次数分布图和频率分布图,定义:把次数(频率)分布资料画成统计图形。,特点:直观、形象,包括:条形图、直方图、多边形图、饼图和散点图,三、试验资料的整理,统计图绘制的基本要求:,(1)标题简明扼要,列于图的下方; (2)纵、横两轴应有刻度,注明单位; (3)横轴由左至右,纵轴由下而上,数值由小到大;
30、图 形长宽比例约5:4或6:5; (4)图中需用不同颜色或线条代表不同事物时,应有图 例说明。,图2.1 月产蛋数次数分布柱形图,图2.2 月产蛋数频率分布柱形图,条形图(bar chart), 又称柱形图,计数资料,特点: 柱形之间要间隔一定的距离,属性资料,2 饼图(pie chart),图1 来亨鸡月产蛋次数分布图,计数资料,质量性状资料,35%,19%,21%,11%,5%,7%,2%,图2.3 鲢鱼体长次数分布图,3 直方图 (histogram),又称矩形图,计量资料,特点: 各组之间没有距离,4 多边形图(polygon),又称折线图(broken-line chart),计量资
31、料,图2.3 鲢鱼体长次数分布图,5 散点图(scatter),a. 正向直线关系,b. 负向直线关系,c. 曲线关系,试验资料的整理,特征数的计算,与,第二章,集中性 是变量在趋势上有着向某一中心聚集,或者说 以某一数值为中心而分布的性质。,离散性 是变量有着离中分散变异的性质。,变量的分布具有两种明显的基本特征:集中性和离散性。,集中性,离散性,平均数,变异数,算术平均数,中位数,众数,几何平均数,极差,方差,标准差,变异系数,调和平均数,特征数,一、平均数,平均数 平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二
32、者的差异情况。,一、平均数,(一)平均数的种类,算术平均数,中位数,众数,几何平均数,调和平均数,一、平均数,1. 算术平均数 (arithmetic mean),定义:总体或样本资料中所有观测数的总和除以观测数 的个数所得的商,简称平均数、均数或均值。,总体:,样本:,一、平均数,2. 中位数(median),资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。,Md,1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数: Md = 2、当观测值个数为偶 数 时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:,一、平均数,3.
33、 众数(mode),资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。,M0,注意: (1)对于某些数据而言,如均匀分布,并不存在众数; (2)对于某些数据存在两个或两个以上的众数; (3)主要用来描述频率分布。,一、平均数,4. 几何平均数 (geometric mean),资料中有n个观测数,其乘积开n次方所得数值。,G,适用范围:几何均数适用于变量X为对数正态分布, 经对数转换后呈正态分布的资料。,G=,一、平均数,5. 调和平均数 (harmonic mean),资料中各观测值倒数的算术平均数的倒数。,H,适用范围:主要用于反映生物不同阶段的平均增长 率或不同规模的平均规模
34、。,一、平均数,(二)算术平均数的计算方法,直接计算法,减去常数法,加权平均法,1、直接计算法 主要用于样本含量n30以下、未经分组资料平均数的计算。,例:随机抽取20株小麦测量它们的株高(cm)分别为: 79 85 84 86 84 83 82 83 83 84 81 80 81 82 81 82 82 82 80 求小麦的平均株高。,2、减去(加上)常数法 若变量 的值都比较大(或都比较小),且接近某一常数a时,可将它们的值都减去(或加上)常数a,得到一组新的数据,在计算其平均数。,例:设a为80(cm)则有: 79 85 84 86 84 83 82 83 83 2 1 5 4 6 4
35、3 2 3 3 81 80 81 82 81 82 82 82 80 4 1 0 1 2 1 2 2 2 0,“80”,3、加权平均法 对于样本含量 n30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:,第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权数”,加权法也由此而得名。,例:,式中: 第i组的组中值; 第i组的次数; 分组数,若为分组资料,则用每组组中值乘以该组次数之和再除以总次数来计算:,例: 将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。,表 100头长白母猪
36、仔猪一月窝重次数分布表,即这100头长白母猪仔猪一月龄平均窝重为45.2kg,计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。,例:某牛群有黑白花奶牛 1500头,其平均体重为750 kg ,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少? 此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即:,离均差之和等于零。,离均差平方和最小。,(三)算术平均数的重要性质,(x-x-) = x1+ x2 +.+ xn n. x- =x
37、-nx/n =x-x=0,(x-a) 2= (x-x-)+ (x-a)2 = (x-x-)2+2 (x-x-) (x-a)+ (x-a)2 = (x-x-)2+ (x-a)2 = (x-x-)2+n(x-a)2,一、平均数,(四)算术平均数的作用,(1)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。,(2)作为样本或资料的代表数与其他资料进行比较。,(3)通过平均数提供计算样本变异数的基本数据。,(4)用样本的平均数估计总体平均数。,二、变异数,变异数的种类,极差,方差,标准差,变异系数,二、变异数,(一)极差(全距,range),极差是数据分布的两端变异的最大
38、范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。,例:150尾鲢鱼体长 R=85-37=48(cm),R = maxx1,x2, xn - minx1,x2, xn =x1,x2, xnmax - x1,x2, xnmin,二、变异数,简单明了,当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。,(1) 除了最大、最小值,不能反映组内其他数据的变异。,优点,缺点,用途,(2)样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。,极差,二、变异数,如何准确地表示样本内各个观
39、测值的变异程度,平均数,可以求出各个观测值与平均数的离差,即离均差。,离均差可以反映出一个观测值偏离平均数的性质和程度。,离均差之和为零。,?,方差,二、变异数,平方和(SS),平方和的平均数,二、变异数,自由度(degree of freedom),二、变异数,均方(mean square,MS),方差(variance),二、变异数,(二)方差(Variance),样本,总体,二、变异数,样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出样本方差的平方根。,标准差,二、变异数,(三)标准差(stand
40、ard deviation, Sd),样本,总体,二、变异数,(三)标准差(standard deviation, Sd),二、变异数,x=411,x2=18841,X=6,X2=76,二、变异数,二、变异数,(三)标准差(standard deviation, Sd),例:,二、变异数,(三)标准差(standard deviation, Sd),特性,标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。,1,各观测数加上或减去一个常数,其标准差不变;,2,各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。,二、变异数,(三)标准差(st
41、andard deviation, Sd),3,2s,3s,68.27%,95.46%,99.73%,二、变异数,(三)标准差(standard deviation, Sd),作用,1,表示变量分布的离散程度。,4,估计平均数的标准误。,3,进行平均数的区间估计和变异系数计算。,2,可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。,二、变异数,(四)变异系数(coefficient of variability, CV ),定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。,特点:是样本变量的相对变异量,不带单位。 可以比较不同样本相对变异程度的大小。,二、变异数,(四)
42、变异系数(coefficient of variability, CV ),大田,穗粒数44.6,标准差18.9 丰产田,穗粒数65.0,标准差18.3,大田,CV=42.38% 丰产田,CV=28.15%,二、变异数,(四)变异系数(coefficient of variability, CV ),用途,1,比较度量衡单位不同的多组资料的变异度。,例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异情况。,身高:CV2.98% 体重:CV9.23%,该地20岁男子体重的变异大于身高的变异。,二、
43、变异数,(四)变异系数(coefficient of variability, CV ),用途,2,比较均数相差悬殊的多组资料的变异度,概 率,概率分布,与,第三章,一、概率的概念,二、概率的计算,三、概率的分布,四、大数定律,一、概率基本概念,(一)事件,定义:在一定条件下,某种事物出现与否就称为是事件。 自然界和社会生活上发生的现象是各种各样的,常见的有两类。,1、在一定条件下必然出现某种结果或必然不出现某种结果。,确定性事件,必然事件(U) (certain event),不可能事件(V) (impossible event),一、概率基本概念,2、在一定条件下可能发生也可能不发生。,随
44、机事件(random event) 不确定事件(indefinite event),一、概率基本概念,为了研究随机现象,需要进行大量重复的调查、实验、测试等,这些统称为试验。,一、概率基本概念,(二)频率(frequency),若在相同的条件下,进行了n次试验,在这n次试验中,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率(frequency),记为W(A)=m/n。,0W(A) 1,一、概率基本概念,种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。,例:,一、概率基本概念,频率表明了事件频
45、繁出现的程度,因而其稳定性说明了随机事件发生的可能性大小,是其本身固有的客观属性,提示了隐藏在随机现象中的规律性。,概 率,一、概率基本概念,(三)概率(probability,P),概率的统计定义:设在相同的条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,则称p为事件A出现的概率。,P(A) = p,统计概率(statistics probability) 后验概率(posterior probability),统计概率,一、概率基本概念,抛掷一枚硬币发生正面朝上的试验记录 实验者 投掷次数 发生正面朝上的次数 频率(m/n) 蒲丰 4040 2048 0.5069
46、K 皮尔逊 12000 6019 0.5016 K 皮尔逊 24000 12012 0.5005,随着实验次数的增多,正面朝上这个事件发生的频率稳定接近0.5,我们称0.5作为这个事件的概率。,一、概率基本概念,(三)概率(probability,P),P(A) = p=lim ,在一般情况下,随机事件的概率P是不可能准确得到的。通常以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值。,m n,m n,概率的古典定义,一、概率基本概念,对于某些随机事件,不用进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。,随 机 事 件,(1)试验的所有可能结果只有有限个
47、,即样本空间中的基本事件只有有限个;,(2)各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;,(3)试验的所有可能结果两两互不相容。,概率的古典定义,一、概率基本概念,具有上述特征的随机试验,称为古典概型(classical model).,设样本空间有n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即P(A)=m/n。,古典概率(classical probability) 先验概率(prior probability),一、概率基本概念,1,2,3,4,5,6,7,8,9,10,随机抽取一个球,求下列事件的概率; (1)事件A抽得一个编
48、号 4 (2)事件B =抽得一个编号是2的倍数,该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有3个,即抽得编号为1、2、3中的任何一个,事件A便发生。,P(A)=3/10=0.3,P(B)=5/10=0.5,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,A“一次取一个球,取得红球的概率”,10个球中取一个球,其可能结果有10个基本事件(即每个球被取到的可能性是相等的),即n=10,事件A:取得红球,则A事件包含3个基本事件,即m=3,P(A)=3/10=0.3,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,B “一次取5个球,其中
49、有2个红球的概率”,10个球中任意取5个,其可能结果有C105个基本事件, 即n= C105,事件B =5个球中有2个红球,则B包含的基本事件数m= C32 C73,P(B) = C32 C73 / C105 = 0.417,一、概率基本概念,0P(A)1,任何事件,P(U)=1,必然事件,P(V)0,不可能事件,0P(A)1,随机事件,概率的基本性质,概率的计算,第二部分,二、概率的计算,(一)事件的相互关系,和事件,积事件,互斥事件,对立事件,独立事件,完全事件系,二、概率的计算,1,和事件,事件A和事件B中至少有一个发生而构成的新事件称为事件A和事件B的和事件,记作A+B。,n个事件的和
50、,可表示为A1+A2+An,二、概率的计算,2,积事件,事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件,记作AB。,n个事件的积,可表示为A1 A2 An,二、概率的计算,3,互斥事件(互不相容事件),事件A和事件B不能同时发生,则称这两个事件A和B互不相容或互斥。 AB=V,n个事件两两互不相容,则称这n个事件互斥。,如血型:ABOAB,二、概率的计算,4,对立事件,事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。即A+B=U,AB=V。我们称事件B为事件A的对立事件。如:新生儿男或女。,二、概率的计算,5,独立事件,事件A和事件B的发生无
51、关,事件B的发生与事件A的发生无关,则事件A和事件B为独立事件。如:种子发芽。,如果多个事件A1、A2、A3、An 彼此独立,则称之为独立事件群。,二、概率的计算,6,完全事件系,如果多个事件A1、A2、A3、An两两互斥,且每次试验结果必然发生其一,则称事件A1、A2、A3、An为完全事件系。,完全事件系的和事件概率为,任何一个事件发生的概率为1/n。即: P(A1A2An),二、概率的计算,(二)概率的计算法则,定理: 若事件A与B互斥,则 P(A+B)=P(A)+P(B),试验的全部结果包含n个基本事件,事件A包含其中m1个基本事件,事件B包含其中m2个基本事件。由于A和B互斥,因而它们
52、各包含的基本事件应该完全不同。所以事件AB所包含的基本事件数为m1+m2。,P(A+B)=m1+m2/n=m1/n+m2/n=P(A)+P(B),二、概率的计算,推理1 P(A1+A2+An)=P(A1)+P(A2)+P(An),推理3 完全事件系的和事件的概率为1。,二、概率的计算,例:玉米田中,一穗株(A)占67.2%,双穗株(B)占30.7%,空 穗株(C)占2.1%,试计算一穗株和双穗株的概率。,P(A+B)=P(A)+P(B)=0.672+0.307=0.979,因为P(A)+P(B)+P (C) =1 P(A+B)=1-P(C)=1-0.021=0.979,或,二、概率的计算,定理
53、: 事件A和事件B为独立事件,则事件A与事件B同时发生的概率为各自概率的乘积。 P(AB)=P(A)P(B),推理:A1、A2、An彼此独立,则 P(A1A2A3An)=P(A1)P(A2)P(A3)P(An),二、概率的计算,例:播种玉米,种子的发芽率为90%,每穴两粒,则:,C:两粒种子均发芽,C = AB,P(C) = P(A) P(B) = 0.81,求:,概 率 分 布,第三部分,三、概率分布,(一)离散型变量的概率分布,要了解离散型随机变量x的统计规律,必须知道它的一切可能值xi及其每种可能值的概率pi。,对离散型变量x的一切可能值xi(i=1,2,3),及其对应的概率pi,P (
54、x=xi) = pi, i=1,2,3,三、概率分布,例:,此表给出了该鱼群年龄构成的全部,我们称之为该鱼群年龄的概率分布。,三、概率分布,此表列出了性别变量的取值及相应值的概率,揭示了观察婴儿性别试验的统计规律。,用随机变量的可能取值及取相应值的概率来表示随机试验的规律称为随机变量的分布律或概率函数。,例:,三、概率分布,P (x=xi) = pi, i=1,2,3,设离散型变量x的所有一切可能值xi(i=1,2,3),取相应值的概率为pi,则P (x=xi)称为离散型随机变量x的概率函数。,三、概率分布,离散型变量的概率分布的特点,特点,Pi 0 (i=1,2,),= 1,三、概率分布,(
55、二)连续型变量的概率分布,当试验资料为连续型变量,一般通过分组整理成频率分布表。如果从总体中抽取样本的容量n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。,直方图中同一组内的频率是相等的。,三、概率分布,直方图中每一矩形的面积就表示该组的频率。,三、概率分布,当n无限大时,频率转化为概率,频率密度也转化为概率密度,阶梯形曲线也就转化为一条光滑的连续曲线,这时频率分布也就转化为概率分布了,此曲线为总体的概率密度曲线,曲线函数f(x)称为概率密度函数。,三、概率分布,三、概率分布,对于一个连续型随机变量x,取值于区间a,b内的概率为函数f(x)从a到b的积分,即:,连续型随机变量的
56、概率由概率分布密度函数所确定。,概率密度函数f(x)曲线与x轴所围成的面积为1。,大 数 定 律,第四部分,四、大数定律,大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。,主要内容:样本容量越大,样本统计数与总体参数之差越小。,四、大数定律,贝努里大数定律,辛钦大数定律,四、大数定律,(1)贝努里大数定律,设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数,有如下关系:,四、大数定律,(2)辛钦大数定律,设x1,x2,x3,xn是来自同一总体的变量,对于任意小的正数,有如下关系:,几种常见的理论分布,第二节,随机变量的概率分布
57、 (probability distribution),离散型变量 (discrete random variable),连续型变量 (continuous random variable),二项分布 泊松分布,正态分布,变 量,一、二 项 分 布,二 项 分 布是一种离散型随机变量 的分布,对于某个性状,常常可以把其资料分为两个类型。试验结果只能是“非此即彼”构成对立事件,将这种事件构成的总体称为二项总体,其概率分布称为二项分布。,离散型随机变量的分布,哺乳动物,种子,穗子,生物个体,雄性,雌性,发芽,不发芽,有芒,无芒,成活,死亡,对立事件,一、二项分布的概率函数,非此即彼,一、二项分布,在种子发芽试
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信阳师范大学《书籍设计》2022-2023学年第一学期期末试卷
- 音乐人的创作计划与演出安排
- 证券投资基金委托协议三篇
- 新余学院《中国古典舞训练》2022-2023学年第一学期期末试卷
- 西南交通大学《微机与接口技术实验》2021-2022学年第一学期期末试卷
- 西南交通大学《量子力学》2021-2022学年第一学期期末试卷
- 西南交通大学《电脑图文设计》2021-2022学年第一学期期末试卷
- 西京学院《设计表现技法》2022-2023学年第一学期期末试卷
- 2024年01月11069中央银行理论与实务期末试题答案
- 西北大学《计算机组成原理》2022-2023学年第一学期期末试卷
- 塞曼效应与法拉第效应实验
- 化工原理课程设计水吸收丙酮填料塔设计
- MNS低压开关柜技术规范
- 《汽车品牌故事》PPT课件.ppt
- 建筑制图基础画图作业
- SLT804-2020 淤地坝技术规范_(高清-有效)
- 养乐多营销策划书.doc
- 从《天工开物》之彰施浅析施法自然的和谐设计
- 工程项目施工建设挂靠协议书样本
- 可编辑北京地图ppt课件
- 新概念英语一册Lesson75UncomfortableshoesPPT演示课件
评论
0/150
提交评论