生物统计学-第一章-绪论课件_第1页
生物统计学-第一章-绪论课件_第2页
生物统计学-第一章-绪论课件_第3页
生物统计学-第一章-绪论课件_第4页
生物统计学-第一章-绪论课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学BiostatisticsXYZ

学时:36;使用的教材:《生物统计学》第四版或第五版,李春喜等编著,科学出版社出版;

讲授内容:第一章概论第二章试验资料的整理与特征数的计算第三章概率与概率分布第四章统计推断第五章X2检验第六章方差分析第七章直线回归与相关分析第八章可直线化的非线性回归分析第九章常用试验设计及其统计分析

方法:以课堂讲授为主,介绍常用统计软件的使用。要求:了解基本原理;熟练掌握所介绍的几种试验设计方法,能独立进行试验设计;熟练掌握所介绍的几种生物统计方法,能独立进行试验结果的统计分析;熟练掌握电子计算器的使用。这门课程涉及大量的数学公式和计算,学习起来有一定的难度,但同时有者极强的实用性!学习方式:课堂学习+课后作业作业要求:独立思考演算正确

作图清楚书写整齐课程考核方式:平时成绩(50%)+考试成绩(50%)其中平时成绩:3次随堂作业(30%)+课后作业(20%)E-mail:熊英泽华中师范生命科学学院206室Tel:QQ:510234362QQ群or论坛正在建设中。。。第一章概论

统计学(Statistics)是把数学的语言引入具体的科学领域,把具体科学领域中要待研究的问题抽象为数学问题的过程,它是收集、分析和解释数据的一门艺术和科学。第一节生物统计学的概念

概率性——以概率论为理论基础,所有结论和结果都有一定的概率保证

二元性——理论和实践的紧密结合,尤以实践为重

归纳性——由特殊到一般、由局部到全体、由样本到总体(与演绎相对)引自吴忠贤《统计遗传学》(1982,科学出版社)

生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的科学。属于应用统计学的一个分支。为什么要学习生物统计学?生物统计学是生命科学研究的基本工具生物现象的特点:变异性:个体之间存在差异;随机性:变异不能准确推算;复杂性:影响因素众多,有些是未知的;复杂生物体随机因素数据变异现象掩盖了本质杂乱无章例:新型饲料添加剂猪的日增重量0.5-1kg?添加剂好始重不同进食前后磅秤不准为什么要学习生物统计学?生物统计学是生命科学研究的基本工具生物现象的特点:变异性:个体之间存在差异;随机性:变异不能准确推算;复杂性:影响因素众多,有些是未知的;必须依靠统计学才能解决的问题:吸烟是否与肺癌有关?两种饲料配方更好?新药物是否有效?…在今天看来,吸烟与肺癌间的关联是人所共知的,但是就像历史上的多数真理一样,吸烟与肺癌的关系也经过长达50年的验证才正式被学术界和大众认可。而其真理的探寻者理查德·多尔却为此付出了大半生的时光。多尔出生的时期吸烟开始流行,那个年代就像电影《国王的演讲》中所描述的那样,一些大夫和医生甚至认为烟草是缓解咽喉不适的良药。

1949年,多尔与统计学专家布拉福德·希尔走访了几千名确诊或疑似肺癌的患者,多尔发现,大多数患者在患病前已有症状。2004年,据多尔在《英国医学杂志》发表的首篇文章已有50年,多尔等发表了最后一篇报道,这也为其持续50年的吸烟研究划上了句号。电影《国王的演讲》吸烟与肺癌的关联史第二节统计学发展概况一、古典记录统计学古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。统计学在这个兴起阶段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项较成熟的方法。J.Bernoulli(贝努里,瑞士,1654~1705)瑞典数学家,系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。P.S.Laplace(拉普拉斯,法国,1749~1827)法国天文学家、数学家、统计学家,最早系统的把概率论方法运用到统计学研究中去,建立了严密的概率数学理论,提出“拉普拉斯定理”,并应用到人口统计、天文学等方面的研究上,后来比利时大统计学家凯特勒指出,统计学应从拉普拉斯开始。拉普拉斯于1786年写了一篇关于巴黎人口的出生、婚姻、死亡的文章,文中提出根据法国特定地方的出生率来推算全国人口的问题。他抽选了30个市县,进行深入调查,推算出全国总人口数。尽管其方法和结果还相当粗糙,但在统计发展史上,他利用样本来推断总体的思想方法,为后人开创了一条抽样调查的新路子。G.F.Gauss(高斯,德国,1777~1855)正态分布理论最早由DeMoiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。另外,他还完成了最小二乘法的研究,正式发表于1809年。二、近代描述统计学近代描述统计学形成期间大致在十九世纪中叶至二十世纪上半叶。由于这种“描述”特色由一批原是研究生物进化的学者们提炼而成,因此历史上称他们为生物统计学派。生物统计学派的创始人是英国的高尔登(F.Galton,1822~1911),主将是高尔登的学生毕尔生(K.Pearson,1857~1936)。F.Galton(高尔登,英国,1822~1911)

19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,测量9337人的资料,探索能把大量数据加以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文《自然界的遗传》。1901年Galton和他的学生K.Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。1888年,高尔登在“相关及其主要来自人体的度量”一文中,充分论述了“相关”的统计意义,并提出了高尔登相关函数(即现在常用的相关系数)的计算公式。K.Pearson(卡.皮尔逊,英国,1857~1936)

Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图,如今已成为最基本的统计方法之一;观察到许多生物的度量并不呈现正态分布,利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等;1900年独立发现了X2分布,提出了有名的卡方检验法,后经Fisher补充,成为小样本推断统计的早期方法之一;Pearson对“回归与相关”进一步作了发展,在1897~1905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相关理论,还为之建立了数学基础。三、现代推断统计学现代推断统计学形成期间大致是二十世纪初叶至二十世纪中叶。人类历史进入二十世纪后,无论社会领域还是自然领域都向统计学提出更多的要求。各种事物与现象之间繁杂的数量关系以及一系列未知的数量变化,单靠记录或描述的统计方法已难以奏效。因此,相继产生“推断”的方法来掌握事物总体的真正联系以及预测未来的发展。统计学发展中的这场深刻变革是在农业田间试验领域中完成的。因此,历史上称之为农业试验学派。对现代推断统计的建立贡献最大的是英国统计学家哥塞特(W.S.Gosset,1876~1937)和费雪(R.A.Fisher,1890~1962)。W.S.Gosset(歌赛特,英国,1876~1937)在生产实践中对样本标准差进行了大量研究。于1908年以“Student(学生)”为笔名在该年的Biometrika上发表了论文《平均数的概率误差》,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。R.A.Fisher(费歇尔,英国,1890~1962)Fisher一生论著颇多,共写了329篇。他跨进统计学界是从研究概率分布开始的,1915年在Biometrika上发表论文《无限总体样本相关系数值的频率分布》,被称为现代推断统计学的第一篇论文。1923年发展了显著性检验及估计理论,提出了F分布和F检验,1918年在《孟德尔遗传试验设计间的相对关系》一文中首创“方差”和“方差分析”两个概念,1925年提出随机区组和拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了FisherYates随机数字表。另外

Newman(1894~1981)和S.Pearson进行了统计理论研究,分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学、F.Yates对田间试验设计等都作出了杰出贡献。四、统计学在中国的传播

我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授(1882~约1947)翻译了英国统计学家尤尔的著作《统计学之理论》(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。在20世纪30年代,《生物统计与田间试验》就作为农学系的必修课,1935年王绶(1876~1972)编著出版的《实用生物统计法》是我国出版最早的生物统计专著之一。随后1942年范福仁出版了《田间试验技术》等,这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。

新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会,全面引进了前苏联的社会经济统计理论和统计制度,对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现,统计工作和统计科研迅速发展。1984年1月1日颁布实施《中华人民共和国统计法》,1987年2月国家统计局又发布《中华人民共和国统计法实施细则》,1996年5月八届人大十九次会议通过了《关于修改<中华人民共和国统计法>的决定》。统计电算程序SAS(StatisticalAnalysisSystem)、SPSS(StatisticalPackageforSocialScience)、Excel等的引进,统计学在中国的应用与研究出现了崭新的局面。第三节常用统计学术语一、总体与样本具有相同性质或属性的个体所组成的集合称为总体(population),它是根据研究目的确定的研究对象的全体;组成总体的基本单元称为个体(individual);(总体中的一个研究单位);从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分);总体又分为有限总体和无限总体:含有有限个个体的总体称为有限总体(finitudepopuoation);包含有极多或无限多个体的总体称为无限总体(infinitudepopuoation).统计推断总体样本随机抽样总体研究的目的是要了解总体,观测到的是样本,通过样本来推断总体是统计分析的基本特点。在对事物的研究过程中,人们往往是通过某事物的一部分(样本),来估计事物全部(总体)的特征,目的是为了以样本的特征对未知总体进行推断,从特殊推导一般,对所研究的总体作出合乎逻辑的推论,得到对客观事物的本质和规律性的认识。在生物学研究中,我们所期望的是总体,而不是样本。但是在具体的试验过程中,我们所得到的却是样本而不是总体。因此,从某种意义上讲,生物统计学是研究生命过程中以样本来推断总体的一门学科。

构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(samplesize),样本容量常记为n。一般在生物学研究中,通常把n<30的样本叫小样本,n≥30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。

为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用表示样本平均数,用S表示样本标准差。二、参数与统计数

由于总体一般都很大,或者不能得到,所以总体参数常常无法计算,但可以通过从总体中随机抽样,取得样本,用容易计算得到的样本的统计数来估计总体参数。用样本平均数估计总体平均数μ,用样本标准差S估计总体标准差σ等。“样本的作用在于估计总体”三、变量、资料与常量

变量(variable),或变数,指相同性质的事物间表现差异性或差异特征的数据。变量的观察结果可以是定量的,也可以是定性的,其结果称为变量值(valueofvariable)或观察值(observedvalue),也称为数据、资料(data)。

常数(constant),表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。变量定性变量(分类变量)定量变量(数值变量)连续变量非连续变量(离散变量)只有整数出现可以有任何小数出现四、因素与水平试验中所研究的影响试验指标的原因或原因组合称为试验因素(experimentalfactor)或处理因素(treatmentfactor)。通常用大写字母表示,如A,B,C等。每个试验因素的不同状态(处理的某种特定状态或数量上的差别)称为因素水平(leveloffactor),简称为水平(level)。通常用该因素的字母添加下标表示,如A1,A2,B1,B2。按照性质不同,因素可以分为可控因素(controllablefactor)或固定因素(fixedfactor)和非控因素(Uncontrollablefactor)或随机因素(randomfactor)。五、处理与重复试验处理(experimentaltreatment)通常也称为处理,是指对受试对象给予的某种外部干预(或措施)。可以分为单因素处理(singlefactortreatment)和多因素处理(multiplefactorstreatment)。重复(repetition)是指在试验中,将一个处理实施在两个或两个以上的试验单位上。处理实施的实验单位数即为处理的重复数。六、效应与互作

通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。小麦亩产原来400kg

新品种亩产450kg效应值为50kg/亩;高血压病人原来180吃降压药后为130效应值为-50mm汞柱;某人体重原来60kg经减肥后为55kg

效应值为-5kg…...例:

互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。例:田间施肥,亩施1kg氮肥粮食增产3kg;亩施1kg磷肥粮食增产2kg

;亩施1kg氮肥+1kg磷肥粮食增产6kg;3+26多出来1kg,?氮肥和磷肥相互作用引起的正效应:

氮肥(3)+磷肥(2)+氮肥×磷肥(1)=6(kg)七、误差与错误变异效应误差随机误差/抽样误差/偶然误差(Randomerror)系统误差/片面误差(Systematicerror)

随机误差,也叫抽样误差(samplingerror),是由于试验中无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间的差异。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。

系统误差,也叫片面误差(lopsidederror),是由于试验处理以外的其他条件控制不一致所产生的带有倾向性的或定向性的偏差。系统误差主要由一些相对固定的因素引起的,如仪器调校的差异、各批药品间的差异、不同操作者操作习惯的差异等。系统误差影响试验的准确性。只要试验工作做得精细,系统误差是可以克服的。

错误(mistake),是指在试验过程中,由于人为作用引起的差错。如测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的,只要以认真负责的态度和细心的工作作风,在试验中是完全可以避免的。原则上,试验中是不允许出现错误的。1870年,德国化学家Wolf发表了一篇论文,首次指出菠菜中铁的含量极高,其价值足可与红肉相当。“菠菜含丰富的铁”这一结论写入了最具权威性的百科全书。漫画家Segar借着这个重大发现于1929年创造了大力水手,这个不怕困难、力大无穷的形象对于经济衰退、肉食较少的美国国民犹如一剂强心剂,成为了美国二战时期的有效舆论武器,甚至使1930年代菠菜的销量足足增长了33%。而在1937年,一位德国科学家却发现自己对菠菜铁含量的检测结果远远低于过去任何教科书上的数据,经过溯本逐源发现是当初Wolf把小数点点错了位置,数值足足夸大了十倍。至此,这个影响了人们70年的谬误才在学界内得以纠正,然而由于大力水手形象的经久不衰,140年前的那个错误的小数点依旧影响着现在的人们,一代又一代的小盆友对菠菜的头号印象就是“含铁丰富”。

“菠菜富含铁”源于点错小数点?八、准确性与精确性

准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ,观测值为

x,若x与μ相差的绝对值|x-μ|越小,则观测值x的准确性越高;反之则低。精确性(precision),也叫精确度,指调查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论