版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物统计学主讲人:彭城课程安排课程安排1 1、基本理论、基本理论 教材:主要涉及统计的基本概念,如假设检验、方差分析、教材:主要涉及统计的基本概念,如假设检验、方差分析、线性回归等。线性回归等。 生物:涉及课程项目的基本生物学概念、数据格式及其处生物:涉及课程项目的基本生物学概念、数据格式及其处理方式。理方式。2 2、课程项目、课程项目 课程项目:将统计学基本概念应用到基因组数据分析中,课程项目:将统计学基本概念应用到基因组数据分析中,从而研究基因组特性、基因组在群体之间的差异、基因组进化从而研究基因组特性、基因组在群体之间的差异、基因组进化等。等。3 3、课程项目小组、课程项目小组 每个小组
2、由四人组成,共同完成课程项目,包括模型构每个小组由四人组成,共同完成课程项目,包括模型构建、编写代码、撰写书面报告、展示作业内容。建、编写代码、撰写书面报告、展示作业内容。 建模:将生物学问题转化成统计学中的模型建模:将生物学问题转化成统计学中的模型 代码:编写代码完成统计学模型中的计算代码:编写代码完成统计学模型中的计算 报告:书写研究结果报告报告:书写研究结果报告 展示:上机时展示研究成果展示:上机时展示研究成果4 4、考核方式、考核方式 平时平时+ +课程项目课程项目+ +期末考试期末考试第一节第一节 什么是统计学?什么是统计学?一、概念一、概念 统计学统计学(StatisticsSta
3、tistics)是把是把数学的语言引入具体的科学领域,把数学的语言引入具体的科学领域,把具体科学领域中要待研究的问题抽象具体科学领域中要待研究的问题抽象为数学问题的过程,它是收集、分析、为数学问题的过程,它是收集、分析、列示和解释数据的一门艺术和科学。列示和解释数据的一门艺术和科学。二、随机性的来源二、随机性的来源1 1、问题涉及的数据为数大,不能对之全部加以研究,只能、问题涉及的数据为数大,不能对之全部加以研究,只能采用采用“一定的方式一定的方式”部分考察。部分考察。 如一批产品有如一批产品有10,00010,000,其中含废品,其中含废品m m件,且件,且m m未知,废未知,废品率品率p=
4、m/10000p=m/10000也未知。由于质量检验工作量大,并且可能也未知。由于质量检验工作量大,并且可能是是破坏性的,无法全部检验。因此我们只能挑取一部分,是是破坏性的,无法全部检验。因此我们只能挑取一部分,如如100100件,去估计概率件,去估计概率p p。这里随机性的表现在:哪。这里随机性的表现在:哪100100件被件被挑出来是偶然的。挑出来是偶然的。2 2、实验的随机误差,即那种在试验过程中未加控制、无法、实验的随机误差,即那种在试验过程中未加控制、无法控制甚至是不了解的因素所引起的误差。控制甚至是不了解的因素所引起的误差。 设反应温度和压力是影响产品质量设反应温度和压力是影响产品质
5、量Y Y的重要因素,我们的重要因素,我们想通过一定的试验去考察这些影响的程度,并挑选一个适想通过一定的试验去考察这些影响的程度,并挑选一个适当的温度和压力值在今后的生产中应用。但是当的温度和压力值在今后的生产中应用。但是Y Y除了与温度除了与温度和压力相关,还受其它因素的影响,如试验的材料、设备和压力相关,还受其它因素的影响,如试验的材料、设备仪器和操作者等。这些因素不便或无法加以完全控制,因仪器和操作者等。这些因素不便或无法加以完全控制,因而对试验结果产生随机性的影响。而对试验结果产生随机性的影响。1 1、频率(古典)学派、频率(古典)学派 概率的频率解释:一个事件的概率可以用大量重复试验之
6、下的频率来解释,且这种解释不取决于认识主体。2 2、贝叶斯(、贝叶斯(BayesBayes)学派)学派 后验分布:对参数所作的任何推断(估计、检验等)都必需且只能基于参数的后验分布。三、两大学派三、两大学派 例例1 1 设某光学透镜第一次落下时打破的概率为 1/2 ,若第一次落下未打破,第二次落下打破的概率为 7/10 ,若前两次落下未打破,第三次落下打破的概率为 9/10 。求透镜落下三次而未打破的概率。 解:解:以 Ai ( i=1,2,3 ) 表示事件“透镜第 i 次落下打破”,以 B 表示事件“透镜落下三次而未打破”,有:2003)1091)(1071)(211 ()()()()()(
7、213121321AAAPAAPAPAAAPBP 例例2 2 设某光学透镜中含有不合格品A和合格品B两种类型,混合比例是1:1;A第一次落下时打破的概率为 1/2 ,若第一次落下未打破,第二次落下打破的概率为 7/10 ,若前两次落下未打破,第三次落下打破的概率为 9/10 ;B第一次落下时打破的概率为 1/3 ,若第一次落下未打破,第二次落下打破的概率为 3/5 ,若前两次落下未打破,第三次落下打破的概率为 7/10 ;若某透镜落下三次而未打破,求该透镜是A的概率。2003)1091)(1071)(211 ()(AEP20016)1071)(531)(311 ()(BEP1932001621
8、200321200321)(EAP 变量变量,或变数,指相同性质的事物间表现差异性或,或变数,指相同性质的事物间表现差异性或差异特征的数据。差异特征的数据。 常数常数,表示能代表事物特征和性质的数值,通常由,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。变量计算而来,在一定过程中是不变的。误差误差随机误差机误(随机误差机误(Random error)系统误差错误(系统误差错误(Systematic error) 随机误差,随机误差,也叫也叫 抽样误差抽样误差(sampling error) 。这是由于。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验试验中
9、无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也然性质,在试验中,即使十分小心也是不可避免的是不可避免的。如果。如果通过良好的试验设计、正确的试验操作,增加抽样或试验通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。次数,随机误差可能减小,但不可能完全消灭。统计上的统计上的试验误差一般都指随机误差。试验误差一般都指随机误差。随机
10、误差越小,试验精确性随机误差越小,试验精确性越高越高。 系统误差,系统误差,也叫也叫片面误差片面误差 (lopsided error)。 这是由于这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。错误等人为因素而引起的。系统误差影响试验的准确性系统误差影响试验的准确性,只要以认真负责的态度和细心的工作作风只要以认真负责的态度和细心的工作作风是可以避免的是可以避免的。 第三节第三节 生物统计学的概念及主要内容生物统计
11、学的概念及主要内容 生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。一、概念一、概念基本原则基本原则方案制定方案制定常用试验设计方法常用试验设计方法资料的搜集和整理资料的搜集和整理数据特征数的计算数据特征数的计算统计推断统计推断方差分析方差分析回归和相关分析回归和相关分析协方差分析协方差分析主成分分析主成分分析聚类分析聚类分析对比设计对比设计随机区组设计随机区组设计裂区设计裂区设计拉丁方设计拉丁方设计正交设计正交设计二、主要内容二、主要内容三、生物随
12、机性的来源三、生物随机性的来源1 1、变异性、变异性 遗传和变异是生物的基本现象,在任何两个生物个体遗传和变异是生物的基本现象,在任何两个生物个体之间均存在差异。之间均存在差异。2 2、不确定性、不确定性 生物个体之间的差异往往由偶然因素造成,不能准确生物个体之间的差异往往由偶然因素造成,不能准确预测。预测。3 3、复杂性、复杂性 造成生物变异的因素很多,既有遗传方面的,也有环造成生物变异的因素很多,既有遗传方面的,也有环境方面的,还有未知的因素。境方面的,还有未知的因素。1 1、基因表达、基因表达: :不确定性和复杂性不确定性和复杂性Nature Reviews Genetics 2005,
13、 451-4642 2、基因调控网络、基因调控网络: :不确定性的传递性不确定性的传递性Nature Reviews Genetics 2005, 451-4643 3、随机性的作用、随机性的作用: :功能的多样性功能的多样性Nature Reviews Genetics 2008, 831-842 四、生物统计的应用四、生物统计的应用1 1、序列比对、序列比对Nature Reviews Genetics 2001, 100-109物种进化物种进化Nature, 2011, 476482基因组织的进化基因组织的进化Nature Reviews Genetics 2010, 487-498 A
14、TGGTAAGCCTGAGCTGACTTAGCGT-AT ATGGTAAACCTGAGTTGACTTAGCGTCAT SNP SNP indel SNP主要产生于染色体复制错误和DNA损伤2 2、寡核苷酸多态性(、寡核苷酸多态性(SNPSNP)参考基因组参考基因组A C G T G T C G G T C T T A杂合杂合SNP纯和纯和SNPA C G T G T C G G T C T T AA C G T G T C G A T C T T AA C G T G T C G A T C T T AA C G T G T C G A T C T T AGWASGWAS与疾病与疾病Nat R
15、ev Genet 2011 12: 603-14人类迁移人类迁移Nat Genet 2010 42: 961-7群体结构和地理分布群体结构和地理分布3 3、基因组三维空间结构、基因组三维空间结构Parameter evaluationStatistical testH1hESC-R1H1hESC-R2IMR90-R1IMR90-R2GM12878-TGM12878-HK562H1hESC-R1-0.85,0.9(*)0.56,0.78(*)0.57,0.79(*)0.87,0.67(*)0.4,0.52(*)0.31,0.48(*)H1hESC-R20.85,0.9(*)-0.53,0.85(*)0.38,0.85(*)0.7,0.710.05,0.55(*)0.13,0.51(*)IMR90-R10.56,0.78(*)0.53,0.85(*)-0.9,0.96(*)0.51,0.7(*)0.27,0.57(*)0.3,0.5(*)IMR90-R20.57,0.79(*)0.38,0.85(*)0.9,0.96(*)-0.58,0.7(*)0.56,0.560.38,0.5(*)GM12878-T0.87,0.67(*)0.7,0.710.51,0.7(*)0.58,0.7(*)-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 购销合同格式一设计方法
- 趣味阅读教学小学版
- 赠与合同协议签订步骤
- 软件改进合同文本
- 进口核桃采购合同样本
- 违规保证书背后的故事
- 酒店人才输出服务合同
- 酱香型白酒零售合同
- 重新认识地理的世界
- 钢板焊接采购协议
- 机电一体化(专业毕业论文)
- 老年大学活动组织管理制度
- 美体师招聘笔试题及解答(某大型集团公司)2025年
- 国际温泉旅游度假区项目可行性研究报告
- 初一语文家长会课件
- 语文-句子成分划分名师公开课获奖课件百校联赛一等奖课件
- 2024-2030年中国眼视光行业现状态势与未来前景预测报告
- 黄山学院《西方文明史》2022-2023学年第一学期期末试卷
- 注册健康管理师基础考试题库及答案
- 精准医疗技术
- GB/T 28569-2024电动汽车交流充电桩电能计量
评论
0/150
提交评论