第四章生物信息学常用概率统计方法_第1页
第四章生物信息学常用概率统计方法_第2页
第四章生物信息学常用概率统计方法_第3页
第四章生物信息学常用概率统计方法_第4页
第四章生物信息学常用概率统计方法_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章 生物信息学常用概率统生物信息学常用概率统计方法简介计方法简介统计生物信息学解决问题步骤统计生物信息学解决问题步骤n在掌握基本资料分布的基础上,提出检验假设在掌握基本资料分布的基础上,提出检验假设n将数据资料进行合理的分类和整理,建立数据文将数据资料进行合理的分类和整理,建立数据文件件n借助于相关统计软件,根据研究者的实验设计和借助于相关统计软件,根据研究者的实验设计和研究目的,对数据文件中的数据进行统计分析研究目的,对数据文件中的数据进行统计分析(可能需要建立统计模型)(可能需要建立统计模型)n对统计结果做出合理的解释对统计结果做出合理的解释最最关键!最最关键!概率统计学基础概率

2、统计学基础n确定性现象确定性现象:在一定条件下,:在一定条件下,一定一定会发生或一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫发生某种结果的叫必然事件必然事件;肯定不发生某种结;肯定不发生某种结果的叫果的叫不可能事件不可能事件。n随机现象随机现象:在同样条件下:在同样条件下可能可能会出现两种或多种会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其结果,究竟会发生哪种结果,事先不能确定。其表现结果称为表现结果称为随机事件随机事件。 随机事件的特征:随机事件的特征:随随机性机性;规律性规律性:每次发生的可能性的大小是确:

3、每次发生的可能性的大小是确定的。定的。n概率概率(probability):随机事件发生的可能性大小,:随机事件发生的可能性大小,用大写的用大写的P 表示;取值表示;取值0,1。n频率频率 frequencyn样本的实际发生率称为样本的实际发生率称为频率频率。设在相同条件下,。设在相同条件下,独立重复进行独立重复进行n次试验,事件次试验,事件A出现出现f 次,则事次,则事件件A出现的频率为出现的频率为f / nn频率与概率间的关系:频率与概率间的关系:n样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动n样本含量样本含量n越大,波动幅度越小,频率越接近概率越大,波动幅度越小,频率越接近概

4、率n概率计算的基本法则概率计算的基本法则n加法法则加法法则n乘法法则乘法法则n互补原则互补原则n完全事件系的概率完全事件系的概率n小概率事件小概率事件n必然事件必然事件 P= 1n不可能事件不可能事件 P=0n随机事件随机事件 0P1n将将P 0.05(5)或P 0.01(1)称为称为小小概率事件概率事件(习惯习惯),统计学上认为不大可能发生,统计学上认为不大可能发生随机变量及其分布随机变量及其分布n随机变量随机变量(random variable)n简称简称变量变量(variable),统计上习惯用大写拉统计上习惯用大写拉丁字母表示丁字母表示 ,如,如X、Y 、Z、 n变量值变量值习惯用小写

5、拉丁字母表示习惯用小写拉丁字母表示 ,如性别,如性别x11(男男)、x2 1(男男)、x3 0(女女) 、n随机变量特征随机变量特征n是一个变量是一个变量n取值随试验结果而改变取值随试验结果而改变n本例中,性别、体重、本例中,性别、体重、疗效分别为三个随机变疗效分别为三个随机变量,分别用量,分别用X, Y, Z表示表示n其中,性别变量有若其中,性别变量有若干取值:干取值:x1=1, x2=1;体重变量也有若干取值:体重变量也有若干取值: y1=66, y2=78; 编号编号 (ID)性别性别 (X)体重体重 (kg) (Y)疗效疗效(Z)张张11660李李21781王王30572n随机变量的分

6、类随机变量的分类n离散型变量离散型变量(discrete variable),相当于计数资,相当于计数资料,变量的所有取值是有限个,如性别、年龄、料,变量的所有取值是有限个,如性别、年龄、血型等血型等n连续性变量连续性变量( continuous variable),相当于计,相当于计量资料,变量的取值有无穷多个,如身高、体量资料,变量的取值有无穷多个,如身高、体重、血压、体温等重、血压、体温等n有序变量有序变量( ordinal variable),相当于等级资料,相当于等级资料,如尿糖等级如尿糖等级( +、+、+、+)、脉搏等、脉搏等级(速脉、正常、缓脉)等级(速脉、正常、缓脉)等n随机变

7、量概率分布随机变量概率分布(probability distribution)n事件概率表示了一次试验中某个结果发生可能事件概率表示了一次试验中某个结果发生可能性的大小性的大小n要想全面了解试验中某种变量的变化趋势,必要想全面了解试验中某种变量的变化趋势,必须知道该变量在试验中全部可能的结果以及各须知道该变量在试验中全部可能的结果以及各种可能结果发生的概率种可能结果发生的概率随机变量的概率分布随机变量的概率分布n概率分布通常用表格、图形、函数来表示概率分布通常用表格、图形、函数来表示n根据随机变量的不同,可分为离散变量的概率根据随机变量的不同,可分为离散变量的概率分布与连续变量的概率分布分布与

8、连续变量的概率分布n离散随机变量的概率分布离散随机变量的概率分布n设离散型随机变量设离散型随机变量 的所有可能取值是的所有可能取值是 ,而取值而取值 的概率为的概率为n称此式为称此式为X的的分布律(列)分布律(列)或或概率分布概率分布 (Probability distribution)X12,nx xxkxkpkkpxXP即即随机变量随机变量X X的概率分布的概率分布全面表达了全面表达了X X的所有可能取值的所有可能取值以及取各个值的概率情况以及取各个值的概率情况 p1 , p2 , p K P x1, x2, xk, X离散随机变量分布律的表示方法离散随机变量分布律的表示方法n 公式法公式

9、法kkpxXPn 表格法表格法1)01,2,kpk12)1kkp性质性质 例例 设设X的分布律为的分布律为求求 P(0X2)P(0X2)=P(X=1)+P(X=2) =1/2+1/6=2/3分布律确定概率分布律确定概率解解 n 几种常见的离散型分布几种常见的离散型分布n二项分布二项分布(Binomial distribution)定义:定义:在在n重贝努利试验中重贝努利试验中,若以若以X表示事件表示事件A发生的发生的次数次数, 则则X可能的取值为可能的取值为0,1,2,3,n(1)0,1, 2., ;kknknP XknkCpp若随机变量若随机变量X X的分布律满足:的分布律满足: 其中其中0

10、 p 0, 则称则称X服从参数为服从参数为 的的泊松分布泊松分布,记为,记为XP().2 , 1 , 0,!)(kekkXPkn连续型随机变量的概率分布连续型随机变量的概率分布n连续型随机变量的取值为一个范围,当变量在连续型随机变量的取值为一个范围,当变量在该范围内取值时,概率是固定的,而当变量取该范围内取值时,概率是固定的,而当变量取某一个具体固定值则是无意义的,因为在连续某一个具体固定值则是无意义的,因为在连续尺度上,某一点的概率尺度上,某一点的概率=0n对这种类型的随机变量不能象离散型的那样用对这种类型的随机变量不能象离散型的那样用分布律分布律描述,而是用描述,而是用概率密度概率密度描述

11、描述n连续型随机变量概率密度的定义及性质连续型随机变量概率密度的定义及性质n定义:定义:设设X是一个随机变量,其分布函数为是一个随机变量,其分布函数为F(x).若存若存在非负函数在非负函数 f(x) , 使对任意实数使对任意实数x,有,有n则称则称X为连续型随机变量,为连续型随机变量,f(x)称为称为X的概率密度函数,的概率密度函数,简称概率密度简称概率密度dttfxFx)()(n概率密度概率密度f(x)的性质的性质n连续型随机变量连续型随机变量X的值落入区间的值落入区间 a , b 内的概率内的概率为为1)(0)(dxxfxfdxxfaFbFbXaPba)()()()(n频数分布:用来统计每

12、个变量值所处的区域,从而将资料频数分布:用来统计每个变量值所处的区域,从而将资料进行收集整理进行收集整理某地 13 岁女孩 118 人的身高(cm)资料频数分布 身高组段 频数 组中值 (1) (2) (3) 129 2 130.5 132 2 133.5 135 8 136.5 138 20 139.5 141 26 142.5 144 25 145.5 147 20 148.5 150 9 151.5 153 3 154.5 156 2 157.5 159162 1 160.5 合计 118 频数分布直方图频数分布直方图身高(cm)160.5157.5154.5151.5148.5145.

13、5142.5139.5136.5133.5130.5 某地13岁女孩118人身高(cm)频数分布图频数3020100从频数表及频数分布图上从频数表及频数分布图上可得知:该数值变量资料可得知:该数值变量资料频数分布呈现中间频数多,频数分布呈现中间频数多,左右两侧基本对称的分布。左右两侧基本对称的分布。所以我们通俗地认为该资所以我们通俗地认为该资料服从正态分布。料服从正态分布。n正态分布:正态分布:n通俗地讲:通俗地讲: 如果把变量资料编制频数表后绘制如果把变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表

14、示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙),若频数分布呈现直条与直条之间不留空隙),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布。服从数学上的正态分布。n正态分布的数理统计学概念正态分布

15、的数理统计学概念n如果随机变量(如果随机变量(X X)的概率密度函数为:)的概率密度函数为: -x+ 则该随机变量服从正态分布。则该随机变量服从正态分布。 式中式中为总体标准差;为总体标准差;为总体均数;为总体均数; =3.14159=3.14159; e=e=2.718282.71828。 22221xexfn正态分布曲线特性正态分布曲线特性n若某一随机变量的概率密度函数(频率曲线方若某一随机变量的概率密度函数(频率曲线方程)为上式,则称该变量程)为上式,则称该变量X服从参数为服从参数为和和的的正态分布,记为:正态分布,记为:XN(,2),其中),其中为位为位置参数,置参数,为形状参数为形状

16、参数n曲线位于横轴上方,呈钟形,以均数所在处最曲线位于横轴上方,呈钟形,以均数所在处最高,且以均数为中心左右对称高,且以均数为中心左右对称 0 f(x) max n正态分布曲线由两个参数决定,即总体均数正态分布曲线由两个参数决定,即总体均数和和总体标准差总体标准差n在在不变的情况下,函数曲线形状不变,若不变的情况下,函数曲线形状不变,若变大时,变大时,曲线位置向右移;若变小时,曲线位置向左移,故称曲线位置向右移;若变小时,曲线位置向左移,故称为位置参数为位置参数n在在不变的情况下,函数曲线位置不变,若不变的情况下,函数曲线位置不变,若变大时,变大时,曲线形状变的越来越曲线形状变的越来越“胖胖”

17、和和“矮矮”;若;若变小时,变小时,曲线形状变的越来越曲线形状变的越来越“瘦瘦”和和“高高”,故称,故称为形态为形态参数或变异度参数参数或变异度参数 =0.5 0 f(x) =1 =2 0 f(x) max 1 2 N(,0.52)、N(,12)、N(,22) N(1 ,2)、N(2 ,2) n正态曲线下面积分布规律正态曲线下面积分布规律n对于服从正态分布的随机变量对于服从正态分布的随机变量X,随机变量值出现在某一,随机变量值出现在某一区间(区间(x1,x2)的概率与正态分布概率密度曲线与横轴在该)的概率与正态分布概率密度曲线与横轴在该区间所围成的区域的面积大小相对应(相等)区间所围成的区域的

18、面积大小相对应(相等)n正态分布概率密度曲线与横轴围成的区域的总面积等于正态分布概率密度曲线与横轴围成的区域的总面积等于1n正态分布概率密度曲线下横轴上一定区间的面积可用数学正态分布概率密度曲线下横轴上一定区间的面积可用数学知识求出知识求出n实际应用中,由于所有正态分布都可通过变量变换为标准实际应用中,由于所有正态分布都可通过变量变换为标准正态分布,为省去积分计算不同正态分布曲线下横轴上一正态分布,为省去积分计算不同正态分布曲线下横轴上一定区间面积的繁琐过程,专门编制了标准正态分布曲线下定区间面积的繁琐过程,专门编制了标准正态分布曲线下横轴上一定区间面积分布表,可求正态分布曲线下一定区横轴上一

19、定区间面积分布表,可求正态分布曲线下一定区间面积间面积n标准正态分布n若某一随机变量若某一随机变量X X,其总体均数,其总体均数=0, ,总体标准总体标准差差=1,即,即XN(0,1), ,则称变量则称变量X X服从标准正服从标准正态分布。习惯把服从标准正态分布的变量用字态分布。习惯把服从标准正态分布的变量用字母母U U或或Z Z表示,此时,我们把表示,此时,我们把 U U 或或 Z Z 称为标准称为标准正态变量正态变量n标准正态分布是正态分布中的一个典型分布,数标准正态分布是正态分布中的一个典型分布,数理统计上证明:对一服从正态分布的随机变量理统计上证明:对一服从正态分布的随机变量(X),若

20、进行特定的变量变换,可将任何一服,若进行特定的变量变换,可将任何一服从正态分布的随机变量从正态分布的随机变量(X)转变成服从标准正转变成服从标准正态分布的随机变量态分布的随机变量(U或或Z),这种变量变换过,这种变量变换过程称为变量的标准化,也称为程称为变量的标准化,也称为U或或Z变换变换XUn标准正态分布曲线特征标准正态分布曲线特征n标准正态分布曲线下对称于标准正态分布曲线下对称于0的区间,面积相等,各占的区间,面积相等,各占50%,即左右各为,即左右各为0.5n标准正态分布曲线的纵坐标与面积关系图标准正态分布曲线的纵坐标与面积关系图n纵坐标从纵坐标从移到移到u所对应区域的面积为上图红色区域

21、所对应区域的面积为上图红色区域面积的大小,该区域面积用面积的大小,该区域面积用(u)表示,可通过查标准表示,可通过查标准正态分布曲线面积分布表得到正态分布曲线面积分布表得到(u)大小大小nu值查表所对应的面积是区间值查表所对应的面积是区间(-,u)所对应的面积,即所对应的面积,即(u)n若若u=-1.96,那么,那么(-1.96)则表示从则表示从移到移到1.96所对所对应区域的面积,通过查标准正态分布曲线面积分布表应区域的面积,通过查标准正态分布曲线面积分布表得到得到(-1.96)=0.025n双尾概率双尾概率u u n单尾概率单尾概率u u /2/2总体与抽样分布总体与抽样分布n总体总体(p

22、opulation):根据研究目的确定的根据研究目的确定的同质同质研研究对象的究对象的全体全体(集合)(集合)n总体分为有限总体与无限总体总体分为有限总体与无限总体n样本样本(sample) :从总体中随机抽取的部分观察:从总体中随机抽取的部分观察单位单位n随机抽样随机抽样(sampling):为了为了保证样本的保证样本的可靠性可靠性和和代表性代表性,需要采,需要采用随机的抽样方法用随机的抽样方法(在总体中每个个(在总体中每个个体具有体具有相同的机会相同的机会被抽到)。被抽到)。n在随机抽样过程中,不可避免会产生一定的随机在随机抽样过程中,不可避免会产生一定的随机误差误差(random err

23、or):排除系统误差后尚存的误排除系统误差后尚存的误差,受多种无法控制的因素的影响差,受多种无法控制的因素的影响n特点:大小方向不一的随机变化特点:大小方向不一的随机变化n随机测量误差随机测量误差(random measurement error) 提提高操作者熟练程度可以减少这种误差高操作者熟练程度可以减少这种误差n随机抽样误差随机抽样误差( random sampling error):由抽样造):由抽样造成的样本统计量和总体参数间的差异成的样本统计量和总体参数间的差异不可避免,不可避免,但有一定的分布规律,可估计但有一定的分布规律,可估计n抽样分布抽样分布(sampling distri

24、bution):从同一个从同一个总体中随机抽出容量相同的各种样本,从总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的这些样本计算出的某统计量所有可能值的概率分布,称为这个统计量的抽样分布概率分布,称为这个统计量的抽样分布n抽样分布是从抽样分布是从n次样本抽样得出的某个统计量次样本抽样得出的某个统计量的概率分布的概率分布 ,目的是为了消除抽样中的随机误,目的是为了消除抽样中的随机误差差n抽样分布属于概率分布的范畴,常见的描述抽抽样分布属于概率分布的范畴,常见的描述抽样分布的参数有:均值、方差、标准差、置信样分布的参数有:均值、方差、标准差、置信区间等区间等n平均数平均数(

25、average)反映了资料的集中趋势)反映了资料的集中趋势( central tendency )n算术均数算术均数( (arithmetic mean) ),简称,简称均数均数 ( (mean) )n几何均数几何均数( (geometric mean) )n中位数中位数 ( (median)n众数众数(mode)均数(均数(mean)nXnXXXXn21iikkkffXffffXffXfXXfX3213211为求和符号,读成sigma适用条件适用条件:资料呈正态或近似正态:资料呈正态或近似正态几何均数几何均数(geometric mean)nXXnXXXXnXXXXXGnGnnGlglglg

26、)lglg(lg1lg12121为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数:变量对数值几何均数:变量对数值的算术均数的反对数的算术均数的反对数 中位数(中位数(median) 中位数是将一批数据中位数是将一批数据从小至大排列从小至大排列后后位次居中位次居中的数的数据值,符号为据值,符号为Md,反映一批观察值在,反映一批观察值在位次位次上的平均水上的平均水平。平。 适用条件适用条件:适合各种类型的资料。尤其适合于适合各种类型的资料。尤其适合于大样本偏态分布的资料;大样本偏态分布的资料; 资料有不确定数值;资料有不确定数值;资资料分布不明等料分布不明等 中位数计算公

27、式与实例中位数计算公式与实例 先将观察值按先将观察值按从小到大顺序排列从小到大顺序排列,再按以下公式,再按以下公式计算:计算:为偶数为奇数nxxnxMdnnn22/12/2/ )1(特点:仅仅利用了中间的12个数据众数(众数(mode) 出现次数(或频数)最多的观察值;出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙观察值。适用于大样本;较粗糙均数、中位数、众数三者关系均数、中位数、众数三者关系正态分布时: 均数中位数众数均数中位数众数正偏态分布时:均数均数中位数中位数众数众数负偏态分布时:均数均数中位数中位数众数

28、众数正偏态分布正偏态分布负偏态分布负偏态分布 方差方差 (variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方和的均值。),样本观察值的离均差平方和的均值。表示一组资料数据的平均离散趋势表示一组资料数据的平均离散趋势NXXlSSXxx222)-()-()square of sum(0)-(总体方差离均差平方和离均差和11)(2222nnXXnXXS样本方差11)(222nnXXnXXS样本标准差 标准差标准差(standard deviation)即方差的正平方即方差的正平方根;其单位与原变量根;其单位与原变量X X 的单位相同的单位相

29、同。122fffXfXS频数表样本标准差标准差的计算标准差的计算编号编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 1440 480 490 1936002304002401002 2460 490 495 2116002401002450253 3500 500 500 2500002500002500004 4540 510 505 2916002601002550255 5560 520 510 313600270400260100合计合计25002500 25002500 25002500 12604001251000 1250250标准差标准差50.9915.817.9199.5

30、0155/250012604001222甲的标准差nnXXS 参数估计是指用样本的各个指标来推断总体的各个参数估计是指用样本的各个指标来推断总体的各个指标,分为点估计指标,分为点估计(point estimation)(point estimation)与区间估计与区间估计SX、参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计得到总体参数:直接估计得到总体参数:区间估计区间估计:在一定:在一定置信度置信度(Confidence level)下,同时考虑)下,同时考虑抽样误差抽样误差、置信区间置信区间 置信置信区间:如果能够进行重复抽样试验,平均有区间:如果能够进行重复抽样

31、试验,平均有(1-(1-) )的区间包含了总体参数,即该区间中包含有总体参数的概的区间包含了总体参数,即该区间中包含有总体参数的概率为率为100(1-)%例如:例如:95可信区间是指可信区间是指:从总体中作:从总体中作100次随机抽样,次随机抽样,每个样本可算得一个可信区间,得每个样本可算得一个可信区间,得100个可信区间,平均有个可信区间,平均有95个可信区间包括个可信区间包括(估计正确估计正确),只有,只有5个可信区间不包括个可信区间不包括(估计错误估计错误))或(;或写成),可信区间为(XXXXXStXStXStXStXStX, 2/, 2/, 2/, 2/, 2/)%1 (100置信区

32、间的计算公式置信区间的计算公式 9595可信区间可信区间 9999可信区间可信区间 公式公式 区间范围区间范围 窄窄 宽宽 估计错误的概率估计错误的概率 大(大(0.050.05) 小(小(0.010.01) 可信度可信度 低低 高高XXStXStX ,2/01. 0,2/01. 0, XXStXStX , 2/05. 0, 2/05. 0, 假设检验的步骤及有关概念假设检验的步骤及有关概念总体间差异:总体间差异: 1. 1. 个体差异,抽样误差所致;个体差异,抽样误差所致; 2. 2. 总体间固有差异总体间固有差异 判断差别属于哪一种情况的统计学检验,就是判断差别属于哪一种情况的统计学检验,就是假设检验(假设检验(test of hypothesis)。)。 t t检验是最常用的一种假设检验之一。检验是最常用的一种假设检验之一。小概率思想小概率思想: : P P0.050.05(或(或P P0.01 (0.05) (0.05) 样本差别无统计学意义样本差别无统计学意义n假设检验的步骤假设检验的步骤n建立假设与确定检验水准(建立假设与确定检验水准(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论