




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、12008.092 生物统计是关于试验的设计、实施,数据的收集、整理、分析和结果推论的科学。 从事试验研究,需要对处理(措施、技术)的效应给出一个明确的结论(显著与否)。 推论是先对研究对象的总体提出一种假设(hypothesis),再对该假设进行测验(test)以计算在假设总体中抽得实际样本(统计数)的概率来判断。31.1 二项总体分布二项总体分布(0,1 分布) 若一个总体由0,1两种元素组成,这样的总体称0,1总体。若取1的概率为p,记为P(1)=p,则P(0)=1-p=q,p+q=1.1 概率计算比较复杂,生物统计中所用的概率计算主要利用变数分布进行。2(1)pppqp(1)pppq4
2、1.2 二项分布二项分布(binomial distribution) 二项分布是指在=p的二项总体中,以样本容量n进行抽样,样本总和数 k (0kn)的概率分布。2npqnpnpq( )kkn knP kC p q2/pq np/pq n51.3 普松分布普松分布(poisson distribution) 若n很大,p很小,其np=m,二项概率分布趋于普松分布。( )!kmmP kek2mmm61.4 正态分布正态分布(normal distribution)若p接近0.5,n很大,二项概率分布趋于正态分布。2221()( )exp()22xf x2221( )exp()22xf x210
3、7正态分布是最重要的连续性变数的分布,原因有3:1、试验研究中很多变数(性状)服从正态分布;2、一些间断性变数在一定条件下趋于正态分布;3、一些变数本身不服从正态,但其统计数(如平均数)在一定条件下(样本容量增大时)趋于正态分布。 这第3点是一个很重要的性质,因为我们将来对处理效应的推断,往往是以平均数(或其它统计数)进行的。在对样本容量较大的统计数进行统计推断时,可不必考虑原变数服从何种分布,统计假设测验均可在正态分布的基础上进行。8 了解一个变数(或一个统计数)服从某种分布,其目标是为了计算该变数(统计数)落在某一区间的概率。P(axb)=?()?Pab91.5 学生氏学生氏 t 分布分布
4、( t distribution)()(), xxxuu标准正态离差服从正态分布。(0,1)uN 上述u分布在实际应用中存在问题,最主要的是无法得到,人们自然想到用样本标准差 s 代替 计算u值,进而计算概率(假设测验)。但经抽样试验发现,这种替代是有问题的,尤其是在小样本情况下,s 的变异度较大(而是常量)。它直接的效果是由此算出的值比 u 的变异度大。后经WS Gosset (1908)导出了该统计数(t)的概率密度函数 f(t)。101221()2( )(1)(/ 2)tf t10( )xxe dx1100(| |)2( )tP ttf t dt12(0,1)uN222212nuuu2/
5、2 122/2()1()exp()2( /2)2f1.6 卡方分布卡方分布(2 distribution)22222()(1)xxns222221snv 132122sFs1.7 F分布分布( F distribution, RA Fisher, 1923)112121212/2/212()/21212()2( )(/2) (/2)()vFf FFv142 2.1 概念和基本步骤概念和基本步骤 我们在试验过程中获得了一个或多个样本(统计数),其目的在于推断由此代表的总体(参数)。得出处理效应存在与否的定性结论。基本过程有4步:1)对未知总体)对未知总体(参数参数)提出假设提出假设 H0:=0,
6、 HA: 0; H0: = 0, HA: 0 ;2)设定一个否定)设定一个否定H0假设的小概率标准(显著水平)假设的小概率标准(显著水平) ( =0.05, =0.01 ););3)计算在假设条件下比实得样本)计算在假设条件下比实得样本(统计数统计数)还偏的概率还偏的概率p。4)根据)根据p与与值的大小,接受或否定值的大小,接受或否定H0假设。假设。152.2 几种常用的假设测验几种常用的假设测验0u0ts1212: , , , , xxxdppps指的是该统计数的标准误,亦即该统计数分布的标准差。16/xn121211xxnn122xxn121211x xssnn/xssn/ddssn121
7、2: : : xxxdppp00 pp qn121211()ppspqnnttest(x, m0)ttest2(x1, x1)17 2.3 假设测验的本质假设测验的本质1)显著性000A| | H | | H ,Htttstt接受否定接受s的大小是决定统计数与假设参数间、统计数间差异显著性的主要因素。试验研究中应尽量减小统计数的标准误。一是减小试验误差(s);二是增大样本容量(n)。2)假设测验的错误 利用概率进行测验,有些情况下会犯错误。当正确的假设被否定时,就犯了弃真错误(I型错误, 错误);当错误的假设被接受时,就犯了取伪错误(II型错误, 错误)。犯两类错误的概率不同。18 方差分析是
8、将多个样本作为一个整体,将总变异分解成相应变异来源的平方和和自由度,得到各变异来源方差的数量估计,用F测验鉴别样本间的差异显著性。分三个内容:1)分解平方和自由度,计算各变异来源的方差;其中MSe(或se)比较重要,它是测验组间效应存在与否的标准;2)F测验, F=MSt/MSe;3)多重比较,当F测验显著,应对处理平均数的差异显著性作进一步说明。193.1 单向分组资料的方差分析单向分组资料的方差分析处理观察值Tixi1x11x12x1jx1nT1x12x21x22x2jx2nT2x2ixi1xi2xijxinTixikxk1xk2xkjxknTkxkxij为第为第i个处理的第个处理的第j个
9、观察值,个观察值,i=1,2,k, j=1,2,n. Data structureijiijx20TteSSSSSSTtedfdfdf1Tdfkn22211()()knTijijxSSxxxkn2221()1()ktiiixSSnxxTnkn222111()2kneijiiijSSxxxT1tdfk(1)edfk n, teteteSSSSM SM SdfdfteM SFM S方差分析结果尽量以方差分析表表示。anova1(x)2|ijM SexxLSDtn213.2 两向分组资料的方差分析两向分组资料的方差分析xij为为A因素第因素第i个水平和个水平和B因素第因素第j个水平组合个水平组合(处
10、理处理)的反应量,的反应量,i=1,2,k; j=1,2,n. Data structureijijijx22TtReSSSSSSSSTtRed fd fd fd f1Tdfkn22211()()knTijijxSSxxxkn222.1()1()ktiiixSSnxxTnkneTtRSSSSSSSS1tdfk(1)(1)edfkn, teteteS SS SM SM Sd fd fteM SFM SAnova2(x),或anova2(x,n)。2|ijM SexxLSDtn1Rdfn222.1()1()nRjjjxSSkxxTkkn233.3 系统分组资料的方差分析系统分组资料的方差分析xij
11、k为第为第i组、第组、第j亚组、第亚组、第k个反应量,个反应量,i=1, 2, , l; j=1,2,m;k=1, 2, , n. Data structureijiijijkxxijk24 较复杂的系统分组资料还可能在亚组中继续再分成小亚组(小小亚组);每一组具有不同的亚组数(mi不全相同),每一亚组具有不完全相同的观察值数目(nij不全相同)。xijk为第为第i 组组,第第j亚组亚组,第第k个个(处理处理)的反应量,的反应量,i=1, 2, , l; j=1,2,mi;k=1, 2, , nij. Ttdedfdfdfdf111imlTijijdfn 1td fl1(1)imleijijd
12、fn 1(1)ldiidfm253.4 单因素完全随机试验资料的分析单因素完全随机试验资料的分析 即单向分组资料的方差分析。即单向分组资料的方差分析。3.5 单因素随机区组试验资料的分析单因素随机区组试验资料的分析 即两向分组资料的方差分析。即两向分组资料的方差分析。3.6 二因素随机区组试验资料的分析二因素随机区组试验资料的分析 A因素有因素有a个水平,个水平,B因素有因素有b个水平,均个水平,均衡搭配时有衡搭配时有ab个处理;个处理;r个重复(个重复(r个区个区组),组),abr个观察值。方差分析分两步:个观察值。方差分析分两步:26TtReSSSSSSSSTtRed fd fd fd f
13、1Tdfabr22211()()abrTijijxSSxxxabr22211()abtiiiTSSrxxTnabreTtRSSSSSSSS1tdfab(1)(1)edfabr1Rdfr22211()rRjjjTSSabxxTababr1)构建处理区组两向表,按处理区组两向分组数据模型分解平方和、自由度: ijijijx272)构建AB两向表,按AB因素两向分解平方和、自由度。tABABSSSSSSSStABABdfdfdfdf22211()aAAAkTSSbrxxTbrabrABtABSSSSSSSS1Adfa(1)(1)ABdfab1Bdfb22211()bBBBlTSSarxxTarabr
14、()iklklkl28 二因素、多因素完全随机试验、随机区组试验资料的方差分析均可用anovan的命令实现。 格式:anovan(x, group, model)*S SM Sd f*eM SFM S2|ijM SexxLSDtneeeSSMSdf29Anovan (多因素资料的方差分析)(多因素资料的方差分析)Anovan(x, group, model)三因素三因素 model=1 2 3 4 5 6 7(三因素方差分析编码表三因素方差分析编码表)数值数值含义含义1A(主效主效)2B(主效主效)3AB(互作互作)4C(主效主效)5AC(互作互作)6BC(互作互作)7ABC(互作互作)30四
15、因素方差分析编码表四因素方差分析编码表(model)313.7 一些处理效应再分解的方差分析 1)单一自由度比较; 2)其他分解的一些实例。 Lsh.m; cg.m.3222222121211212()()()iiiTTTTSSn xxnnnn 如例8.1(水稻N肥试验),5个处理(ABCDE)具有SSt=301.2,dft=4,可将其进一步分解:ABCD vs E df1=1, SS1=198.45;AB vs CD df2=1, SS2=72.25 A vs B df3=1, SS3=12.5; C vs D df4=1, SS4=18.0334.1 一元线性回归分析一元线性回归分析 对于
16、双变数资料的回归分析,主要有三项任务:1)建立 Y 依 X 的量化关系,即估计回归统计数和回归方程;2)估计离回归误差,对回归方程和回归统计数进行统计假设测验;3)回归方程的进一步利用。34模型:iiiYXiiiiiYabXeYe据:2anbXYaXbXXY2211()()minnniiiiiiQRSSYYYabX222/()()()() /XaybxXYXY nXx YySPbXxSSXXn对Q分别对a、b求偏导并使其为0,得正规方程组:解得:2221()niiYiXYYaXbXYSPQYYSSSSSSbSP35iiiYabXe111YabXe222YabXennnYabXe11122211
17、.1.1iiinnnYXeYXeaYXebXYeiiiYabXe4.2 回归分析的矩阵方法回归分析的矩阵方法3612inYYYY Y1211. .1. .1inXXXXX12babb B12ineeee EY = XB+EY+E 回归分析是用最小二乘法(least squares method)估计回归统计数B=(a, b),使离回归平方和(Q, RSS)最小:() ()minQE EYYYXB =37实例和matlab命令集clear; clcx=1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92y=180, 28, 25,
18、117, 165, 175, 40, 160, 120, 80 x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1);xbar=mean(x); ybar=mean(y);X=ones(n,1),x; A=X*X; K=X*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2);SP=SumXY-SumX*SumY/nC=inv(A), B=AK, B=C*K, B=X*XX*y, b=XyQ=y*y-B*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqrt(
19、MSQ)F=U/MSQ; p=1-fcdf(F,1,n-2);disp(F=,num2str(F), p=,num2str(p)sa=syx*sqrt(C(1,1), sb=syx*sqrt(C(2,2)ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2);disp(ta=,num2str(ta), p=,num2str(pa)tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2);disp(tb=,num2str(tb), p=,num2str(pb)r=corr(x,y), r2=SP2/SSx/SSysr=sqrt(1-r2)/(n-2), tr=r/s
20、r384.3 多元线性回归分析多元线性回归分析1122iiijijmimiYXXXX11111211221222212121111mmjiiimiinnnmnnmaYeXXXbXXXYebXXXYeXXXYeb 1122iiijijmimiYa bXb Xb Xb Xe 1,2, ; 1,2,injm39jjjjjjbbbbtss/jbY Xjjssc2/(1)jpjjjjQUbcFMSQ nm2jjpjjbUc/(1)Y XQsnm2jjFt2,3,1jm 当其中的自变数不显著时,应将其剔除。剔除的过程应采用逐步回归的方法,即每次剔除一个偏回归平方和最小且不显著的自变数,直至所有的自变数均显
21、著(下同)。Up=b.*b./diag(C)40实例和matlab命令集clear;clc,alpha=.05;x1=10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9;x2=23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22;x3=3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6;x4=113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105
22、;y=15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13.4,20.3,10.2,7.4,11.6,12.3;x=x1,x2,x3,x4;load regm %x=rand(100,40);y=rand(100,1);%data=xlsread(regm); y=data(:,end);data(:,end)=;x=data;data=;%data=load(regm.csv); y=data(:,end);data(:,end)=;x=data;data=;n,m=size(x);SSy=var(y)*(n-1);X=ones(n,1),x;A=X*X;
23、K=X*y;C=inv(A)b=AK,%b=C*K,b=X*XX*y,b=XyQ=y*y-b*K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ)Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(Fm=,num2str(Fm), p=,num2str(p)Up=b.*b./diag(C);Up(1)=;F=Up/MSQ, pr=1-fcdf(F,1,n-m-1)41for i=1:m if i=alpha qi=find(F=min(F); pr=1-fcdf(min(F),1,n-m-1); if pr=alpha disp(num2str(q
24、i), ,num2str(min(F), del ,tr(qi,:) tr(qi,:)=; X(:,qi+1)=; m=m-1; end A=X*X; K=X*y; b=Xy; Q=y*y-b*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1);end42disp(Last Results:)disp( Xi bi Upi Fi pFi)disp(X0 ,num2str(b(1)for i=1:m disp(tr(i,:), ,num2str(b(i+1), ,num2str(U
25、p(i), , num2str(F(i), ,num2str(pr(i)enddisp(Error ,num2str(n-m-1), ,num2str(Q), ,num2str(MSQ)disp(Total ,num2str(n-1), num2str(SSy)r2=(SSy-Q)/SSy43多元线性回归分析的有关假定与注意事项:假定1:误差是正态分布的;假定2:每一自变数对依变数的作用仅为线性。 假定2不满足对回归结果影响较大。注意1:自变数个数(m)必须少于观察值组数(n);注意2:避免自变数共线性情形,共线性指变数间高度相关或一个变数是其他变数的线性组合。 若结构阵不满秩,信息阵是奇异或
26、病态的,逆阵不存在或有很大偏差,无法求解回归系数或有很大误差,难于对回归模型及回归统计数进行客观真实的假设测验。回归分析无法进行,或所得结果不可信。444.4 一元线性相关分析一元线性相关分析计算X、Y相关性质和程度的统计数相关系数r12211()()()()niiinnXYiiiiXx YySPrSS SSXxYy212rrrtsrn22XYSPrSS SS/UbQY XXMSbbtFsMSsSS454.5 多元线性相关分析多元线性相关分析 计算m个变数X(Y)的(简单)相关系数rij:12211()()()()nliiljjijlijnnXiXjliiljjllXxXxSPrSS SSXx
27、Xx12121212111mmijmmrrrrrrrR464.6 多元偏相关分析多元偏相关分析 m个变数X(Y)在其它变数皆固定在某一水平时,余下两个变数间的相关称为偏相关。.ijijiijjcrc cijcC1CR.2.1ijijijrijrrtsrnm474.7 通径分析通径分析 计算m个自变数 Xj 与 Y 关系的相对重要性,可用直接通径系数pj表示。jXjjYSSpbSS2(1)1jjjjpjjpptsRcnm-1P = R KCK121112122212111mYmYijmmmmYrrprrrprrrrpr21mj jYjRp r=PK484.8 一元多项式回归分析一元多项式回归分析
28、 计算1个自变数 X与 Y 的多项式回归也很常见。212jkiiijikiiYXXXX1,2, ; 1,2,injk212jkiiijikiiYab Xb Xb Xb Xe2111112122222221111kkkjiiiiiknnknnnXXXaYebXYeXXbYeXXXYebXXX 49jpjQUFMS21,1jjpjjbUc2jjFt1,2,1jkjjjjjjbbbbtss/1,1jbY Xjjssc/(1)Y XQsnmm为模型中Xj幂的项数。Up1, Up2, Up3, Up4 分别为线性(linear), 二次(Quadratic), 三次(cubic), 四次(4th degree)响应(response).50一元多项式回归分析的几点注意:1) 随着k的增加,回归平方和增加,离
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公园规划设计合同标准文本
- 五华区工程环保合同样本
- 全职助理合同样本
- 介绍中介咨询合同样本
- 入股合同样本格式
- 信托资金借贷合同样本
- 2025新能源汽车租赁服务合同
- 国家电网考试电力市场试题及答案
- 供车贷款合同标准文本
- 2025集团桥梁混凝土施工承包合同
- 水利工程(水电站)全套安全生产操作规程
- 学生宿舍宿管人员查寝记录表
- 配电间巡检记录表
- ISO 31000-2018 风险管理标准-中文版
- 双人法成生命支持评分表
- DBJ61_T 179-2021 房屋建筑与市政基础设施工程专业人员配备标准
- 毕业设计三交河煤矿2煤层开采初步设计
- 预应力锚索施工全套表格模板
- 食品流通许可证食品经营操作流程图
- 风电场工作安全培训
- 压缩机课程设计(共28页)
评论
0/150
提交评论