人类遗传统计基础-术语、概念、基础统计课件_第1页
人类遗传统计基础-术语、概念、基础统计课件_第2页
人类遗传统计基础-术语、概念、基础统计课件_第3页
人类遗传统计基础-术语、概念、基础统计课件_第4页
人类遗传统计基础-术语、概念、基础统计课件_第5页
已阅读5页,还剩187页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人类遗传统计基础——

术语、概念、基础统计2004年10月,北京人类遗传统计基础——

术语、概念、基础统计2004年10月,1常用术语与概念染色体(chromosome,46条,23对同源染色体(homologouschromosome))有丝分裂(mitosis):DNA复制形成姐妹染色单体(chromatid)→姐妹染色单体分开进入新细胞。减数分裂(miosis):

DNA复制形成姐妹染色单体→同源染色体配对(四倍体)、交换→“同源染色体”分开进入新细胞→“姐妹染色单体”分开形成配子进入新细胞。单倍型(haplotype):一条染色体上不同基因座上来自同一个亲体的基因排列。常用术语与概念染色体(chromosome,46条,23对同2遗传密码:DNA链上不同的碱基排列。为了编码20种氨基酸,需要最少3个碱基组成1个序列片段,称三联体密码(tripletcode)。每个三联体(如AAA)在mRNA上的副本(UUU)称为一个密码子(codon)。地球上所有生物都具有统一的遗传密码。同一氨基酸可有好几个密码,密码子的专一性主要由前两个碱基决定。64个密码中61个都对应了相应的氨基酸,其中一个(AUG,对应甲硫氨酸的唯一密码)兼具起始密码功能,另有3个终止密码(UAA、UAG和UGA)。遗传密码:DNA链上不同的碱基排列。为了编码20种氨基酸,需3基因(gene):完成特定功能的一段核苷酸序列。基因座(locus):基因在染色体上的位置等位基因(alleles):同一位点上可能出现的基因,例如ABO血型基因基因型(genotype):同一位点上两个等位基因的组合纯合体(homozygote):如A/A杂合体(heterozygote):如A/O表现型(phenotype):基因型控制的性状基因(gene):完成特定功能的一段核苷酸序列。4

表现型与基因型并非一一对应关系。单基因性状:由单个基因控制的性状。这些性状之间的差别明显,一般没有中间过渡类型,呈不连续变异(质量差异),称为质量性状(qualitativecharacter)。如单眼皮/双眼皮,卷舌,用手习惯,卷发/直发,血友病、色盲等。单基因性状属于孟德尔式遗传。表现型与基因型并非一一对应关系。5多基因性状:由多个基因共同控制的性状。这些性状的变异有一系列过渡类型彼此间只有数量的差别,没有明显质的界限,呈连续变异。因此,多基因性状又称为数量性状(quantitativecharacter)。人类性状多是数量性状(如智力、身高、肤色、冠心病、消化性溃疡等)。

多基因性状:由多个基因共同控制的性状。这些性状的变异有一系列6多基因遗传:一种遗传性状的表达受两对或两对以上基因的控制,各对基因彼此间没有显性隐性关系,每对基因对表型的效应都很小,各对基因的作用有积累效应。多基因遗传:一种遗传性状的表达受两对或两对以上基因的控制,各7多基因遗传的特征:1)纯合亲本->F1的表型一般是双亲的中间类型。2)F2个体的表型平均值大体上与F1相近,但变异幅度显著增加。3)含有环境效应。环境因子数目越大,变异越接近正态分布。4)当双亲不是极端类型时,其子女可分离出高于高亲值或低于低亲值的类型,称超亲遗传。多基因遗传的特征:1)纯合亲本->F1的表型一般是双亲的中间8基因频率(allelefrequency):人群中一个等位基因占该位点全部基因的比例基因型频率(allelefrequency):人群中特定基因型占该位点全部基因型的比例基因多态性(polymorphism):一个位点上等位基因频率中最大值不超过95%

基因频率(allelefrequency):人群中一个等位9孟德尔第一定律(独立分离):得到父母2等位基因之一的概率为1/2孟德尔第二定律(自由组合):不同染色体上的等位基因传递独立:P{→AB|AaBb}=P{→A|Aa}×P{→B|Bb}人类遗传统计基础—术语、概念、基础统计课件10哈代—温伯格平衡:无迁移、选择、突变,群体中的基因频率和基因型频率保持不变。

P(A)=p

,P(B)=q,

P(O)=r全部:(p+q+r)2(近交系数F一般<0.005)人类遗传统计基础—术语、概念、基础统计课件11遗传漂变:有限群体中,除迁移、选择和突变外,基因库中仅部分个体贡献下一代配子,这种因抽样产生的随机性导致下一代基因频率变化。有效群体:群体中生育年龄个体数。有效群体大小:N=4MF/(M+F) 例:达到生育年龄男性50,女性200 N=4×50×200/(50+200)=160遗传漂变:有限群体中,除迁移、选择和突变外,基因库中仅部分12ABO血型基因型与表现型基因型表现型A型B型AB型O型A/A1000A/B0010A/O1000B/B0100B/O0100O/O0001ABO血型基因型与表现型基因型表现型A型B型AB型O型A/A13白人4种ABO基因的基因型与表现型频率

(基因频率a1:0.21,a2:0.07,b:0.06,o:0.66)基因型表现型基因型频率A1A2A1BA2BBOa1/a1a1/a2a1/ba1/oa2/a2a2/ba2/ob/bb/oo/o1101000000000010100000100000000000010000000000011000000000010.04410.02940.02520.27720.00490.00840.09240.00360.07920.4356表现型频率0.35070.09730.02520.00840.08280.43561白人4种ABO基因的基因型与表现型频率

(基因频率a1:0.14隐性(recessive)显性(dominant)共显性(codominant)表现型基因型基因型频率AAAAOP22prBBBBOq22qrOABOOABr22pq隐性(recessive)表现型基因型基因型频率AAAP2B15交叉(crossover)、互换:减数分裂中同源染色体配对4条染色单体之间,一次减数分裂至少一次交叉重组(recombination)

:奇数次互换导致一个重组交叉(crossover)、互换:减数分裂中同源染色体配对416重组率θ(recombinationfraction)

:●无连锁→θ=1/2●连锁→θ<1/2●连锁分析需家系资料●亲体须双杂合体才可能有信息●男女亲体θ不同重组率θ(recombinationfraction):17◆回交(backcross)/测交(testcross)Aa×AA/aa

◆杂交(intercross)

(仅对2alleles适用)◆重组体(recombinant)◆非重组体(nonrecombinant)◆有连锁信息的条件:至少一个亲体为双杂合个体(doubleheterozygote)

◆回交(backcross)/测交(testcross)Aa18遗传度(heritability):遗传因素在性状表现中所起作用的大小。如果性状变异完全由环境因素造成,遗传度等于零。如果性状变异完全取决于遗传因素,则其遗传度为100%。参与遗传机制的基因可以是1个、2个、几个和多个。遗传性状可以是定量、定性的。对定性形状,假定存在一个定量的“易感性”,当其超过阈值时“发病”(多基因阈值性状)。遗传度(heritability):遗传因素在性状表现中所起19一些估算遗传度的公式:

双生子资料:h2=2(ρMZ-ρDZ)

父母子女资料:h2=2ρ父子

亲属(无父母)资料:ANOVA=>ρL=>h2ρL=(MSb-MSw)/[MSb+(n-1)MSw]

h2=2ρL

流行资料(prevalencedata):根据人群患病率Bp和患者直系亲属患病率Bo计算,

h2=2Bp[t-X(Bo)]/f(t)t=X(Bp),X(y)=Φ-1(1-y),f(t)=φ(t)一些估算遗传度的公式:20分离分析:检验家庭数据的遗传模式。估计分离率τ,比较与期望分离率的吻合度常染色体显性遗传:单基因,等位基因A/a,A致病,p(A)=p≈0,各婚配孟德尔τ:婚配型AAAaaa患病率AA*AA1001AA*Aa

1/21/201AA*aa0101Aa*Aa1/41/2¼3/4Aa*aa01/2½½aa*aa0010分离分析:检验家庭数据的遗传模式。估计分离率τ,比较与期望21最可能出现的婚配型是Aa*aa,一个子女患病一个不患病信息量最大,通常假定为Aa*aa型,患病子女数X服从二项分布b(n,τ),欲检验τ=1/2,计算χ2

=4[∑ri-n/2

]2/nν=1

n:k个家庭子女总数,ri:家庭i患病子女数最可能出现的婚配型是Aa*aa,一个子女患病一个不患病信息量22n:k个家庭子女总数,ri:家庭i患病子女数例:乳光齿质症,亲本之一患病,共调查112子女,其中52人患病,χ2

=4[52-112/2

]2/112=0.57140.3<p<0.5该病可能属常染色体显性遗传(单基因)n:k个家庭子女总数,ri:家庭i患病子女数23常染色体隐性遗传:单基因,孟德尔分离率τ=1/4。按最大似然方法估计τ,再与1/4比较。一般计算复杂,借助计算机程序实现。◆图距x:位点间的遗传距离,可转换成θ◆遗传图谱:已知图距的基因排列

x∝θ:θ=6%→x=6cM(Morgan)

(1cM=1000kb,1kb=1000核苷酸对)常染色体隐性遗传:单基因,孟德尔分离率τ=1/4。按最大似24◆图距函数:x与θ的关系

Haldane:x=-0.5ln(1-2θ)0≤θ<0.5x=∞其他

Kosambi:x=0.5tanh-1(2θ)1-3位点,x12+x23→θ13→x13◆连锁群:1→2→3→...人类遗传统计基础—术语、概念、基础统计课件25◆多态性程度:1.杂合率(hiterozygosity)H=1-Σpi2pi:第i个allele频率Hu=H•n/(n-1)

ABO基因频率0.28,0.06,0.66H=1-0.282-0.062-0.662=0.48

考虑近交:(1-F)H一般F<0.005

a个等概:H=1-Σpi2=1-1/aa=1/(1-H),例:H=0.9,a≥10◆多态性程度:262.多态信息量PIC

PIC=1-Σpi2-ΣΣ2(pipj)

2ABO基因频率0.28,0.06,0.66

PIC=1-0.282-0.062-0.662-2(0.28

0.06)2-2(0.060.66)2=0.41

对max≤95%的多态性定义,有:H≥0.10,PIC≥0.10

突变率∝

H/(1-H)2.多态信息量PIC27似然函数◆似然函数L:观察到手头样本F的概率。对二项分布,p(A)=p,p(a)=1-p,观察到“k/n”(记为F)的概率为:P(p,F)=P(p,n,k)=Cnkpk(1-p)(n-k)例如n=4,k=1,p=0.3,P(p,F)=C410.3

0.73=0.4116如果p=0.4P(p,F)=C410.4

0.63=0.3456◆L随F和分布(参数)而变似然函数◆似然函数L:观察到手头样本F的概率。28似然函数与最大似然估计◆分布常参数化为θ,似然函数写成L(θ,F)二项分布,θ=p,F表示为(n,k)L(θ,F)=P(p,n,k)=Cnkpk(1-p)(n-k)

F已知,L(θ,F)是θ的函数,“给定θ下的概率”。◆θ

的最大似然估计:使L(θ,F)最大化的θ.

对上述例子(n=4,k=1,二项分布,θ=p):θ(p)0.20.30.50.6L(θ,F)0.40960.41160.25000.1526似然函数与最大似然估计◆分布常参数化为θ,似然函数写成L(θ29最大似然估计◆

MLE的计算:对[მL(θ,F)/მθ]=0求解一般,令{მln[L(θ,F)]/მθ}=0对上述二项分布例子(n=4,k=1,θ=p):L(θ,F)=L(p,F)=Cnkpk(1-p)(n-k)

=4p(1-p)3Ln[L(p,F)]=ln(4)+ln(p)+3ln(1-p)令

{მln[L(p,F)]/მp}=1/p-3/(1-p)=0⇒

1=4p⇒

θ

的MLE为0.25。最大似然估计◆MLE的计算:对[მL(θ,F)/მθ]=030★MLE的单调变换仍是MLE(例如Ӫ2

→θ2)★MLE一般是有偏的★MLE一致(渐近无偏)、渐近正态人类遗传统计基础—术语、概念、基础统计课件31假设检验实例:3例死亡1例,一般病死率57%→“疗效好”。1/3<0.57?以0.57为真病死率,100个n=3的样本:d/nN样本病例数病死数3/31957572/341123821/33296320/38240合计100300171假设检验实例:3例死亡1例,一般病死率57%→“疗效好”32总病死率=171/300=57%,但1/3样本有32个,0/3样本8个,共40个,占40%→样本可能是这40%中之一

→结论有问题★想证实疗效好(H)★收集数据→作结论?结论没有考虑数据对H的支持程度总病死率=171/300=57%,但1/3样本有32个,033科研工作一般步骤:★研究者的科学假设H★进行试验得到样本数据S★根据S对H的支持程度做出推断人类遗传统计基础—术语、概念、基础统计课件34假设检验——概率意义的“反证法”★先设立H的对立假设H0(H记为H1)★把H0下的样本空间Ω划分为拒绝域R与接受域A(Ω=A∪R,A∩R=φ)★

观察样本S:落在A(或R)中?★根据S位置进行推断:接受H0,当S∈A;拒绝H0,当S∈R。假设检验——概率意义的“反证法”35划分A和R的依据(Ω=A∪R,A∩R=φ)α=p(R|H0);α很小,R|H0为小概率事件,如果H0真,一次试验中{R|H0}一般不会出现实际实行:S→统计量T∈Π,T的分布已知,划分Π↔划分Ω当T为t

→t检验,Π=(-∞,∞),A=(-tα

,tα),R={|t|≥tα}划分A和R的依据(Ω=A∪R,A∩R=φ)36似然比检验◆

T(θ)=supL(θ,F)/supL(θ0,F)

如果H1真,则T(θ)倾向于大。当T(θ)≧Tc时否定H0,Tc满足:

p(T(θ)≧Tc|H0)=α

按切贝雪夫不等式p(T(θ)≧Tc|H0)≤1/Tc∴

α≤1/Tcβ=p(T(θ)<Tc|H1)似然比检验◆T(θ)=supL(θ,F)/supL(θ0,37似然比检验◆例:5个重组事件,1个重组型,θ=0.20?H0:无重组(θ=0.5),H1:θ=0.2T(θ)=0.2×0.84/0.55=2.62144若取α=0.05,⇒Tc=20⇒

T(θ)<Tc⇒

不能否定H0。◆P值(经验显著水准)

=p(T>T(θ)|H0)

上例,T(θ)=2.62144,P值≈1/2.62144=0.38147似然比检验◆例:5个重组事件,1个重组型,θ=0.20?38◆支持函数:(对数)似然函数。◆似然方法:不光是MAX(L(θ,F))(似然比检验时只考虑H0下似然比的分布),而是直接根据L(θ,F)推断。◆区间估计:…,连锁分析一般不做◆支持区间:比似然函数曲线最大值小m个单位处画一条横线,其与似然函数曲线的两个交点对应了两个θ值,它们构成“m单位支持区间”。一般取m=2。◆支持函数:(对数)似然函数。39◆Bayes定理:A,B1,…,Bn,已知p(A|Bi)和p(Bi),欲计算p(Bi|A)p(Bi|A)=p(BiA)/p(A)

=p(A|Bi)p(Bi)/Σp(A|Bi)p(Bi)

◆Bayes定理:A,B1,…,Bn,已知p(A|Bi)和p40例:稀有显性病,致病等位基因频率为p,E1:”患病父/母为纯合子”,E2”杂合子”,n个子女患病(F)条件下,患病父/母为纯(杂)合子的后验概率?E1的(非条件)概率为p2,E2为2p(1-p),E1的相对概率(前概率)p2/(p2+2p(1-p))=p/(2-p)欲求后概率p(E1|F)、p(E2|F)例:稀有显性病,致病等位基因频率为p,E1:”患病父/母为41E1E2Sum前概率p/(2-p)(2-2p)/(2-p)1F条件概率10.5n联合概率p/(2-p)(1-p)0.5n-1

2-pp+(1-p)0.5n-1

2-p后概率2n-1pִ2n-1p+1-p1-pִ

2n-1p+1-p1ifn=3

4pִ

1+3p

1-pִ1+3p1E1E2Sum前概率p/(2-p)(2-2p)/(2-p)142连锁分析基础◆基因连锁(linkage):同一染色体上两个位点的等位基因一起传递的现象。例如基因型AB|ab,形成AB和ab两种配子。(若交换则形成

Ab和aB称重组体)◆连锁分析:根据家系资料估计θ,后者可用以分析基因座之间的图距。◆θ=0.01≈>1图距或1分摩(cM),一般图距<25cM时这种近似线性关系成立。连锁分析基础◆基因连锁(linkage):同一染色体上两个位43◆连锁平衡(linkageequilibrium):两个基因座上的等位基因独立。否则称连锁不平衡(disequilibrium)◆连锁不平衡参数δ=p(AB)-p(A)p(B)

◆若初始δ0≠0,n代随机婚配后δ变为:

δn=(1-θ)nδ0

当θ=1/2,很快达到平衡◆连锁平衡(linkageequilibrium):两个基44连锁分析方法◆直接法:重组事件k/n,直接用k/n估θ,可按二项分布计算可信区间。

问题:须确知父母基因型,但即使是已知型双杂合体父母,也有时不能明确判断重组。◆Y统计量:重组事件k/n,给定双杂合体父母相后,y=k(n-k)只随θ而变。θ=1/2时最大,θ=0时为0。Y统计量的效力低于最大似然估计。连锁分析方法45◆同胞对法(Penrose):依同胞两性状异同检验连锁。例:W,T为基因型WW,Ww及TT,Tt的表现型,父母婚配为WT×wt,两个子女可能的基因型组合有10种:同胞1同胞2同胞1同胞2WTWTWTwTWtWtWTwtwTwTWtwTwtwtWtwtWTWtwTwt◆同胞对法(Penrose):依同胞两性状异同检验连锁。例:46可归4类,做成四格表如下:若不连锁,则4个格子里的频数应差不多一样,可按四格表χ2检验法进行检验。

未考虑父母基因型,低效。◆受累同胞对(ASP)法:见后性状2同性状2不同性状1同AB性状1不同CD可归4类,做成四格表如下:性状2同性状2不同性状1同AB性状47◆最大似然法:maxT(θ)(似然比)改变θ∈[0,1/2],找到极大化T(θ)者为MLE。可信区间:困难,一般计算支持区间(见后)。◆u统计量法:两代家系,仅对松散连锁有效◆似然分数法:LOD(Z(θ)),是似然比T(θ)的常用对数。Z(θ)=log10[T(θ)]=log10[L(θ,F)/L(θ0,F)]不一定最大化Z(θ),而是计算一系列Z(θ)◆最大似然法:maxT(θ)(似然比)48例:腺瘤样息肉,显性遗传(Ff),标记等位基因1或2。祖父是纯合体f2/f2,祖母患病已死,子女患病/未患病→祖母疾病基因型Ff,子女标记基因有12/22,→祖母标记基因型12。但祖母可能有2相,Ⅰ:F1/f2,Ⅱ:F2/f1。Ⅰ相⇒4个非重组型,Ⅱ相⇒4个重组型。两相按等概处理:L(θ)=(1-θ)4/2

+θ4/2=[(1-θ)4+θ4]/2似然比统计量T(θ)=L(θ)/L(1/2)=8[(1-θ)4+θ4]Z(θ)=log10[8]+log10[(1-θ)4+θ4]若θ=0.1,Z(θ)=0.72例:腺瘤样息肉,显性遗传(Ff),标记等位基因1或2。祖父是49例:疾病位点等位基因记为1,2和3,标记位点是HLA(等位基因a,b,c,d)或ABO血型(等位基因A,B,O)--------------------------------------------个体表现型可能的基因型--------------------------------------------父1/3;a/bI:1a/3bII:1b/3a

母3/3;c/d3c/3d

子3/3;a/c3a/3c

女3/3;b/c3b/3c--------------------------------------------父I型下子重组,II型下女重组,似然函数为L(θ)=θ(1-θ)/2+(1-θ)θ/2=θ(1-θ)L(1/2)=1/4⇒

Z(θ)=log[4θ(1-θ)]例:疾病位点等位基因记为1,2和3,标记位点是HLA(等位基50--------------------------------------------个体表现型可能的基因型--------------------------------------------父━

I:1a/3bII:1b/3a

母3/3;c/d3c/3d

子1/3;a/c1a/3c

女1/3;b/c1b/3c

女3/3;a/d3a/3d--------------------------------------------父表现型未知,通过其他成员得其可能的基因型。I型下2重组,II型下1重组,似然函数:L(θ)=θ2(1-θ)/2+(1-θ)2θ/2=θ(1-θ)/2L(1/2)=1/8⇒Z(θ)=log[4θ(1-θ)]⇒

此3子女信息量与上面2子女同--------------------------51-------------------------------------------个体表现型可能的基因型-------------------------------------------父1/3;O1o/3o

母1/3;AI:1a/3oII:1o/3a

子1/3;O1o/3o子1/3;O1o/1o子3/3;A3a/3o--------------------------------------------因子有O型血,故母亲杂合。I下若1st子的1o来自母亲则为重组,来自父亲为非重组,II型下反之。给定任意1型,其概率为:[θ/2+(1-θ)/2]/2=1/4,是常数,在LOD里消掉,无信息贡献。次子与三子在I型下重组。L(θ)=θ2/2+(1-θ)2/2=[θ2+(1-θ)2]/2Z(θ)=log2+log[θ2+(1-θ)2]--------------------------52----------------------------------------------------------个体表现型可能的基因型----------------------------------------------------------父━

p2:3a/3o2p(1-p):3a/xo或3o/xa

母1/1;O1o/1o

女1/3;O3o/1o子1/3;A3a/1o子1/3;O3o/1o----------------------------------------------------------父的ABO基因必是a/o,疾病位点只考虑3,把其他并为“x”。记3的基因频率为p,有3种可能的基因型:1:3/3,此时3个子女基因型出现概率为1/2,条件似然Lc为1/8,无连锁信息。此情形出现的概率为p2。2:3/x,若3a/xo,则长子非重组,其余2子女重组,Lc=θ2(1-θ)/8;

3o/xa下反之,Lc=θ(1-θ)2/8。加总得Lc

(1-θ)/16,其概率2p(1-p)。--------------------------53

把条件似然按概率加权求和得到:

L(θ)=p2/8+p(1-p)θ(1-θ)/8⇒Z(θ,p)=log{4[θ(1-θ)(1-p)+p]/(1+3p)}Zmax在θ=1/2处达到(Zmax=0),其他lod皆为负值。Z(θ,p)除了随θ改变而外,还依赖于参数p。

多个齐性家系的资料,Z(θ)值可以累加(固定θ)。一般以表格形式报告连锁分析结果,列是不同θ的值,行是不同的家系。人类遗传统计基础—术语、概念、基础统计课件54

由于不完全外显、信息缺失、男女重组率不同等原因,Z(θ)一般需通过计算机程序计算。

资料如果有偏,似然函数L(θ)会受影响,但似然比统计量T(θ)(因而Z(θ))不受影响,因为分子分母同时受影响而抵消。

一般θ从0以步长0.05变到1/2,计算一系列的Z(θ)值

由于不完全外显、信息缺失、男女重组率不同等原因,Z(θ)55◆Morton双位点连锁分析当–2<Z(θ)<3→继续抽样当Z(θ)≧3→推断有连锁,当Z(θ)≦-2→无连锁α=0.001,β=0.01

对X连锁位点,上界为2即可。4.6Zmax~>χ21,4.6×3=13.8→渐近p=0.0002因单尾,渐近p=0.0001当考虑男女θ不同,应取3.4为上界,否则p实际上=0.00025。◆Morton双位点连锁分析56◆Morton后验Ⅰ类错误概率P(H0|s)=P(s|H0)p(H0)/[P(s|H0)p(H0)+P(s|H1)p(H1)]一般认为p(H1)=0.05(在44条染色体中,2基因位于同1条上的概率为0.044),若β=0.5,α=0.001→3.66%的后验◆为什么连锁分析里设定的α那么小?

为了使Morton后验Ⅰ类错误概率不过大◆Morton后验Ⅰ类错误概率57◆简单假设下的切贝雪夫不等式p(T(θ)≧Tc|H0)≤1/Tc对广义似然比检验(此时θ不事先设定,而是估出)仍成立:p(Zmax≧Zc|H0)≤10-Zc

例如Zc=3对应的p值上界是0.001。◆任何观察到的Zmax,对应了一个不超过10-Zmax的经验P值。例如Zmax=4对应的经验p值≦0.0001,Zmax=1.5的经验p值≦0.031623。◆简单假设下的切贝雪夫不等式p(T(θ)≧Tc|H0)≤1/58◆θ的1-单位支持区间:高度为Zmax-1的横线与Z(θ)曲线产生两个交点。若Z(θ)在θ=0时最大,则下界取0。4.6Z

~>χ21,1个Z(θ)单位乘以4.6就转换为χ2单位。一个对θ=θ0的χ2检验在χ2达到4.6时对应了一个0.032的渐近水准。因此,上述支持区间有时被看作渐近置信区间,置信度96.8%。按切贝雪夫不等式p(Zmax≧Zc|H0)≤10–Zc,置信度下界为90%。为了使支持区间一致于检验,仅当Zmax≧3时才构造3-单位支持区间。◆θ的1-单位支持区间:高度为Zmax-1的横线与Z(θ)曲59◆等量观察数当k/n已知,则k/n=θe为θ的MLE,对θe≠0:Zmax=nlog2+(n-k)log(1-θe)+klogθe=nlog2+n(1-θe)log(1-θe)+nθelogθe=n[log2+(1-θe)log(1-θe)+θelogθe]Zmax=nlog2当θe=0

⇒解出n:n=Zmax/[log2+(1-θe)log(1-θe)+θelogθe]当θe≠0n=

Zmax/log2当θe=0k=nθe◆等量观察数60◆例:6家系连锁分析,n=24,k=0,在θe=0处得到Zmax=3.26,等量观察数

n=Zmax/log2=3.26/log2=10.83,k=0

实际观察数24比等量观察数11大,说明未知相与基因型而人为指定时夸大了资料的信息量。◆例:6家系连锁分析,n=24,k=0,在θe=0处得到61◆简单家系资料的精确检验(n家系,m子女)已知相双回交家系,可明确判断重组数k,可计算Zmax,以及结果显著的概率ps(样本空间里那些*的样点概率之和)。对不同θ值,计算的ps列于表中:当n<10,Zmax不可能>3,当n=10-15,仅Zmax(0/n)可>3,故ps=(1-θ)n,当n=16-19,仅Zmax(0/n)和Zmax(1/n)可>3,故ps=(1-θ)n+nθ(1-θ)n-1。

◆简单家系资料的精确检验(n家系,m子女)62“n双回交家系,m子女”不同θ下得到显著性结果的概率*原为nm=10**原为nm=16Z0=3Z0=2相已知相未知已知未知θ

n=10m=1*n=16m=1**n=10m=2n=10m=3nm=7n=7m=2n=4m=300.010.050.100.200.300.400.5010.9040.5990.3490.1070.0280.0060.00110.9890.8110.5150.1410.0260.0030.0002610.8190.3690.1370.0210.0040.0010.00110.9660.5720.2020.0150.0010.000080.0000310.9320.6980.4780.2100.0820.0280.00810.8690.4970.2490.0670.0220.0100.00810.8860.5410.2840.0730.0190.0060.004“n双回交家系,m子女”不同θ下得到显著性结果的概率Z0=363可见:1。如果以Zmax>3(或2)为依据,则α不再固定。故有人建议除了报道Zmax,还要报道p值。2。仅当连锁紧密时(θ=0.01)功效好。◆多重检验问题:单个检验假阳性概率α1,g次独立检验后假阳性概率α=1-(1-α1)g⇒α1=1-(1-α)1/g⇒α1≈α/g,称Bonferroni校正。

可见:64另一方面,排除掉一部分标记位点增大了剩余标记位点连锁的先验概率。二者抵消⇒以基因组为单位的假阳性概率不用校正。但对复杂性状,无事先假定的疾病位点,须通过检验来发现,不存在增大剩余标记位点连锁先验概率效应,随着标记位点增加,位点间图距缩小(或只是重复检验次数增加)以基因组为单位的假阳性概率也增加。按Bonferroni校正原理,有人提出一个简单公式(Kidd-Ott1984):另一方面,排除掉一部分标记位点增大了剩余标记位点连锁的先65

记单个检验水准为α1,g次检验后水准约为α=gα1⇒gα1≦10-Z(这个Z控制了总水准)

⇒α1≦10-(Z+log(g))⇒为了控制总水准,取单次检验界值为Z0=Z+log(g)。

例如,当Z=3,做5次检验,可取

Z0=3+log(5)=3.69897一般可通过模拟(例如SIMULATE程序)来近似总水准。◆对受累同胞对分析情形,有人对标记位点的不同图距计算了α1和Z0:

记单个检验水准为α1,g次检验后水准约为α=gα1⇒gα166受累同胞对分析,给定相邻标记位点图距和全基因组扫描总水准α=0.05时的lod分数界值据Bonferroni校正结果,相邻标记位点图距在8cM以上时大致可视为稀疏(独立)相邻位点距离Lod分数界值单个检验水准α1Bonferroni校正的水准α10cM5cM2cM1cM0.1cM2.583.063.243.353.630.0001360.0000880.0000570.0000440.0000220.0460.0590.0930.1390.557受累同胞对分析,给定相邻标记位点图距相邻位点距离Lod分数界67◆家系资料的似然函数:L=p(x1,x2,…,xm),此处xi表示第i个家系成员的表现型。L条件独立:L=p(x)=∑gp(x,g)=∑gp(x|g)p(g)

◆Elston-Stewart算法:逐步计算条件概率L=∑p(xm-1|gm-1)p(gm-1|.)p(xm|gm)p(gm|.),从家系最底层开始(LINKAGE)◆Lander-Breen算法:计算量随家系成员数指数增加,随标记位点数线性增加◆Kruglyak算法:定义遗传向量ν=(p1,m1,…),分量为0/1变量,以及记分函数S(ν,F),F是观察到的表现型。(GENEHUNTER)◆家系资料的似然函数:L=p(x1,x2,…,xm),此处x68家系资料的信息量◆

最大似然分数Zmax

Fisher信息量I(Ô)=-d2lnL(Ô)/dÔ

2

Ô必须是θ的最大似然估计解析解

I(Ô)是θ估计值的近似方差◆期望似然分数:在θ处把每个LOD按发生概率加权求和,得到一条期望LOD曲线,ELOD一般指期望LOD曲线的最大值。家系资料的信息量◆最大似然分数Zmax69ELOD的计算例

(3子女,k重组,r=0.10,表内是Z值)θ(重组率)KP(k)0.0100.0900.1000.110Zmax00.7290.8900.7800.7660.7510.90310.243-1.106-0.224-0.188-0.1570.07420.027-3.101-1.229-1.143-1.065030.001-5.097-2.234-2.097-1.97300.2910.4790.4800.4790.676ELOD的计算例

(3子女,k重组,r=0.10,表内是Z值70◆期望LOD对不同家系有可加性,例如,为使似然分数≥3,需要多少这样的3子女家系?3/0.48=6.23⇒大约7个。◆

MELOD:期望LOD曲线的最大值◆

EMLOD:期望最大似然分数E(Zmax),不可加◆

ELOD≦MELOD≦EMLOD◆

检验功效:p(Zmax≥Zc),本例

p(Zmax≥3)=0,p(Zmax≥0.5)=0.729,p(Zmax≥0.05)=0.972◆期望LOD对不同家系有可加性,例如,为使似然分数≥3,需要71◆对表现型不详的家系资料,ELOD通过模拟来近似。如条件ELOD,目的是在测定标记基因型之前预测:如果测定了标记基因型,大致会得到什么样的Zmax。◆期望信息量与方差

Fisher信息量I(θ)=-d2lnL(θ)/dθ2假设有1个重组,3个非重组事件Ln[L(θ)]=lnθ+3ln(1-θ)最大值在θ=1/4处。对Ln[L(θ)]求二阶导数得:I(θ)={Ln[L(θ)]}''=-1/θ2+3/(1-θ)2◆对表现型不详的家系资料,ELOD通过模拟来近似。如条件EL72I(θ)={Ln[L(θ)]}''=-1/θ2+3/(1-θ)2I(0.25)=-1/0.252+3/0.752=21.3

此I(θ)是在MLE处计算的。期望信息量是真重组率r的函数I(r)。当结果分c类,每个观察值的期望信息量是:i(r)=∑cq2(r)/p(r)

p(r)是类别发生概率,q(r)是p(r)'例如重组与非重组,c=2,p(r)=r,q(r)=1,非重组率p(r)=1-r,q(r)=-1,i(r)=1/r+1/(1-r)=1/[r(1-r)]I(θ)={Ln[L(θ)]}''=-1/θ2+3/(1-73n个子女提供的总期望信息量是I(r)=n×i(r)1/I(r)为MLE的渐近方差。多参数情形下,I(r)取矩阵形式,称信息矩阵◆按婚配类型计算期望信息量的步骤:1.列出可能的单倍体⇒可能的基因型合并难以区分的基因型2.按表现型归组基因型⇒各型概率⇒按

i(r)=∑cq2(r)/p(r)

计算期望信息量。n个子女提供的总期望信息量是I(r)=n×i(r)74◆例:A1|B2×A1|B2型婚配,共显性。A配子概率为1/2,A2为r/2,A1为(1-r)/2双亲配子及子女基因型概率归纳如下:-------------------------------------一方父母另一方父母--------------------------A1B2A2B1(1-r)/2(1-r)/2r/2r/2-------------------------------------A1(1-r)/2A1|A1A1|B2A1|A2A1|B1B2(1-r)/2B2|A1B2|B2B2|A2B2|B1A2r/2A2|A1A2|B2A2|A2A2|B1B1r/2B1|A1B1|B2B1|A2B1|B1-------------------------------------实际上只有10种不同的子女基因型⇒

◆例:A1|B2×A1|B2型婚配,共显性。A配子概率为1/75

子女基因型及其概率这些基因型确定了9种表现型:基因型概率基因型概率A1|A1¼(1-r)2A2|A2¼r2A1|B2½(1-r)2A1|B1½r(1–r)B2|B2¼(1-r)2B1|B2½r(1–r)A1|A2½r(1–r)A2|B1½r2A2|B2½r(1–r)B1|B1¼r2基因型概率基因型概率A1|A1¼(1-r)2A2|A2¼76A1|B2×A1|B2型婚配子女表现型及其概率型号表现型概率1AA-11¼(1-r)22

AA-12½r(1–r)3AB-12½[r2+(1-r)2]4AB-11½r(1–r)5AA-22¼r26AB-22½r(1–r)7BB-11¼r28BB-12½r(1–r)9BB-22¼r(1–r)∑

1型号表现型概率1AA-11¼(1-r)22AA-12½77表现型的概率如果相同,它们的LOD分数也相同,对期望信息量的贡献也相同。因此把它们合并归为一类:

A1|B2×A1|B2婚配归类表现型及其概率类号型号PQ=P'Z(θ)11+9½(1-r)2r-1log[4(1-θ)2]2

2+4+6+82r(1-r)2-4rlog[4θ(1-θ)]35+7½r2rlog[4θ2]43½[r2+(1-r)2]2r-1log[2θ2+2(1-θ)2]∑

10类号型号PQ=P'Z(θ)11+9½(1-r)2r-1lo78

总lod=∑nZ(θ),加总是对所有表现型类别,n是各类的子女数。

一个子女的费歇信息量为:i(r)=1/[r(1-r)]+[4r(1-r)]/[r2+(1-r)2]-2

期望LOD=∑P(r)*Z(θ),以r替代θ,得到:ELOD=(1-r2)log[2(1-r)]+r(2-r)log(2r)+½[r2+(1-r)2]log[2r2+2(1-r)2]人类遗传统计基础—术语、概念、基础统计课件79给定真重组率r,上式提供了已知相双杂交子女的平均连锁信息量。在r=½处ELOD=0,而在r=0处达最大值0.45。因此,为了得到3或更大的期望lod,需要3/0.45=6.67,即大约7个子女。给定真重组率r,上式提供了已知相双杂交子女的平均连锁信息量。80◆多个等位基因情形下的双杂交假定2位点各有4个等位基因:ABCD和1234,考虑婚配A1/B2×C3/D4,按上述步骤,每个子女都是双杂合体,有16种可能的不同基因型,它们的概率有3种:¼(1-r)2、¼r(1-r)和¼r2。合并为3类后,类概率为(1-r)2、2r(1-r)和r2。婚配A1/B2×C3/D4每个子女能判断出2个重组事件,其Fisher期望信息量为:i(r)=2/[r(1-r)]ELOD为:ELOD=2rlog(2r)+2(1-r)log[2(1-r)]◆多个等位基因情形下的双杂交81二者都大于A1|B2×A1|B2型(2等位基因)婚配子女,因为等位基因数增多了。当r=0,ELOD=0.601,2-allele型为0.451,二者比值为1.33∴对紧密连锁,100例4-allele子女相当于133例2-allele子女。随着r增大,比值逐渐趋近于2。i(r)比值在r=0时为1,随着r增大,比值逐渐趋近于2。因此,4-allele子女的信息量大致为2-allele子女的2倍。二者都大于A1|B2×A1|B2型(2等位基因)婚配子女,因82◆已知相双回交A1|B2×A1|A1

此时k/n已知,i(r)=1/[r(1-r)]期望lod=rlog(2r)+(1-4)log[2(1-r)],在r=0处,期望lod=0.30。这种婚配每个子女相当于一个重组事件,故常用作与其他婚配比较的基准。这种父母基因型已知的婚配,n个1子女家庭提供的信息等同于n/2个2子女家庭,也等同于1个n子女家庭提供的信息。◆已知相双回交A1|B2×A1|A183◆两子女的未知相双杂交

双杂合体为I相:A1|B2或II相:A2|B1,纯合体为A1|A1,假定一个子女为基因型为x=A1|A1,x在I相下是非重组型,II相下是重组型⇒

p(x)=p(x|I)p(I)+p(x|II)p(II)=½(1-r)½+½r½=¼与r无关,对似然函数及LOD没有贡献,其他基因型也如此。故未知相双杂交的一个子女对连锁分析无信息贡献。◆两子女的未知相双杂交842子女情形:设x1=x2=A1|A1,对给定相,2子女条件独立p(x1,x2)=p(x1,x2|I)p(I)+p(x1,x2|II)p(II)=¼(1-r)2½+¼r2½=[(1-r)2+r2]/8≙f1

对子女基因型组合x1=A1|A1,x2=A2|A1p(x1,x2)=p(x1,x2|I)p(I)+p(x1,x2|II)p(II)=¼(1-r)r

½+¼(1-r)r

½

=(1-r)r/4≙f2

2子女情形:设x1=x2=A1|A1,对给定相,2子女条85其他所有可能的子女基因型组合概率都是f1(=[(1-r)2+r2]/8)或f2(=(1-r)r/4):子女2子女1A1|A1B2|A1A2|A1B1|A1A1|A1f1f1f2F2B2|A1f1F1f2F2A2|A1f2f2f1F1B1|A1f2f2f1f1其他所有可能的子女基因型组合概率都是f1(=[(1-r)2+86把相同概率的基因型组合归组,得到:类1指在I相下非重组,类2指在I相下重组。可见在亲体相不清楚时子女基因型不独立。这个表的相关系数ρ=(1-2r)2,1-2r称为连锁参数,当r=0,ρ=1,否则>0。子女2子女1类1类2∑

类1[(1-r)2+r2]/2r(1-r)1/2类2r(1-r)[(1-r)2+r2]/21/2∑

1/21/21把相同概率的基因型组合归组,得到:子女2子女1类1类2∑类87此表可进一步合并,得到2个类别:2子女要么都重组要么都不重组(类别1),以及一个重组一个不重组(类别2)。只要两个位点都处于连锁平衡,两类别的概率就独立于人群等位基因频率。类别概率p导数qZ(θ)类别1(1-r)2+r2-2(1-2r)log[2θ2+2(1-θ)2]类别22r(1-r)2(1-2r)log[4θ(1-θ)]∑

10此表可进一步合并,得到2个类别:2子女要么都重组要么都不重组88每同胞对的期望信息量为i(r)=[2(1-2r)2]/{r(1-r)[1-2r(1-r)]}在无重组的极限情形,此i(r)与已知相双回交2子女的i(r)=2/[r(1-r)]一样。故在r=0时,未知相并不降低重组率估计值的精度。类别概率p导数qZ(θ)类别1(1-r)2+r2-2(1-2r)log[2θ2+2(1-θ)2]类别22r(1-r)2(1-2r)log[4θ(1-θ)]∑

10类别概率p导数qZ(θ)类别1(1-r)2+r2-2(1-89期望LOD=2r(1-r)log[4r(1-r)]+[r2+(1-r)2]log[2r2+2(1-r)2]当r=0,ELOD=0.30,是已知相双回交一个子女的ELOD。未知相导致信息损失一半。已知相2子女的ELOD与未知相2子女ELOD比值R在r=0时为2,即R(0)=2,R(0.1)=3.32,R(0.2)=5.82,R(0.3)=12.80,R(0.5)=∞。对n个2子女未知相双回交家系,可直接估计重组率:期望LOD=2r(1-r)log[4r(1-r)]+[r290n个2子女未知相双回交家系,其中类别2(2子女1个重组1个非重组)家系数为k。类别2家系概率为2r(1-r),我们又可写成2r(1-r)=k/n,求解r,得到:

Ӫ=[1-√(1-k/n)]/2

其近似标准差为1/√[n×i(r)]以Ӫ代r,得到标准差估计值。n个2子女未知相双回交家系,其中类别2(2子女1个重91◆

受累同胞对(ASP)法认为标记基因与疾病基因连锁,故集中考虑患病子女。巧妙地避开了不完全外显(penetrance)问题,但受到拟表现型(thenocopy)干扰。观察子代接受同样标记基因(基因同源,IBD)情况,例如,父母标记基因有4种alleles,二同胞可能的同源基因数有0、1和2,按孟德尔方式,其出现比例为1:2:1。如果紧密连锁,父母可能会把标记基因的一个等位基因和疾病一起传给后代,导致共享IBD数增加。◆受累同胞对(ASP)法92记共享i个IBD基因的概率为ki,i=0,1,2,资料中观察到的相应比例为Ќi,在无连锁情形,k0=¼,k1=½,k2=¼。◆Minmax检验(Whittemore-Tu1998)

u=1.04476(1.58-2.58Ќ0–1.87Ќ1)n½Ќi为共享i个IBD基因的比例,n为同胞对总数,u~N(0,1),Minmax为最大风险极小化。当Ќ0=¼,Ќ1=½,u=0。记共享i个IBD基因的概率为ki,i=0,1,2,资料中观93◆均数检验(meantest):计数亲体传递的共享IBD基因个数(只有0或1个);例如俩亲体的标记基因型为1/2和3/4,受累同胞对的基因型为1/3和1/4,则亲体“1/2”的分数为1,“3/4”为0。p为传递了1个共享IBD基因的亲体比例,计算u=(2p–1)n½,u~N(0,1),当|u|太大,则倾向于认为存在连锁。例如:301个亲体中173个传递了1个共享IBD基因,u=(2*173/301–1)√301=2.602403⇒p=0.0046

均数检验对显性性状功效高◆均数检验(meantest):计数亲体传递的共享IBD基94◆比例检验(proportiontest):Ќ2的期望值在无连锁时是¼,据此构造检验统计量:

u=(4Ќ2–1)(n/3)½

n为同胞对数。在H0(无连锁)情形下,u~N(0,1)。◆ASP方法与LOD分析

Zmax是ASP方法观察到的共享IBD基因总个数的单调变换,因此,在适当选择界值后,均数检验等价于LOD检验。◆比例检验(proportiontest):Ќ2的期望值在95薛禾生(010shxue@薛禾生(010shxue@96人类遗传统计基础——

术语、概念、基础统计2004年10月,北京人类遗传统计基础——

术语、概念、基础统计2004年10月,97常用术语与概念染色体(chromosome,46条,23对同源染色体(homologouschromosome))有丝分裂(mitosis):DNA复制形成姐妹染色单体(chromatid)→姐妹染色单体分开进入新细胞。减数分裂(miosis):

DNA复制形成姐妹染色单体→同源染色体配对(四倍体)、交换→“同源染色体”分开进入新细胞→“姐妹染色单体”分开形成配子进入新细胞。单倍型(haplotype):一条染色体上不同基因座上来自同一个亲体的基因排列。常用术语与概念染色体(chromosome,46条,23对同98遗传密码:DNA链上不同的碱基排列。为了编码20种氨基酸,需要最少3个碱基组成1个序列片段,称三联体密码(tripletcode)。每个三联体(如AAA)在mRNA上的副本(UUU)称为一个密码子(codon)。地球上所有生物都具有统一的遗传密码。同一氨基酸可有好几个密码,密码子的专一性主要由前两个碱基决定。64个密码中61个都对应了相应的氨基酸,其中一个(AUG,对应甲硫氨酸的唯一密码)兼具起始密码功能,另有3个终止密码(UAA、UAG和UGA)。遗传密码:DNA链上不同的碱基排列。为了编码20种氨基酸,需99基因(gene):完成特定功能的一段核苷酸序列。基因座(locus):基因在染色体上的位置等位基因(alleles):同一位点上可能出现的基因,例如ABO血型基因基因型(genotype):同一位点上两个等位基因的组合纯合体(homozygote):如A/A杂合体(heterozygote):如A/O表现型(phenotype):基因型控制的性状基因(gene):完成特定功能的一段核苷酸序列。100

表现型与基因型并非一一对应关系。单基因性状:由单个基因控制的性状。这些性状之间的差别明显,一般没有中间过渡类型,呈不连续变异(质量差异),称为质量性状(qualitativecharacter)。如单眼皮/双眼皮,卷舌,用手习惯,卷发/直发,血友病、色盲等。单基因性状属于孟德尔式遗传。表现型与基因型并非一一对应关系。101多基因性状:由多个基因共同控制的性状。这些性状的变异有一系列过渡类型彼此间只有数量的差别,没有明显质的界限,呈连续变异。因此,多基因性状又称为数量性状(quantitativecharacter)。人类性状多是数量性状(如智力、身高、肤色、冠心病、消化性溃疡等)。

多基因性状:由多个基因共同控制的性状。这些性状的变异有一系列102多基因遗传:一种遗传性状的表达受两对或两对以上基因的控制,各对基因彼此间没有显性隐性关系,每对基因对表型的效应都很小,各对基因的作用有积累效应。多基因遗传:一种遗传性状的表达受两对或两对以上基因的控制,各103多基因遗传的特征:1)纯合亲本->F1的表型一般是双亲的中间类型。2)F2个体的表型平均值大体上与F1相近,但变异幅度显著增加。3)含有环境效应。环境因子数目越大,变异越接近正态分布。4)当双亲不是极端类型时,其子女可分离出高于高亲值或低于低亲值的类型,称超亲遗传。多基因遗传的特征:1)纯合亲本->F1的表型一般是双亲的中间104基因频率(allelefrequency):人群中一个等位基因占该位点全部基因的比例基因型频率(allelefrequency):人群中特定基因型占该位点全部基因型的比例基因多态性(polymorphism):一个位点上等位基因频率中最大值不超过95%

基因频率(allelefrequency):人群中一个等位105孟德尔第一定律(独立分离):得到父母2等位基因之一的概率为1/2孟德尔第二定律(自由组合):不同染色体上的等位基因传递独立:P{→AB|AaBb}=P{→A|Aa}×P{→B|Bb}人类遗传统计基础—术语、概念、基础统计课件106哈代—温伯格平衡:无迁移、选择、突变,群体中的基因频率和基因型频率保持不变。

P(A)=p

,P(B)=q,

P(O)=r全部:(p+q+r)2(近交系数F一般<0.005)人类遗传统计基础—术语、概念、基础统计课件107遗传漂变:有限群体中,除迁移、选择和突变外,基因库中仅部分个体贡献下一代配子,这种因抽样产生的随

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论