QTL定位的原理和方法课件_第1页
QTL定位的原理和方法课件_第2页
QTL定位的原理和方法课件_第3页
QTL定位的原理和方法课件_第4页
QTL定位的原理和方法课件_第5页
已阅读5页,还剩249页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

01:5401:071QTL是什么?数量性状位点(QTL)是影响数量性状的一个染色体片段;QTL定位是确定数量性状基因在染色体上位置的一种方法;QTL和QTLs。01:54QTL是什么?数量性状位点(QTL)是影响数量性状的一个染色2为什么要定位它?它为了解个体数量性状基因之间的行为和交互作用等基础知识提供了一条路径,允许建立更加真实的表型变异、选择反应和进化过程模型;将标记信息综合到遗传评估中,辅助人工选择程序,主要方式有MAS和MAI;能进行基因的位置克隆,允许对当前存在的数量变异进行分子机制的研究,并通过直接的分子干预,进一步增加增效等位基因频率。01:54为什么要定位它?它为了解个体数量性状基因之间的行为和交互作用3QTL定位的基本原则QTL定位的基本原则是关联度量的遗传变异和表型变异;群体的选择、用于度量表型个体选择和基因型判型个体的选择是所有QTL定位设计要重点考虑的因素;对于所有的QTL定位设计,标记等位基因和QTL等位基因之间的LD是必须的。01:54QTL定位的基本原则QTL定位的基本原则是关联度量的遗传变异4QTL定位的关键01:54QTL定位的关键01:07501:5401:07601:5401:077第一节LA定位(连锁分析定位)01:54第一节LA定位(连锁分析定位)01:078linkageanalysisonlyconsidersthelinkagedisequilibriumthatexistswithinfamilies,whichcanextendfor10sofcM,andisbrokendownbyrecombinationafteronlyafewgenerations.SuchasBCandF2design01:54linkageanalysisonlyconsider9单标记分析01:54单标记分析01:0710

是总平均;和是加性和显性效应;是标记和QTL之间的重组率。

是给定个体标记位点基因型为Aa的条件下的QTL基因型Qq的条件概率;是标记和QTL基因型的联合概率;是标记基因型的边际概率。01:54是总平均;和是加性和显性效应;是标记11来自近交系的回交群体的标记和QTL概率

标记基因型之间的表型值平均差异:01:54来自近交系的回交群体的标记和QTL概率标记基因型之间的表型12单标记分析的缺点单标记使用标记平均值,不能获得QTL效应单独的估计值和QTL与标记的重组频率;因此,不能区分是一个大的QTL效应松散地与标记连锁,或是小效应紧密地与标记连锁。01:54单标记分析的缺点单标记使用标记平均值,不能获得QTL效应单独13区间定位LanderandBotstein(1989)提出使用所有连续的标记进行QTL定位的方法;该方法原则上能够区分QTL的效应和位置;该方法需要一张带有一定数目的遗传图谱,相邻标记间的距离是已知的。01:54区间定位LanderandBotstein(1989)14Haldane作图函数

为遗传距离();假设减数分裂期间的遗传物质交换沿着染色体是随机和独立发生的。01:54Haldane作图函数为遗传距离(15标记和QTL概率01:54标记和QTL概率01:0716数据分析

为具有QTL基因型的个体的性状记录;为具有QTL基因型的个体的期望效应(如或);为随机误差,并且,因此有:01:54数据分析为具有QTL基因型的个体的性状记17最大似然法分析前面回交例子的似然函数为:

为QTL位点的基因型;和为个体在标记位点A和B的基因型;为回交个体数。01:54最大似然法分析前面回交例子的似然函数为:为QTL位点18似然率检验(LRT):

为零假设没有分离QTL条件下的似然值;为有一个QTL分离条件下的似然值。LOD检验:01:54似然率检验(LRT):为零假设没有分离QT19最小二乘分析前面回交例子的最小二乘分析模型为:需要估计的参数:一种为两个QTL基因型的平均值;另外一种为总平均值和两个基因型之间的效应差;显著性检验:MSQ为拟合模型由QTL基因型解释的方差;RMS为拟合模型的残余均方。01:54最小二乘分析前面回交例子的最小二乘分析模型为:需要估计的参数20LS和ML的比较LS只使用了标记平均值信息,标记基因型组内的方差变异没有被使用;而ML使用了所有可能的信息,这包括标记基因型和性状分布。LS的计算比较简单易行,能够使用标准的软件(SAS)进行分析;而ML计算非常困难,需要专门的软件将其扩展到非常复杂的模型。01:54LS和ML的比较LS只使用了标记平均值信息,标记基因型组内的21似然率检验和F检验的比较:对一个QTL,如果残差呈正态分布,则LS和ML估计是相同的;对一般情形,关系变为:大部分QTL定位分析结果显示LS获得与ML极端近似的结果。01:54似然率检验和F检验的比较:01:0722基因组扫描区间定位的优势在于能对整个标记的基因组进行扫描;QTL定位是在整个基因组内进行,某一个区间内QTL基因型的条件概率根据侧翼标记信息进行计算,然后一个区间接着一个区间,使用最小二乘或最大似然法进行分析,同时每个区间的检验统计量(F-ratio或LRT)也被计算,具有最大检验统计量的位置就是QTL最可能存在的位置,而该位置的QTL效应就是最好的QTL估计效应。01:54基因组扫描区间定位的优势在于能对整个标记的基因组进行扫描;02301:5401:0724多次检测问题如果有许多独立的零假设被检验,而且事先知道所有的零假设都为真,则,至少出现一次假显著(falsepositive)的概率为01:54多次检测问题如果有许多独立的零假设被检验,而且事先知道所有的25伯努利校正01:54伯努利校正01:0726Permutationtest对表型和标记基因型数据进行随机重排,它消除了标记基因型和表型之间的关联;每次重排数据,都要重新在整个基因组中进行QTL定位分析;通过多次重排,可获得每次检验LRT统计量在没有QTL的零假设条件下的分布;01:54Permutationtest对表型和标记基因型数据进行随27Permutationtest的具体步骤:01:54Permutationtest的具体步骤:01:0728FDR(falsediscoveryrate)αisdeclaredFDR(suchas0.05)jisthelargestorderthatmetformula(1)misthenumberofmarker01:54FDR(falsediscoveryrate)αis29FDR(falsediscoveryrate)方法Sortpvaluesofallmarkerintervalbasedonascendingorder

01:54FDR(falsediscoveryrate)方法01:30LOD下降支撑区间(LODdropsupportinterval)如果某一特定位置检测到一个QTL,需要对QTL所在的位置执行检验;零假设是该QTL位于估计的峰值位置,备择假设为QTL位于距峰值距离为的位置,检验统计量为全QTL模型在峰值位置和距离峰值位置图距单位位置的似然函数的差值的两倍,当样本为大样本时,它近似呈自由度为1的分布;因此可以通过偏离峰值位置,使检验统计量降到一个给定的数值来对QTL位置置信区间进行检验。01:54LOD下降支撑区间(LODdropsupportint31例如:95%的QTL置信区间对应的检验统计量下降3.84;1LOD下降对应97%的QTL置信区间;2LOD下降对应99.8%的QTL置信区间;01:54例如:01:073201:5401:0733Bootstrap置信区间对于一个大小为的群体,抽取个带有覆盖性质的记录(有些记录被抽取多次,而有些记录没被抽取);分析并估计QTL位置;重复上面的1和2两个过程,如200次或更多;在分布的两尾去掉2.5%的极端的QTL位置估计值;剩余的95%表示置信区间的估计值。01:54Bootstrap置信区间对于一个大小为的群体,抽取34QTL位置估计的置信区间01:54QTL位置估计的置信区间01:0735预测置信区间置信区间的长度受样本大小、QTL效应和标记密度的影响,对一个高密度标记图谱,DarvasiandSoller(1997)给出了一个预测的近似95%的置信区间(单位cM):

为样本大小;和为标准的加性和显性效应(以基因型标准差为单位)。01:54预测置信区间置信区间的长度受样本大小、QTL效应和标记密度的36统计能力(Statisticalpower)01:54统计能力(Statisticalpower)01:0737为什么要计算检测能力?给定样本大小,计算能够检测到的QTL效应;给定QTL效应,估计检测到该QTL需要的群体大小;检测特定的QTL时,比较不同的群体设计。01:54为什么要计算检测能力?给定样本大小,计算能够检测到的QTL效38完全连锁标记统计能力的计算理论Ⅰ型错误():当零假设为真,拒绝零假设所犯错误的概率;Ⅱ型错误():当零假设为假,接受零假设所犯错误的概率;统计能力被定义为:01:54完全连锁标记统计能力的计算理论Ⅰ型错误():当零假设为39P(T)TCriticalvalueHAH0Statisticalerrors01:54P(T)TCriticalvalueHAH0Stati40RejectionofH0NonrejectionofH0H0trueHAtrueTypeIerroratrateTypeIIerroratrateSignificantresultNonsignificantresultSTATISTICSREALITYPOWER

=(1-)01:54RejectionofH0Nonrejectionof41ImpactofalphaP(T)TCriticalvalue01:54ImpactofalphaP(T)TCritical42Impactofeffectsize,NP(T)TCriticalvalue01:54Impactofeffectsize,NP(T)43影响检测能力的重要因素群体类型;样本大小;QTL效应;基因组大小;标记密度;显著性阈值;分析类型。01:54影响检测能力的重要因素群体类型;01:0744完全连锁标记统计能力的计算近交系杂交情形下的QTL定位检测能力计算基于单标记的t-检验和F-检验。01:54完全连锁标记统计能力的计算01:0745F2设计:BC设计:01:54F2设计:BC设计:01:0746对于合理的样本大小和小的QTL效应,要求的t值为:01:54对于合理的样本大小和小的QTL效应,要求的t值为:01:47SamplesizeBC6721284211601:54SamplesizeBC48BC和F2设计的合理样本大小之比为:BC比F2的基因组扫描所需的显著性阈值要低;BC:F2:BC比F2的可能要低。01:54BC和F2设计的合理样本大小之比为:BC比F2的基因组扫描所49考虑两种设计阈值的变化:01:54考虑两种设计阈值的变化:01:075001:5401:0751如果连锁不完全(),且使用单标记分析:如果连锁不完全(),且使用区间定位分析:01:54如果连锁不完全(),且使用单标记分析:如果连52为了增加QTL检测能力,可以增加判型的个体数目或标记密度;两者之间花费依赖于标记的成本与获得个体表型成本之间的比率。01:54为了增加QTL检测能力,可以增加判型的个体数目或标记密度;两53增加检测能力的方式增加样本大小;增加效应大小。后者可以通过选择一个具有丰富分离QTL的群体结构或样本;如后裔检验。01:54增加检测能力的方式增加样本大小;01:0754精细定位QTL的群体设计01:54精细定位QTL的群体设计01:0755FineMappingStrategiesGenomewide-basedstrategies:LargescaleBC,F2,halfsibs,etc.Recombinantinbredlines(RIL)AdvancedIntercrossLines(AIL) Locus-basedstrategies:SelectivephenotypingRecombinantprogenytestingIntervalspecificcongenicstrains(ISCS)Recombinantinbredsegregationtest(RIST)01:54FineMappingStrategiesGenomew56重组近交系(RecombinantinbredlinesRIL)重组近交系来源于F2群体的近交;RIL只需要被判型一次,却能很好地度量多个性状(clonalLines);RIL关键的特性是比F2发生更多的重组,数量性状通过使用系平均值能被准确度量;RIL只能定位加性QTL;RIL的产生慢而困难。01:54重组近交系(Recombinantinbredlines57深度杂交系(AdvancedintercrosslinesAIL)AIL开始于F2群体,杂交后裔继续杂交一定数目的世代(与RIL近似,但是远交,而不是近交);AIL是在F2群体QTL定位的基础上进一步提高QTL的定位精度;AIL的任何性状都能被度量,但基因型判型只着眼于感兴趣的区域;AIL的关键特性是在目标区域创造了附加的重组事件,类似于扩大了F2群体。01:54深度杂交系(Advancedintercrossline58Advancedintercrosslines(AIL)Semi-randomintercrossingPF1F2F3FtCI=CIF2/(t/2)01:54Advancedintercrosslines(AIL59AIL要保持一定的群体大小;AIL相对于F2使重组近似增加,置信区间为:AIL能定位几个QTL或多个QTL到1—5cM。01:54AIL要保持一定的群体大小;01:0760Locus-basedstrategies:

Selectivephenotyping(SPh)Theoreticalbasis:OnlyrecombinantsincreasemappingaccuracyforadetectedQTL.Procedure:

AlargeF2orBCpopulation,OnlyindividualsrecombinantataQTL-containingintervalaresubsequentlyphenotyped.01:54Locus-basedstrategies:

Selec61Requiresonly2generations

.Requiresverylargesamples

.01:54Requiresonly2generations.062SPh-ExperimentalresultsLesionsdensityPaigenetal.

BCSPh-BC01:54SPh-ExperimentalresultsLesi63重组后裔检验(Recombinantprogenytesting)01:54重组后裔检验(Recombinantprogenytes64RecombinantprogenytestingQTLMales,recombinantatanintervalofinterest,areprogenytestedtocheckwhichQTLallelewasretained.Requiresonly3generations.Efficientfordominanteffects

Requireslargesample

01:54RecombinantprogenytestingQTL65Interval-specificcongenicstrains

区间特异同源异基因品系01:54Interval-specificcongenicstr66Intervalspecificcongenicstrains(ISCS)QTLISCSareproducedbyaseriesofbackcrossesandintercrosses-

Requiresveryfewindividuals.Usefulfrofurtherstudies

-Complicatedandlengthydevelopmentprocess.

01:54Intervalspecificcongenicstr67Recombinantinbredsegregationtest(RIST)

P1

RIP2xx

F1,1

F1,2F2,1

F2,2QTL01:54Recombinantinbredsegregation68EachselectedRILisbackcrossedtoeachparentandthentheBC1isselfedandgrownoutforphenotypiingandgenotypingintheQTLregion.BecausetheQTLwaspreviouslymappedtothisregion,theBCtooneoftheparentswillsegregatewhiletheotherwillnot;thus,indicatingwhetherthegenecontrollingtheQTLisaboveorbelowthebreakpoint.TheoverlappingresultsofthevariousRILswillnarrowtheQTLinterval.-

Requiresonly2generations.Fewindividualsrequired;

-RequiresRILswithrecombinationsinregionofinterest.

01:54EachselectedRILisbackcross69RIST-ExperimentalresultsF21F22C57LAKRAKXL-16P=0.41D2MIT64D2MIT200P=0.02B.TaylorA.DarvasiObesityQTL01:54RIST-ExperimentalresultsF2170第二节特定结构的远交群体QTL定位01:54第二节特定结构的远交群体QTL定位01:0771近交和远交群体的差别远交群体也存在部分的近交;远交群体的主要特征是群体内部没有故意尽力让亲属之间进行配种而创造近交(随机交配);远交群体与近交群体的主要差别是远交群体内有遗传变异正在分离;远交群体QTL与标记的关联是特定家系的关联,而不是群体范围的关联;远交群体家系间存在附加的遗传方差。01:54近交和远交群体的差别远交群体也存在部分的近交;01:0772使用远交群体进行QTL定位的基本策略在存在差异的远交群体之间寻找QTL;在一个群体内寻找正在分离的QTL;具体策略为:使用遗传标记追踪从父母亲到后裔的遗传,在基因组的所有位置获得不同基因型可能的概率;在家系内关联表型数据和基因型概率数据。01:54使用远交群体进行QTL定位的基本策略在存在差异的远交群体之间73远交系杂交01:54远交系杂交01:0774远交系杂交与F2情形比较类似,但现在是两个经济性状存在差异的远交系或品种进行异型杂交;所有三代,包括祖代、F1和F2在多个标记位点都要进行标记基因型判型,但只有F2个体获得表型;F2个体的QTL基因型(QQ、Qq、qQ和qq)的两个等位基因不能区分那一个来自父亲,那一个来自母亲;在远交群体杂交,要考虑加性效应、显性效应和父母亲来源效应(印记效应)。01:54远交系杂交与F2情形比较类似,但现在是两个经济性状存在差异的75半同胞群体01:54半同胞群体01:0776家畜群体存在很大的半同胞家系;半同胞家系QTL定位的原则是关联半同胞后裔的表型和它们遗传自共同祖先的等位基因的概率;父母亲和半同胞后裔都要判定基因型,只有后裔度量表型。01:54家畜群体存在很大的半同胞家系;01:0777单个半同胞家系单标记对于单个半同胞家系,唯一的要求就是共同祖先在一个标记位点是杂合子;因此,能看到后代在一个位点的两个等位基因的表型值平均差异;该差异能使用t检验进行显著性检验;单标记的单个半同胞家系类似于BC设计。01:54单个半同胞家系单标记01:0778多标记多标记条件下,共同父母亲标记之间的连锁相未知;需要重新构建父母亲的“单倍型”;根据父母亲的配子和后代的基因型,获得最可能的父母亲“单倍型”;参考BC的计算方法,在父母亲“单倍型”已知的条件下计算每个HS后裔遗传自父母亲某一个配子的条件概率;表型对估计的条件概率进行回归获得QTL等位基因之间的差异,利用t检验进行差异显著性检验。01:54多标记01:0779公畜单倍型重构确定每个HS后代的信息标记,即确定公共父母亲的那些标记是杂合的,且等位基因的传递是清楚的;考虑某一个公共父母亲的那一些相邻标记对是杂合的;计算出两个相邻位点等位基因能确定遗传自公共父母亲的后代数目;利用期望最大法(EM)在最小化重组数目的基础上建立标记位点的连锁相01:54公畜单倍型重构确定每个HS后代的信息标记,即确定公共父母亲的80多个半同胞家系对上面四个父母亲的后代进行标记对比分析将不会检测到QTL,因为M和m的差异为零,所以应该考虑家系内的嵌套分析。01:54多个半同胞家系对上面四个父母亲的后代进行标记对比分析将不会检81单标记对于单标记的多个家系,可以使用嵌套的ANOVA,考虑嵌套在家系内的标记效应:01:54单标记01:0782孙女设计(Granddaughterdesign

GDD)Welleretal.(1990)介绍了在半同胞家系中一个孙女设计被应用来进行QTL定位;该设计要求公畜、儿子和女儿的三代系谱,公畜和儿子被判定基因型,孙女获得表型;利用在某一位点遗传了公畜两个可选等位基因的儿子的女儿的表型平均值来比较定位QTL。GDD的优势在于获得相同检测能力的条件下比较少的个体需要被判定基因型;GDD比较容易收集数据,因为公牛的AI体系。01:54孙女设计(Granddaughterdesign

GDD)83该分析通常采用儿子的女儿离差(daughteryielddeviationsDYD)来进行;因此能使用女儿设计模型应用ANOVA和回归进行分析;儿子女儿数目如果变化很大,这时需要对DYD进行加权。01:54该分析通常采用儿子的女儿离差(daughteryield84NCPforthedaughterdesignas:NCPforthegranddaughterdesignas:OncetheNCPparametersiscalculated,powerisderivedastheprobabilitythatanon-centralvariateexceedsthethresholdfromacentraldistribution.GDDisgenerallymuchmorepowerfulthanadaughterdesign01:54NCPforthedaughterdesignas85全同胞家系单个或多个大的全同胞家系在绝大部分物种内都是不可能的,但检测到QTL的能力很强。可能的原因有;全同胞家系存在两个标记差异,一个是父亲,另一个是母亲;全同胞相对于半同胞,期望的标记差异包含加性和显性方差;01:54全同胞家系单个或多个大的全同胞家系在绝大部分物种内都是不可能86同胞对和核心家系(配对设计)大部分物种都不大可能获得大的全同胞或半同胞家系;怎样在那样的群体内定位QTL呢?一种设计是收集没有亲缘关系的同胞对或核心家系;这时要将QTL效应作为随机效应,在同胞对之间关联类似的表型和它们类似的等位基因。01:54同胞对和核心家系(配对设计)大部分物种都不大可能获得大的全同8701:5401:0788第三节方差组分QTL定位01:54第三节方差组分QTL定位01:0789模型和检验统计量AnexampleofalinearmixedmodelforasingleQTLanalysisis:01:54模型和检验统计量Anexampleofalinear90Variancecomponentscanbeestimatedusingmaximumlikelihoodorrestrictedmaximumlikelihood(REML),Thelog-likelihoodfunctionis:Theassumedmeanandvariancestructureoftheobservations:QistheIBDmatrix:01:54Variancecomponentscanbeest91Thedistributionoftheteststatisticsare,asymptotically,amixtureofzero(withprobability½)andawith1degreeoffreedom(alsowithprobabilityof½).01:54Thedistributionofthetests92Theadvantageofthislikelihood-basedapproach.ThefullmaximumlikelihoodapproachsimultaneouslyestimatestheIBDprobabilitiesandthevariancecomponents,inacombinedsegregationanalysisandlinkageanalysisframework.“distributionmethod”“expectationmethod”01:54Theadvantageofthislikeliho93SowhyisQTLmappingingeneralpedigreesnotusedmorefrequently,inparticularinlarge,deeppedigrees?IBDestimationinlargepedigrees.theunavailabilityof(user-friendly)softwareforthevariancecomponentestimationpartoftheanalysis.afinitebudget.theunavailabilityofDNAsamplesfrommostancestors01:54SowhyisQTLmappingingener94IBD估计01:54IBD估计01:0795PerfectmarkerAsinthecaseofsibpairs,IBDsharingusingafullyinformativemarkerisstraightforward,becausewecansimplycountthenumberofallelesthattworelativessharebydescent.Atalocationlinkedtoaperfectmarker,IBDprobabilitiescanbecalculatedfromtheobservedIBDprobabilityatthemarker,theaveragerelationshipbetweenindividuals,andtherecombinationratebetweenthemarkerandputativeQTLposition.01:54PerfectmarkerAsinthecaseo96Thegeneralcase:missingdataandnon-informativemarkersThemarkerinformationincomplexpedigreesisoftenincomplete.Unknownlinkagephases,non-informativemarkersand/ormissingmarkergenotypescomplicatethecalculationofQ.ThecalculationmethodsofQare:recursivealgorithms,correlationbasedalgorithmssimulationbasedalgorithms.01:54Thegeneralcase:missingdata97ImplementationinLokiThemultiple-sitesegregationsamplerinLokiisacleverlydesignedGibbssamplerwith‘batchupdating’.

istheprobabilityofthesegregationindicatorsacrossnlociattheithsegregationconditionalonallothersegregationindicatorsandobservedmarkerdata.01:54ImplementationinLokiThemult98AtwostepstrategytosampleThefirststepinvolvesmovingthroughthegenome,calculatinglocusbylocus,cumulativeprobabilitiesforSij.thesecondstepinvolvesmovingbackdownthegenome,samplingSij

fromaunivariatedensitythatisafunctionoftheassociatedcumulativeprobability,theprevioussampledsegregationindicator(Sij+1)andtherecombinationratebetweenlocijandj+1.01:54Atwostepstrategytosample99IntroductiontoLokiLokiwasoriginallydesignedformultipointlinkageanalysisingeneralpedigreesusingMCMCmethods.Then,ithassincebeenmodifiedforIBDprobabilitycalculation.TheusersuppliesLokiwiththepedigreestructure,markergenotypes,markerpositionsandQTLpositionsforwhichtheIBDmatricesaretobecalculated.DependentchainsofIBDprobabilitiesarethenobtainedforeachQTLposition.ConvergenceisdeterminedbymonitoringtheIBDprobabilitiesovertheiterationnumber.Oncetheprobabilitiesstabilize,thesamplerisdeemedtohavereachedconvergence.01:54IntroductiontoLoki01100VariancecomponentestimationAfterhavingcalculatedIBDprobabilities,therearetwodifficultiesinestimatingvariancecomponentsbyML(REML).Firstly,theIBDmatrixisacompletelygeneralsymmetricalmatrixanddoesnothaveanobviousinverse.Secondly,theIBDmatrixislikelytobesingular.01:54VariancecomponentestimationA101whytheIBDmatricesareoftensingular?Thereasonisthattworelatedrelativescanshare0or100%oftheirallelesIBD,whichcancauseadependencyinthematrixofIBDprobabilities.ThegenotypesoftheparentsareM1M2andM3M4.IftheprogenyhavegenotypesM1M3andM2M4(a),orM1M3andM1M3(b),thentheresultingIBDmatrixis:ab01:54whytheIBDmatricesareoften102IfthemaximisationalgorithmisbaseduponthecompletematrixV(orV-1),thenthereshouldnotbeaproblem.IfthemaximisationisbaseduponanalgorithmthatrequiresQ-1,thenusinggenomicpositionswhichareslightlydistantfromthemarkerswillgiveapositive-definiteQ,01:54Ifthemaximisationalgorithm103ImplementationexampleVisscheretal.(1999)usedthecombinationofanMCMCsamplingapproachandREMLvariancecomponentestimationtomapaQTLforbipolardisorder(manicdepression)inahumanpedigree.Thepedigreesizewas168,over4generations,and143individualshadaphenotypicscore.Theincidenceofmajorrecurrentdepression(unipolardisorder)andbipolardisorderwas17/143and11/143.Asmallsegmentofchromosome4wasconsideredbecausethisregionhadpreviouslyshownlinkagetobipolardisorderusingaparametriclinkageanalysis,and11microsatellitemarkerswerescoredspanning26cM.01:54ImplementationexampleVisscher104IBDprobabilitieswereestimatedusingLoki,using10,000samples.REMLwasusedtoestimate81variancecomponents,withanalgorithmbaseduponthecomplete(co)variancematrixV,toavoidtheproblemofsingularIBDmatrices.01:54IBDprobabilitieswereestimat10501:5401:07106第四节LD(连锁不平衡)定位01:54第四节LD(连锁不平衡)定位01:07107WhatisLD?Linkagedisequilibriumisameasureofassociationbetweenallelesatdifferentloci.Supposewehavetwobi-allelicloci,AandB,withallelefrequenciespA1

andpA2,andpB1andpB2,respectively.LE:LD:01:54WhatisLD?Linkagedisequilibr108MeasuresofLDforsingle-allelicmarkerFalconerandMackay,1996;LynchandWalsh1998forbi-allelicloci:01:54MeasuresofLDforsingle-alle109whenD>0,thesmallerofpA1pB2

andpA2pB1.whenD<0,thesmallerofpA1pB1

andpA2pB2.AnothermeasureofLDis:rangesfrom-1to+1,whereasrangesfrom0to1.Wheneveroneofthefourhaplotypefrequenciesiszero,=1.01:54whenD>0,thesmallerofpA1pB110Forbi-allelicmarkers,anotherusefulmeasureis(HillandRobertson,1968):Nr2

istheteststatisticforindependenceascalculatedfroma2x2contingencytable.AstatisticaltestofLDusingther2

statisticisthereforestraightforward.01:54Forbi-allelicmarkers,anothe111MeasuresofLDformulti-allelicmarkerHedrick,1987:01:54MeasuresofLDformulti-allel112kandlarethenumberofallelesatlocusAandB.

pAi

andpBj

arethepopulationallelefrequenciesofalleleiatlocusAandallelejatlocusB.|D’ij|istheabsolutevalueofthenormalisedmeasure.pAiBjistheestimatedpopulationfrequencyofthehaplotypeAiBjDijmax

isthemaximumamountofdisequilibriumpossiblebetweenalleleiatlocusAandallelejatlocusB.Thecorrespondingmulti-allelicmeasureofthesquaredcorrelationis:01:54kandlarethenumberofalle113linkagedisequilibriumvs.

gameticphasedisequilibriumThetermlinkagedisequilibriumappearstoimplythatthelocihavetobelinked.However,thisisnotthecase,becauseanassociationbetweenallelescanexisteveniftheallelesareunlinked.twopopulationswithunequalfrequenciesaremixed.Non-randommating.thecaseofanF1population.SelectionAbettertermforLDis‘gameticphasedisequilibrium’,whichisusedintextbookssuchasFalconerandMackay(1996)andLynchandWalsh(1998)01:54linkagedisequilibriumvs.

ga114D’orr2?Hedrick(1987)statedthatagoodmeasureofdisequilibriumshouldhavethefollowingproperties:Asimplebiologicalinterpretation.Statisticaltestsshouldbepossible.Bedirectlyrelatedmathematicallytoevolutionaryfactorssuchasrecombination,selection,geneticdrift,geneflowetcBestandardisedtoallowcomparisonsacrosslociorpopulations01:54D’orr2?Hedrick(1987)stated115DynamicsofLDThereareanumberofevolutionaryforcesthatcreateLD,includingmutation,admixture(crossbreeding),geneticdrift,inbreeding,foundereffectsandselection.ThemainforcethatdestroysLDisrecombination.01:54DynamicsofLDThereareanumb11601:5401:08117LDmappingmappingrequiresamarkertobeinLDwithaQTLacrosstheentirepopulation.Tobeapropertyofthewholepopulation,theassociationmusthavepersistedforaconsiderablenumberofgenerations,sothemarker(s)andQTLmustthereforebecloselylinked.01:54LDmappingmappingrequiresam11801:5401:08119ThedifferencebetweenLinkageandLDanalysis:linkageanalysisusesLDwithinfamilieswhereasLDanalysisusesLDinthewholepopulation.Inlinkagestudies,informationisobservedonallelessharedbydescent(IBD),whereasinLDmappingstudies,intheabsenceofknownpedigreeinformation,wecanonlyobserveallelessharedbystate(IBS).Forlinkageanalysiswehaveobservedrecombinationeventsandrealisedgenomicrelationshipsbetweenindividualsinthepedigree,whereasforLDanalysistherecombinationsoccurredintherecentordistantpastandwearetryingtoinferthemfromdata.01:54ThedifferencebetweenLinkage120GenomewideassociationtestsusingsinglemarkerregressionItissuitableforarandommatingpopulationwithnopopulationstructure01:54Genomewideassociationtests121singlemarkerregressionwithconsideringpopulationstructure01:54singlemarkerregressionwith122Genomewideassociationusinghaplotypes01:54Genomewideassociationusing123IBDLDmapping01:54IBDLDmapping01:08124CombinedLD-LAmappingAuthorsinvestigatingtheextentofLDinbothcattleandsheepweresomewhatsurprised/alarmedtofindnotonlywasLDhighlyvariableacrossanyparticularchromosome,buttherewasevensignificantLDbetweenmarkerswhichwerenotevenonthesamechromosome!01:54CombinedLD-LAmappingAuthors125CombiningmethodIfthecommonancestoroccurswithintheknownpedi-gree,thenIBDprobabilitycanbecalculatedfromthemarkersbylinkageanalysis(LA)Ifthecommonances-torisoutsidetheknownpedigreeitisasourceofLD.InthiscasetheprobabilitythattheQTLallelesareIBDiscalculatedfromthesimilaritybetweenthemarkerhaplotypes,i.e.,whichmarkeralleleshavebothhaplo-typesincommon01:54CombiningmethodIfthecommon12601:5401:0812701:5401:07128QTL是什么?数量性状位点(QTL)是影响数量性状的一个染色体片段;QTL定位是确定数量性状基因在染色体上位置的一种方法;QTL和QTLs。01:54QTL是什么?数量性状位点(QTL)是影响数量性状的一个染色129为什么要定位它?它为了解个体数量性状基因之间的行为和交互作用等基础知识提供了一条路径,允许建立更加真实的表型变异、选择反应和进化过程模型;将标记信息综合到遗传评估中,辅助人工选择程序,主要方式有MAS和MAI;能进行基因的位置克隆,允许对当前存在的数量变异进行分子机制的研究,并通过直接的分子干预,进一步增加增效等位基因频率。01:54为什么要定位它?它为了解个体数量性状基因之间的行为和交互作用130QTL定位的基本原则QTL定位的基本原则是关联度量的遗传变异和表型变异;群体的选择、用于度量表型个体选择和基因型判型个体的选择是所有QTL定位设计要重点考虑的因素;对于所有的QTL定位设计,标记等位基因和QTL等位基因之间的LD是必须的。01:54QTL定位的基本原则QTL定位的基本原则是关联度量的遗传变异131QTL定位的关键01:54QTL定位的关键01:0713201:5401:0713301:5401:07134第一节LA定位(连锁分析定位)01:54第一节LA定位(连锁分析定位)01:07135linkageanalysisonlyconsidersthelinkagedisequilibriumthatexistswithinfamilies,whichcanextendfor10sofcM,andisbrokendownbyrecombinationafteronlyafewgenerations.SuchasBCandF2design01:54linkageanalysisonlyconsider136单标记分析01:54单标记分析01:07137

是总平均;和是加性和显性效应;是标记和QTL之间的重组率。

是给定个体标记位点基因型为Aa的条件下的QTL基因型Qq的条件概率;是标记和QTL基因型的联合概率;是标记基因型的边际概率。01:54是总平均;和是加性和显性效应;是标记138来自近交系的回交群体的标记和QTL概率

标记基因型之间的表型值平均差异:01:54来自近交系的回交群体的标记和QTL概率标记基因型之间的表型139单标记分析的缺点单标记使用标记平均值,不能获得QTL效应单独的估计值和QTL与标记的重组频率;因此,不能区分是一个大的QTL效应松散地与标记连锁,或是小效应紧密地与标记连锁。01:54单标记分析的缺点单标记使用标记平均值,不能获得QTL效应单独140区间定位LanderandBotstein(1989)提出使用所有连续的标记进行QTL定位的方法;该方法原则上能够区分QTL的效应和位置;该方法需要一张带有一定数目的遗传图谱,相邻标记间的距离是已知的。01:54区间定位LanderandBotstein(1989)141Haldane作图函数

为遗传距离();假设减数分裂期间的遗传物质交换沿着染色体是随机和独立发生的。01:54Haldane作图函数为遗传距离(142标记和QTL概率01:54标记和QTL概率01:07143数据分析

为具有QTL基因型的个体的性状记录;为具有QTL基因型的个体的期望效应(如或);为随机误差,并且,因此有:01:54数据分析为具有QTL基因型的个体的性状记144最大似然法分析前面回交例子的似然函数为:

为QTL位点的基因型;和为个体在标记位点A和B的基因型;为回交个体数。01:54最大似然法分析前面回交例子的似然函数为:为QTL位点145似然率检验(LRT):

为零假设没有分离QTL条件下的似然值;为有一个QTL分离条件下的似然值。LOD检验:01:54似然率检验(LRT):为零假设没有分离QT146最小二乘分析前面回交例子的最小二乘分析模型为:需要估计的参数:一种为两个QTL基因型的平均值;另外一种为总平均值和两个基因型之间的效应差;显著性检验:MSQ为拟合模型由QTL基因型解释的方差;RMS为拟合模型的残余均方。01:54最小二乘分析前面回交例子的最小二乘分析模型为:需要估计的参数147LS和ML的比较LS只使用了标记平均值信息,标记基因型组内的方差变异没有被使用;而ML使用了所有可能的信息,这包括标记基因型和性状分布。LS的计算比较简单易行,能够使用标准的软件(SAS)进行分析;而ML计算非常困难,需要专门的软件将其扩展到非常复杂的模型。01:54LS和ML的比较LS只使用了标记平均值信息,标记基因型组内的148似然率检验和F检验的比较:对一个QTL,如果残差呈正态分布,则LS和ML估计是相同的;对一般情形,关系变为:大部分QTL定位分析结果显示LS获得与ML极端近似的结果。01:54似然率检验和F检验的比较:01:07149基因组扫描区间定位的优势在于能对整个标记的基因组进行扫描;QTL定位是在整个基因组内进行,某一个区间内QTL基因型的条件概率根据侧翼标记信息进行计算,然后一个区间接着一个区间,使用最小二乘或最大似然法进行分析,同时每个区间的检验统计量(F-ratio或LRT)也被计算,具有最大检验统计量的位置就是QTL最可能存在的位置,而该位置的QTL效应就是最好的QTL估计效应。01:54基因组扫描区间定位的优势在于能对整个标记的基因组进行扫描;015001:5401:07151多次检测问题如果有许多独立的零假设被检验,而且事先知道所有的零假设都为真,则,至少出现一次假显著(falsepositive)的概率为01:54多次检测问题如果有许多独立的零假设被检验,而且事先知道所有的152伯努利校正01:54伯努利校正01:07153Permutationtest对表型和标记基因型数据进行随机重排,它消除了标记基因型和表型之间的关联;每次重排数据,都要重新在整个基因组中进行QTL定位分析;通过多次重排,可获得每次检验LRT统计量在没有QTL的零假设条件下的分布;01:54Permutationtest对表型和标记基因型数据进行随154Permutationtest的具体步骤:01:54Permutationtest的具体步骤:01:07155FDR(falsediscoveryrate)αisdeclaredFDR(suchas0.05)jisthelargestorderthatmetformula(1)misthenumberofmarker01:54FDR(falsediscoveryrate)αis156FDR(falsediscoveryrate)方法Sortpvaluesofallmarkerintervalbasedonascendingorder

01:54FDR(falsediscoveryrate)方法01:157LOD下降支撑区间(LODdropsupportinterval)如果某一特定位置检测到一个QTL,需要对QTL所在的位置执行检验;零假设是该QTL位于估计的峰值位置,备择假设为QTL位于距峰值距离为的位置,检验统计量为全QTL模型在峰值位置和距离峰值位置图距单位位置的似然函数的差值的两倍,当样本为大样本时,它近似呈自由度为1的分布;因此可以通过偏离峰值位置,使检验统计量降到一个给定的数值来对QTL位置置信区间进行检验。01:54LOD下降支撑区间(LODdropsupportint158例如:95%的QTL置信区间对应的检验统计量下降3.84;1LOD下降对应97%的QTL置信区间;2LOD下降对应99.8%的QTL置信区间;01:54例如:01:0715901:5401:07160Bootstrap置信区间对于一个大小为的群体,抽取个带有覆盖性质的记录(有些记录被抽取多次,而有些记录没被抽取);分析并估计QTL位置;重复上面的1和2两个过程,如200次或更多;在分布的两尾去掉2.5%的极端的QTL位置估计值;剩余的95%表示置信区间的估计值。01:54Bootstrap置信区间对于一个大小为的群体,抽取161QTL位置估计的置信区间01:54QTL位置估计的置信区间01:07162预测置信区间置信区间的长度受样本大小、QTL效应和标记密度的影响,对一个高密度标记图谱,DarvasiandSoller(199

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论