核酸结构和功能预测学习资料_第1页
核酸结构和功能预测学习资料_第2页
核酸结构和功能预测学习资料_第3页
核酸结构和功能预测学习资料_第4页
核酸结构和功能预测学习资料_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

核酸结构和功能预测Strutureandfunctionpredictionofnucleicacids李琬生物物理教研室分子生物学馆212liwan@教学大纲掌握:RNA二级结构表示方法,最大碱基配对数方法了解:DNA结构预测结构预测(structureprediction)序列

二级结构、三级结构模型比较

三级结构DNA结构预测RNA结构预测RNA功能预测△※两条完全互补配对的链形成双螺旋(doublehelix)DNA结构预测没有形成双螺旋考虑“怎样的配对能量最低”这样的二级结构预测问题,只需考虑A-T和C-G这两种配对。DNA结构预测比较简单预测的准确性较高DNA的基本功能以基因的形式荷载遗传信息,通过精准的复制,将遗传信息传递给下一代;转录成RNA,进而翻译成蛋白质,通过蛋白质实现生命的结构和功能;在复制过程中有概率发生突变,为生物进化提供了分子基础。RNA结构预测二级结构预测三级结构预测△※RNA二级结构预测(secondarystructureprediction)RNA二级结构序列通过自身回折形成碱基配对的茎(stem)以及不配对的环(loop),包括发卡环(hairpin)、膨胀环(bulge)、内环(internal)等等。稳定△※(1)RNA二级结构表示方法(2)最大碱基配对数方法(3)最小自由能模型(4)序列比较分析方法(5)统计学习模型(6)基于局部结构交互的RNA假结预测(7)常用预测工具(1)RNA二级结构表示方法常规图(Conventional)比较直观的展示RNA的二级结构可以比较明了的观察各个螺旋区与非螺旋区的结构。是目前应用最为广泛的图形法之一点括号图(String)用一对圆括号表示碱基的配对关系或嵌套关系。山峰表示法(Mountainplot)把RNA序列排列成一条线作为最底层从两端开始,每遇到一对配对碱基就在线的上方画一条直线把这两个碱基连接起来一条条直线层叠起来且向中间缩短靠拢,就像一座座山峰。点阵图(Dotplot)把RNA序列同时作为横坐标和纵坐标满足碱基配对的就在相应的坐标上画一个点45°斜对角连成一条直线的可以构成一段螺旋区。圆形图(Circle)把RNA序列弯成一个圆形,将配对的碱基用圆弧或者直线连接起来。连线图(Linkeddiagram)将RNA序列连成一条线作为最低层将配对的碱基用弧线连接起来。GGGAAAUCC.(((..)))AGGUAGGUCCUGU(((.....)))..(((.(..))))......(((.)))..螺旋的稳定性取决于螺旋的长度、其中的错配或膨胀环的个数(较少可以,特别是在长螺旋中)、配对区碱基对的组成。G-C(3个氢键)比A-U(2个氢键)更稳定包含少于三个碱基的环是空间上不能够存在的,没有二级结构的大环也是不稳定的。环的最佳长度是4~8个碱基。一个给定的RNA序列可能出现很多茎区,其中只有部分茎区是真实的。在所有可能出现的茎区的集合中排除冗余茎区,找出真实茎区组成的子集就是RNA二级结构预测的主要内容。(2)最大碱基配对数方法假设具有最大数目的碱基对的结构是正确的结构。主要思想动态规划:先定出一小段序列的最好二级结构,再用相同的法则将序列扩展,找到相应的最好二级结构;不断进行,直到全长序列。在更短序列的最好二级结构基础上获得序列i到j的最好二级结构,有4种可能的途径:向结构两端各延伸一个残基并判断它们能否配对;向5’端延伸一个不配对的残基;向3’端延伸一个不配对的残基;将已存在最好二级结构的两段合并起来。具体算法将一段长度为L的RNA序列记为b1,b2,……,bi,……,bj,……,bL1当bi和bj为互补碱基对时定义δ(i,j)=0当bi和bj非互补碱基对时记从bi到bj所构成的子序列所能形成的最大碱基对数目为γ(i,j)初始化γ(i,j)=0,j≤i+1jGGGAAAUCCiGGGAAAUCC00000000000000000000000000000000000000000000000000000递归计算从所有长度为2的子序列开始,一直到长度为L

γ(i+1,j-1)+δ(i,j)

γ(i+1,j)γ(i,j)=max

γ(i,j-1)maxi<k<j[γ(i,k)+γ(k+1,j)]jGGGAAAUCCiGGGAAAUCC00000000000000000000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC000000000000000000000000100000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC000000000000000000000100000011000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC00000000000000000100000011000000111000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC000000000000100000012000000111000000111000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC000000100000012000000122000000111000000111000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC00000012000000123000000122000000111000000111000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC000000123000000123000000122000000111000000111000000000000000000000000000000000000jGGGAAAUCCiGGGAAAUCC能形成碱基对的最大数目000000123000000123000000122000000111000000111000000000000000000000000000000000000回溯过程从右上角(1,L)开始如果γ(i+1,j-1)+δ(i,j)=γ(i,j),记录(i,j)jGGGAAAUCCiGGGAAAUCC000000123000000123000000122000000111000000111000000000000000000000000000000000000AGGUAGGUCCUGUj

AGGUAGGUCCUGUiAGGUAGGUCCUGU0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000j

AGGUAGGUCCUGUiAGGUAGGUCCUGU0001111223444000000012333300000001223330000000112333000000011233300000000122220000000011122000000000001100000000000110000000000011000000000000000000000000000000000000000缺点假设前提过于简单,预测准确性较低。回溯的线路经常不是唯一的,所以结构也是不唯一的,其中有些显然是不可能的。这种方法无法考虑“假结”(pseudoknot)的情况。假结当RNA序列中两个碱基配对i·j和d·e满足i<d<J<e非嵌套特性时形成的结构。教学大纲掌握:最小自由能模型,常用RNA二级结构预测工具了解:序列比较分析方法,统计学习模型,基于局部结构交互的RNA假结预测,CGmodel,Vfoldmodel,3dRNA,ASSEMBLE,其他RNA三级结构预测方法,在线预测工具,miRNA,lncRNA功能预测(3)最小自由能(minimumfreeenergy)模型当没有任何先验知识,只给定了RNA的一级序列时,预测RNA的二级结构一般采用最小自由能模型。在一定温度下,RNA分子通过构象调整达到某种热力学平衡,使之自由能达到最小,形成最稳定的状态,此时的二级结构即被认为是RNA的真实二级结构。一般茎区的自由能为负值,环区自由能为正,茎区越长其自由能越小。可以近似的认为,配对的碱基使自由能降低,没有形成配对的碱基使自由能升高。假设这些基本结构单元的自由能具有可加性和相对独立性一个二级结构的自由能是组成它的各基本结构单元的自由能之和且这些自由能之间是互不影响互不关联的根据公式算出总体能量全局最小值。针对各种不同的RNA基本结构单元并根据不同碱基组成,分别用实验方法测出它们的自由能,建立起一张完整的自由能参数表。为了在合理的时间内获得结果,搜索最小自由能结构时会用到最近邻假设,即碱基对的能量只依赖它的前面和后面的碱基或碱基对。获得最小自由能结构最简单的方法是列出所有可能的结构,分别计算其自由能。可能结构的数量随序列长度的增加呈指数递增需结合动态规划算法降低搜索复杂度动态规划算法(dynamicprogrammingalgorithm)短序列片段:计算其最低自由能。较长的序列:由短序列递归得到其最低自由能。一旦完整序列的最低自由能确定,可确定RNA分子的二级结构。将一段长度为L的RNA序列记为b1,b2,……,bi,……,bj,……,bL初始化i=1toL-3E(i,i+1)=0;E(i,i+2)=0;E(i,i+3)=0递归计算从子序列开始,一直到长度为L

E(i+1,j-1)+α(i,j)E(i+1,j)E(i,j)=minE(i,j-1)mini<k<j[E(i,k)+E(k+1,j)]动态规划算法不仅能找到自由能最低的“最优”结构,还可以根据需要返回自由能较低的“次优结构”。允许人为加入一些限制条件,把不合理的结构排除在搜索范围之外。基于矩阵运算的动态规划算法以结构的能量大小作为评分标准,比较RNA分子中所有可能的配对碱基及其能量值,直到所有的核酸都被比较过后,利用记分矩阵预测出所有可能结构并发现出最合适的能量。自由能最小的RNA二级结构即近似真实二级结构。基于茎环(stem-loop)组合的优化算法RNA二级结构就是一连串茎环串联而成的组合根据不同的茎环能量,找出总自由能最小的茎环组合,也就找到了稳定的RNA二级结构。茎环最优堆积算法给定一条序列,列出其中所有可能的茎环。根据中心极限定理,用MonteCarlo随机试验的方法估计每一茎环的出现概率。在每一步迭代中挑选茎环列表中概率较大、自由能最小的那一个加到当前结构上并消除产生冲突的情况,直到再也没有茎环可加了。当前结构就作为RNA序列的二级结构。基于遗传算法(geneticalgorithm)的进化算法(evolutionaryalgorithm)模拟生物的进化原理,在一个种群数量庞大的样本空间中,自适应地利用选择、交叉、变异等手段对样本空间进行筛选,优化,最终依据筛选规则找出最优解。在对RNA二级结构的预测中,面对数量庞大的碱基对组合方式,可以根据其能量规则,利用进化算法找出自由能最小的结构。缺点该类算法的整个运行过程是一个自适应过程,因此随意性比较大,结果容易出现局部最优解,导致运行结果不易控制。(4)序列比较分析方法(sequencecomparativeanalysismethod)重要的RNA结构会在进化中体现出保守性在结构保守的位置,配对碱基的序列突变会呈现出相关性。在不影响配对的情况下同时发生突变主要思想在已知结构的序列数据库中搜寻与被考察序列相似的序列,通过与已知结构的序列进行多条序列互补碱基的共变比对来推断未知序列的二级结构。优势直接反映出RNA在细胞中的结构状态需要额外提供同源序列作为输入,不仅对同源序列之间的相似程度要求较高,而且比对的好坏直接影响预测的结果。先比对后折叠:使用多重序列比对工具获得几个RNA序列的比对,发现同源序列,将其折叠。使用最小自由能算法,可以有效地对同源序列进行结构预测。速度快RNAalifoldhttp://rna.tbi.univie.ac.at/cgi-bin/RNAalifold.cgi边折叠边比对:通过迭代,利用同源序列不断修正碱基配对概率。多条同源序列中的每条序列在每次迭代时都计算了一次碱基配对概率,其他序列的配对概率会对当前序列配分函数的计算进行修正。优势不要求每条同源序列的结构都严格保守,同源序列的选取更加灵活。TurboFold(RNAstructure)先折叠后比对(5)统计学习模型从已知的结构进行学习,进行结构预测。假设RNA折叠服从热力学规律通过数据集对热力学参数进行重新估计。假设RNA折叠不服从热力学规律认为真实结构来自概率模型的一个采样,通过最大化似然函数估计模型参数。(6)基于局部结构交互的RNA假结预测给定的RNA序列不含假结的能量最优结构G假结茎区在已得到的最优结构基础上构建含假结的能量计算模型含假结的RNA二级结构G’能量计算局部结构交互配对优化算法将结构G中不同片段按发夹单链及非发夹单链分别存放到单链区库SS_hair及SS_other中。以SS_hair为基准,分别与SS_hair中其他发夹单链及SS_other中的单链匹配,如果形成了假结茎区,则存于一个假结茎区库H中。茎区调整具有高能量的碱基对部分打开或全部打开,打开的碱基参与假结茎区H的形成茎区库H中存储的是在结构G的基础上经调整或未经调整而形成的所有可能的假结茎区。通过建立的含假结结构的能量计算模型对茎区库H中所有假结进行计算筛选,直到所有茎区被计算完毕,保留能量最优的假结结构,输出结果。(7)常用预测工具NameDescriptionLinksCentroidFoldSecondarystructurepredictionbasedongeneralizedcentroidestimatorwebserverCentroidHomfoldSecondarystructurepredictionbyusinghomologoussequenceinformationwebserverContextFoldAnRNAsecondarystructurepredictionsoftwarebasedonfeature-richtrainedscoringmodels.webserverCONTRAfoldSecondarystructurepredictionmethodbasedonconditionallog-linearmodels(CLLMs),aflexibleclassofprobabilisticmodelswhichgeneralizeupon

SCFGs

byusingdiscriminativetrainingand

feature-rich

scoring.webserverCyloFoldSecondarystructurepredictionmethodbasedonplacementofhelicesallowingcomplexpseudoknots.webserverKineFoldFoldingkineticsofRNAsequencesincludingpseudoknotsbyincludinganimplementationofthepartitionfunctionforknots.webserverPknotsRGAdynamicprogrammingalgorithmforthepredictionofarestrictedclass(H-type)ofRNApseudoknots.webserverpKissAdynamicprogrammingalgorithmforthepredictionofarestrictedclass(H-typeandkissinghairpins)ofRNApseudoknots.webserverRNA123Secondarystructurepredictionviathermodynamic-basedfoldingalgorithmsandnovelstructure-basedsequencealignmentspecificforRNA.webserverRNAfoldMFERNAstructurepredictionalgorithm.IncludesanimplementationofthepartitionfunctionforcomputingbasepairprobabilitiesandcircularRNAfolding.webserverRNAshapesMFERNAstructurepredictionbasedonabstractshapes.Shapeabstractionretainsadjacencyandnestingofstructuralfeatures,butdisregardshelixlengths,thusreducesthenumberofsuboptimalsolutionswithoutlosingsignificantinformation.Furthermore,shapesrepresentclassesofstructuresforwhichprobabilitiesbasedonBoltzmann-weightedenergiescanbecomputed.webserverRNAstructureAprogramtopredictlowestfreeenergystructuresandbasepairprobabilitiesforRNAorDNAsequences.ProgramsarealsoavailabletopredictMaximumExpectedAccuracystructuresandthesecanincludepseudoknots.Structurepredictioncanbeconstrainedusingexperimentaldata,includingSHAPE,enzymaticcleavage,andchemicalmodificationaccessibility.GraphicaluserinterfacesareavailableforWindowsandforMacOS-X/Linux.ProgramsarealsoavailableforusewithUnix-styletextinterfaces.Additionally,aC++classlibraryisavailable.webserverSfoldStatisticalsamplingofallpossiblestructures.Thesamplingisweightedbypartitionfunctionprobabilities.webserverMfold/?q=mfoldRNAstructure/RNAstructure.htmlVienna

RNAhttp://www.tbi.univie.ac.at/RNA/软件名称优点限制主要原理RNAalifold(1)容纳错误字符(2)可以预测单一序列;也可以预测多个序列(3)山峰表示法(1)预测单个结构时序列长不能超过300(2)预测多个序列时,只能给出一致结构,不能预测每一个序列的二级结构(3)比对后的序列单个长度不能超过2K;总长度不能超过10K预测单一序列依靠最小自由能模型;预测多个序列依靠比较序列分析模型Mfold(1)每次提供多个可选择结构(2)提供图形化界面输出(点阵图、圆形图)只能预测单个序列最小自由能模型的动态规划算法RNAStructure(1)操作界面友好,功能强大(2)可以给出良好的图形输出(3)可以预测单一序列,也可以比较两个或多个序列的结构输入字母表只有AGCU,其他字母或小写字母都不会被预测动态规划算法RNA三级结构预测RNA分子的折叠过程二级结构

三级结构RNA三级结构建模或预测方法序列二级结构三级结构其他生物学信息片段拼接利用实验测定的小片段结构拼接出一个合理的近天然态结构。(1)CGModel(2)VfoldModel(3)3dRNA(4)ASSEMBLE(5)其他方法(6)在线预测工具(1)CG(coarse-grained)Model利用RNA分子粗粒化模型预测RNA分子三级结构的方法。主要思想把每个核苷酸简化为5个伪原子,两个表示主链(一个为磷酸基团,一个为糖),另外三个表示碱基用688个实验获得的结构来确定模型的参数多于5个碱基对有分辨率记录键伸缩角弯曲二面角范得华力、静电12-27nt的15个RNA分子CGModel动力学模拟模拟退火方法在加入二级结构或者三级结构相互作用信息后,15个RNA分子都可以用CGModel的方法成功折叠到近天然结构。局限预测发卡等拓扑结构较为简单的RNA小分子(2)VfoldModel基于自由能的三级结构预测方法。在二级结构折叠动力学方法的基础上改进的搭建RNA分子三级结构方法。主要思想用磷原子(P),碳原子(C4)和碱基伪原子(Base)三个伪原子描述相应的核苷酸结构。用二级结构折叠动力学预测出目标RNA的二级结构用序列和二级结构信息搭建出粗粒化的三级结构主链用实验片段结构结合分子动力学模拟的方法替换主链模型结构,得到预测结果根据自由能预测2D结构序列依赖的经验热力学参数

构建结构模板库PDB搜索匹配二级结构中环的最佳模板从已知结构中获得3D坐标将碱基按坐标加入主链模型自由能最小天然碱基对非天然碱基对(3)3dRNA基于RNA二级结构,构建RNA三级结构的方法。构建非冗余的RNA三级结构模板SSE库划分为基本二级结构单元将二级结构单元对应的模板组装成完整的RNA三级结构SSE标准螺旋形式的碱基配对结构突环结构内环结构发卡环结构多分支环结构假结结构SCORRNAjunctinPDB用序列比对算法比对目标和结构库中的结构单元序列,选取相似性最高的模板结构按照分子顺序(从5’端到3’端)把挑选出来的合适结构单元组装成一个完整分子优势不仅仅局限于搭建或预测较小或拓扑结构较为简单的RNA分子,对较大或者较为复杂的RNA分子而言,也可以自动搭建或预测出一个较好的合理结构。27/3dRNA/3dRNA.html缺点需要输入二级结构(4)ASSEMBLE基于人机互动调整优化结构的RNA分子三级结构建模方法。/assemble/用多序列比对算法从同源RNA分子结构中找到大量合适的二级和三级结构信息帮助搭建RNA三级结构模型。调整碱基配对,碱基距离,旋转角和二面角等三级结构特征。优势在同源信息和操作者的帮助下,能极大地减少计算时间。但是这种方法对于没有经验的操作者或者同源信息较少的RNA分子结构较难预测。(5)其他方法NAST(TheNucleicAcidSimulation)一种基于统计势能函数分子动力学模拟预测RNA三级结构的方法。以C3’原子代替相应的核苷酸,建立相应的RNA粗粒化结构模型,并利用核糖体RNA三级结构训练统计势能函数在仅知道预测RNA分子的序列和二级结构信息情况下,仅能预测拓扑结构较为简单的小RNA分子的三级结构。如果加入预测RNA分子的三级结构相互作用信息来指导预测三级结构,NAST的预测精度会得到较大提高。BARNACLE通过随机采样旋转二面角的方法来预测RNA分子三级结构的方法。可以在局部结构区域进行大量的连续采样,进而解决采样的瓶颈问题。结果表明,在利用RNA序列和二级结构信息的情况下,BARNACLE可以较为精确地预测小分子RNA的三级结构。然而对于长度较长或者拓扑结构较为复杂的RNA分子而言,因为其自由度过多不能进行结构采样和预测。FARFAR通过连续片段分子结构组装建模的RNA三级结构预测方法。将实验测定的核糖体RNA三级结构打碎成长度为3nt-9nt的RNA结构片段,利用这些连续的片段分子来描述并预测RNA的局部三级结构。利用预测目标的序列或者二级结构信息将初始直链结构划分为多个小窗口用蒙特卡洛的方法随机从小片段结构库中选取片段结构插入并替换窗口片段结构利用能量函数对结构进行打分选择和优化,进而得到预测的近天然态三级结构。可以通过加入实验测定的二级结构碱基配对信息来进一步提高结构预测的精度。只能用来预测拓补结构较为简单的小RNA分子三级结构(6-20nt),对于长度较长或拓扑结构较为复杂的RNA分子三级结构预测仍然十分困难。方法使用原子数使用信息局限性CG多个伪原子序列、二级结构只能预测发卡等拓扑结构较为简单的RNA小分子Vfold多个伪原子序列、二级结构、三级结构3dRNA全原子序列、二级结构、三级结构需要输入二级结构Assemble全原子序列、二级结构、三级结构NAST一个伪原子序列、二级结构、三级结构BARNACLE多个序列、二级结构对于长度较长或者拓扑结构较为复杂的RNA分子,不能进行结构采样和预测FARFAR全原子序列只能用来预测拓补结构较为简单的小RNA分子三级结构(6-20nt)(6)在线预测工具NameDescriptionLinksiFoldRNAthree-dimensionalRNAstructurepredictionandfoldingwebserverMC-FoldMC-SymPipelineThermodynamicsandNucleotidecyclicmotifsforRNAstructurepredictionalgorithm.2Dand3Dstructures.webserverRNA123AnintegratedplatformfordenovoandhomologymodelingofRNA3Dstructures,wherecoordinatefileinput,sequenceediting,sequencealignment,structurepredictionandanalysisfeaturesareallaccessedfrom

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论