




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因组学研究与应用的现状与展望
基因组学是研究对象。在一般研究中,它研究了遗传信息的分子组成、组织结构、表达、遗传因素和一般机制。在基因组研究中必须借助于计算科学来处理和充分利用大量的数据,由此促成了基因组信息学。基因组信息学在基因组研究中有两方面基本任务:一是对基因组学研究各个环节如文库构建、物理图谱的制备、遗传图谱制备等发展适用的软件;二是对产生的海量数据的存储、管理和检索,并对这些数据进行归纳总结,从数据中找出有价值的生物学知识。随着可利用的基因组信息不断增加,基因组信息学将发挥越来越大的作用。我们拟对目前基因组学研究中几种常用工具软件的原理和使用方法作一简要介绍。1具有特定生物学功能的位点序列比对的理论基础是进化学说。在进化上曾有共同祖先的序列,尽管它们各自在进化过程中发生替换、插入、缺失等事件,但和其特定生物学功能相联系的位点应具有某种程度的保守性,如酶的活性位点、形成二硫键的半胱氨酸等。序列比对就是将两条或多条核酸或蛋白质序列排列以获得最大的相似性(核酸)或保守性(蛋白质),以评价两条序列的相似性或同源程度。1.1ch-资源分布的局部比对任何方法在进行比对时,都是将序列相似或不相似的信息转化为数值后进行。通常将两条序列分别作为打分矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径。最初的序列比对是以1970年Needleman和Wunsch提出动态规划算法作为依据的,该算法是全序列比对算法,在比对中包含两个被比较序列的所有元素。其缺点是一些局部序列相似性较高,而全序列相似性较小的序列,其同源性不易检出,因前者常被后者的平均效应所掩盖。在具有模块性质的蛋白质比对中,这种情况更为明显。因此在Needleman-Wunsch算法基础上改良产生了Smith-Waterman算法。它是一种局部比对的方法,用于寻找两个被比较序列相似的片段,这样对全局相似性较小的序列,可检出局部性比对较好的片段。在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。在核酸研究中,情况比较简单,只有4种碱基,但也存在转换和颠换的区别,在取代矩阵中应赋予它们不同的权重。在蛋白质研究中,情况较为复杂。组成蛋白质的20种氨基酸分为芳香族氨基酸、疏水性氨基酸、亲水性氨基酸、酸性氨基酸、碱性和半胱氨酸等6类,类内氨基酸替换比类间氨基酸替换对蛋白质结构和功能影响要小,如缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代对结构和功能具有不同的影响效果。在蛋白质研究中已发展出不同的取代矩阵来描述氨基酸残基两两取代的分值,常用的取代矩阵有PAM和BLOSUM系列,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30和PAM250矩阵。有时为取得两个序列最大的相似性,会在序列中补加空位。空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,空位罚分缺乏理论依据而更多依据经验。一般的处理方法是用两个罚分值,对插入的第一个空位罚分,如10~15;另一个对空位的延伸罚分,如1~2。对于具体的比对问题,采用不同的罚分方法会取得不同的效果。对于比对计算产生的分值,有统计学方法判断两个序列是否同源。主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看看比对结果是否具有显著性。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得分的可能。1.2运行基本程序BLAST(basiclocalalignmentsearchtool)是现在应用最广泛的序列相似性搜索工具。它采用启发式算法对局部匹配来取代全局匹配,因此能检测只有部分相似性的序列,并为比对结果提供统计学的评估。BLAST在检索时,大致可分为以下几步:(1)将长度为n的检索序列按单位长度w分为n-w+1个不同的字段,将这些字段和数据库的序列两两比对。各字段和比对上的序列有不同的分值,将所有分值高于T的那些比对选出,用于下一步流程;(2)将检索字段和数据库中所有含该字段的序列比对,找出含有检索片段的大分子;(3)对每个片段而言,以比对上的那段序列为核心,向两侧进行无空位延伸。匹配加分,错配罚分。当延伸时分值降低了X时,停止延伸,并以最后的分值为该比对的分值。将所有分值超过某域值的比对作为最后的输出结果。这种方法无法处理含有空位的比对,所以经常出现检索序列和比对上的序列会输出多个不同的比对结果,如将这些比对结合在一起考虑,则两条序列之间有显著的同源性。为此,Altschul等对BLAST作了修改:只有两个不相重叠的字段同时都比对上同一条序列,并且两字段间距离小于设定值A时,才能激活程序使比对向两侧无空位延伸;如果最后的分值高于Sg时,一种改进的含Smith-Waterman算法的程序被激活,重新进行包含间隔处理的比对,所得的分值为最终分值。BLAST包含针对不同的查询序列和要搜索的数据库类型的5个程序。最常用的为BLASTN(核酸—核酸)和BLASTP(蛋白—蛋白)两种程序。BLASTX也较为常用,它主要用于将一段DNA序列按6个不同的可读框翻译后,与蛋白质数据库比较。这种程序对新序列和EST分析很有用。2系统拼接成完整的基因组序列利用鸟枪法进行测序,再将大量随机测序得到的小片段用计算机拼接成完整的基因组序列是基因组研究中的重要工作。好的拼接程序,不仅要求组装结果的错误尽可能少,而且能降低目前对计算硬件的过高要求。2.1重复序列干扰组装方法已有许多计算机程序能自动对小片段序列进行组装。目前大部分程序都遵守“overlap-layout-consensus”的思路,即首先在用于拼接组装的片段中找出序列重叠;用重叠度最高的片段建立序列contigs,再将contigs定位定向,最后得到完整的一致序列。这种策略采取的计算方法类似于19世纪爱尔兰数学家WilliamRowanHamilton提出的哈米尔顿的路径问题,即给出一系列任意的城市,每次只经过一个城市,而连接所有城市最短的路径是哪一条。如果城市的数目较少,答案很容易得到,但随着城市数目的增加,问题就越来越难以解决。若有30个城市,那么将会超过上亿种可能的答案。目前计算机无法承受如此巨大的计算量。由于重复序列会干扰组装,在目前的基因组拼接中,多采用启发式算法来避免重复序列的干扰。最近,加州大学圣地亚哥分校的计算机教授PavelPevzner尝试用一种新的方法对基因组片段序列组装。他的算法是以18世纪的瑞士数学家LeonhardEuler命名的数学概念为基础。简单的说,这种技术就是将人类基因组分成更小的片段,同时利用了重复序列进行组装,这样,不仅巧妙地解决了重复序列干扰组装的问题,而且将耗费计算资源的“哈密尔顿途径”变成了“欧拉途径”。“欧拉途径”就是假定每个城市不限定只能访问一次,想去多少次都可以,但是每一条路只能走一次,从这个网络中找出最短的路程的问题。2.2具体软件介绍2.2.1phrap的基本功能Phrap(PHRagmentassemblyprogram)是目前在小的基因组片段或重复序列含量较低的全基因组组装中应用非常广泛的软件。它常和另几个软件一起组成Phred-Phrap-Consed软件包。Phred的基本功能是找到电泳道,识别泳道的空间并对信号进行技术处理;将测序仪上得到不同波长光的强度变化轨迹,转化成对应的的A,T,G,C4种碱基;并根据信号峰的间距、形状及信噪比等因素,判断碱基的可信度信息。Phred可处理不同类型的测序反应。这些情况包括测序反应可为引物标记或终止物标记;标记的荧光物可以是罗丹明、bigdye或其他荧光物质;测序设备可为ABI系列或MegaBace系列。Consed是推荐的和Phrap一起使用的序列编辑界面,它的发展和Phrap紧密联系,充分利用了Phrap中产生的丰富的信息。通过Consed编辑,修改后的数据保存为phd类型文件。重新用Phrap拼接一次,修改后的结果则整合在新文件中。2.2.2重复序列组合另一种用于装配全基因组的策略,即用全基因组的鸟枪法测序反应来组装复杂的真核生物基因组。这种策略核心要求是每个模板须进行双向测序。TIGR用这种策略成功地组装了第一个全基因组测序的果蝇的基因组。Celera同样采用这种策略开发了用于人基因组组装的软件Celeraassembler。组装策略主要包括5个步骤:Screener、Overlapper、Unitigger、Scaffolder和RepeatResolver。Screener标出序列中所有的重复单位小于6个碱基的简单重复序列和所有已知的散布重复序列如SINE;LINE等。Overlapper这一步则将屏蔽重复序列的各反应互相比对,找出那些末段匹配至少40bp,差异率小于6%的反应,组成各个不同的类,进行拼接。由于某些低复杂度区域(LCR)在Screener中未被标出,不同染色体位置的LCR因相似性高在这一步中可能被聚于一类,产生组装错误。Unitigger则应用统计学方法来选出那些组装可信度高的contig,用于下一步框架图的构建。Scaffolder根据反应对提供的连锁信息将contig相互定位和定向。RepeatResolver则根据反应对的信息将重复序列回填组装的框架图中。最后根据最大节约算法,结合碱基的质量测度值得到的一致序列和Phrap由最高质量的反应决定一致序列不太一致。3是进化主要动力之一,分在真核生物中,重复序列是基因组结构的重要组成部分,也是进化主要推动力之一。对基因组中重复序列检测,不仅是基因组组装的不可缺少的一步,也是认识基因组结构与功能和进行基因预测的必不可少的前提。3.1重复序列的组成将基因组序列和该物种的重复序列数据库比对是检测重复序列的主要思路,但也存在基于数学原理检测串联重复序列的方案。对不同物种而言,重复序列的类型和序列都不一致。在人基因组中重复序列主要分为两类:散布重复和串联重复,其中散布重复又可分为SINE、LINE、LTR返座子和DNA转座子等4大类,它们和不同的进化时间相联系。构建每种重复序列的共有序列(consensussequence)时,将该类重复序列多序列比对,找出每个位置上出现频率最多的碱基为共有序列(/RM/RepeatMasker.html)。Repbase为Juka等建立的重复序列数据库,至目前人重复序列共有632种,为重复序列种类知道最多的物种。可以实时下载最新的数据库,并把它用于重复序列检测。将得到的重复序列和基因组序列比对时,为尽可能的检出基因组中的重复序列,必须能检测相似性较低,允许大量插入和缺失的局部比对的程序,因此,选用灵敏度最高的Smith-Waterman算法来进行检测。3.2重复序列的检测目前能提供重复序列检测的主要有Censor和RepeatMasker,其中RepeatMasker程序应用最为广泛。RepeatMasker通过选用不同物种的重复序列数据库,识别不同物种的基因组序列中重复序列。RepeatMasker通过比对重复序列数据库中数据与FASTA格式的序列,用crossmatch比对标出。由于重复序列和GC含量相关,在输入参数时,可指定特定的GC值,程序会选用相应的取代矩阵,如果缺省该选项,程序自动选用43%。在运行程序时,还可设定分歧度,即将与一致序列比较小于该分歧度的重复序列找出。某些人类疾病就是由重复序列引起的,这些重复序列,一般都是现在仍有转座能力的重复序列引起的,他们的突变率都为0或接近于0,我们可以在选项中设置突变率参数,找出那些保守性较好的重复序列。在使用RepeatMasker时,我们可以自己选定数据库,可以方便地对某些数据进行处理。由于Crossmatch采用了SW方法,耗费机时过多。因此,RepeatMasker也提供了其它比对程序Wu-BLAST,同时,通过改变SW方法的内部参数设置,也能加快检索速度(/RM/RepeatMasker.html)。4因势而新,因教而学基因预测在基因组学研究中占有重要的地位。基因预测有多种不同的策略。现有的基因预测软件多是利用基因本身的特征来进行新基因的识别,但将数据库搜索比较整合入预测软件成为一种趋势。4.1敏感性、特异性和信号量敏感性和特异性是基因预测的两个重要指标。敏感性表示程序预测的能力,而特异性表示预测结果的可信度。敏感性和特异性往往是一对矛盾,一般以敏感性和特异性的平均值作为评判程序优劣的标准。在完全从新的基因预测中,主要依据两方面信息:(1)搜索与编码区有关的信号序列(信号搜索);(2)从统计学角度分析一段连续的DNA序列是否更像编码序列(内容识别)。4.1.1编码区的使用频率在原核生物中可以通过寻找较长的ORF来预测基因编码区。在真核生物中,由于基因的编码区被内含子打断,识别ORF的方法就不适用,但利用真核生物编码区的一些特征序列可以找出基因组序列中的编码区。因为同义密码子的使用频率在不同的物种中有自己的特征模式,有些高表达的基因,往往只选用同义密码子中的一种,其他密码子使用频率很低;同时密码子3个位置上不同碱基的使用频率也有差别,这样就使得编码区的序列具有统计显著性。利用这一特性对基因组序列进行统计学分析,可以发现编码区的粗略位置。最初统计分析3个碱基的选用频率在编码区和随机序列中的差异,但发现密码子选用的频率和邻近的密码子相关联。在一特定的可读框中,6核苷酸(双密码子)的选用频率的统计差异被用来区别编码和非编码区域最为有效,因为不仅能测量密码子的偏歧性,而且能衡量邻近密码子的关联尺度。在目前的各种预测程序中这是一种被广泛应用的方法。4.1.2基因组织及测序在原核生物中,识别转录和翻译的起始信号、核糖体结合位点、转录和翻译的终止信号可以帮助确定编码蛋白的序列。在真核生物中,情况远为复杂,这不仅因为同一个信号在不同的基因中可能相差很大,而且信号和基因之间距离可能相距较远。可以辅助确定真核生物基因组的为翻译起始位点;内含子剪接位点;poly(A)位点;翻译终止位点等。启动子是基因表达所必需的重要信号序列,识别出启动子对于基因辨识十分重要。CpG岛和持家基因的5′端相联系,预测出CpG岛也可为识别新基因提供辅助信息。内含子和外显子剪接位点具有较明显的序列特征,但是要注意可变剪接的问题。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。对于真核生物,如果已知转录起始点,并且没有内含子打断5′非翻译区的话,“Kozak规则”可以在大多数情况下定位起始密码子。polyA和翻译终止信号不像起始信号那么重要,但也可以辅助划分基因的范围。目前用于基因预测的软件很多,而且都是整合了多种算法复合分析软件。许多基因预测的程序都已经整合了同源比较算法,比如著名的GRAILⅡ程序。尽管每种预测方法都有假阳性,并会漏掉一些外显子,可采用不同的预测方法对同一段基因组序列预测,其共同的外显子是真实的外显子的可能性加大。但基因预测对基因的UTR区预测能力仍较弱。4.2基于不同基因的模型预测Genscan是目前较为常用的基因预测软件,可应用于多种物种进行基因识别。Genscan只对编码的基因进行预测,不考虑tRNA和rRNA的预测。Genscan可对两条链进行基因预测,不仅可预测完整的基因,也可预测部分基因,但不能预测重叠的基因。Genscan用于基因预测的概率模型包含基因的基因组特征参数,这些基因组特征参数与物种紧密相关。这些特征包括:典型基因密度,每个基因的平均外显子数,不同类型的外
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教辽宁 九年级 下册 语文 第三单元《 鱼我所欲也》习题课 课件
- 小学数学一年级上册看图列算式练习题
- 高二上册语文(人教版)伶官传序第1课时 阅读高速路 同步阅读
- 农村果树园出租合同范例
- 农村水渠建设合同范例
- 公路改造合同范例
- 公司股占股合同范本
- 供货水电合同范例
- 仓储经营合同范例
- 劳务备案合同范本
- 产前筛查标准技术操作规程
- 2024年广州市高三一模高考物理试卷试题答案(精校打印)
- 国测省测四年级劳动质量检测试卷
- SAT真题 2023年6月 亚太卷
- 新生儿早期基本保健
- 音乐产业与行业分析
- 中外室内设计史全套教学课件
- VTE预防与风险评估
- 02章 电催化过程
- 四年级科学(人教鄂教版)气候和气象灾害-课件
- 小学软笔书法教案
评论
0/150
提交评论