版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章DNA序列分析1主要内容§4.1引言§4.2序列的一般分析§4.3基因预测与鉴定§4.4非编码区分析与调控元件识别2§4.3基因预测与鉴定3功能基因组学(Functionalgenomics):利用结构基因组学研究所得的各种信息在基因组水平上研究编码序列及非编码序列生物学功能的学科。基因组学(genomics):研究生物体全基因组DNA的序列和属性的学科。包括结构基因组学和功能基因组学两个方面。4一、基因预测方法基因预测方法包括两类:1从基因组序列入手,识别基因2基于表达序列标签(EST)的基因鉴定从整体到局部从局部到整体目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(Matheetal.2002)5二、从基因组序列预测新基因从基因组预测新基因的方法大体上又可分为两类:1)从头预测法2)相似性比较预测法随着HGP和其他模式生物基因组测序计划的进行,大量的基因组序列数据随之产生,接下来一个重要的课题就是如何从这些序列中找到可能具有编码产物的功能基因。6概念:是指直接利用基因以及外显子/内含子结构在基因序列上已知的一些统计特征或信号,在基因组序列中直接预测基因的位置与组成。方法及常用软件:1以隐马尔可夫模式为基础的算法:GENSCAN、Genie、HMMgene、Veil2以神经网络为基础的算法:GrailⅡ、GrailEXP_Perceval3以决策树为基础的算法:MZEF、MZEF-SPC4整合预测方法:FgeneH5其它算法:GeneID、GeneVeiw1从头预测(ab
initioprediction
):7GENSCAN基因预测程序GENSCAN是美国麻省理工大学(MassachusettsInstituteofTechnology,缩写:MIT)的ChristopherBurge于1997年开发成功的人类(包括脊椎动物)基因预测软件。2001年又推出了升级版预测软件Genomescan。后者整合了从头预测和相似性搜索两种观测方法。(http:///GENSCAN.html)GENSCAN是目前“从头”预测算法中应用最广泛,尤其是对基因编码区预测最为成功的软件之一。NCBI开发的参考序列(RefSeq)数据库采用Genomescan,而EMBL开发的ENSEMBL采用GENSCAN8目前Christopher
Burge还开发了适用于果蝇、拟南芥、玉米的专用版本。对于非版本专用的物种,其预测准确率会下降。
用脊椎动物版本进行基因预测的准确率
91基因数目
可能将两个基因的外显子归并到一个基因,或者相反。2物种
GENSCAN主要是针对人类(或脊椎动物)基因组序列设计,用于其他物种准确性可能降低。目前有适用于果蝇、玉米、拟南芥菜、秀丽线虫的版本。原核生物和酵母的基因预测,建议用Glimmer或GeneMark软件。3根据测试集得到的准确性指标可能与实际的情况不同4对各个结构元件的预测准确性不同
总体来说,对中间外显子预测的准确性高于起始外显子和末端外显子,外显子的准确性高于polyA或启动子。对启动子的预测较不可靠,建议用NNPPprogram
预测启动子。5植物基因剪接位点的预测建议用SplicePredictor程序GENSCAN可能出现的误差:10以人类基因组序列Z83819
为例进行基因预测。中国生物信息中心(Biosino)也提供了GENSCAN的Web基因预测界面http:///pages/lab.htm应用实例11步骤1进入页面,设置参数1)序列来源物种;2)显示次优外显子(推荐0.1);3)输出结果12步骤2上传序列文件或粘贴序列可以TXT文本格式或Fasta格式(*.fasta)13步骤3点击按钮RunGENSCAN,开始GENSCAN的预测程序,获得预测结果预测的基因和外显子统计结果两种结果表示形式:1)文字结果2)图形化结果14将预测出的基因翻译成蛋白序列15文字部分:1)预测出的所有外显子详细统计信息2)开放阅读框序列及其所编码的氨基酸序列3)第三部分是对第一部分结果中出现的统计参数进行解释图形结果:PDF格式和PS格式16Z83819预测结果PDF17表头说明18Z83819-Reversed预测结果19如果对原核生物及酵母的基因组进行预测,建议采用Glimmer或GeneMark程序http:///GeneMark/或NCBI站点提供的Glimmer和GeneMark/genomes/MICROBES/glimmer_3.cgihttp:///genomes/MICROBES/genemark.cgi20利用相似性搜索的方法来发现新基因是目前国际上另一个非常通用且成熟的方法。2相似性比较预测比较基因组学:就是直接通过比较各个不同物种之间的基因组序列来对那些进化上保守的基因进行研究。通过对不同物种来源的基因组序列进行相似性比较,以实现同源新基因的快速识别是比较基因组学的一个重要研究方向。21有2个重要的软件可实现全基因组比较预测1)SGP-1SGP-1是德国MaxPlanck研究所生物信息学小组开发的同源基因预测程序。http://jakob.genetik.uni-koeln.de/bioinformatik/software/sgp-1/2)VISTAVISTA是美国伯克利国家实验室开发的一个基因比对工具。http:///vista/index.shtml22主要区别:SPG-1能同时对基因组序列进行外显子预测后再进行同源性比较。尤其适用于比较两个完全未知的基因组序列。VISTA则要求提供一个所谓的基础物种的基因组序列结构信息,然后在此基础上来预测其他物种的基因组序列中高度同源的基因结构。尤其适用于预测已知某个物种的基因在其它物种基因组中的同源基因。23SGP-1主页24VISTA主页25VISTA比较预测页面26除了基因组序列,目前最容易得到的也是信息量最大的基因鉴定数据来源就是各个物种的表达序列标签(EST)数据库。这一方法又称为基因的电子克隆或电子延伸。三、从EST鉴定新基因概念:
EST(EspressedSequenceTag,表达序列标签)指在进行cDNA序列测定过程中所获得的序列片段(200-600bp)。它们代表了mRNA序列的一部分,也代表了相应基因的表达情况。
27其基本过程是:将待分析的序列(称为种子序列)用Blast搜索EST数据库,选择与种子序列具有较高同源性的EST序列(一般要求在重叠40个碱基范围内有95%以上同源性,称为匹配序列)将匹配序列与种子序列装配成新生序列,此过程称为片段重叠群分析(contiganalysis)再以此新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列。28重叠群(contig):是两个或两个以上的EST序列或转录序列组成的一致序列(consensussequence)对于一个新的序列,如何进行新基因的鉴定,我们必须首先考虑的几个问题:1)该序列是否可能为新基因?2)该序列是否被包含在某个EST重叠群?3)如何进行EST重叠群的拼接和组装?4)拼接后的一致序列是否为全长cDNA?291)该序列是否可能为新基因?采用相似性搜索的方法来考察新序列代表的基因是否已被他人测序并存储至GenBank数据库中。一般地,应同时在核酸和氨基酸水平上进行相似性搜索。如果至少有一个匹配结果满足匹配长度大于100bp,序列一致性大于95%,匹配长度占新序列总长度的80%以上,说明该序列代表的基因序列已被收录入GenBank中。302)该序列是否被包含在某个EST重叠群?由于目前基于EST的计算机克隆是在EST重叠群基础上进行的,因此如果一个实验中所获得序列在EST数据库中找不到任何部分相似的EST,那么就意味着无法构建相应的EST重叠群,从而也不能进一步进行计算机克隆。由于EST数据库海量增长,这种可能性很小。两种方法建立重叠群(1)利用Blastn直接搜索EST,对于获得的EST重叠群可利用拼接程序进行人工拼接,得到一致序列。(2)直接利用UniGene数据库的衍生数据库如Genexpress
Index、GeneNest系统、TIGR的THC等,将获得的EST重叠群自动拼接得到一致序列。313)如何进行EST重叠群的拼接和组装?(1)人工拼接程序:CAP(contigassemblyprogram)该程序是中国人所编制的序列拼接工具,最早出于1992年。目前的版本是CAP4,已成为世界上许多测序中心首选的序列拼接工具。http://pbil.univ-lyon1.fr/cap3.php(2)自动拼接程序:GeneNest系统,http://genenest.molgen.mpg.de/32CAP3拼接程序序列格式要求:1)必须为Fasta格式2)序列中不能有数字和空格。33拼接结果34双序列比对结果,两条序列100%匹配354)拼接后的一致序列是否为全长cDNA?确定全长cDNA的策略大致包括对一致序列进行转录起始位点区、第一个起始密码子、Kozak规则、开放阅读框、终止密码子和3′端UTR中的polyA加尾信号等的基因特征序列的确认。Kozak规则:该规则是基于真核基因结构的分析统计结果。第一个起始密码子ATG侧翼序列的碱基分布所满足的统计规律,若第一个ATG中的碱基A、T、G分别标为1、2、3位,则Kozak规则可描述如下:①第4位的偏好碱基为G;②ATG的5′端约15bp范围的侧翼序列内不含碱基T;③在-3,-6,和-9位置,G为偏好碱基;④除-3,-6,和-9位,在整个侧翼序列区,C是偏好碱基。36§4.4非编码区分析与调控元件识别37真核生物基因序列中,绝大部分序列是非编码序列。人类基因组中,仅有3%的序列为编码序列。非编码序列并非没有生物意义,相反这部分序列中蕴藏着大量的信息,这些信息主要是与基因的表达调控密切相关,因而对这部分序列的研究吸引着越来越多的生物学家参与其中。38真核生物基因表达在时间和空间上的有序性已吸引越来越多的科学家,并成为20世纪90年代以来分子生物学研究最为活跃的领域之一。真核生物基因调控瞬时调控(可逆调控),相当于原核细胞对环境条件变化作出的反应。发育调控(不可逆调控),是真核基因调控的精髓部分,它决定了核细胞生长、分化、发育的全部过程。39启动子是指确保转录精确而有效地起始的DNA序列。基因调控按其发生时间的先后顺序以可分为:转录水平调控、转录后水平调控、翻译水平调控和蛋白质加工水平调控。基因组序列中启动子的存在与否以及含有何种启动子对于了解相应基因的转录调控具有重要意义。某些保守的功能区如启动子、增强子、转录因子结合位点、内含子与外显子剪接位点等都可通过生物信息学技术分析。40重复序列是指在基因组中不同位置出现的相同或对称性片段,相同包括同一个基因组中相似的片段,也可以是不同物种间基因组中的相似片段。现象:从原核生物到真核生物,其基因组中的重复序列呈递增趋势。功能:重复序列主要参与到顺式调控元件、表观遗传修饰、染色质的重建等重要程序中。一、基因组重复序列分析41真核生物中各种重复序列所占比例很高。RepBase,是真核生物DNA中重复序列数据库,由遗传信息研究所(GeneticInformationResearchInstitute,GIRI)维护。http:///repbase/index.htmlCensor,是RepBase提供的重复序列检查工具。著名的RepeatMasker程序就是基于该数据库工作的重复序列分析工具。http://ftp,/cgi-bin/repeatmasker42Repbase数据库主页43Censor主页http:///censor/44启动子(promoter):DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域,在许多情况下,还包括促进这一过程的调节蛋白的结合位点。二、基因启动子分析启动子是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。启动子就像“开关”,决定基因的活动。启动子本身并不控制基因活动,而是通过转录因子(一种蛋白质)结合而控制基因活动的。转录因子就像一面“旗子”,指挥着酶(RNA聚合酶polymerases)的活动。
45EPD(EukaryoticPromoterDatabase),真核生物启动子数据库http://www.epd.isb-sib.ch/已注释的非冗余真核生物RNA聚合酶II的启动子数据库。数据库中的条目与EMB
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度智能设施安装纯劳务分包合同4篇
- 南京市2025年度房屋买卖合同争议解决条款4篇
- 2025年农业蔬菜大棚承包与农产品品牌授权合同4篇
- 二零二五年度电视机市场分析报告定制合同4篇
- 2025年度农业大数据农资精准采购合同4篇
- 2025年度汽车租赁车辆租赁保险定制服务合同4篇
- 2025年度环保设备制造企业融资合同参考格式4篇
- 2025年度出租车公司车辆运营及驾驶员激励政策合同4篇
- 2025年度电视剧编剧团队聘用合同书4篇
- 二零二五版门窗行业国际市场拓展与出口合同3篇
- 燃气经营安全重大隐患判定标准课件
- JB-T 8532-2023 脉冲喷吹类袋式除尘器
- 深圳小学英语单词表(中英文)
- 护理质量反馈内容
- 山东省济宁市2023年中考数学试题(附真题答案)
- 抖音搜索用户分析报告
- 板带生产工艺热连轧带钢生产
- 钻孔灌注桩技术规范
- 2023-2024学年北师大版必修二unit 5 humans and nature lesson 3 Race to the pole 教学设计
- 供货进度计划
- 弥漫大B细胞淋巴瘤护理查房
评论
0/150
提交评论