




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学复习题名词解释生物信息学,二级数据库,FASTA序列格式,genbank序列格式,Entrez,BLAST,查询序列(query),打分矩阵(scoringmatrix),空位(gap),空位罚分,E值,低复杂度区域,点矩阵(dotmatrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensustree),bootstrap,开放阅读框(ORF),密码子偏性(codonbias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,GeneOntologyConsortium,表谱(profile)。问答题1)生物信息学与计算生物学有什么区别与联系?2)试述生物信息学研究的基本方法。3)试述生物学与生物信息学的相互关系。4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI维护的数据库。5)序列的相似性与同源性有什么区别与联系?6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?7)简述BLAST搜索的算法。8)什么是物种的标记序列?9)什么是多序列比对过程的三个步骤?10)简述构建进化树的步骤。11)简述除权配对法(UPGMA)的算法思想。12)简述邻接法(NJ)的算法思想。13)简述最大简约法(MP)的算法思想。14)简述最大似然法(ML)的算法思想。15)UPGMA构树法不精确的原因是什么?16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。17)试述DNA序列分析的流程及代表性分析工具。18)如何用BLAST发现新基因?19)试述SCOP蛋白质分类方案。20)试述SWISS-PROT中的数据来源。21)TrEMBL哪两个部分?22)试述PSI-BLAST搜索的5个步骤。操作与计算题如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什么结果:AF114696:AF114714[ACCN]。3)相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么优点?MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?什么简约信息位点Pi?以下软件的主要用途是什么?RepeatMasker,CpGPlot,SpliceView,Genscan,ORFfinder,neuralnetworkpromoterprediction.7)为下面的序列比对确定比对得分:匹配得分=+1,失配得分=0,空位得分=-1。TGTACGGCTATA TC--CGCCT–TA8)用UPGMA重建系统发生树,距离矩阵如下:物种ABCDB9C811D121510E15181359)画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸,3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?有大于2个替换的树吗?10)如何将所研究的蛋白质与其他相关蛋白质做结构比对。答案部分一、名词解释:生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。P11,第2段。FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。P13,第2段。Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。P83-85。BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(superfamily)、家族(family)、单个PDB蛋白结构记录。P23PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。P22RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。?PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoringmatrix)探测远缘相关的蛋白。P97GeneOntology协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。P97比较基因组学:P148二、问答题1.绪论生物信息学的发展经历了那几个阶段生物信息学步入后基因组时代后,其发展方向有哪几个方面。1)请列举3个以上Entrez系统可以检索的数据库。答:P832)序列的相似性与同源性有什么区别与联系?答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P1473)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P974)简述BLAST搜索的算法思想。答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P955)什么是物种的标记序列?答:指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。6)什么是多序列全局比对的累进算法?答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。P527)简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。答:(1)多序列比对:ClustalW(2)校对比对结果:BIOEDIT(3)建树:MEGA(4)评估系统发育信号和进化树的牢固度:自举法(Bootstrap)P1148)简述除权配对法(UPGMA)的算法思想。答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P1199)简述邻接法(NJ)构树的算法思想。答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P11710)简述最大简约法(MP)的算法思想。P68答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P12011)简述最大似然法(ML)的算法思想。P69答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P12212)UPGMA构树法不精确的原因是什么?P69答:由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。P119,倒数第2段,前4行。13)在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。答:碱基替换模型包括,No.ofdifferences、p-distance、Jukes-Cantordistance、Tajima-Neidistance、Kimur2-parameterdistance、Tamura3-parameterdistance、Tamura-Neidistancep-distance:表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到Jukes-Cantor:模型假设ATCG的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计Kimura2-parameter:模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的14)列举5项DNA序列分析的内容及代表性分析工具。答:(1)寻找重复元件:RepeatMasker(2)同源性检索确定是否存在已知基因:BLASTn(3)从头开始方法预测基因:Genscan(4)分析各种调控序列:TRES/DRAGONPROMOTORFINDER(5)CpG岛:CpGPlotP130,表格15)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999答:(1)访问NCBI的Entrez检索系统,(2)选择核酸数据库,(3)输入U49845序列访问号开始检索。第一项是LOCUS名称,前三个字母代表物种名第二项是序列长度第三项是序列分子类型第四项是分子为线性的第五项是GenBank分类码第六项是最后修订日期P1316)利用Entrez检索系统对核酸数据搜索,输入如下信息,将获得什么结果:AF114696:AF114714[ACCN]。P35答:获得序列访问号AF114696到AF114714之间的连续编号的序列。17)MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?答:(1)选择菜单file,(2)选择TextFileEditorandFormatCoverter工具,(3)调入需要转换的序列和相应的格式,(4)获得转换后的MEGA格式的文件并保存。18)为下面的序列比对确定比对得分:匹配得分=+1,失配得分=0,空位得分=-1。TGTACGGCTATA TC--CGCCT-TA答:TT1GC0T--1A--1CC1GG1GC0CC1TT1A--1TT1AA1最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=419)用UPGMA重建系统发生树,距离矩阵如下:
物种ABCDB9C811D121510
E1518135答:用Newick格式表示的树图:(((AC)B)(DE))。分析过程:(1)两条序列间的最小距离是dDE,所以物种D和E聚到一组,如下图。EDEDDEDE(2)计算新的距离矩阵,其中复合物种(DE)替换D和E,如下表。其他物种与新物种组之间的距离由它们与组中两个物种(D和E)之间距离的平均值决定,如,d(DE)A=1/2(dAD+dAE)=1/2(12+15)=13.5物种ABCB9
C811
DE13.516.511.5第二次聚类在A和C之间,组成AC类。如下图,CAEDCAED(AC)(DE)(AC)(DE)(3)将A和C合并,计算新的矩阵,如下表,最后一次聚类((AC)B)将物种B的分支点放在(AC)和(DE)的共同祖先之间。物种BACAC10
DE16.512.5BCAEDBCAED((AC)B)(DE)((AC)B)(DE)20)画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列,标出最可能的候选核苷酸.3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?,有大于2个替换的树吗?答:2棵一样简约,替换树为2;2棵;没有。21)以下软件的主要用途是什么?RepeatMasker,CpGPlot,SpliceView,Genscan,ORFfinder,neuralnetworkpromoterprediction.答:RepeatMasker:是对重复序列进行分析的软件GpGPlot:用来查找一条DNA序列中CpG岛,使用Gardine-Garden和Frommer描述的方法SpliceView:是对一段序列进行剪接位点的分析即其中的受体和供体位点Genscan:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中级财务会计知到课后答案智慧树章节测试答案2025年春菏泽学院
- 塔里木职业技术学院《景观设计4》2023-2024学年第二学期期末试卷
- 黑龙江省七台河市茄子河区2025年数学三下期末检测模拟试题含解析
- 陕西国际商贸学院《视频内容传达》2023-2024学年第二学期期末试卷
- 赣州职业技术学院《住宅空间设计》2023-2024学年第二学期期末试卷
- 辽宁大学《地球概论》2023-2024学年第二学期期末试卷
- 甘孜职业学院《药用高分子材料》2023-2024学年第二学期期末试卷
- 西安工程大学《工程水文》2023-2024学年第一学期期末试卷
- 昭通市威信县2025年小升初数学模拟试卷含解析
- 温州商学院《语料库实践》2023-2024学年第一学期期末试卷
- 电机制造工厂布局
- 人教版二年级下册计算题100道及答案
- 2023初中七年级全体育教案(共36课)
- 【工商管理专业毕业综合训练报告2600字(论文)】
- 附睾炎的护理查房
- 新形势下加强边疆民族地区国防教育的思考
- 2024年同等学力申硕-同等学力(新闻传播学)历年考试高频考点试题附带答案
- 《小学数学课程标准与教材教学研究》课件 12图形的运动
- INSAR技术在城市地面沉降监测中的应用
- 【人力资源管理工具】员工奖惩审批表(表格版)
- 商事纠纷解决的法律框架
评论
0/150
提交评论