生物信息学复习题及答案(陶士珩)

上传人：w*** IP属地：安徽上传时间：2023-02-23 格式：DOC 页数：18 大小：74KB 积分：26 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

-.z.生物信息学复习题名词解释生物信息学,二级数据库,FASTA序列格式,genbank序列格式,Entrez，BLAST，查询序列〔query〕，打分矩阵〔scoringmatri*〕，空位〔gap〕，空位罚分，E值,低复杂度区域，点矩阵〔dotmatri*〕，多序列比对，分子钟，系统发育〔phylogeny〕，进化树的二歧分叉构造，直系同源，旁系同源，外类群，有根树，除权配对算法〔UPGMA〕，邻接法构树，最大简约法构树，最大似然法构树，一致树〔consensustree〕，bootstrap，开放阅读框〔ORF〕，密码子偏性〔codonbias〕，基因预测的从头分析法，构造域〔domain〕，超家族，模体〔motif〕，序列表谱〔profile〕，PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，GeneOntologyConsortium，表谱〔profile〕。问答题1〕生物信息学与计算生物学有什么区别与联系？2〕试述生物信息学研究的根本方法。3〕试述生物学与生物信息学的相互关系。4〕美国国家生物技术信息中心〔NCBI〕的主要工作是什么？请列举3个以上NCBI维护的数据库。5〕序列的相似性与同源性有什么区别与联系？6〕BLAST套件的blastn、blastp、blast*、tblastn和tblast*子工具的用途什么？7〕简述BLAST搜索的算法。8〕什么是物种的标记序列？9〕什么是多序列比对过程的三个步骤？10〕简述构建进化树的步骤。11〕简述除权配对法〔UPGMA〕的算法思想。12〕简述邻接法〔NJ〕的算法思想。13〕简述最大简约法〔MP〕的算法思想。14〕简述最大似然法〔ML〕的算法思想。15〕UPGMA构树法不准确的原因是什么？16〕在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。17〕试述DNA序列分析的流程及代表性分析工具。18〕如何用BLAST发现新基因？19〕试述SCOP蛋白质分类方案。20〕试述SWISS-PROT中的数据来源。21〕TrEMBL哪两个局部？22〕试述PSI-BLAST搜索的5个步骤。操作与计算题如何获取访问号为U49845的genbank文件？解释如下genbank文件的LOCUS行提供的信息：LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999利用Entrez检索系统，对核酸数据搜索，输入如下信息，将获得什么结果：AF114696:AF114714[ACCN]。3)相比使用BLAST套件搜索数据库，BLAST2工具在结果呈现上有什么优点？MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件？什么简约信息位点Pi？以下软件的主要用途是什么？RepeatMasker,CpGPlot,SpliceView,Genscan,ORFfinder,neuralnetworkpromoterprediction.7)为下面的序列比对确定比对得分：匹配得分=+1，失配得分=0，空位得分=-1。TGTACGGCTATA TC--CGCCT–TA8)用UPGMA重建系统发生树，距离矩阵如下：物种ABCDB9C811D121510E15181359〕画出4个物种的3棵不同的无根树.这4个物种在*位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸，3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)"有几棵树的替换树是2"有大于2个替换的树吗"10〕如何将所研究的蛋白质与其他相关蛋白质做构造比对。答案局部一、名词解释：生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科穿插，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进展储存、检索、处理及分析，并以生物学知识对结果进展解释。二级数据库：在一级数据库、实验数据和理论分析的根底上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。P11，第2段。FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号〔>〕表示一个新文件的开场，其他无特殊要求。genbank序列格式：是GenBank数据库的根本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个局部：第一局部包含整个记录的信息〔描述符〕；第二局部包含注释；第三局部是引文区，提供了这个记录的科学依据；第四局部是核苷酸序列本身，以"//〞结尾。P13，第2段。Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进展穿插索引等特点。P83-85。BLAST：根本局部比对搜索工具，用于相似性搜索的工具，对需要进展检索的序列与数据库中的每个序列做相似性比拟。P94查询序列〔querysequence〕：也称被检索序列，用来在数据库中检索并进展相似性比拟的序列。P98，第1段。打分矩阵〔scoringmatri*〕：在相似性检索中对序列两两比对的质量评估方法。包括基于理论〔如考虑核酸和氨基酸之间的类似性〕和实际进化距离〔如PAM〕两类方法。P29，第2段。空位〔gap〕：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最正确比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29，第2段。空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进展罚分，空位罚分的多少直接影响比照的结果。P37，倒数第2段。E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列〔query〕相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的时机越小，也即相似性越能反映真实的生物学意义。P95低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly〔A〕。P100，第一段。点矩阵〔dotmatri*〕：构建一个二维矩阵，其*轴是一条序列，Y轴是另一个序列，然后在2个序列一样碱基的对应位置〔*，y〕加点，如果两条序列完全一样则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。P39-41。多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在构造上的异同，来答复大量的生物学问题。P48，需要概括。分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。P112-113系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。P112，第一段。进化树的二歧分叉构造：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。P113，最后一段。系统发育图：P114直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。P28，P146旁系〔并系〕同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上的可能发生了改变。P28，P147外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。P120有根树：能够确定所有分析物种的共同祖先的进化树。P113除权配对算法〔UPGMA〕：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被参加，最终产生树根。P119邻接法〔neighbor-joiningmethod〕：是一种不仅仅计算两两比对距离，还对整个树的长度进展最小化，从而对树的拓扑构造进展限制，能够克制UPGMA算法要求进化速率保持恒定的缺陷。P118。最大简约法〔MP〕：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。P120最大似然法〔ML〕：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进展分析评估，并在此根底上构建系统发育树。P122一致树〔consensustree〕：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。P121自举法检验〔Bootstrap〕：放回式抽样统计法。通过对数据集屡次重复取样，构建多个进化树，用来检查给定树的分枝可信度。P122开放阅读框〔ORF〕：开放阅读框是基因序列的一局部，包含一段可以编码蛋白的碱基序列。P131密码子偏好性〔codonbias〕：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。P133基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。P134-145简约信息位点：指基于DNA或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121,第2行构造域〔domain〕：保守的构造单元，包含独特的二级构造组合和疏水内核，可能单独存在，也可能与其他构造域组合。一样功能的同源构造域具有序列的相似性。P158模体〔motif〕：短的保守的多肽段，含有一样模体的蛋白质不一定是同源的，一般10-20个残基。P161,最后一行PAM矩阵：PAM指可承受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。P30-31BLOSUM矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。P34折叠子〔Fold〕：在两个或更多的蛋白质中具有相似二级构造的大区域，这些大区域具有特定的空间取向。P162TrEMBL：是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。P21PDB〔ProteinDataBank〕：PDB中收录了大量通过实验〔*射线晶体衍射，核磁共振NMR〕测定的生物大分子的三维构造，记录有原子坐标、配基的化学构造和晶体构造的描述等。PDB数据库的访问号由一个数字和三个字母组成〔如，4HHB〕，同时支持关键词搜索，还可以FASTA程序进展搜索。P22MMDB(MolecularModelingDatabase)：是〔NCBI〕所开发的生物信息数据库集成系统Entrez的一个局部，数据库的内容包括来自于实验的生物大分子构造数据。与PDB相比，对于数据库中的每一个生物大分子构造，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维构造模型显示、构造分析和构造比拟工具。"SCOP数据库：提供关于构造的蛋白质之间构造和进化关系的详细描述，包括蛋白质构造数据库PDB中的所有条目。SCOP数据库除了提供蛋白质构造和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，构造的图像等。可以按构造和进化关系对蛋白质分类，分类结果是一个具有层次构造的树，其主要的层次依次是类〔class〕、折叠子〔fold〕、超家族〔superfamily〕、家族〔family〕、单个PDB蛋白构造记录。P23PROSITE：是蛋白质家族和构造域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。P22RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人成认的Genbank序列。"PSI-BLAST：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵〔scoringmatri*〕探测远缘相关的蛋白。P97GeneOntology协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。表谱〔PSSM〕：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。P97比拟基因组学：P148二、问答题1．绪论生物信息学的开展经历了那几个阶段生物信息学步入后基因组时代后，其开展方向有哪几个方面。1〕请列举3个以上Entrez系统可以检索的数据库。答：P832〕序列的相似性与同源性有什么区别与联系？答：相似性是指序列之间相关的一种量度，两序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系。P1473〕BLAST套件的blastn、blastp、blast*、tblastn和tblast*子工具的用途什么？答：blastn是将给定的核酸序列与核酸数据库中的序列进展比拟；Blastp是使用蛋白质序列与蛋白质数据库中的序列进展比拟，可以寻找较远的关系；Blast*将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进展比对，对分析新序列和EST很有用；Tblastn将给定的氨基酸序列与核酸数据库中的序列〔双链〕按不同的阅读框进展比对，对于寻找数据库中序列没有标注的新编码区很有用；Tblast*只在特殊情况下使用，它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列，然后进展蛋白质序列比对。P974〕简述BLAST搜索的算法思想。答：BLAST是一种局部最优比对搜索算法，将所查询的序列打断成许多小序列片段，然后小序列逐步与数据库中的序列进展比对，这些小片段被叫做字〞word〞；当一定长度的的字〔W〕与检索序列的比对到达一个指定的最低分〔T〕后，初始比对就完毕了；一个序列的匹配度由各局部匹配分数的总和决定，获得高分的序列叫做高分匹配片段〔HSP〕，程序将最好的HSP双向扩展进展比对，直到序列完毕或者不再具有生物学显著性，最后所得到的序列是那些在整体上具有最高分的序列，即，最高分匹配片段〔MSP〕，这样，BLAST既保持了整体的运算速度，也维持了比对的精度。P955〕什么是物种的标记序列？答：指物种特有的一段核苷酸序列。可以通过相似性查询，得到*一序列在数据库中的*一物种中反复出现，且在其他物种中没有的明显相似的序列。6〕什么是多序列全局比对的累进算法？答：第一，所有的序列之间逐一比对〔双重比对〕；第二，生成一个系统树图，将序列按相似性大致分组；第三，使用系统树图作为引导，产生出最终的多序列比对结果。P527〕简述构建进化树的步骤，每一步列举1-2种使用的软件或统计学方法。答：〔1〕多序列比对：ClustalW〔2〕校比照对结果：BIOEDIT〔3〕建树：MEGA〔4〕评估系统发育信号和进化树的结实度：自举法〔Bootstrap〕P1148〕简述除权配对法〔UPGMA〕的算法思想。答：通过两两比对聚类的方法进展，在开场时，每个序列分为一类，分别作为一个树枝的生长点，然后将最近的两序列合并，从而定义出一个节点，将这个过程不断的重复，直到所有的序列都被参加，最后得到一棵进化树。P1199〕简述邻接法〔NJ〕构树的算法思想。答：邻接法的思想不仅仅计算最小两两比对距离，还对整个树的长度进展最小化，从而对树的拓扑构造进展限制。这种算法由一棵星状树开场，所有的物种都从一个中心节点出发，然后通过计算最小分支长度的和相继寻找到近邻的两个序列，每一轮过程中考虑所有可能的序列对，把能使树的整个分支长度最小的序列对一组，从而产生新的距离矩阵，直到寻找所有的近邻序列。P11710〕简述最大简约法〔MP〕的算法思想。P68答：是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则，所需变异次数最少〔演化步数最少〕的演化树可能为最符合自然情况的系统树。在具体的操作中，分为非加权最大简约分析〔或称为同等加权〕和加权最大简约分析，后者是根据性状本身的演化规律〔比方DNA不同位点进化速率不同〕而对其进展不同的加权处理。P12011〕简述最大似然法〔ML〕的算法思想。P69答：是一种基于离散特征的进化树算法。该法首先选择一个适宜的进化模型，然后对所有可能的进化树进展评估，通过对每个进化位点的替代分配一个概率，最后找出概率最大的进化树。P12212〕UPGMA构树法不准确的原因是什么？P69答：由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有一样的变异率，也就是存在着一个分子钟；这种算法当所构建的进化树的序列进化速率明显不一致时，得到的进化树相对来说不准确的。P119,倒数第2段，前4行。13)在MEGA2软件中，提供了哪些碱基替换距离模型，试列举其中3种，解释其含义。答：碱基替换模型包括，No.ofdifferences、p-distance、Jukes-Cantordistance、Tajima-Neidistance、Kimur2-parameterdistance、Tamura3-parameterdistance、Tamura-Neidistancep-distance：表示有差异的核苷酸位点在序列中所占比例，将有差异的核苷酸位点数除已经比对的总位点数就可以得到Jukes-Cantor：模型假设ATCG的替换速率是一致的，然后给出两个序列核苷酸替换数的最大似然估计Kimura2-parameter：模型考虑到了转换很颠换队多重击中的影响，但假设整个序列中4钟核苷酸的频率是一样哈德在不同位点上的碱基替换频率是一样的14〕列举5项DNA序列分析的内容及代表性分析工具。答：〔1〕寻找重复元件：RepeatMasker〔2〕同源性检索确定是否存在基因：BLASTn〔3〕从头开场方法预测基因：Genscan〔4〕分析各种调控序列：TRES/DRAGONPROMOTORFINDER(5)CpG岛：CpGPlotP130，表格15〕如何获取访问号为U49845的genbank文件？解释如下genbank文件的LOCUS行提供的信息：LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999答：〔1〕访问NCBI的Entrez检索系统，〔2〕选择核酸数据库，〔3〕输入U49845序列访问号开场检索。第一项为哪一项LOCUS名称，前三个字母代表物种名第二项是序列长度第三项是序列分子类型第四项是分子为线性的第五项是GenBank分类码第六项是最后修订日期P1316〕利用Entrez检索系统对核酸数据搜索，输入如下信息，将获得什么结果：AF114696:AF114714[ACCN]。P35答：获得序列访问号AF114696到AF114714之间的连续编号的序列。17〕MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件？答：〔1〕选择菜单file，〔2〕选择Te*tFileEditorandFormatCoverter工具，〔3〕调入需要转换的序列和相应的格式，〔4〕获得转换后的MEGA格式的文件并保存。18〕为下面的序列比对确定比对得分：匹配得分=+1，失配得分=0，空位得分=-1。TGTACGGCTATA TC--CGCCT-TA答：TT1GC0T--1A--1CC1GG1GC0CC1TT1A--1TT1AA1最后得分1+0+〔-1〕+〔-1〕+1+1+0+1+1+〔-1〕+1+1=419)用UPGMA重建系统发生树，距离矩阵如下：物种ABCDB9C811D121510

E1518135答：用Newick格式表示的树图：〔〔〔AC〕B〕〔DE〕〕。分析过程：〔1〕两条序列间的最小距离是dDE,所以物种D和E聚到一组，如下列图。EDEDDEDE(2)计算新的距离矩阵，其中复合物种〔DE〕替换D和E，如下表。其他物种与新物种组之间的距离由它们与组中两个物种〔D和E〕之间距离的平均值决定,如，d〔DE〕A=1/2〔dAD+dAE〕=1/2(12+15)=13.5物种ABCB9

C811

DE13.516.511.5第二次聚类在A和C之间，组成AC类。如下列图，CAEDCAED(AC)(DE)(AC)(DE)(3)将A和C合并，计算新的矩阵，如下表，最后一次聚类〔〔AC〕B〕将物种B的分支点放在〔AC〕和〔DE〕的共同祖先之间。物种BACAC10

DE16.512.5BCAEDBCAED((AC)B)(DE)((AC)B)(DE)20)画出4个物种的3棵不同的无根树.这4个物种在*位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列,标出最可能的候选核苷酸.3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)"有几棵

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物信息学复习题及答案(陶士珩)

文档简介

温馨提示

最新文档

评论

生物信息学复习题及答案(陶士珩)

文档简介

温馨提示

最新文档

评论

相关文档