生物信息学复习题

上传人：m*** IP属地：贵州上传时间：2021-06-08 格式：DOC 页数：37 大小：226KB 积分：20 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、名词解释1.生物信息学 : 是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（）表示一个新文件的开始，其他无特殊要求。4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（

2、描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“/”结尾。5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和

3、氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条

4、序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一

5、个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。）19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。21.有根树：能够确定所有分析物种的共同祖先的进化树。22.除权配对算法（UPGMA）：最初

6、，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育

7、树。26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。28.开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。29.密码子偏性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏性。30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边

8、界调控区，预测基因组序列中包含的基因。31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。32.超家族：进化上相关，功能可能不同的一类蛋白质。33.模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。34.序列表谱（profile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。35.PAM矩阵：PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白

9、质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。37.PSI-BLAST：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵（scoring matrix）探测远缘相关的蛋白。38.RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的Genbank序列。39.PDB（Protein Data Bank）：PDB中收录了大量通过实验

10、（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以FASTA程序进行搜索。40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。41.折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。42.TrEMBL：是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据

11、库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。43.MMDB(Molecular Modeling Database)：是（NCBI）所开发的生物信息数据库集成系统Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB中的所有条目。S

12、COP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（class）、折叠子（fold）、超家族（super family）、家族（family）、单个PDB蛋白结构记录。45.PROSITE：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括

13、根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。46.Gene Ontology 协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。47.表谱（PSSM）：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。48. 蛋白质组p179：是指一个基因组中各个基因编码产生的蛋白质的总体，即一个基因组的全部蛋白产物及其表达情况。49. 中心法则是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的

14、复制过程。这是所有有细胞结构的生物所遵循的法则。50.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释51.基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。52.序列比对：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。53.数据库查询（database query）：是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。54.数据库搜索（database search）：在分子生物信息学中有特定含义，它

15、是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。55.相似性（similarity）：数学上，相似性指两个图形的形状完全相似。若存在两个点的集，其中一个能透过放大缩小、平移或旋转等方式变成另一个，就说它们具有相似性。56.同源性：在进化上或个体发育上的共同来源而呈现的本质上的相似性，但其功能不一定相同。57.同一性：是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。58.一致序列：在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。59. HMM（隐马尔可夫模型）：是统计模型，它用来描述一个含有隐含未知参数的马尔可夫

16、过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。60.简约性信息位点：指基于DNA或蛋白质序列、利用最大简约法构建系统发育树时，在两个及以上分类单元（的序列）中存在差异，且其中至少有两种变异类型在该位点出现两次及以上，此类位点称为简约性信息位点。61.信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。62.非信息位点：对于最大简约法来说没有意义的点。63.标度树：分支长度与相邻节点对的差异程度成正比的树。64.非标度树：只表示亲缘关系无差异程度信息。65.有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到

17、达其他任何节点。66.无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考种，可以在无根树中指派根节点。67.注释（annotation）对数据库中原始的DNA碱基序列添加相关信息（比如编码的基因，氨基酸序列等）或其他的注解。68.基因组注释(Genome annotation) 是利用生物信息学方法和工具，对基因组所有基因的生物学功能进行高通量注释，是当前功能基因组学研究的一个热点。69.虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。70.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法，从而使分子质量的准确确定成为可能。

18、71.分子途径是指一组连续起作用以达到共同目标的蛋白质。72.先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。73.权重矩阵（序列轮廓）：它们表示完全结构域序列，多序列联配中每个位点的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（课件定义）。74.系统发育学（phylogenetic）：确定生物体间进化关系的科学分支。75.系统生物学（systems biology）：是研究一个生物系统中所有组分成分（基因、mRNA、蛋白质等）的构成以及在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内的动力学过程。76.蛋白质组

19、（proteome）：是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。77. ESI电喷雾离子化：一种适合大分子如蛋白质离子化没有明显降解的质谱技术。78. 微阵列芯片：是指采用光导原位合成或微量点样等方法，将大量生物大分子比如核酸片段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物（如玻片、尼龙膜等载体）的表面，组成密集二维分子排列，然后与已标记的待测生物样品中靶分子反应，通过特定的仪器，比如激光共聚焦扫描仪或电荷偶联摄影像机对反应信号的强度进行快速、并行、高效地检测分析，从而判断样品中靶分子的数量。79.有监督分析法：这种方法引入某些形式的分类系统，从而将表达模

20、式分配到一个或多个预定义的类目中。80.聚类分析：指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。81.虚拟消化：针对重要疾病特定靶标生物大分子的三维结构或定量构效关系（Quantitative structure-activity relationships，QSAR）模型，从现有小分子数据库中，搜寻与靶标生物大分子结合或符合QSAR模型的化合物，进行筛选实验研究。82.无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。83. GenBank：是美国国家生物技术信息中心(National Center for Biotechn

21、ology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等， 1998)。84. EMBL：（欧洲分子生物学实验室）（The European Molecular Biology Laboratory），于1974年由欧洲14个国家加上亚洲的以色列共同发起建立，包括一个位于德国Heidelberg的核心实验室，及三个位于德国Hamburg，法国Grenoble及英国Hinxton的研究分部。85. DDBJ：(DNA Data Bank of Japan)，于1984年建立，是世界三大D

22、NA 数据库之一，与NCBI的GenBank，EMBL的EBI数据库共同组成国际DNA数据库，每日都交换更新数据和信息，并主持两个国际年会国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。86. BLAST：是英语Bell Labs Layered Space-Time 的缩写，是一项新的通信技术，它采用多天线系统利用多径传播效应以达到提高频谱利用率的目的。87.BLASTn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。88.BLASTp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将

23、逐一地同每条所查序列作一对一的序列比对。88.Clustsl X：是一种利用渐近法（progressive alignment）进行多条序列比对的软件。即从多条序列中最相似（距离最近）的两条序列开始比对，按照各个序列在进化树上的位置，由近及远的将其它序列依次加入到最终的比对结果。89. Entrez：是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez 是由NCBI主持的一个数据库检索系统。 90.Medline文摘数据库：是美国国立医学图书馆(The National Library of Medicine, 简称NLM)生产

24、的国际性综合生物医学信息书目数据库，是当前国际上最权威的生物医学文献数据库。91. SRS(sequence retrieval system)：是欧洲生物信息研究所开发的SRS（Sequence Retrieval System）是以WWW界面运行的数据库检索系统，其主要功能是将所有数据库建立参照(cross-references)索引，用户可通过输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进行检索，从而得到用户所需的序列或相关内容。92. SWLSSMODEL：是一个自动化的蛋白质比较建模服务器。93.homology modeling：对于

25、一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型。94.Ab initio prediction：仅根据序列本身来预测其结构95. molecular phylogenetic tree：又名分子进化树，是生物信息学中描述不同生物之间的相关关系的方法。通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。96. gene tree（基因树）：是指基于单个同源基因差异构建的系统发生树。 96. neighborjoining method：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服U

26、PGMA算法要求进化速率保持恒定的缺陷。97. maximum parsimony method：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。98. MEGA(Molecular Evolutionary Genetics Analysis)：is an integrated tool for automatic and manual sequence alignment, inferring phylogenetic trees, mining web-based databases, estimating rates of molecular evolutio

27、n, and testing evolutionary hypotheses.99. BioEdit：是一个序列编辑器与分析工具软件。功能包括：序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。100. EST：(Expressed Sequence Tag)表达序列标签是从一个随机选择的cDNA 克隆，进行5端和3端单一次测序挑选出来获得的短的cDNA 部分序列。 101. GSS：基因组勘测序列，是基因组DNA克隆的一次性部分测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon

28、trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记序列等。 102. ORF：是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。（P86，指从5端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。）103. promoter（启动子）：是基因（gene）的一个组成部分，控制基因表达（转录）的起始时间和表达的程度。104. 3UTR： 3非翻译区的缩写，真核生物的转录终止信号是在 3非翻译区的： polyA。105. CpG island： CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG保持或高于正常概率。106. coi

29、led coil：卷曲螺旋，是蛋白质中由27条螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件，在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。 107. heptad repeat：七肽重复区是典型的卷曲螺旋结构类型之一，由多个七肽单元连接而成的重复序列。108. structure domain：结构域，是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元，每个结构域自身形成紧实的三维结构，可以独立存在或折叠，但结构域与结构域之间关系较为松散。109. motif：蛋白质序列中较短的保守区域，通常为按一定的模式

30、排列的氨基酸残基也称为指纹（figureprint）。110. linux operating system：linux 操作系统，Linux 是一类 Unix 计算机操作系统的统称。Linux 操作系统也是自由软件和开放源代码发展中最著名的例子。 111. BioPerl： an international association of users & developers of open source Perl tools for bioinformatics, genomics and life science 112. PubMed：是一个免费的生物医学文摘数据库，提供部分论文的

31、摘要及指向全文的链接。作为 Entrez 资讯检索系统的一部分。113. HGP(human genome project)：是一项规模宏大，跨国跨学科的科学探索工程。114. ncRNA：非编码RNA（Non-coding RNA）是指不编码蛋白质的RNA。 115. miRNA：是一类由内源基因编码的长度约为22 个核苷酸的非编码单链RNA 分子，它们在动植物中参与转录后基因表达调控。填空题1. 常用的三种序列格式：NBRF/PIR,FASTA和GDE2. 初级序列数据库：GenBank，EMBL和DDBJ3. 蛋白质序列数据库：SWISS-PROT和TrEMBL4. 提供蛋白质功能注释信

32、息的数据库：KEGG（京都基因和基因组百科全书）和PIR（蛋白质信息资源）5. 目前由NCBI维护的大型文献资源是PubMed6. 数据库常用的数据检索工具：Entrez，SRS，DBGET7. 常用的序列搜索方法：FASTA和BLAST8. 高分值局部联配的BLAST参数是HSPs（高分值片段对），E（期望值）9. 多序列联配的常用软件：Clustal10. 蛋白质结构域家族的数据库有：Pfam，SMART11. 系统发育学的研究方法有：表现型分类法，遗传分类法和进化分类法12. 系统发育树的构建方法：距离矩阵法，最大简约法和最大似然法13. 常用系统发育分析软件：PHYLIP14. 检测

33、系统发育树可靠性的技术：bootstrapping和Jack-knifing15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16. 检测原核生物ORF的程序：NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是GASP（基因预测评估项目）18. 二级结构的三种状态：螺旋，折叠和转角19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络，包括输入层，隐含层和输出层20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER（SWISSMODEL网站）21. 蛋白质质谱数据搜索工具：SEQUEST22. 分子途径最广泛数据库：KEGG2

34、3. 聚类分析方法，分为有监督学习方法，无监督学习方法24.识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。25.表达序列标签是从 mRNA 中生成的一些很短的序列（300-500bp），它们代表在特定组织或发育阶段表达的基因。26.序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。比对的数学模型大体分为两类，分别是整体比对和局部比对。27.2-DE的基本原理是根据蛋白质等电点和分子量不同，进行两次电泳将之分离。第一向是等电聚焦分离 ,第二向是 SDS-PAGE分离。 28.蛋

35、白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，C值越大，这是真核生物基因组的特点之一。（对）2、CDS一定就是ORF。（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源,就具有共同的祖先。（错）4、STS，是一段200-300bp的特定DNA序列，它的序列已知，并且在基因组中属于单拷贝。（对）5、非编码DNA是“垃圾DNA”，不具有任何的分析价值，对于细胞没有多大的作用。（错）6、基因树和物种树同

36、属于系统树，它们之间可以等同。（错）7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。(对）8、对任意一个DNA序列，在不知道哪一个碱基代表CDS的起始时，可用6框翻译法，获得6个潜在的蛋白质序列。（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。（对）11、比较是科学研究中最常见的方法，在生物信息学研究中，比对是最常用和最经典的研究方法。（对）12、ORF一

37、定就是CDS。（错）13、用不同的方法可以构建不同的系统发育树,为保证分析结果的可靠性,需要对进化树进行评估。（对）14、相似性是一种很直接的数量关系，无需实验验证。（错）15、基因树和物种树同属于系统树，它们之间可以等同。（错）16、蛋白质和DNA的同源性常常通过它们序列的相似性来判定，如果两个基因或蛋白质有着几乎一样的序列，具有高度的相似性，那么它们一定是同源。（错）17、所谓局部比对是找出两个被比较序列的最类似片段。（对）不定项选择题1、（ ABC ）是现在国际上最主要的三大核酸序列数据库A. EMBL B. DDBJ C. GenBank D. NCBI E. EBI2、RFLP是DN

38、A多态性中最多见的一种，它产生的机制包括（ ABE ）A.DNA分子产生突变，使某些酶切位点数增加B. DNA分子产生突变，使某些酶切位点数减少C. 限制性酶切位点之间重复序列数目变异D. 限制性酶星活性E. 限制性酶切位点前后的DNA片断发生插入或删除3、下面序列哪些为反向重复序列 ( BD )A. GCACTTGGCACTTG B. GCACTTGCAAGTGC CGTGAACCGTGAAC CGTGAACGTTCACGC. GCACTTGCAAGTGC D. GCACTAGCTAGCGGCGTGAACGTTCACG CGTGATCGATCGCC4、分析EST序列时首要注意以下几点（ AC

39、DE ）A.EST序列中除了AGTC外，可能出现未知碱基B.EST只是单次测序，得出的结果没有可信度C.EST序列中可能出现错误的插入和缺失，导致读码框移位D.某个EST序列是数据库中另一序列的一个片段E.某个EST序列不在基因的编码区内5、人类基因组计划要完成的几张图谱分别是（ABCE ）A. 物理图谱 B. 遗传图谱 C. 序列图谱 D. 生物图谱 E. 基因图谱6、最常用的序列相似性查询工具是（ AB ）A.FASTA B.BLAST C.SWISS-PROT D.PDB E.PIR7、下列哪些分子类型属于非蛋白质编码区（ABCDE ）A.内含子 B.卫星DNA C.伪基因 D.启动子

40、E.增强子8、卫星DNA的多态性是由（ D ）所决定的。A. DNA点突变个数B. 限制性内切酶识别序列个数不同C. DNA的二级结构不同D. 重复单位不同E重复次数不同9、真核基因组特点包括（ ABCDE ）A. 基因组大，巨大的非编码序列，重复序列占了绝大部分B. 基因结构复杂，无显著长度的开放阅读框C. 存在可变剪接 D. CpG岛 E. 等值区10、20世纪三大著名计划包括（ ACE ）A.阿波罗登月计划 B.卫星计划 C.HGP D.肿瘤计划 E.曼哈顿原子弹计划简答题1.BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？答：b

41、lastn是将给定的核酸序列与核酸数据库中的序列进行比较；Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较，可以寻找较远的关系；Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对，对分析新序列和EST很有用；Tblastn将给定的氨基酸序列与核酸数据库中的序列（双链）按不同的阅读框进行比对，对于寻找数据库中序列没有标注的新编码区很有用；Tblastx只在特殊情况下使用，它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列，然后进行蛋白质序列比对。P972. 序列的相似性与同源性有什么区别与联系？答：相似性是指序列之间

42、相关的一种量度，两序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系。P1473. 美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上Entrez系统可以检索的数据库。（NCBI维护的数据库）NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物，医学问题。为科学界开发，维护和分享一系列的生物信息数据库；开发和促进生物信息学数据库，数据的储存，交换以及生物学命名规则的标准化。维护的主要数据库包括答：PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。4.简述BLA

43、ST搜索的算法思想。答：BLAST是一种局部最优比对搜索算法，将所查询的序列打断成许多小序列片段，然后小序列逐步与数据库中的序列进行比对，这些小片段被叫做字”word”；当一定长度的的字（W）与检索序列的比对达到一个指定的最低分（T）后，初始比对就结束了；一个序列的匹配度由各部分匹配分数的总和决定，获得高分的序列叫做高分匹配片段（HSP），程序将最好的HSP双向扩展进行比对，直到序列结束或者不再具有生物学显著性，最后所得到的序列是那些在整体上具有最高分的序列，即，最高分匹配片段（MSP），这样，BLAST既保持了整体的运算速度，也维持了比对的精度。P955. 什么是物种的标记序列？答：指物种

44、特有的一段核苷酸序列。可以通过相似性查询，得到某一序列在数据库中的某一物种中反复出现，且在其他物种中没有的明显相似的序列。6. 什么是多序列比对的累进算法？（三个步骤）答：第一，所有的序列之间逐一比对（双重比对）；第二，生成一个系统树图，将序列按相似性大致分组；第三，使用系统树图作为引导，产生出最终的多序列比对结果。P527. 简述构建进化树的步骤，每一步列举1-2种使用的软件或统计学方法。答：（1）多序列比对：Clustal W （2）校对比对结果：BIOEDIT（3）建树：MEGA（4）评估系统发育信号和进化树的牢固度：自举法（Bootstrap）8. 简述除权配对法（UPGMA）的算法思

45、想。答：通过两两比对聚类的方法进行，在开始时，每个序列分为一类，分别作为一个树枝的生长点，然后将最近的两序列合并，从而定义出一个节点，将这个过程不断的重复，直到所有的序列都被加入，最后得到一棵进化树。9. 简述邻接法（NJ）构树的算法思想。答：邻接法的思想不仅仅计算最小两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制。这种算法由一棵星状树开始，所有的物种都从一个中心节点出发，然后通过计算最小分支长度的和相继寻找到近邻的两个序列，每一轮过程中考虑所有可能的序列对，把能使树的整个分支长度最小的序列对一组，从而产生新的距离矩阵，直到寻找所有的近邻序列。P11710. 简述最大简约

46、法（MP）的算法思想。P68答：是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则，所需变异次数最少（演化步数最少）的演化树可能为最符合自然情况的系统树。在具体的操作中，分为非加权最大简约分析（或称为同等加权）和加权最大简约分析，后者是根据性状本身的演化规律（比如DNA不同位点进化速率不同）而对其进行不同的加权处理。P12011. 简述最大似然法（ML）的算法思想。P69答：是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型，然后对所有可能的进化树进行评估，通过对每个进化位点的替代分配一个概率，最后找出概率最大的进化树。P12212. UPGMA构树法不精确的原因是什么？P

47、69答：由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟；这种算法当所构建的进化树的序列进化速率明显不一致时，得到的进化树相对来说不准确的。13. 在MEGA2软件中，提供了哪些碱基替换距离模型，试列举其中3种，解释其含义。答：碱基替换模型包括，No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distanc

48、e：表示有差异的核苷酸位点在序列中所占比例，将有差异的核苷酸位点数除已经比对的总位点数就可以得到Jukes-Cantor：模型假设 A T C G 的替换速率是一致的，然后给出两个序列核苷酸替换数的最大似然估计Kimura 2-parameter：模型考虑到了转换很颠换队多重击中的影响，但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的。14. 试述DNA序列分析的流程及代表性分析工具。（1）寻找重复元件：RepeatMasker（2）同源性检索确定是否存在已知基因：BLASTn（3）从头开始方法预测基因：Genscan（4）分析各种调控序列：TRES/DRAGON

49、 PROMOTOR FINDER(5) CpG岛：CpGPlot 代表性工具：ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise15. 如何用BLAST发现新基因？；答：从一个一直蛋白质序列开始，通过tBLASTn工具搜索一个DNA数据库，可以找到相应的匹配，如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因。16.试述SCOP蛋白质分类方案；答：SCOP将PDB数据库中的蛋白质按传统分类方法分成型、型、/型、+型，并将多结构域蛋白、膜蛋白和细胞表面蛋

50、白、N蛋白单独分类，一共分成7种类型，并在此基础上，按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族，SCOP数据库按照种属名称将它们分成若干子类，一直到蛋白质分子的亚基。17. 试述SWISS-PROT中的数据来源。答：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据。18.TrEMBL哪两个部分？答：（1）SP-TrEMBL(SWISS-PROT TrEMBL)：包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登

51、录号。（2）REM-TrEMBL(REMaining TrEMBL)：包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。19. 试述PSI-BLAST 搜索的5个步骤。答：1 选择待查序列（query）和蛋白质数据库；2 PSI-BLAST 构建一个多序列比对，然后创建一个序列表谱（profile）又称特定位置打分矩阵（PSSM）；3 PSSM被用作 query搜索数据库4 PSI-BLAST 估计统计学意义 (E values)5 重复 3 和 4 , 直到没有新的序列发现。20. 生物信息学数据库的组成包括哪些部分？数据库有哪些类型？答案：生物信息学数据库的组成包

52、括一级数据库和二级数据库。数据库的类型包括核算和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库、以上述3类数据库和文献资料为基础构建的二次数据库。21. 简要介绍 GenBank中的DNA序列格式。答案：GenBank中的DNA序列格式可以分成三个部分，第一部分为描述符，从第一行LOCUS行到ORIGIN行，包含了关于整个记录的信息；第二部分为特性表，从FEATURES行开始，包含了注释这一纪录的特性，是条目的核心，中间使用一批关键字；第三部分是核苷酸序列的本身。22. 生物信息学的目标和任务？答案：收集和管理生物分子数据；数据分析和挖掘；开发分析工具和实用软件：生物分子

53、序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。23.生物信息学主要研究内容。答案（1）生物分子数据的收集与管理；（2）数据库搜索及序列比较；（3）基因组序列分析；（4）基因表达数据的分析与处理；（5）蛋白质结构预测。24. 为什么要构建生物分子数据库。答案：（1）生物分子数据高速增长（2）分子生物学及相关领域研究人员迅速获得最新实验数据。25. 预测基因的一般步骤是什么？答案：获取DNA目标序列查找ORF并将目标序列翻译成蛋白质序列，利用相应工具查找ORF并将DNA序列翻译成蛋白质序列在数据库中进行序列搜索，利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白

54、质序列搜索进行目标序列与搜索得到的相似序列的全局对比查找基因家族进行多序列比对，获得比对区段的基因家族信息查找目标序列中的特定模序，分别在Prosite、BLOCK、Motif数据库中进行profile、模块（block）、模序（motif）检索预测目标序列蛋白质结构，利用PredictProtein（EMBL）、NNPREDICT等预测目标序列的蛋白质二级结构。26. 生物信息学所用的方法和技术。答案（1）数学统计方法；（2）动态规划方法；（3）机器学习与模式识别技术；（4）数据库技术及数据挖掘；（5）人工神经网络技术；（6）专家系统；（7）分子模型化技术；（8）量子力学和分子力学计

55、算；（9）生物分子的计算机模拟；（10）因特网（Internet）技术。27. 国际上权威的核酸序列数据库有那些？答案（1）欧洲分子生物学实验室的EMBL 。（2）美国生物技术信息中心的GenBank。（3）日本遗传研究所的DDBJ。28. 生物信息学在基因芯片中的应用有哪些？答案：（1）确定芯片检测目标。（2）芯片设计。（3）实验数据管理与分析。29. 生物信息学分析的数据对象主要有哪几种？这些数据之间存在着什么关系？答案：其研究重点主要落实在核酸和蛋白质两个方面，包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点，破译遗传语言，认识遗传信息的组织规律，辨别隐藏在D

56、NA序列中的基因，掌握基因调控信息，对蛋白质空间结构进行模拟和预测，依据蛋白质结构和功能的关系进行药物分子设计。30. 基因芯片对于生物分子信息检测的作用和意义？答案：在生命科学领域中，基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技术，可研究生命体系中不同部位、不同生长发育阶段的基因表达，比较不同个体或物种之间的基因表达，比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程，发现新的基因功能，研究生物体在进化、发育、遗传过程中的规律。31. 基因组序列分析方面，科学家关注哪些信息？答案：就人类基因组而言，编码区域在人类基因组

57、所占的比例不超过3%。其余97%是非编码序列。对于非编码序列，人们了解得比较少，尚不清楚其含义或功能。然而，非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件（mobile element）及其遗留物、伪基因（pseudo gene）等。32. 为什么要进行序列片段组装？在进行序列片段组装时会遇到哪些问题？答案：大规模基因组测序得到待测序列的一系列序列片段，这些序列片段覆盖待测序列，序列片段之间也存在着相互覆盖或者重叠。遇到的问题：碱基标识错误；不知道片段的方向；存在重复区域；缺少覆盖。33. 序列分析的任务和目的分别是什么？答案：任务（1）发现序列之间的相似性；（2）辨别序列之间的差异。目的：（1）相似序列：相似的结构，相似的功能（2）判别序列之间的同源性（3）推测序列之间的进化关系34.P CR引物设计有哪些原则？答案：产物不能形成二级结构；引物长度一般在1530个

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物信息学复习题

文档简介

温馨提示

最新文档

评论

生物信息学复习题

文档简介

温馨提示

最新文档

评论

相关文档