版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学复习题名词解释1.生物信息学:是研究生物信息的采集、处理、 存储、传播,分析和解释等各方面的学科,也是 随着生命科学和计算机科学的迅猛发展,生命科 学和计算机科学相结合形成的一门新学科。2 .二级数据库:在一级数据库、实验数据和理论 分析的基础上针对特定目标衍生而来,是对 生物学知识和信息的进一步的整理。3 .FASTA序列格式:是将DNA者蛋白质序列表 示为一个带有一些标记的核甘酸或者氨基酸字 符串,大于号( )表示一个新文件的开始,其 他无特殊要求。4 .genbank序列格式:是GenBank数据库的基本 信息单位,是最为广泛的生物信息学序列格式之 一。该文件格式按域划分为4个
2、部分:第一部分 包含整个记录的信息(描述符);第二部分包含 注释;第三部分是引文区,提供了这个记录的科 学依据;第四部分是核甘酸序列本身,以“ ”结尾。5 .Entrez检索系统:是NCBI开发的核心检索系 统,集成了 NCBI的各种数据库,具有链接的数 据库多,使用方便,能够进行交叉索引等特点。6.BLAST:基本局部比对搜索工具,用于相似性 搜索的工具,对需要进行检索的序列与数据 库中的每个序列做相似性比较。P947 .查询序列(query sequence ):也称被检索序 列,用来在数据库中检索并进行相似性比较 的序列。P988 .打分矩阵(scoring matrix ):在相似性检
3、索 中对序列两两比对的质量评估方法。包括基于理 论(如考虑核酸和氨基酸之间的类似性) 和实际 进化距离(如PAM两类方法。P299 .空位(gap):在序列比对时,由于序列长度不 同,需要插入一个或几个位点以取得最佳比对结 果,这样在其中一序列上产生中断现象,这些中 断的位点称为空位。P2910 .空位罚分:空位罚分是为了补偿插入和缺失 对序列相似性的影响,序列中的空位的引入 不代表真正的进化事件,所以要对其进行罚分, 空位罚分的多少直接影响对比的结果。P3711 .E值:衡量序列之间相似性是否显著的期望 值。12 .低复杂度区域:BLAST搜索的过滤选项。指 序列中包含的重复度高的区域,如
4、poly (A)。13 .点矩阵(dot matrix ):构建一个二维矩阵, 其X轴是一条序列,Y轴是另一个序列,然后在 2个序列相同碱基的对应位置(x, y)加点,如 果两条序列完全相同则会形成一条主对角线,如 果两条序列相似则会出现一条或者几条直线;如 果完全没有相似性则不能连成直线。14 .多序列比对:通过序列的相似性检索得到许 多相似性序列,将这些序列做一个总体的比对, 以观察它们在结构上的异同,来回答大量的生物 学问题。15 .分子钟:认为分子进化速率是恒定的或者几 乎恒定的假说,从而可以通过分子进化推断 出物种起源的时间。16 .系统发育分析:通过一组相关的基因或者蛋 白质的多序
5、列比对或其他性状,可以研究推 断不同物种或基因之间的进化关系。17 .进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两 个子分支。系统发育图:用枝长表示进化时间的系统树称为 系统发育图,是引入时间概念的支序图。18 .直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据 的情况下,具有共同祖先和相同功能的同源基 因。)19 .旁系(并系)同源:指同一个物种中具有共 同祖先,通过基因重复产生的一组基因,这 些基因在功能上可能发生了改变。(书:由于基 因重复事件产生的相似序列。)20 .外类群:是进化树中
6、处于一组被分析物种之 外的,具有相近亲缘关系的物种。21 .有根树:能够确定所有分析物种的共同祖先 的进化树。22 .除权配对算法(UPGMA最初,每个序列归 为一类,然后找到距离最近的两类将其 归为一类,定义为一个节点,重复这个过程,直 到所有的聚类被加入,最终产生树根。23 .令B接法(neighbor-joining method ): 是一 种不仅仅计算两两比对距离,还对整个树的长度 进行最小化,从而对树的拓扑结构进行限制,能 够克服UPGMA:法要求进化速率保持恒定的缺 陷。24 .最大简约法(MP:在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基 酸替换的进化树。25 .
7、最大似然法(MD:它对每个可能的进化位点 分配一个概率,然后综合所有位点,找到概率最 大的进化树。最大似然法允许采用不同的进化模 型对变异进行分析评估,并在此基础上构建系统 发育树。26 . 一致树(consensus tree ):在同一算法中产 生多个最优树,合并这些最优树得到的树即一致 树。27 .自举法检验(Bootstrap ):放回式抽样统计 法。通过对数据集多次重复取样,构建多个进化 树,用来检查给定树的分枝可信度。28 .开放阅读框(ORF:开放阅读框是基因序列 的一部分,包含一段可以编码蛋白的碱基序列。29 .密码子偏性(codon bias):氨基酸的同义密 码子的使用频率
8、与相应的同功tRNA的水 平相一致,大多数高效表达的基因仅使用那些含 量高的同功tRNA所对应的密码子,这种效应称 为密码子偏性。30 .基因预测的从头分析:依据综合利用基因的 特征,如剪接位点,内含子与外显子边界调控区,预测基因组序列中包含的基因。31 .结构域(domain):保守的结构单元,包含独 特的二级结构组合和疏水内核,可能单独存在, 也可能与其他结构域组合。相同功能的同源结构 域具有序列的相似性。32 .超家族:进化上相关,功能可能不同的一类 蛋白质。33 .模体(motif ):短的保守的多肽段,含有相 同模体的蛋白质不一定是同源的,一般 10-20 个残基。34 .序列表谱(
9、profile ):是一种特殊位点或模 体序列,在多序列比较的基础上,氨基酸的权值 和空位罚分的表格。35 .PAM矩阵:PAMW可接受突变百分率。一个氨 基酸在进化中变成另一种氨基酸的可能性,通过 这种可能性可以鉴定蛋白质之间的相似性,并产 生蛋白质之间的比对。一个PAM单位是蛋白质序 列平均发生1%勺替代量需要的进化时间。36.BLOSU幅阵:模块替代矩阵。矩阵中的每个 位点的分值来自蛋白比对的局部块中的替代频 率的观察。每个矩阵适合特定的进化距离。例如, 在BLOSUM睫阵中,比对的分值来自不超过 62%一致率的一组序列。37 . PSI-BLAST:位点特异性迭代比对。是一种 专门化的
10、的比对,通过调节序列打分矩阵 (scoring matrix )探测远缘相关的蛋白。38 . RefSeq:给出了对应于基因和蛋白质的索引 号码,对应于最稳定、最被人承认的Genbank序 列。39 . PDB (Protein Data Bank ): PDB中收录了大 量通过实验(X射线晶体衍射,核磁共振NMR 测定的生物大分子的三维结构,记录有原子坐 数据库的访问号由一个数字和三个字母组成标、配基的化学结构和晶体结构的描述等。PDB(如,4HHB,同时支持关键词搜索,还可以FASTA 程序进行搜索。40 . GenPept:是由GenBan抻的DN府列翻译得 到的蛋白质序列。数据量很大,
11、且随核酸序列数 据库的更新而更新,但它们均是由核酸序列翻译 得到的序列,未经试验证实,也没有详细的注释。41 .折叠子(Fold):在两个或更多的蛋白质中具 有相似二级结构的大区域,这些大区域具有特定 的空间取向。42 . TrEMBL:是与 SWISS-PRO相关的一个数据库。包含从EMBL核酸数据库中根据编码序列 (CDS阉译而得到的蛋白质序列,并且这些序列 尚未集成到SWISS-PROT据库中。43 . MMDB(Molecular Modeling Database) :是 (NCBD所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于 实验的生物大分子结构数据
12、。与PDBW比,对于 数据库中的每一个生物大分子结构,MMDEBI有 许多附加的信息,如分子的生物学功能、产生功 能的机制、分子的进化历史等,还提供生物大分 子三维结构模型显示、结构分析和结构比较工 具。44 . SCOP数据库:提供关于已知结构的蛋白质 之间结构和进化关系的详细描述,包括蛋白 质结构数据库PDB中的所有条目。SCO嘤据库 除了提供蛋白质结构和进化关系信息外,对于每 一个蛋白质还包括下述信息:到PDB的连接,序 列,参考文献,结构的图像等。可以按结构和进 化关系对蛋白质分类,分类结果是一个具有层次 结构的树,其主要的层次依次是类(class )、折 叠子(fold )、超家族(
13、super family )、家族(family )、单个PD睦白结构记录。45 .PROSITE是蛋白质家族和结构域数据库,包 含具有生物学意义的位点、模式、可帮助识别蛋 白质家族的统计特征。PROSIT冲涉及的序列模 式包括酶的催化位点、配体结合位点、与金属离 子结合的残基、二硫键的半胱氨酸、与小分子或 其它蛋白质结合的区域等;PROSITE 还包括根据多序列比对而构建的序列统计特征, 能更敏感地发现一个序列是否具有相应的特征。46 . Gene Ontology 协会:编辑一组动态的、可 控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质,即,分子功能,生 物过程,细胞区
14、室。47 .表谱(PSSM):指一张基于多序列比对的打 分表,表示一个蛋白质家族,可以用来搜索 序列数据库。48 .蛋白质组p179:是指一个基因组中各个基 因编码产生的蛋白质的总体,即一个基因组的全 部蛋白产物及其表达情况。49 .中心法则是指遗传信息从DNA专递给RNA 再从RNA专递给蛋白质,即完成遗传信息的转录 和翻译的过程。也可以从 DNA专递给DNA即完 成dnA勺复制过程。这是所有有细胞结构的生物 所遵循的法则。50 .一级数据库:数据库中的数据直接来源于实 验获得的原始数据,只经过简单的归类整理和注 释51 .基因芯片(gene chip ),又称 DNA微阵列 (microa
15、rray ),是由大量cDN碱寡核甘酸探针 密集排列所形成的探针阵列,其工作的基本原理 是通过杂交检测信息。52 .序列比对:为确定两个或多个序列之间的相 似性以至于同源性,而将它们按照一定的规律排 列。53 .数据库查询(database query ):是指对序列、 结构以及各种二次数据中的注释信息进行关键 词匹配查找检索。54 .数据库搜索(database search ):在分子生 物信息学中有特定含义,它是指通过特定的序列 相似性比对算法,找出核酸或蛋白质序列数据库 中与检测序列具有一定程度相似性的序列。55 .相似性(similarity ):数学上,相似性指两个图形的 形状完全
16、相似。若存在两个点的集,其中一个能 透过放大缩小、平移或旋转等方式变成另一个,就说它们具有相似性。56 .同源性:在进化上或个体发育上的共同来源 而呈现的本质上的相似性,但其功能不一定相 同。57 .同一性:是指两序列在同一位点核甘酸或氨 基酸残基完全相同的序列比例。58 .一致序列:在两个或多个同源序列的每一个 位置上多数出现的核甘酸或氨基酸组成的序列。59 . HMMK隐马尔可夫模型):是统计模型,它用来描述一 个含有隐含未知参数的马尔可夫过程。其难点是 从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识 别。60 .简约性信息位点:指基于DNA蛋白质序列、
17、 利用最大简约法构建系统发育树时,在两个及以 上分类单元(的序列)中存在差异,且其中至少 有两种变异类型在该位点出现两次及以上,此类 位点称为简约性信息位点。61 .信息位点:由位点产生的突变数目把其中的 一课树与其他树区分开的位点。62 .非信息位点:对于最大简约法来说没有意义的 点63 .标度树:分支长度与相邻节点对的差异程度 成正比的树。64 .非标度树:只表示亲缘关系无差异程度信息。65 .有根树:单一的节点能指派为共同的祖先, 从祖先节点只有唯一的路径历经进化到达其他 任何节点。66 .无根树:只表明节点间的关系,无进化发生 方向的信息,通过引入外群或外部参考种,可以 在无根树中指派
18、根节点。67 .注释(annotation )对数据库中原始的 DNA 碱基序列添加相关信息(比如编码的基因,氨基 酸序列等)或其他的注解。68 .基因组注释(Genome annotation) 是利用生 物信息学方法和工具,对基因组所有基因的生物 学功能进行高通量注释,是当前功能基因组学研 究的一个热点。69 .虚拟细胞:一种建模手段,把细胞定义为许 多结构,分子,反应和物质流的集合体。70 .质谱(MS)是一种准确测定真空中离子的分子 质量/电荷比(m/z)的方法,从而使分子质量的准 确确定成为可能。71 .分子途径是指一组连续起作用以达到共同目 标的蛋白质。72 .先导化合物:是指具有
19、一定药理活性的、可 通过结构改造来优化其药理特性而可能导致药 物发现的特殊化合物。73 .权重矩阵(序列轮廓):它们表示完全结构 域序列,多序列联配中每个位点的氨基酸都有分 值,并且特定位置插入或缺失的可能性均有一定 的衡量方法(课件定义)。74 .系统发育学(phylogenetic ):确定生物体 间进化关系的科学分支。75 .系统生物学(systems biology ):是研究一 个生物系统中所有组分成分(基因、mRNA蛋白 质等)的构成以及在特定条件下这些组分间的相 互关系,并分析生物系统在一定时间内的动力学 过程。76 .蛋白质组(proteome):是指一个基因组、 一种生物或一
20、个细胞/组织的基因组所表达的全 套蛋白质。77 . ESI电喷雾离子化:一种适合大分子如蛋白 质离子化没有明显降解的质谱技术。78 .微阵列芯片:是指采用光导原位合成或微量 点样等方法,将大量生物大分子比如核酸片段、 多肽分子甚至组织切片、细胞等生物样品有序地 固化于支持物(如玻片、尼龙膜等载体)的表面, 组成密集二维分子排列,然后与已标记的待测生 物样品中靶分子反应,通过特定的仪器,比如激 光共聚焦扫描仪或电荷偶联摄影像机对反应信 号的强度进行快速、并行、高效地检测分析,从 而判断样品中靶分子的数量。79 .有监督分析法:这种方法引入某些形式的分 类系统,从而将表达模式分配到一个或多个预定
21、义的类目中。80 .聚类分析:指将物理或抽象对象的集合分组 为由类似的对象组成的多个类的分析过程。81 .虚拟消化:针对重要疾病特定靶标生物大分 子的三维结构或定量构效关系(Quantitative structure-activity relationships , QSAR 模 型,从现有小分子数据库中,搜寻与靶标生物大 分子结合或符合QSAR莫型的化合物,进行筛选 实验研究。82 .无监督分析法:这种方法没有内建的分类标 准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。83 . GenBank:是美国国家生物技术信息中心 (National Center for Biotec
22、hnologyInformation )NCBI)建立的 DNA列数据库) 从公共资源中获取序列数据,主要是科研人员直 接提供或来源于大规模基因组测序计划 (Benson 等)1998)。84 . EMBL :(欧洲分子生物学实验室)(TheEuropean Molecular Biology Laboratory )于 1974年由欧洲14个国家加上亚洲的以色列共同 发起建立,包括一个位于德国 Heidelberg的核 心实验室)及三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。85 . DDBJ : (DNAData Bank of Japan),于 198
23、4 年建立,是世界三大 DNA数据库之一,与NCBI 的GenBank EMBL的EBI数据库共同组成国际 DNA数据库,每日都交换更新数据和信息,并主持两个国际年会一国际 DNA数据库咨询会议 和国际DNA数据 库协作会议,互相交换信息, 因此三个库的数据实际上是相同的。86 . BLAST : 是英语 Bell Labs LayeredSpace-Time的缩写)是一项新的通信技术)它采用多天线系统利用多径传播效应以达到提高 频谱利用率的目的。1 7.BLASTn :是核酸序列到核酸库中的一种查 询。库中存在的每条已知序列都将同所查序列作 一对一地核酸序列比对。2 8.BLASTp :是蛋
24、白序列到蛋白库中的一种查 询。库中存在的每条已知序列将逐一地同每条所 查序列作一对一的序列比对。88 .Clustsl X:是一种利用渐近法(progressive alignment )进行多条序列比对的软件。即从多 条序列中最相似(距离最近)的两条序列开始比 对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。89 . Entrez:是美国国家生物技术信息中心所提 供的在线资源检索器。该资源将GenBan辱列与Entrez 是由 NCBI其原始文献出处链接在一起 主持的一个数据库检索系统90 .Medline文摘数据库:是美国国立医学图书馆(The Nation
25、al Library of Medicine,简称 生产的国际性综合生物医学信息书目数据库, 当前国际上最权威的生物医学文献数据库。91 . SRS(sequence retrieval system): 是欧洲生 物信息研究所开发的 SRS (Sequence Retrieval System)是以WW界面运行的数据库检索系统, 其主要功能是将所有数据库建立参照 (cross-references) 索引,用户可通过输入查询 代码、编号、物种来源、说明、文献、作者、日 期、关键词等信息对所有已建立索引的数据库进 行检索,从而得到用户所需的序列或相关内容。92 . SWLSS-MODEL :是
26、一个自动化的蛋白质 比较建模服务器。93 .homology modeling :对于一个未知结构的蛋 白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结 构模型。94 .Ab initio prediction :仅根据序列本身来预测 其结构95 . molecular phylogenetic tree:又名分子进化 树,是生物信息学中描述不同生物之间的相关关 系的方法。通过系统学分类分析可以帮助人们了 解所有生物的进化历史过程。96 . gene tree (基因树):是指基于单个同源基因 差异构建的系统发生树。96. neighborjoining m
27、ethod :是一种不仅仅计算两两比对距离,还对整个树的长度进行最小 化,从而对树的拓扑结构进行限制,能够克服 UPGMA法要求进化速率保持恒定的缺陷。97. maximum parsimony method :在系歹U能够解释序列差异的的进化树中找到具有最少核酸 或氨基酸替换的进化树。Genetics automaticinferring98. MEGA(Molecular Evolutionary Analysis): is an integrated tool for and manual sequence alignment, phylogenetic trees, mining we
28、b-based databases,and软RNAestimating rates of molecular evolution, testing evolutionary hypotheses.99. BioEdit :是一个序列编辑器与分析工具 件。功能包括:序列编辑、外挂分析程序、 分析、寻找特征序列、支持超过20000个序列的 多序列文件、基本序列处理功能、质粒图绘制等 等。100. EST: (Expressed Sequence Tag表达序列标 签一是从一个随机选择的cDNA克隆,进行5 端和3端单一次测序挑选出来获得的短的 cDNA部分序列。101. GSS:基因组勘测序列,是
29、基因组 DNA隆的一次性部分测序得到的序列。包括随机的基因 组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped 获得基因组序列、通过 Alu PCR获得的序列、以及转座子标记序列等。102. ORF:是基因序列的一部分,包含一段可以 编码蛋白的碱基序列,不能被终止子打断。(P86, 指从5 端开始翻译起始密码子到终止密码子的 蛋白质编码碱基序列。)103. promoter (启动子):是基因(gene)的一 个组成部分,控制基因表达(转录)的起始时间 和表达的程度。104. 3, UTR 3,非翻译区的缩写,真核生物的 转录终止信号是在3非翻译区的:polyA。1
30、05. CpG island : CpG双核甘酸在人类基因组中 的分布很不均一,而在基因组的某些区段,Cp(保持或高于正常概率。106. coiled coil:卷曲螺旋,是蛋白质中由 2T 条a螺旋链相互缠绕形成类似麻花状结构的总 称。卷曲螺旋是控制蛋白质寡聚化的元件,在机肉收缩、膜通道等生物学功能。107. heptad repeat:七肽重复区是典型的卷曲螺 旋结构类型之一,由多个七肽单元连接而成的重 复序列。108. structure domain : 结构域,是在蛋白质三 级结构中介于二级和三级结构之间的可以明显 区分但又相对独立的折叠单元,每个结构域自身 形成紧实的三维结构,可以
31、独立存在或折叠,但 结构域与结构域之间关系较为松散。109. motif:蛋白质序列中较短的保守区域,通 常为按一定的模式排列的氨基酸残基 也称为指纹(figureprint )。110. linux operating system : linux 操作系统, Linux是一类Unix计算机操作系统的统称。Linux操作系统也是自由软件和开放源代码发展中最著名的例子。111. BioPerl : an international association of users & developers of open source Perl tools for bioinformatics, ge
32、nomics and life science112. PubMed :是一个免费的生物医学文摘数据 库,提供部分论文的摘要及指向全文的链接。作为Entrez资讯检索系统的一部分。113. HGP(human genome project):是一项规模 宏大,跨国跨学科的科学探索工程。114. ncRNA:非编码 RNA(Non-coding RNA 是指不编码蛋白质的RNA115. miRNA :是一类由内源基因编码的长度约为22个核甘酸的非编码单链 RNA分子,它们在 动植物中参与转录后基因表达调控。填空题1 .常用的三种序列格式:NBRF/PIR,FASTA 和 GDE2 .初级序列数据
33、库:GenBank, EMBL和DDBJ3 .蛋白质序列数据库:SWISS-PROT和TrEMBL4 .提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR (蛋白质 信息资源)5 .目前由NCBI维护的大型文献资源是PubMed6 .数据库常用的数据检索工具:Entrez, SRS, DBGET7 .常用的序列搜索方法:FASTA和BLAST8 .高分值局部联配的BLAST参数是HSPs (高 分值片段对),E (期望值)9 .多序列联配的常用软件:Clustal10 .蛋白质结构域家族的数据库有:Pfam, SMART11 .系统发育学的研究方法有:表现型分类法,
34、遗传分类法和进化分类法12 .系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法13 .常用系统发育分析软件:PHYLIP14 .检测系统发育树可靠性的技术:bootstrapping 和 Jack-knifing15 .原核生物和真核生物基因组中的注释所涉 及的问题是不同的16 .检测原核生物ORF的程序:NCBI ORFfinder17 .测试基因预测程序正确预测基因的能力的 项目是GASP (基因预测评估项目)18 .二级结构的三种状态:a螺旋,3折叠和3 转角19 .用于蛋白质二级结构预测的基本神经网络 模型为三层的前馈网络,包括输入层,隐含层和 输出层20 .通过比较建模预测蛋
35、白质结构的软件有 SWISS-PDBVIEWER (SWISSMODEL 网站)21 .蛋白质质谱数据搜索工具:SEQUEST22 .分子途径最广泛数据库:KEGG23 .聚类分析方法,分为有监督学习方法,无监 督学习方法24 .识别基因主要有两个途径即基因组DNA外显子识别和基于 EST策略的基因鉴定。25 .表达序列标签是从 mRNA 中牛成的一 些很短的序列(300-500bp ),它们代表在特 定组织或发育阶段表达的基因。26 .序列比对的基本思想,是找出检测基因和 目标序列 的相似性,就是通过在序列中 插入 空位 的方法使所比较的序列长度达 到一致。比对的数学模型大体分为两类,分 别
36、是整体比对和 局部比对。27.2-DE的基本原理是根据蛋白质等电点和 分子量 不同.进行两次电泳将之分离。 第一向是等电聚焦分离,第二向是_ SDS-PAGE分离 28.蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术 、 计算机图像数据处理与 蛋白质数据库。判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。(对)2、CDS一定就是ORR (对)3、两者之间有没有共同的祖先,可以通过 序列的同源性来确定,如果两个基因或蛋白 质有着几乎一样的序列,那么它们高度同源 就具有共同的祖先。 (错)4、STS,是一段200-300b
37、p的特定DNA序歹U, 它的序列已知,并且在基因组中属于单拷 贝。(对)5、非编码DNA是“垃圾 DNA ,不具有任何 的分析价值,对于细胞没有多大的作用。(错)6、基因树和物种树同属于系统树,它们之 间可以等同。(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。(对)8、对任意一个 DNA序歹U,在不知道哪一个 碱基代表 CDS的起始时,可用 6框翻译法, 获得6个潜在的蛋白质序列。(对)9、 一个机体只有一个确定的基因组,但基 因组内各个基因表达的条件和表达的程度 随时间、空间和环境条件而不同。(对)10、外显子和内含子之间没有绝对的区分, 一个基因的内含子可以是另
38、一个基因的外 显子,同一个基因在不同的生理状况或生长 发育的不同阶段,外显子组成也可以不同。(对)11、比较是科学研究中最常见的方法,在生 物信息学研究中,比对是最常用和最经典的 研究方法。(对)12、ORF一定就是 CDS (错)13、用不同的方法可以构建不同的系统发育树,为保证分析结果的可靠性,需要对进化树进行评估。(对)14、相似性是一种很直接的数量关系,无需 实验验证。(错)15、基因树和物种树同属于系统树,它们之 间可以等同。(错)16、蛋白质和DNA的同源性常常通过它们序 列的相似性来判定,如果两个基因或蛋白质 有着几乎一样的序列,具有高度的相似性,那么它们一定是同源。(错)17、
39、所谓局部比对是找出两个被比较序列的 最类似片段。(对)不定项选择题1、( ABC )是现在国际上最主要的 三大核酸序列数据库A. EMBL B. DDBJ C. GenBank D.NCBI E. EBI2、RFLP是DNA多态性中最多见的一种,它产生的机制包括(ABE )A.DNA分子产生突变,使某些酶切位点数增 加B. DNA分子产生突变,使某些酶切位点数减少C.限制性酶切位点之间重复序列数目变异D.限制性酶星活性E.限制性酶切位点前后的DNA片断发生插入或删除3、下面序列哪些为反向重复序列(BD )A. GCACTTGGCACTTGB.GCACTTGCAAGTGC CGTGAACCGTG
40、AAC CGTGAACGTTCAC GC.GCACTTGCAAGTGCD.GCACTAGCTAGCGG CGTGAACGTTCAC G CGTGATCGATCGCC4、分析EST序列时首要注意以下几点(ACDE )A.EST序列中除了 AGTC 外,可能出现未知碱基B.EST只是单次测序,得出的结果没有可信度C.EST序列中可能出现错误的插入和缺失,导致读码框移位D.某个EST序列是数据库中另一序列的一个片段E.某个EST序列不在基因的编码区内5、人类基因组计划要完成的几张图谱分别是(ABCE)A.物理图谱 B.遗传图谱 C. 序列图谱D. 生物图谱 E. 基因图谱6、最常用的序列相似性查询工
41、具是(AB )A.FASTA B.BLAST C.SWISS-PROTD.PDB E.PIR7、下列哪些分子类型属于非蛋白质编码区(ABCDE )A.内含子 B.卫星 DNA C.伪基因 D.启 动子E.增强子8、卫星DNA的多态性是由( D )所决 定的。A. DNA点突变个数 B.限制性内切酶识别序 列个数不同 C. DNA的二级结构不同 D.重复单位不同 E.重复次数不同9、真核基因组特点包括( ABCDE )A.基因组大,巨大的非编码序列,重复序列占了绝大部分B.基因结构复杂,无显著长度的开放阅读框C.存在可变剪接D. CpG 岛 E.等值区10、20世纪三大著名计划包括(ACE )A
42、.阿波罗登月计划B.卫星计划 C.HGPD.肿瘤计划E.曼哈顿原子弹计划简答题1.BLAST 套件的 blastn 、blastp 、blastx 、 tblastn 和tblastx 子工具的用途什么? 答:blastn是将给定的核酸序列与核酸数据 库中的序列进行比较; Blastp是使用蛋白质 序列与蛋白质数据库中的序列进行比较,可 以寻找较远的关系;Blastx将给定的核酸序 列按照六种阅读框架将其翻译成蛋白质与 蛋白质数据库中的序列进行比对,对分析新 序列和EST很有用;Tblastn 将给定的氨基 酸序列与核酸数据库中的序列(双链)按不 同的阅读框进行比对,对于寻找数据库中序 列没有
43、标注的新编码区很有用;Tblastx 只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读 框全部翻译成蛋白质序列,然后进行蛋白质 序列比对。P972 .序列的相似性与同源性有什么区别与联 系?答:相似性是指序列之间相关的一种量度, 两序列的的相似性可以基于序列的一致性 的百分比;而同源性是指序列所代表的物种 具有共同的祖先,强调进化上的亲缘关系。 P1473 .美国国家生物技术信息中心( NCBI)的主要工作是什么?请列举3个以上Entrez系统可以检索的数据库。(NCBI维护的数据库)NCBI的主要工作是在分子水平上应用数 学和计算机科学的方法研究基础生物,医学
44、问题。为科学界开发,维护和分享一系列的 生物信息数据库;开发和促进生物信息学数 据库,数据的储存,交换以及生物学命名规 则的标准化。维护的主要数据库包括答:PubMed、核酸序列数据库GenBank、PROW三维蛋白质结构分子模型数据库MMDB4 .简述BLAST搜索的算法思想。答:BLAST是一种局部最优比对搜索算法, 将所查询的序列打断成许多小序列片段,然 后小序列逐步与数据库中的序列进行比对, 这些小片段被叫做字 word” ;当一定长度 的的字(WW与检索序列的比对达到一个指 定的最低分(T)后,初始比对就结束了; 一个序列的匹配度由各部分匹配分数的总 和决定,获得高分的序列叫做高分匹
45、配片段(HSP),程序将最好的 HSP双向扩展进行比 对,直到序列结束或者不再具有生物学显著 性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP,这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P955 .什么是物种的标记序列?答:指物种特有的一段核甘酸序列。可以通 过相似性查询,得到某一序列在数据库中的 某一物种中反复出现,且在其他物种中没有 的明显相似的序列。6 .什么是多序列比对的累进算法?(三个 步骤)答:第一,所有的序列之间逐一比对(双重 比对);第二,生成一个系统树图,将序列 按相似性大致分组;第三,使用系统树图作 为引导,产生出最终的多序列
46、比对结果。P527 .简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。答:(1)多序列比对: Clustal W(2)校对比对结果: BIOEDIT (3)建树:MEGA(4) 评估系统发育信号和进化树的牢固度:自举 法(Bootstrap )8 .简述除权配对法(UPGMA的算法思想。答:通过两两比对聚类的方法进行,在开始 时,每个序列分为一类,分别作为一个树枝 的生长点,然后将最近的两序列合并,从而 定义出一个节点,将这个过程不断的重复, 直到所有的序列都被加入,最后得到一棵进 化树。9 .简述邻接法(NJ)构树的算法思想。答:邻接法的思想不仅仅计算最小两两比对 距离,还对
47、整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵 星状树开始,所有的物种都从一个中心节点 出发,然后通过计算最小分支长度的和相继 寻找到近邻的两个序列,每一轮过程中考虑 所有可能的序列对,把能使树的整个分支长 度最小的序列对一组,从而产生新的距离矩 阵,直到寻找所有的近邻序列。P11710 .简述最大简约法 (MB的算法思想。P68 答:是一种基于离散特征的进化树算法。生 物演化应该遵循简约性原则,所需变异次数 最少(演化步数最少)的演化树可能为最符 合自然情况的系统树。在具体的操作中,分 为非加权最大简约分析(或称为同等加权) 和加权最大简约分析,后者是根据性状本身 的演化
48、规律(比如 DNA不同位点进化速率不 同)而对其进行不同的加权处理。P12011 .简述最大似然法 (MD的算法思想。P69 答:是一种基于离散特征的进化树算法。该 法首先选择一个合适的进化模型,然后对所 有可能的进化树进行评估,通过对每个进化 位点的替代分配一个概率,最后找出概率最 大的进化树。P12212 . UPGMA勾树法不精确的原因是什么? P69答:由个于UPGMAi设在进化过程中所有核 甘酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化 树的序列进化速率明显不一致时,得到的进 化树相对来说不准确的。13 .在MEGA歙件中,提供了哪些碱基替换 距离模型,
49、试列举其中3种,解释其含义。答:碱基替换模型包括,No.ofdifferences 、p-distance 、Jukes-Cantor distance 、T ajima-Nei distance 、 Kimur 2-parameter distance 、Tamura 3-parameter distance 、Tamura-Nei distance p-distance :表示有差异的核甘酸位点在序列中所占比例,将有差异的核甘酸位点数 除已经比对的总位点数就可以得到 Jukes-Cantor :模型假设 A T C G 的替换 速率是一致的,然后给出两个序列核甘酸替 换数的最大似然估计 K
50、imura 2-parameter :模型考虑到了转换很 颠换队多重击中的影响,但假设整个序列中 4钟核甘酸的频率是相同哈德在不同位点上 的碱基替换频率是相同的。14 .试述DNA列分析的流程及代表性分析 工具。(1)寻找重复元件:RepeatMasker(2)同源性检索确定是否存在已知基因: BLASTn(3)从头开始方法预测基因:Genscan(4)分析各种调控序列: TRES/DRAGONPROMOTOR FINDER CpG 岛:CpGPlot代表性工具:ORFFinder、BLASTn、tBLASTx、 BLASTx、Gene Wise15 .如何用BLAST发现新基因?; 答:从一
51、个一直蛋白质序列开始,通过 tBLASTn工具搜索一个 DNA数据库,可以找 到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与 DNA编码的相关蛋白质的匹 配。然后通过 BLASTx或BLASTp在蛋白质数 据库中搜索 DNA或蛋白质序列来“确定” 一 个新基因。16 .试述SCO唯白质分类方案;答:SCOP将PDB数据库中的蛋白质按传统分 类方法分成 a型、B型、a / B型、a + B 型,并将多结构域蛋白、膜蛋白和细胞表面 蛋白、N蛋白单独分类, 一共分成7种类型, 并在此基础上,按折叠类型、超家族、家族 三个层次逐级分类。对于具有不同种属来源 的同源蛋白家族,SCO吸据库按照种属名
52、称 将它们分成若干子类,一直到蛋白质分子的 亚基。17 .试述SWISS-PROT中的数据来源。答:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。18 .TrEMBL哪两个部分?答:(1) SP-TrEMBL(SWISS-PROT TrEMBL):包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2) REM-TrEMBL(REMaining TrEMBL):包 括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号
53、。19 .试述PSI-BLAST 搜索的5个步骤。答:1选择待查序列(query )和蛋白质数据库;2 PSI-BLAST 构建一个多序列比对,然后创建一个序列表谱( profile )又称特定位置打分矩阵( PSSM ; 3 PSSM被 用作query搜索数据库4 PSI-BLAST 估计统计学意义 (E values)5 重复3和4,直到没有新的序列发现。20 .生物信息学数据库的组成包括哪些部分?数据库有哪些类型?答案:生物信息学数据库的组成包括一级数据库和二级数据库。数据库的类型包括核 算和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库、以上述3类数据库和文献资料
54、为基础构建的二 次数据库。21 .简要介绍 GenBank中的DNA序列格式。答案:GenBank中的DNA序列格式可以分成 三个部分,第一部分为描述符,从第一行 LOCUS亍到ORIGIN行,包含了关于整个记录 的信息;第二部分为特性表,从 FEATURES 行开始,包含了注释这一纪录的特性,是条 目的核心,中间使用一批关键字;第三部分 是核甘酸序列的本身。22 .生物信息学的目标和任务?答案:收集和管理生物分子数据;数据分析 和挖掘;开发分析工具和实用软件:生物分 子序列比较工具、基因识别工具、生物分子 结构预测工具、基因表达数据分析工具。23 .生物信息学主要研究内容。答案(1)生物分子
55、数据的收集与管理;(2)数据库搜索及序列比较 ;(3)基因组序列分析;(4)基因表达数据的分析与处理 ;(5)蛋白质 结构预测。24 .为什么要构建生物分子数据库。答案:(1)生物分子数据高速增长(2)分子生物学及相关领域研究人员迅速获得最新实 验数据。25 .预测基因的一般步骤是什么?答案:获取 DNA目标序列查找 ORF并将目标序列翻译成蛋白质序列,利用相应工具查找 ORF并将DNA列翻译成蛋 白质序列在数据库中进行序列搜索,利用 BLAST进行ORF核甘酸序列和 ORF翻译的蛋 白质序列搜索进行目标序列与搜索得到 的相似序列的全局对比查找基因家族进 行多序列比对,获得比对区段的基因家族信
56、 息查找目标序列中的特定模序,分别在 Prosite 、BLOCK Motif 数据库中进行 profile 、模块(block )、模序(motif )检 索预测目标序列蛋白质结构,利用 PredictProtein ( EMBl)、NNPREDIC传预测 目标序列的蛋白质二级结构。26 .生物信息学所用的方法和技术。答案(1)数学统计方法;(2)动态规划方 法;(3)机器学习与模式识别技术;(4)数据库技术及数据挖掘;(5)人工神经网络技术;(6)专家系统;(7)分子模型化技术;(8)量子力学和分子力学计算;(9)生物分子的计算机模拟;(10)因特网(Internet )技术。27 .国际上权威的核酸序列数据库有那 些?答案(1)欧洲分子生物学实验室的 EMBL。 (2)美国生物技术信息中心的GenBank。(3)日本遗传研究所的DDBA28 .生物信息学在基因芯片中的应用有哪 些?答案:(1)确定芯片检测目标。(2)芯片设计。(3)实验数据管理与分析。29 .生物信息学分析的数据对象主要有哪 几种?这些数据之间存在着什么关系? 答案:其研究重点主要落实在核酸和蛋白质 两个方面,包括它们的序列、结构和功能。 生物信息学以基因组 DNA列信息分析作为 出发点,破译遗传语言,认识遗传信息的组 织规律,辨别隐藏在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一单元简易方程(提升卷)-2023-2024学年数学五年级下册单元速记巧练
- 《电项针对大鼠脑缺血再灌注脑损伤模型的缺氧诱导因子(HIF-1α)及其靶基因的影响研究》
- 《孟荀天命观比较研究》
- 《双极膜电渗析技术解离废弃NaH2PO2制备H3PO2的研究》
- 2024年周口小型客运从业资格证考试真题保过
- 2024年度影视作品改编权许可合同
- 2024年六盘水c1客运资格证考试
- 2024年甘肃客运资格证理论考试模拟题及答案
- 2024年企业采购战略合作项目的环境与社会责任合同
- 高校学术期刊与“双一流”建设协同发展机制研究
- 上海市建设工程项目管理机构管理人员情况表
- 北师大版二年级数学上册第九单元《除法》知识点梳理复习ppt
- 空气能室外机保养维护记录表
- DB37∕T 5162-2020 装配式混凝土结构钢筋套筒灌浆连接应用技术规程
- 9-2 《第三方过程评估淋蓄水检查内容》(指引)
- 部编版七年级初一语文上册《狼》公开课课件(定稿)
- 2015路面工程讲义(垫层+底基层+基层+面层+联合层+封层、透层与黏层)
- 信息安全保密控制措施资料
- 《现代汉语修辞》PPT课件(完整版)
- TTJCA 0007-2022 住宅室内装饰装修工程施工验收规范
- 构造柱工程施工技术交底
评论
0/150
提交评论