生物信息学B复习要点_第1页
生物信息学B复习要点_第2页
生物信息学B复习要点_第3页
生物信息学B复习要点_第4页
生物信息学B复习要点_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上知识点:1.生物信息学:生物信息学是一门(交叉)学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应用(数学)、(计算机科学)和(生物学)的各种工具,来阐明和理解大量数据中包含的生物学意义。2. 人类基因组计划 :(human genome project,HGP)是一个国际合作项目,由美国/德国/法国/英国/日本和中国科学家共同参与。其旨在测定组成人类(指)中所包含的30亿个序列的组成,从而绘制图谱,辨识并呈现其上的所有及其序列,进而破译人类遗传信息。人类基因组计划是人类为了解自身的奥秘所迈出的重要一步,是继和之后,人类科学史上的又一

2、个伟大工程。 3. 一级数据库数据库: 直接来源于实验获得的原始数据,只经过简单的归类整理和注释。包括:基因组数据库,序列数据库(核酸和蛋白质)以及结构数据库。 4. 二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。5公共序列数据库 :1988 年3个数据库达成协议,组成合作联合体。它们每天交换信息,并对数据库 DNA 序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据 (EMBL 负责欧洲, GenBank 负责美洲, DDBJ负责亚洲等) ,将所有信息汇总在一起,共同享有并向世界开放,故这 3 个数据库又被称为公

3、共序列数据库。6主要核酸序列数据库: GenBank、EMBL、 DDBJ 7主要蛋白质序列数据库:Swissprot, PIR8. 蛋白质结构分类数据库包括:SCOP和CATH。9.FASTA格式,又称Pearson 格式。特点:最常用、最简单的序列注释格式 命名规则:(理解即可)1、以大于号“>"起始 2、 标题行( a single-line description) 位于文件的第一行,(中英均可) 3、 序列行随后,序列行中不允许有空间,每行文字不超 过80个字符4、组成序列信息字符串的符号应为IUB/IUPAC(International Union Of Pure

4、And Applied Chemistry)核苷酸或氨基酸的符号 5、核苷酸字符大小写均可,氨基酸字符应大写6、"-"单个连字符表示一个空位 “gap”7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示 8、 氨基酸序列中“*”表示终止 9、常保存为.txt文档10. GBFF序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为3个部分:第一部分包含整个记录的信息(描述符);第二部分包含特征表,包含了注释这一记录的特性;第三部分是核苷酸序列本身,以“/”结尾。11. 信息检索(informal retriev

5、al):是将无序的数据有序化,形成信息集合,并根据需要从信息集合中提取特定信息的过程。12. Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。13.PUBMUD: 是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接.14. 同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。15. 相似性(similarity):是指一种很直接的数量关系,比如

6、部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然可进行自身局部比较。16.BLAST:“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。BLAST 是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。17.E值:是随机产生一个比所得分值高的对位排列的概率,即分值可靠性的测度。 E值越(小), 所命中序列越可靠,越能反映序列之间真实的生物学意义。 18.低复杂度序列:指序列中包含的重复度高的区域,如poly(A)。BLAST搜索首先将低复杂度序

7、列过滤,然后再进行搜索。19.主要的BLAST程序: 基因组BLAST, 基本BLAST,特殊类型数据库的BLAST.20.基本BALST:21. GenBank中序列提交的工具为: 、。其中 为在线提交工具,为本地机生成要提交的序列,以邮件的形式发送至GenBank。22. 生物进化又称有机体进化(organism evolution):指生物从共同祖先由低级到高级,由简单到复杂逐步分化演变的过程。23. 现代生物进化理论的主要思想: 生物进化的单位是种群; 生物进化过程的三个环节突变和基因重组产生进化的原材料; 2.自然选择决定生物进化方向;隔离导致物种的形成 生物进化实质:种群基因频率的

8、改变.24.基因频率:在一个种群里,某一等位基因的数量就是这基因在这个种群里的频率。25.基因型频率:在一个种群里,某一等位基因的基因型的数量就是这个基因型在这个种群里的频率。26.基因库(gene pool):一个种群全部个体所带的全部基因(包括所有等位基因)的总合.27.有根树:以外群作为参照,可以显示出树根的系统树,称为有根树。可以显示出共同祖先的树。探明生物(序列)之间的进化顺序28. 无根树:没有外类群作为参照的树根的树。无法分辨出共同的祖先,研究目的为探明生物(序列)之间的亲缘距离。29.点阵分析法(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后

9、在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。30.动态规划:是一种将问题实例分解为更小的、相似的子问题,并存储子问题的解而避免计算重复的子问题,以解决最优化问题的算法策略。核心思想:分治思想和避免冗余31. Needlman-Wunsch算法,动态规划算法的全局比对;Smith-Waterman 算法 动态规划算法的局部比对.32.分子系统进化分析应用:物种进化历史重建; 病原生物传染源头和传播路径的追溯;物种亲缘关系的确认。举例一个例子说明。33.分子进化分析流程:1.获取或

10、选择合适的目标序列;2。序列比对;3.选择合适的建树模型和碱基替换模型;4.树的评估34. 直系同源: 具有共同祖先和相同功能的同源基因称为直系同源。(orthology) 直系同源基因由于物种分化事件产生,因此可以反映物种之间 的进化关系。 直系同源基因是从共同祖先垂直继承,不同物种起的功能相同。 反映物种进化的历史。 如:人一珠蛋白基因与小鼠一珠蛋白基因 旁系同源: 由于基因重复事件产生的相似序列。(paraology) 基因重复,染色体某个位置出现一个基因的两个拷贝。随后, 这两个基因拷贝分别进化。 可以反映基因进化的历史 如:一珠蛋白基因和一珠蛋白基因 异同源 : 由于物种间遗传物质的

11、平行转移,但不包括细胞器和核基因之间 ( xenology) 的转移。 如细菌的转化、结合和转导都是屋中间遗传物质的平行转移。35. 序列比对(sequence alignment)序列比对也叫对位排列,序列联配、序列对齐。36. 全局比对(global alignment):待研究序列的全部符号进行比较,最后也是序列的全部符号 进行排列和计分,比对的结果中各序列的长度相同。采用Needleman-Wunsch 算法主要优点是适合较短序列或结构预测。37. 序列对位排列方法: 点阵分析法, 动态规划法, 词或K串方法.38. 动态规划法:是一种将问题实例分解为更小的、相似的子问题,并存储子问题

12、的解而避免计算重复的子问题,以解决最优化问题的算法策略。核心思想:分治思想和避免冗余.39. Needlman-Wunsch算法: 动态规划算法的全局比对. 全局比对待研究序列的全部符号进行比较,最后也是序列的全部符号进行排列和计分,比对的结果中各序列的长度相同。 主要优点是适合较短序列或结构预测40. Smith-Waterman 算法:动态规划算法的局部比对. 待研究序列的全部符号进行比较,最后只将序列中得分高的片段中的符号进行排列和计分,即只对序列的局部区域进行对位排列.主要优点是适合数据库查询或寻找结构域.41. 利用Needleman对两条DNA序列进行全局比对。 X: ATTCC

13、Y:TTCGA 得分系统:匹配+4,错配-3,空位-4。 (具体算法见课件,重点)42 . Clustal W软件原理 渐进方法: n 用成对对位获得相似矩阵n 从矩阵得到导引树n 根据导引树进行渐进排列43. Jukes - Cantor 单参数模型,:最简单的DNA序列进化模型. 假设任一位点的核苷酸置换概率相同, 仅有一个参数,即一个核苷酸变为另一个核苷酸的概率为a;44. 转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代.45. 系统发育树重建的基本方法:距离法,最大简约法,最大似然法.贝叶思法(了解)46. 距离矩阵法包括:UPGMA和NJ法.47.

14、最大简约法(MP): 根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。48. 信息位点:能将所有可能的树区别出来的位点。49. 信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。50 .自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。51)列举5种常用的系统发育分析软件:PHYLIP、PAUP、MEGA、PAML、BEAST。37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论