(完整)生物信息学期末复习知识点总结,推荐文档_第1页
(完整)生物信息学期末复习知识点总结,推荐文档_第2页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学:利用数学、物理、化学的理论、 技术和方法,以计算机为工具,对生命现象 加以研究,得到深层次的生物学知识。研究任务:收集与管理生物分子数据,对数 据进行处理分析,为其它生物学研究提供服 务四大“模式生物”:酵母、线虫、果蝇、小鼠小分大分子多瘵3淀*L糖廉、纤维素核糖核酸脱氧核糖孩酸糖的生物功能,作为燃料(是生命活动所需 的能源),重要的中间代谢物,参与生物大分 子组成,作为信号分子脂类的生物功能,构成生物膜的骨架,储存 能量(效率是糖的2倍左右),构成生物表面 的保护层、保温层,重要的生物学活性物质 蛋白质的生物功能,是遗传信息转化成生物 结构和功能的表达者;参与基因表达的调节, 以

2、及细胞中氧化还原反应、电子传递、神经 传递、学习记忆等重要生命过程;酶(一类重要的蛋白质)在细胞和生物体内各种生 化反应中起催化作用; 蛋白质的空间结构一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序二级结构(secondary structure)氢键形成-螺旋(-helix)链间形成-折叠(-sheet)三级结构(tertiary structure)肽链进一步 沿多方向盘绕成紧密的近似球状结构四级结构(quaternary structure)具有特定 构象的肽链进一步结合,并在空间相互作用 检索方法:1)追溯法:通过已知文献后附有的参考文献中提供的线

3、索来查找文献。(2)常用法:利用各种检索工具来查找文献。(3) 循环法:是将常用法和追溯法交替使用 的一种综合文献检索方法。(4) 浏览法:是从本专业期刊或其它类型 的原始文献中直接查阅文献资料。检索途径:著者途径:分类途径:主题途径: 其它途径;检索过程:(1)分析研究课题(2)制定检索 策略(3)查找文献线索(4)获得原始文献 大规模基因组DNA测序:鸟枪法 (Shot-gun sequencing)方法:借 助物理或化学的手段将整个基因组随机打断 成一定大小的片段进行测序,再根据序列间 的重叠关系进行计算机排序与组装,确定它 们在基因组中的位置。适用范围:主要用于重复序列少、相对简单 的

4、原核生物基因组的测序工作。不适用于分 析较大的、更复杂的基因组。优点:速度快、 简单易行、成本低克隆重叠群法(cl one con tig seque ncing)方法:先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成 重叠的克隆群,分别测序后拼装。需要绘制 物理图谱,以鸟枪法为基础。适用范围:较 大的、更复杂的基因组 蛋白质结构解析:X射线晶体衍射; 核磁共 振波谱学其他方法:扫描隧道电子显微镜-圆二色谱 一级数据库:直接来源于实验获得的原始数 据,只经过简单的归类、整理和注释。二级数据库:在一级数据库、实验数据和理 论分析的基础上,针对不同的研究内容和需 要,对生

5、物学知识和信息的进一步整理得到 的数据库。序列比较的根本任务是:通过比较生物分子 序列,发现他们之间的相似性,找出序列之间共同的区域,同时辨 别序列之间的差异。同源性:是指序列们是由共同祖先进化而来, 讲两条序列的同源关系,只有两种情况:同 源、不同源。相似性:指序列间的差别,是 一个度量。同源与相似的关系:一般认为序列相似性达 到一定程度,即可认为是同源,但不绝对。 序列比对算法实现:点阵分析:寻找序列间 可能的性状对位排列;寻找蛋白质、DNA序列中正向或反向重复;预测RNA中自补区域;直观,整体水平;动态规划算法:精确而全 面,非常耗费资源;启发式算法 滑动窗口技术:使用滑动窗口代替一次一

6、个 位点的比较是解决这个问题的有效方法。动态规划算法计算过程:1计算过程从d 0 ,0开始,2可以是按行计算,每行从左到右, 也可以是按列计算,每列从上到下。3当然, 任何计算过程,只要满足在计算d i , j时d i-1 , j、d i-1 ,j-1、和d i, j-1都已 经被计算这个条件即可。3在计算d i , j后, 需要保存d i , j是从d i-1 , j、d i-1 ,j-1、或d i, j-1中的哪一个推进的,或保存计算的路径,以便于后续处理。上述计算过程到d m , n结束。最优路径求解:与计算过程相反,从d m, n开始,反向前推。基因的定义1、基因是一段与多肽链或功能R

7、NA产生有关的DNA片段, 包括编码区前的 引导序列、编码区后的尾部序列、编码区内 的插入序列和编码区序列。基因的种类:结构基因、调控基因,rRNA基因和tRNA基因启动子,操纵基因 因组(genome是指一个细胞或病毒包含的 全部遗传信息的总和。TP(true positive):实际编码区的核酸中 被成功预测的核酸数目;TN(true negative):实际非编码区的核酸 中被成功预测的核酸数目;FN( false negative):实际编码区的核酸中 被误测为非编码的核酸数目;FP( false positive):实际非编码区的核酸 中被误测为编码的核酸数目。REALITY算与每一

8、个其他序列的距离,生成新的距离 矩阵5.确定下一对关系最近的序列,重复前面的 步聚计算枝长7.从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发 现与原始数据最符合的树蛋白质亚细胞定位预测的方法:1)基于信号肽的方法来预测蛋白质亚细胞定 位(2) 基于氨基酸组份或氨基酸物理化学性质 的方法来预测蛋白质亚细胞定位(3) 基于蛋白质功能注解的方法来预测蛋白 质亚细胞定位(4) 基于系统发生的分布图、结构域投影或 结合进化和结构信息的方法来预测蛋白质亚 细胞定位Sn二TP/(TP+FN)Sp=TP/(TP+FP)项目Lengt hTPFPFN Sn SpaccuracyZCURVE V 121020.10.92863Glimmer1414 40.0. 0.7NCBI071 71 1Gen eMark99 0 50.10.8NCBI642 1核酸数据库:Gen Ba nk EMBL DDBJ蛋白质序列数据库:SWISS-PROTPIR蛋白质结构数据库:PDBSp特异性(specificity,Sp):TP FPFM法:1.找出关系最近的序列对,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论