中国科学院大学生物信息学期末考试资料陈润生老师_第1页
中国科学院大学生物信息学期末考试资料陈润生老师_第2页
中国科学院大学生物信息学期末考试资料陈润生老师_第3页
中国科学院大学生物信息学期末考试资料陈润生老师_第4页
中国科学院大学生物信息学期末考试资料陈润生老师_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学期末考试复习1. 生物学中的7个数学故事(1) 孟德尔遗传定律(分离和自由组合定律) 运用了组、合原理中的加法原理和乘法原理。(2) Hardy-Weinberg遗传平衡定律 通过构造数学关系式来证明。(3)基因在染色体上的线性排列 采用概率分布优化距离的计算距离,使其更接近真实情况。(4)关联分析 通过假设检验看两个特征的关联有无统计显著性。(5) 序列比对 设计合适的算法可以有效降低计算复杂度。(6)基因组学和其他的组学 组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。(7)微阵列芯片 大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、

2、protein、RNA序列比对及其算法序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。(1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。算法特点:该算法相似性片段实际上是相同的片段;而且不能提供

3、相似性片段在统计学意义上的相似性。(2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分算法步骤:初始化序列矩阵;将序列输入矩阵,计算分数并绘制箭头;用箭头回溯找到最优得分路径;连接最优路径,产生序列比对。动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。序列比对的定义,存在哪几种算法,打分矩阵是什么意思序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列;算法种类:动态规

4、划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm算法、BLAST Heuristic算法;打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。1. 动态规划算法,给个表格可以把数字填出:3. 序列比对搜索工具FASTA和BLAST(这一部分我们没有讲,也看看吧)(1)FASTA EBI(European Bioinformatics Institute)的序列比对数据库搜索

5、工具步骤:找到所有的热点(hot-spots)(精确匹配的对数:1或2个氨基酸;4或6个核苷酸); 给热点打分,定位十个最好的diagonal run将sub-alignments通过gap连接成一个alignment;将动态规划算法应用于得分最高的alignment附近的局部区域,找到得分最高的alignment。(2)BLAST NCBI(National Center for Biotechnology Information)的序列比对数据库搜索工具步骤: 预处理查询:从搜索中编译出short-hit得分的word list,对于BLOSUM打分,搜索词的长度w是3,阈值T是13;为每

6、个搜索词建立neighborhood words)。 扫描数据库,对于每一个word list,鉴定所有与数据库序列完全匹配的word(方法1:哈希表;方法2:有限状态机)。 搜索最优的alignment。评估比对的统计显著性。3.Dynamic Programming,FASTA,BLAST的算法比较动态规划算法:由于用到了两个序列的全部信息,因此敏感性最好 由于计算了很多无用区域,浪费了时间,因此运行速度慢 FASTA:不如动态规划算法和BLAST算法敏感,运行时间快于动态规划算法 BLAST:比FASTA算法敏感性好,并且对结果进行了统计评估,BLAST 消除了搜索的噪音,因此运行比FA

7、STA 更快。4. 两种打分矩阵PAM矩阵:基于氨基酸进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。PAM矩阵的制作步骤:构建序列相似(大于85)的比对;计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数);针对每个氨基酸对i和j , 计算j被i替换次数;替换次数除以相对突变率(mj);利用每个氨基酸出现的频度对j进行标准化;取常用对数,得到PAM-1(i,j);将PAM-1自乘N次,可以得到PAM-n。一个PAM就是一个进化的变异单位, 即1%的氨基酸改变(但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多

8、次突变,甚至可能会变回到原来的氨基酸),最常用的是PAM250,250%期望的突变,PAM250= (PAM1)250。BLOSUM矩阵:根据蛋白质模块数据库BLOCKS 中蛋白质序列的高度保守部分的比对而得到的。BLOSUM矩阵的数目 (例如:BLOSUM 62)表示收集Blocks资料库中序列一致性为62%的序列,再由这些序列推导出计分矩阵,数目越低,差异越大。5. 如何把写好的文件上传到服务器,并以网页的形式展现出来? 1),安装并运行winscp,在session对话框输入主机名,端口号,用户名和密码,点击login,登陆 2),将要运行的文件(如:test.html)拖到 unix中

9、的相应目录文件夹下,如:6. 展示html要用什么服务器,什么浏览器?放在服务器特定的文件夹中(对放入什么文件夹不作要求)。放在www底下。7. R与Bioconductor有什么关系?R 是一个有着强大统计分析及作图功能的软件系统,在GUN 协议General Public Licence下免费发行。R是S 语言的一个分支,R的使用与 S-PLUS 有很多类似之处,两个软件有一定的兼容性。不依赖于操作系统,可以在运行于UNIX, Windows和Macintosh 的操作系统上 BioconductorR语言的延伸是一个开源和开放式的软件开发项目,目标是建立多方面的、强有力的基因组数据统计与

10、图形分析方法。 Bioconductor的应用功能主要是以包(package)的集成形式呈现在用户面前,Bioconductor 提供了大量开放式的生物信息学软件包。嵌入到R中,进行各种生物信息学的数据处理和分析以及绘图。8. 新一代测序技术如何影响进化基因组学的发展新一代测序技术,可用较低的成本产生大量的序列信息,解决了以前进化基因组学中难以解决的问题:深入的群体调查;研究正选择的基因座;Standing变异和de novo突变:通过系统发生重建研究致癌突变;古基因组学;靶向非模式生物;转录组进化。9. 数据库NCBI, ENSEMBLNCBI是美国国家生物技术信息中心。该中心保存GenBa

11、nk的基因测序数据。Ensemble是一个全自动的基因注释软件。由英国Sanger研究所和欧洲生物信息学研究所共同协作运营。10. 分子进化研究方法距离法 邻接法:在所有可能拓扑结构中选择分支长度和S最小的作为最优树。 UPGMA:基于层次聚类最大简约法:对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构作为最优树。最大似然法:以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的拓扑结构,选为最终系统树。软件:PAML(Phylogenetic Analysis by Maximum Likelihood)

12、,即最大似然法分析,是伦敦大学的杨子恒(Yang Ziheng)教授开发的一套基于最大似然估计来对蛋白质和核酸序列进行系统发育分析的软件,对学术使用是免费的。PAML 可实现系统发育树的构建、祖先序列估计、进化模拟和KaKs 计算等功能。其中分支及位点KaKs 的计算是本软件包的特色功能。11. RNA二级结构(茎、环) 答:RNA二级结构是由非共价键维持,包括氢键和碱基堆积力。典型的碱基配对方式为A-U, G-C, G-U。单链RNA分子中存在的反向重复序列,通过氢键形成碱基互补配对结构。双链区称为茎(stem),而不能配对的单链区部分称为环(loop)。茎内的其中一条链多出若干碱基不形成配

13、对,这样的结构称为凸环(bulge loop);茎内的两条链都多出若干碱基不能配对,这样的结构称为内环(internal/interior loop);一条单链,其两端为茎,这样的结构称为发夹环(hairpin loop) 12. 非编码RNA(Non-coding RNA)有哪些,分别起什么作用?蛋白质编码基因的数目与物种的复杂度不符,在人类和其他生物的基因组的大多数非蛋白编码区存在转录活性。主要的非编码RNA及其功能,如下所述:(1) transfer RNAs (tRNA),即转移RNA:蛋白质翻译过程中,转运氨基酸分子,作为氨基酸与mRNA 上的接头分子。(2) ribosomal R

14、NAs(rRNA),即核糖体RNA:蛋白质合成的场所。(3) small nuclear RNAs(snRNAs),即小核RNA:与蛋白质形成核糖核蛋白颗粒,在RNA剪 接中发挥作用。(4) small nucleolar RNAs,即小核仁RNA (snoRNAs):Pre-rRNA(即前体rRNA)在成熟而具有功能之前要进行修饰,如甲基化、尿嘧啶转变成假尿嘧啶。snoRNAs就起这样的修饰作用。(5) small interfering RNAs (siRNAs),即小干扰RNA:在RNA干扰中发挥作用,使双链RNA降解,基因沉默。(6) microRNAs (miRNAs),即微小RNA

15、:类似于siRNAs,通过与靶基因mRNA碱基互补配对引导沉默复合体(RISC)降解mRNA或阻止其翻译。(7) PIWI-interacting RNAs (piRNAs):是维持生殖细胞完整性和可育性所必须的一类小分子RNA。(8) antisense RNAs,即反义RNA:与mRNA特异性互补配对,抑制该mRNA的加工和翻译。13. RNA二级结构预测原理及算法的局限性(1)单个序列预测:配对得到的结构自由能最低;碱基配对的能量是在37,bulge loop大于3个碱基的时候获得的。(2)共进化分析:根据同源序列之间的共演进性,将两个或多个序列的保守的碱基对进行比较。算法包括:热动力学

16、最小自由能量算法;动态规划算法;mfold算法。算法的局限性:难以处理pseudo-knots。当RNA分子大小增加时,预测的准确性将会降低。不能估计预测的准确性。14. 蛋白质结构预测的方法和原理,有什么软件?同源模建(Homology modeling) 原理:进化上相关的序列呈现出相似的三维结构,即序列相似性表明了结构相似性。主要步骤: 鉴定有已知结构的相关序列 将靶序列比对到模板结构上 用已知模板模建结构上保守的区域 模建与模板不同的侧链和环 通过构象抽样精炼和比价模型的质量(2)折叠识别(Fold Recognition)原理:蛋白质的结构比序列更为保守,自然界的蛋白质折叠类型的数目

17、是有限的.主要步骤:搜索序列表征构建核心折叠模板文库(排除同源后的)基于打分函数的模板排序从文库中选择最优化的模板。(3)从头计算法(ab initio method)。原理:基于两个假设:天然结构只由蛋白质的氨基酸序列决定:天然结构是自由能最小的构象。三种方法: 分子动力学 软件:CHARMM,NAMD 格子模型 片段组装个蛋白质结构预测的实用工具软件:phyre,HH-pred15. 芯片表达值是怎么算出来的?(1)MAS 4.0平均差异算法没考虑每个探针序列的不同 PMj - MMj = q + ej, j = 1, , J·(2)MBEI: Model-Based Expre

18、ssion Index考虑探针的影响PMij - MMij =ij +ij, ij N(0, 2)(3)MAS 5.0对公式PMij - MMij =ij +i进行了对数转换: log(PMij- CTij) = log(i) +ij, wherej = 1,J. CT:当MM<PM 时,CT=MM,当MM=PM时,CT<PM(避免PM-CT为负) log转换的原因: 由于杂交,杂交信号强度趋向于指数分布log化后,low value和very high value的就能被凸显出来,更易于发现差异表达基因。(4),RMA:Robust Multiarray AnalysisLog2

19、n(PMij-BG) =i + j+ij,其中i是指第i个样品中探针集的表达水平的对数,j是指探针集中第j个探针的探针效应,ij表示随机误差规一化 (normalization)是干什么用的?方法和意义1表达差异来源:基因表达差异or样本准备、检测设备(扫描仪)差异?=因此需要归一化。2方法Basic idea:order value in each array排序take average across probes取平均Substitute probe intensity with averagePut in original order恢复顺序1,便于理解和交流2,便于技术转移16. 差异

20、基因表达(1)SAM:Significance analysis of microarraysSAM基于样品间表达水平的差异,寻找差异显著基因。 能够估计错误识别率(False Discovery Rate (FDR)),且是一个交互性很强的算法,允许用户根据统计检验分布动态改变临界值,来获得更好结果。方法:1)将实验分为两组,对每个基因计算d-value (observed d-value)。 2)按 d-value升序排列每个基因3)将两组间的基因随机打乱,按 d-value升序重新排列打乱的基因4)重复3)多次,获得每个基因的 expected d-value5)以 observed d

21、-value对expected d-value绘图,得到结果。6)根据每次排列,计算阳性以及阴性显著性基因,这些显著性基因的数据的中位数即为错误识别率的中位数。(2)Rank Products首先对每个重复实验中基因的表达量多少进行排序,然后将排好序的每个重复中该基因的排序位置除以基因总数所的数,然后将结果连乘,即为该基因的 RP 值。根据 RP 值来判断基因表达量的上调或者下调。如:RP 优点:直观,非参统计,统计结果可信度高,当重复实验较少时,在 noisy 数据存在下,检测到的表达量变化的基因,可靠性更好。17. 聚类(1)层次聚类: Initialize: 每一个元素都为一个类 Ite

22、rate: 计算所有点之间的距离,形成距离矩阵,按照距离最近的原则,选择两个最近的元素 合并这两个最近的元素为一个新元素,新元素看作一个类 计算其余点到这个新元素距离,可以是单连接,全连接,平均连接,形心连接 Halt: when required number of clusters is reached 二k-means聚类: 1. 决定要产生几类,及确定k值 2. 随机产生k个点,当做 k类的中心 3. 分别计算每个元素到 k个点的距离,距离最近的元素被归为第i(i=1,2k)类 4. 重新计算第i(i=1,2k)类的中心, 5. 重复2,3 步,直到第 i类没有发生变化18网络的基本概

23、念生物网络模型: 节点(N):蛋白,肽段或非蛋白生物分子; 边(L):生物之间的相互关系(调控、反应、转化、激活、抑制) <k>=2L/N,K 的分布:P(k)K-scalefree network:富人越富,穷人越穷。对随机的攻击的承受力很强,但对有组织的协同进攻很脆弱。还原论或还原主义(英语:Reductionism),是一种哲学思想,认为复杂的系统、事务、现象可以将其化解为各部分之组合来加以理解和描述。整体论主张一个系统(宇宙、人体等)中各部分为一有机之整,而不能割裂或分开来理解。此作理解。生物学研究中的还原论表现最为明显,有人试图把生命运动形式归结为物理-化学运动形式,用物

24、理-化学运动规律取代生物学规律。20世纪初的还原论者把人类社会运动还原为低等动物的运动,把生物学规律还原为分子运动规律,再继续还原为物理-化学过程。现代生物还原论借用分子生物学取得的成就,认为就像遗传过程可以还原为化学相互作用一样,所有生物现象都可归结为物理-化学运动。生物学中的还原论还主张学科之间的还原,如果一门学科的理论、规律可以说明另一学科的理论、规律,则后一学科可以向前一学科还原。与还原论相反的是整体论,这种哲学认为,将系统打碎成为它的组成部分的做法是受限制的,对于高度复杂的系统,这种做法就行不通,因此我们应该以整体的系统论观点来考察事物。比如考察一台复杂的机器,还原论者可能会立即拿起螺丝刀和扳手将机器拆散成几千、几万个零部件,并分别进行考察,这显然耗时费力,效果还不一定很理想。整体论者不这么干,他们采取比较简单一些的办法,不拆散机器,而是试图启动运行这台机器,输入一些指令性的操作,观察机器的反应,从而建立起输入输出之间的联系,这样就能了解整台机器的功能。整体论基本上是功能主义者,他们试图了解的主要是系统的整体功能,但对系统如何实现这些功能并不过分操心。这样做可以将问题简化,但当然也有可能会丢失一些比较重要的信息。两道

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论