版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学复习重点生物信息学复习重点生物信息学复习重点V:1.0精细整理,仅供参考生物信息学复习重点日期:20xx年X月生物信息学是一门交叉学科,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3号染色体短臂。记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列Fasta格式开始于一个标识符:">",然后是一行描述。GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。EMBL:入口标识符ID,序列开始标识符SQ,结束是//。数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp-500bp)。STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。EMBL:欧洲分子生物学实验室。DDBJ:日本遗传研究所。同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。直系同源基因:分布在不同物种间的同源基因又称直系同源基因。旁系同源基因:同一物种的同源基因则称旁系同源基因(水平基因),水平基因由重复后趋异产生。一致性:序列中同一碱基位置的相同的碱基成员,或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似主要的blast程序:程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Evalue:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。分子钟:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。中性学说:突变大多数是中性的,中性突变通过随机的遗传漂变在群体里固定下来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。分子进化/系统发育树的研究目的:①物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系②大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析和功能预测③进化速率分析:例如,HIV的高突变性,哪些位点易发生突变末端节点:代表最终分类,可以是物种,群体或者蛋白质、DNA、RNA分子等。系统发育树是由一系列节点和分支组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点和内部节点。外部节点代表实际观察到的分类单元。内部节点又称为分支点,代表分类单元进化历程中的祖先。一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二叉树。有根树:从最早共同祖先,即根开始,随着时间的连续分支事件引起的一组相关物种的分歧。无根树:表示分类单元之间的进化关系,但不鉴别最早的共同祖先。距离:对一个有根树来说,沿着每个分支的进化方向是确定的。反之,对无根树来说,并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。不同物种的两条同源序列的度量被称为遗传距离或进化距离。外群/外围枝:与当前研究的主要物种或基因相对较远的一组序列,可以辅助定位树根,选择条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著系统发育树构建步骤:多序列比对;建立取代模型(建树方法);建立进化树;进化树评估。进化树的可信度检验自展法(统计方法):从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性建树一般原则:1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法:A.序列相似程度高,MP(简约法)B.序列相似程度较低,ML(似然法)C.序列相似程度中等,NJ(邻接法)D.序列相似程度太低,无意义bootstrap为每个分支指派一个数值,表示这些分支在bootstrap测试中出现的百分比,暗示它们关联的化分是否被数据很好地支持。越接近100,可信度越高。GO:基因本体联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO语义的分类:①分子功能描述在个体分子生物学上的活性,如催化活性或结合活性。②生物学过程由分子功能有序地组成的,具有多个步骤的一个过程。③细胞组件指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。语义之间有三种关系:①isa(I)②partof(P)③regulates(R)语义之间的关系:1.“语义”用“结点”表示2.用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。3.实线表示结点之间的关系4.虚线表示推理而并未证明的关系GO语义之间的关系是单向的,结构像是有向非循环树,但与有向非循环树不同的是,本体论结构图中的结点可以有两个及其以上的父结点。在“Qualifier”用“NOT”标注,如“nursecellapoptosis”,其说明根据实验数据,该基因产物并不在“nursecellapoptosis”过程中起明显作用,因而该基因产物用该语义注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在“nursecellapoptosis”起明显作用的基因产物有着非常相似的序列结构。间隔区(IGR)是一片位于基因之间的DNA序列。非编码DNA间隔区的一个子集。偶尔有些间隔DNA的作用来控制基因附近,但目前大部分没有已知的功能。它有时也被称为“垃圾DNA”的DNA序列之一,最近被称为“暗物质”或“暗物质转录间隔区的DNA片段”。重复序列的分析:对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。等值区:大部分真核基因组表现出一种称为等值区的组织形式。等值区定义为“具有一致碱基组成的长区域”:①等值区基因组序列的长度超过1,000,000对碱基;②虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡,即在等值区全长序列上移动的1,000bp滑动窗口中的GC含量与整个序列的GC含量相差不超过1%。人类基因组大约可以划分为五个不同类型的等值区:其中有两个区域缺乏G和C,分别被称作L1和L2,平均GC含量分别为39%和42%;另三个区域所含的G和C相对丰富,分别被称作H1、H2和H3,GC含量平均值分别为46%、49%和54%。真核生物的H等值区中含有丰富的基因,是开始基因组测序的最佳位置。SD序列:mRNA翻译起点上游与原核16S核糖体RNA或真核18SrRNA3′端富含嘧啶的7核苷酸序列互补的富含嘌呤的3~7个核苷酸序列(AGGAGG),是核糖体小亚基与mRNA结合并形成正确的前起始复合体的一段序列。Kozak规则,即第一个AUG侧翼序列的碱基分布所满足的统计规律,若将第一个AUG中的碱基A,U,G分别标为1,2,3位,则:①第4位的偏好碱基为G②AUG的5’端约15bp范围的侧翼序列内不含碱基T;③在-3,-6和-9位置,G是偏好碱基;④除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基真核生物中的基因预测程序的分类:1.基于同源性的方法2.基于从头算的方法3.基于一致性的算法(大部分程序是物种专一的,这是由于用于获得统计参数的训练数据必须由单一生物体取得)蛋白质数据库:提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接Reviewed和Unreviewed代表数据的可性度。可性度的标签主要有三种:人工验证的数据(黄色星);从其他数据源引用过来的数据(半黄半灰星);通过程序添加或者产生信息的(灰色星)。蛋白质3D结构预测的方法可分为三大类:①同源建模法②折叠识别法③从头预测法生物芯片:生物活性物质以点阵的形式有序地固定在固相载体上。在特定条件下与荧光标记过的待检测样品进行生化反应。反应结果用化学方法显示,光学仪器进行数据采集,通过计算机软件进行数据分析,得到样品的分子信息。基因芯片数据处理和分析:1.基因芯片数据的获取2.芯片数据的标准化3.差异表达基因的分析4.基因共表达分析5.基因表达数据的聚类6.基因表达数据的分类7.后续分析误差来源:①图像分析②扫描③DNA杂交过程(温度、时间、混合均匀程度等)④探针的标记⑤RNA的抽提⑥加样⑦其他芯片数据的标准化:为了消除由于实验技术所导致的表达量的变化,并使各样本和平行实验的数据处于相同的水平,从而得到具有生物学意义的基因表达量的变化。数据过滤:过滤掉非正数,通过图像扫描软件,将每个杂交点的光强度转化为表达量时,会产生负的数值或者0,这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化的,故过滤掉这些数据是非常必要的。归一化采用的一个基本假设是:在测试样本与对照样本间大多数的基因是没有显著差异表达的,而在有差异表达的基因中,在测试样品中高表达的基因与低表达的基因在数量上也是大致相当的,因此芯片上所有基因的相对表达量应该是以0为中心的分布。平均数、中位数标准化:由于不同的实验样本(如不同组织)是分别在不同的芯片上杂交试验,因而也有系统误差,应通过标准化将芯片的数据调整到同一水平。芯片间的数据标准化常采用,常用的方法是平均数、中位数标准化。即:将不同组实验的数据对数比值的中位数或平均数调整到同一大小差异表达基因的分析:目的:比较两个条件下的基因表达差异,从而识别出与条件相关的特异基因或者显著差异表达基因基因显著差异表达:通常是指一个基因在两个条件中的表达水平的检测值在排除实验、检测等因素后达到一定的差异,具有统计学意义,同时也具有生物学意义。基因共表达分析:在N个不同的条件下,考察基因X和Y的表达是否相似。共表达:正相关:相似的表达谱,可能存在正关联;负相关:相反的表达谱,可能存在负调控Pearson相关系数:r~[-1,1];r~1,正相关;r~-1,负相关基因表达数据的聚类:从数据矩阵出发,将表达模式相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教A版安徽省合肥市普通高中联盟2023-2024学年高二上学期1月期末联考数学试题
- 武术说课稿课件
- 基层 工会 课件
- 介绍鲁滨逊课件
- 高考地理一轮复习第六章自然环境的整体性和差异性第一节植被与土壤课件
- 西京学院《微机原理与接口技术》2021-2022学年期末试卷
- 学管师工作核心说课
- 西京学院《教师语言艺术》2022-2023学年第一学期期末试卷
- 西京学院《电机控制技术》2021-2022学年期末试卷
- 学会读书 课件
- 2024年山东省东营市中考语文试题含解析
- 天然气管网安装工程施工过程岗位操作指南
- 2024年招商引资居间合同
- 船用甲板刷商业机会挖掘与战略布局策略研究报告
- 公司网络安全制度
- 跨学科主题学习- 探索外来食料作物传播史(课件)七年级地理上册同步高效备课课件(人教版2024)
- 学校编制外临时代课教师聘用管理办法
- 食堂承包经营服务项目投标方案(技术方案)
- 第五单元测试卷(单元测试)-2024-2025学年统编版六年级上册语文
- 五级应急救援员职业鉴定考试题库(含答案)
- 第7课 实践出真知-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块)
评论
0/150
提交评论