版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学核酸序列的一般分析和结构分析主要内容:一、基因组DNA简介二、序列格式转化三、DNA序列分析四、序列翻译、ORF查找五、限制性内切酶分析六、引物设计七、RNA二级结构分析一、基因组DNA简介 遗传信息存贮在4种字符组成的核酸序列中 “天书”用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3109的一维序列。 科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的规律 关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可
2、能使用G、C;反之亦然。 如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分开也快。 (2)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关(3)密码子中的密码 三个碱基的位置与所编码的氨基酸性质存在着联系例如:芳香族氨基酸以U作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱
3、基是G、C的密码子所编码的氨基酸 亲水性、疏水性居中。 人类基因组信息: 编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能非编码区域对于生命活动具有重要的意义 包括内含子、简单重复序列、移动元件、伪基因 重复序列: 卫星(satellite)DNA 小卫星(mini-satellite)DNA 微卫星(micro-satellite) 顺式调控元件: 启动子、增强子、沉默子关于生物复杂性: 生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因230000/220000=210000103000 基因组计划带来的希望: 实验数据的积累速度在迅速地增加 计算机
4、科学和技术也在不断地发展 比较基因组分析:物种关系物种进化物种起源二、序列格式转化 各种软件为了自己的需要,通常对序列格式有一定的要求,给我们的使用带来了一定的困难。格式转换软件可以将不同格式数据转换以方便使用。很多综合性软件可以进行序列格式转换,如DNAstar,seqverter等。常见序列格式: (1)FASTA格式(又称Pearson格式) 是比较简单而使用最多的序列格式。序列以号开头,其后是单行的关于序列的描述信息,最后是序列。例子: 10KD_VIGUN P18646 vigna unguiculata 10 kda protein precursor MEKKSIAGLCFLFL
5、VLFVAQEVVVQSEAKTCENLVDTYRGPCFTTGSCDDHCKNKEHLLS (2)Genbank格式(GenBank flatfile,GBFF) 最广泛地用于表示生物序列的格式之一,也是DDBJ/EMBL/GenBank交换数据时采用的格式。 例如: LOCUS AB094638_1 146 bp DNA 13-APR-2006 BASE COUNT 38 a 17 c 43 g 48 t 0 others ORIGIN 1 gttttaatgt gttgccttgg ttgagtggtg aagctggtta gggtagcgtg taaaacatgg 61 tgggta
6、gatt aatgctttgt gtcaccatgc cgtttggttc gattaatgta atcataagga 121 gagaccataa gttatgaata cgcaga(3)EBML格式 与GBFF格式的主要区别是:每行左端均有由两个大写字母组成的识别标志,是GenBank识别标志的缩写。另外,序列的序号在右侧。(4)GCG格式:是商业性的GCG软件包的专用格式。 最新下载 :/ *下载后直接安装即可Seqverter三、DNA序列分析基因序列基因表达调控信息 寻找基因涉及到两个方面的工作 :识别与基因相关的特殊序列信号预测基因的编码区域 结合两个方面的结果确定基因的位置和结构
7、 基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。 1. DNA序列分析步骤在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。发现重复序列数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案2. 核苷酸关联分析对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频
8、率对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的出现频率各为。而真实基因组的核苷酸分布则是非均匀的核苷酸 频率 A0.3248693727808 C0.1751306272192 G0.1751306272192 T0.3248693727808 酵母基因组核苷酸出现频率在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。两联核苷酸频率: 不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸酵母基因组两联核苷酸频率表对酵母基因组两联核苷酸的统计
9、结果其中核苷酸对出现频率最高的达到而出现频率最低的只有三联核苷酸基因密码子: 在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系 蛋白的三级结构与密码子使用概率有密切的关系通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码
10、基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。 在不同物种中,类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小 3. 功能位点分析功能位点(functional site)与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号(signal)等。核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式
11、往往与蛋白质结构域或者作用部位有关。功能位点示意基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。功能位点分析的任务发现功能位点特征识别功能位点四、序列翻译、ORF查找 对于一条新的核酸序列,除了对数据库进行类似性检索和同源性比较外,还有许多其他分析内容。例如:计算DNA的碱基组成、检索内部重复序列、检索DNA的特殊位点或信号、开放读框的查找、鉴定DNA的编码区和翻译基因序列等。 基因编码区是指可以由核糖体翻译成蛋白质的序列,它的5端有转录和翻译的起始位点,3端有终止位点。基因的起始位点通常是ATG,终止位点为TAA、TAG、TGA。 一个起始和终止密码子
12、之间的序列称为一个开放阅读框(Open Reading Frame,简称ORF),它是一个潜在的蛋白质编码区。对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行阅读。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(reading frames)CAA A ATTCGATCGATTCGATCGCAATCGATCGCA(1)(3)(2)ATgene A基因可变剪切示意图序列翻译、ORF查找1. Generunner :/2. 在线的ORF finder :/功能: 序列编辑与类似序列查找、建立自己的序列数据库进行查找、序列比较、序列翻译、蛋白序列
13、分析等,还包括DNA分析常用到的一些功能,如碱基百分组成、分子量计算等。Generunner :/ORF finder输入序列在Enter GI or ACCESSION 后面的框中输入公共序列的gi号或ACCESSION号在or sequence in FASTA format 后面的框中输入完整的序列设置序列范围 在FROM: TO: 后面的框中输入进行ORF查找的序列范围Genetic codes 可以选择采用何种遗传编码按OrfFind 按钮即可执行 限制性内切酶是在许多细菌体内发现的能识别和切割外源DNA的核酸酶。细菌自身的DNA因其限制型内切酶的识别位点被相应的DNA甲基化酶所甲基
14、化,而不被内切酶所水解。限制型内切酶的这种作用使之成为遗传工程实验的重要工具酶之一。五、限制性内切酶分析 每一种限制性内切酶都有特定的DNA识别顺序,并且呈回文排列。确定DNA酶切位点是基因操作的必不可少的步骤,因此DNA序列分析软件包大多整合有检索酶切位点的程序。这些程序附带一个酶切位点的数据库文件,根据这个文件对序列作酶切位点的查找。RESTRICTION ANALYSISGenerunner下载地址: 限制性内切酶分析常用软件Dnastar序列格式转换限制性内切酶分析序列拼接下载 从原理来说,引物的设计和分析并不是DNA序列分析的一个基本方法,但是在分子生物学研究中常常需要用到。我们主要
15、介绍针对PCR的引物设计。六、引物设计引物设计的标准有:引物的长度通常为20-30个碱基引物避免有发卡结构引物避免有彼此之间的互补配对两个引物之间避免有类似序列引物与核酸序列数据库的其他序列无明显类似引物5端能加上合适的酶切位点引物组成均匀,避免含有相同碱基的多聚体,两个引物的GC含量近似 可见,引物设计包含序列组成的计算、序列对DNA序列数据库的类似性检索、两个序列的比较、碱基互补配对和发卡结构分析以及酶切位点检索等基本的DNA序列分析过程。事实上,许多PCR引物设计程序会略过或简化上述的某些过程。下载 :/安装 执行安装程序即可 *下载的为demo版,只能对它的示例序列进行操作在C盘下找到
16、,将vspace=DU改为vspace=PU便可以使用全部功能。 功能 可以简单地通过手动拖动鼠标以扩增出相应片段所需的引物,而在手动的任何时候,下面显示各种参数的改变和可能的二聚体、异二聚体、发夹结构等。也可以给定条件,让软件自动搜索引物,并将引物分析结果显示出来。而且进行这些操作非常简单。其他引物设计软件:Primer3DNAClub引物长度20-30个,最好不要超过30个;Tm=(A+T)X 2+(G+C)X 4,退火温度为Tm-7G+C%=40-60%5、3 引物退火温度最好相等;四个相同的碱基相连最好不要出现;引物的最后一个避免为T。实际引物设计采用的几条原则 无论是mRNA、rRNA还是tRNA,它们的功能最终是由它们的折叠结构来决定的,尽管这种折叠的结构依赖于它的序列,但是它不仅仅由序列来确定。当前准确测定RNA折叠结构还有赖于X射线衍射技术,但是很难获得RNA分子晶体,所以测定的结构非常少。因此,人们希望能通过RNA的序列来预测其结构,首先是二级结构。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度餐饮泔水回收与环保设施投资合同3篇
- 二零二五年矿山土地及资源使用权转让合同3篇
- 二零二五版白糖进口许可证申请代理服务合同下载2篇
- 二零二五年度驾驶员押运员安全责任及培训合同3篇
- 二零二五版企事业单位节能环保办公电脑采购合同2篇
- 二零二五版电子商务平台借款及库存商品质押合同3篇
- 二零二五年纺织原料市场调研与分析合同2篇
- 小区下水管网清理疏通承包合同(2篇)
- 二零二五版房产买卖合同含抵押权转移及贷款利率协商协议0183篇
- 2025年度农业科技推广财产赠与合同3篇
- 脑血管疾病三级预防
- HSK标准教程5上-课件-L1
- 人教版五年级下册数学预习单、学习单、检测单
- JC-T 746-2023 混凝土瓦标准规范
- 如何落实管业务必须管安全
- 四年级上册三位数乘除两位数计算题
- 《水电工程招标设计报告编制规程》
- 2023年甘肃兰州中考道德与法治试题及答案
- 生产工厂管理手册
- 项目工地春节放假安排及安全措施
- 印染厂安全培训课件
评论
0/150
提交评论