版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学软件,华南农业大学动物科学学院 刘吉平 2004-04-26,内容概要,生物信息学软件的主要功能简介 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 用计算机管理实验数据 寻找、预测新基因及预测其结构、功能 蛋白高级结构预测,软件在生物信息学研究中的地位和作用PCR引物及寡核苷酸设计软件核酸序列分析软件蛋白质序列分析软件序列比对软件,软件在生物信息学研究中的地位和作用,Bioinformatics,Computational Biology,算法是 core 算法是 key 算法是 soul,软件在
2、生物信息学研究中的地位和作用,数学家:实际问题的抽象 算法研究,生物学家:实际问题的提出 软件应用,软件专家:算法的工具化 软件开发,各种序列: DNA,Protein,生物信息学 处理软件平台,Blast,Genscan,Blocks,生物学家,计算生物学模型/算法,软件,并行软件: Blast,Phrap,SW,市场化,各种算法,串行,后基因组学数据,并行,生物信息学软件的分类,按功能分类: 1、DNA序列分析软件 如:DNACLUB,Chromas1.56 2、蛋白质序列分析软件 如:ANTHEPROT 3、RNA结构预测软件 如:RNAdraw 4、引物设计软件 如:Oligo, Pr
3、imer Premier 5、基因芯片软件 如:Array Maker 6、序列比对软件 如:Clustal X 7、亲缘进化树软件 如:PHYLIP和PAUP,Treeview 8、综合软件 如:GCG(Genetics Computer Group),生物信息学软件的分类,按使用方式分类: 1、本地分析软件,如Lasergene, 可在 Windows或MacIntosh微机运行,有单机版和网络版 2、在线分析软件 :内联网软件(Genemill,Geneworld,GeneThesaurus)和因特网软件(如BLAST以及CINEMA),按运行平台分类: 1、UNIX + SGI工作站
4、2、Windows或MacIntosh+ PC,生物信息学软件的开发- P e r l应用,具有生物信息学特色的程序语言 P e r l,Perl语言的特点: 1、对过程、档案和文字有很强的处理能力 2、跨平台 3、解释执行 4、简单易学 5、适用于网络程序开发,bioperl,生物信息学软件的开发- 其他常用的生物信息学软件开发语言,Java 跨平台 C+、C# 代码执行效率高 VB 简单易学,生物信息学软件的发展方向,高通量 海量数据分析 并行处理 新算法的提出和应用 网络共享解决方案,PCR技术的应用,PCR:,研究领域:基因克隆、测序、重组 疾病诊断 法医鉴定 亲子鉴定 古生物学研究,
5、PCR引物及寡核苷酸设计-PCR原理,高温变性 低温退火 适温延伸,PCR引物及寡核苷酸设计-条件,一、估测可能形成的DNA双链的稳定性 (基础),算法: 邻近热力学25 G(kcal/mol),例:ACGG 和其互补 TGCC 结合的G: G(ACGG)= G(AC)+ G(CG)+ G(GG) = -(1.3+3.6+3.1) = -8.0 kcal/mol,PCR引物及寡核苷酸设计-问题,二、引物可能出现的二级结构 (基础) 1、发夹结构(Hairpin) 自身互补 2、自身二聚体(Dimer) 两个同型引物互补 3、交叉二聚体(Cross Dimer) 两个异型引物间互补,PCR引物及
6、寡核苷酸设计-规则,三、引物设计的一般规则 1、引物3末端限制 3端防止连续三个C或G 3端防止互补(防止出现3端二聚体) 2、引物互补限制 尽量避免发夹结构、自身二聚体和交叉二聚体出现 在不可避免时,按如下原则处理: 防3端互补 其他区域|G |小 其他区域|G |大,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则 3、引物长度 PCR产物长度 500bp 引物长度 16 18 bp PCR产物长度 5kb 引物长度 25bp PCR纪录:23bp长度引物 扩增出 40kb产物 引物长度 20bp 产物长度 1kb 应考虑使用引物设计软件!,有效长度: L=2(G+C)+(A+T)
7、L38,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则 4、引物的唯一性 防止错配发生 错配(或称假引发) False Priming 将导致产生非专一产物,错配,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则 5、引物内部稳定性(Internal Stability) 引物与模板应具有较高的结合能量,这样有利于引物与模板序列的整合,因此5端与中间段的G值应较高,而3端G值影响DNA聚合酶对模板DNA的解链,过高则不利于这一步骤。 引物的G值最好呈正弦曲线形状,即5端和中间部分G值较高,而3端G值相对较低,且不要超过9(G值为负值,这里取绝对值),如此则有利于正确引发反应而可防
8、止错误引发。,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则 6、解链温度(Tm值) Tm值的几种算法: (1) Tm=4(G+C)+2(A+T) (2) Tm=4(G+C)+2(A+T) 引物长度14 Tm = 64.9 + 41,(G+C-16.4)- 引物长度14 引物长度,PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则 6、解链温度(Tm值) (3) 精确算法(邻近热力学),PCR引物及寡核苷酸设计-规则,三、引物设计的一般规则 7、退火温度(Ta OPT),PCR引物及寡核苷酸设计- 引物设计软件,四、引物设计软件 常用的引物设计软件 Primer Premier 5
9、 Oligo 6 推荐使用 WONDERFUL生物信息学系统 1700RMB,售价 US$ 885,售价 US$ 1200,PCR引物及寡核苷酸设计,寡核苷酸设计,用于基因芯片、Southern blot和Northern blot 等核酸分子杂交的探针设计 是和引物设计并列的一个问题的两个方面 常用的探针设计软件:Array Designer 国产WONDERFUL生物信息学系统也具备该功能,核酸序列分析,基础概念,1、相位: 任意DNA序列有6个相位,核酸序列简单分析,核酸序列分析-基础概念,2、简并碱基的表示方法,核酸序列分析-基础概念,3、密码子表和密码子偏好性,核酸序列分析-限制酶切
10、位点分析,EcoR I 识别片段 GAATTC (G AATT_C), G AATTC CTTAA G ,Psp5 II 识别片段 RGGWCCY (RG GWC_CY ),R = A or G W = A or T Y = C or T,核酸序列分析-限制酶切位点分析,线型序列:,环型序列:,核酸序列分析-限制酶切位点分析,限制酶数据库 REBASE 网址: 数据库中限制酶信息包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特性、酶的商业来源和参考文献,核酸序列分析-核酸基序位点分析,基序(motif 或称“模体”) 具有特定功能意义的生物序列片段,如: 原核生物 Pribno
11、w框 (10序列)TATAAT Sextama框 (35序列)TTGACA 真核生物 TATA框 TAT A CAAT框 GG CAATCT,AT,AT,CT,(TATAWAW),(GGYCAATCT),核酸序列分析-基因识别,1、ORF (开放阅读框)的识别,ORFOpen Reading Frame,在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框。 ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的先决条件。,核酸序列分析-基因识别,1、ORF (开放阅读框)的识别,算法: a.起始密码子和终止密码子所夹区域 300bp b.选择跨
12、度最大的 c.六个阅读框都要进行扫描 d.起始密码子可随物种不同而更改,核酸序列分析-基因识别,2、TestCode 测试编码,利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法: 由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。,TestCode 0.95 编码序列 0.74 TestCode 0.95 不能确定是否编码,核酸序列分析-基因识别,3、CpG岛 搜索,脊椎动物绝大多数基因的5端都存在CpG岛 CpG岛的判别方法: 以每200个碱基为单位扫描DNA序列,如某个片段内胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每1
13、0个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。,核酸序列分析-核酸序列分析软件,常用的核酸序列分析软件: DNAsis (HITACHI)DNAmanDNAtoolsDNAstar 密码子图表 密码子使用工具 CpG岛 DNA特征序列查找,DNA统计 ORF查找器 位置碱基频率 限制位点概要 碱基比例图 测试编码 翻译 http:/www.bio-,实践2:进入以下网站,初步学习分析Nosema bombycis在基因数据库里所有序列的DNA统计分析结果,DNA统计http:/www.bio- DNA统计返回输入序列的每种碱基与某些碱基组的个数与比例
14、。,实践2:进入以下网站,初步学习分析Nosema bombycis在基因数据库里所有序列的DNA统计分析结果,蛋白质序列分析-基础概念,氨基酸残基的简并逻辑表示法 - 位置分隔符; 允许此位置为括号内的任何一个残基; 允许此位置为除了括号内所包括的任何一个残基; x 代表任何残基; x(3) 代表任何3个氨基酸残基,,N-PT-GM-x(2)-ILVM,N-P-K-G-H-V, N-T-L-K-G-M,N-L-K-G-H-V, N-T-G-K-H-V,蛋白质序列分析-水解酶切点分析,Calpain LV YMR X ,2,蛋白质序列分析-蛋白质基序位点分析,蛋白质motif: 如蛋白质的磷酸
15、化位点,糖基化位点等,GLYCO_HORMONE_ALPHA_1 C-x-G-C-C-FY-S-R-A-FY-P-T-P,蛋白质motif数据库 PROSITE /prosite/,蛋白质序列分析-蛋白质特性分析,对20个氨基酸用物理化学的方法测定相关性质 如:疏水性,蛋白质序列分析-蛋白质特性分析,“开窗”的概念,蛋白质序列分析-蛋白质特性分析,Window=1,Window=15,G P C R,蛋白质序列分析-蛋白质特性分析,蛋白质序列分析-蛋白质二级结构预测,GOR II 法预测结果,蛋白质序列分析蛋白质二级结构预测,五种蛋白质二级结构预测结果比
16、较,蛋白质序列分析-蛋白质高级结构预测,蛋白质高级结构预测网址:http:/www.expasy.ch/swissmod/,蛋白质序列分析软件,专门用于蛋白质序列分析的软件较少 大多集成在综合软件之中,Wonderful生物信息学系统的蛋白质序列分析功能: 1、蛋白质特性分析 2、蛋白质二级结构预测 3、蛋白质水解酶切位点分析 4、蛋白质基序位点分析,DNA、蛋白质序列同源分析及进化树构建,相似性与同源性,相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。可进行自身局部比较。 如 Dot Plot (点阵序列比较) 同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。 如 Alignment (同源性分析),推荐软件,相似性分析 Peptool Lite 同源性分析 Vector NTI 6-AlignX Contig Express-DNA 序列片断拼接,序列联配(比对),Alignment 软件 CLUSTAL X,Vector NTI Suit 同源比较进化树,运行在UNIX平台的序列分析软件,GCG (Genetics Computer Group),中国生物信息学软件,1994 军科院 吴加金 GOLDKEY 2000 基因探索者 2001 WONDERFUL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 延安大学西安创新学院《经济应用文写作》2021-2022学年第一学期期末试卷
- 延安大学《中国古代文学(二)》2022-2023学年第一学期期末试卷
- 草坪场地租赁合同三篇
- 管线切改安全管理措施
- 学习与心理健康的结合计划
- 用户体验在图书馆服务中的影响计划
- 信阳师范大学《数据库原理及应用》2021-2022学年第一学期期末试卷
- 信阳师范大学《人工智能计算》2023-2024学年第一学期期末试卷
- 游戏学习在幼儿园的实施意义计划
- 建立良好习惯成就卓越计划
- 《中国民间故事》整本书阅读交流展示课课件(完美版)小学语文五年级必读书目快乐读书吧
- 等效声级计算表
- 部编版道德与法治三年级上册-教案(全册)
- 相声剧本大全相声剧本范文 3篇
- 沉降观测记录表(标准版)
- 青年人择偶观研究课件
- 35千伏输电线路施工方案
- 绿色建材应用计划与措施
- 中考英语阅读理解复习课-(共38张PPT)
- 优质下落市政排水检查井渗水率qc结果全国教学课件
- 桥梁结构地震反应分析
评论
0/150
提交评论