4.生物信息学的基本概念与应用60_第1页
4.生物信息学的基本概念与应用60_第2页
4.生物信息学的基本概念与应用60_第3页
4.生物信息学的基本概念与应用60_第4页
4.生物信息学的基本概念与应用60_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学在基础科学、药物开发及临床中的应用医药生物信息学中心(Medicinal Bioinformatics Center)生物信息学-Bioinfomatics生物信息学是现代生物医药技术发展的必然需求生物信息学研究方法数据库网络服务器搜索引擎生物信息学研究方法来自于数理信息学技术的拓展医药生物信息学中心上海交通大学医学院高校/科研单位/医院/高科技公司基因/蛋白/相互作用网络/小分子转化医学培训服务生物信息学重要数据库 NCBI UniProt/SwissProt PDB/SCOP HPRD/DIP KEGG PubChem BindingDB DrugBank/TTD Thomson

2、Reuters Web of Science生物信息学重要数据库-NCBI生物信息学重要数据库-NCBI生物信息学重要数据库-NCBI生物信息学重要数据库-NCBI生物信息学重要数据库-UniProt/SwissProt生物信息学重要数据库-SwissProt生物信息学重要数据库-PDB生物信息学重要数据库-PDB生物信息学重要数据库-HPRD生物信息学重要数据库-KEGG生物信息学重要数据库-KEGG生物信息学重要数据库-PubChem生物信息学重要数据库-PubChem生物信息学重要数据库-BindingDB生物信息学重要数据库-DrugBank生物信息学重要数据库-Thomson Reu

3、ters生物信息学重要数据库-Web of Science生物信息学基础算法-BLASTTM4TM2TM3TM1TM5TM6TM7TM8生物信息学基础算法-BLASTBLASTBy JosephBedell, IanKorf, MarkYandell Publisher: OReillyPub Date: July 2003ISBN: 0-596-00299-8Pages: 360Slots: 1.0为什么要用BLASTBLAST:Basic Local Alignment Search Tools序列局部相似比较,认为有生物意义保守序列,而不一定要全局相似。可以由局部相似得出两序列可能有相同

4、功能或功能相关。可以进行序列位置定位要比较的是相似性,不是同源性。根据相似性结合其他证据做出判断。两条序列匹配比较I种子IACGGTTCACGTTCCAACGGTCACACGGTTCACGTTTCCAACGGTCAC得分:1*5=5ACGGTTCACGTTTCCA ACGGTCAC得分1*33分Word size=3 如果word size=4,5 则第二个结果就没有了。(假设相同就得1分,不同得-3分,出现gap-2分,延伸gap-1分)Word size 就是起始种子两条序列匹配比较I种子IIACGGTTCACGTTCCAACG 1,8CGG 2GGT 3GTT 4,10TTC 5,11T

5、CA 6CAC 7ACGGTCACACG 1 2*1=2CGG 2 1*1=1GGT 3 1*1=1GTC 4 TCA 5 1*1=1CAC 6 1*1=1 共 6对种子Scoring MatrixBLOSUM:基于有效氨基酸片段之间的相互替代频率,矩阵构建蛋白数量是PAM的20倍以上, BLOSUM-N中。对于序列相似性越大的比对用较大的N,而序列相似性较小的比对用较小的N。PAM (Point Accepted Matrix):基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界就接受这种替换,得分就高,1个PAM单位代表一个进化变异单位,即1%氨基酸改变(缺点:家族内成员整体构建,累

6、积误差)。PAM-N中,对于序列相似性越大的比对用较小的N,而序列相似性较小的比对用较大的N。The neighborhood near RGDBLOSUM62PAM200WordScoreWordScoreRGD17RGD18KGD14RGE17QGD13RGN16RGE13KGD15EGD12RGQ15HGD12KGE14NGD12HGD13RGN12KGN13AGD11RAD13MGD11RGA13RAD11RGG13RGQ11RGH13RGS11RGK13RND11RGS13RSD11RGT13SGD11RSD13TGD11WGD13E两条序列匹配比较II延伸ACGGTTCACGTTC

7、CAACGGTCACACGGTTCACGTTTCCAACGGTCAC得分:1*5=5ACGGTTCACGTTTCCA ACGGTCAC得分1*33分两条序列匹配比较III终止y=4 (1,-3,-2,-1)延伸到第7个碱基的时候达到/超过了y的值,这时候延伸停止,返回去找得分最高的比对,结果就是ACGGT的比对,得分为5两条序列匹配比较III终止X=4 (1,-3,-2,-1)延伸到第7个碱基的时候达到/超过了X的值,这时候延伸停止,返回去找得分最高的比对,结果就是ACGGT的比对,得分为5Dynamic Programing动态规划Dynamic Programming允许最适比较,允许插入

8、删除,全局,局部Dynamic Programming allow Optimal Alignment between two sequencesAllow Insertion and Deletion or Alignment with gapsNeedlman and Wunsh Algorithm (1970) for global alignmentSmith & Waterman Algorithm (1981) for local alignmentImportant StepsCreate DOTPLOT between two sequences散点图Compute SUM m

9、atrix矩阵求和Trace Optimal Path追踪最适途径Steps for Dynamic Programming。Row gapColumn gapSteps for Dynamic ProgrammingSteps for Dynamic ProgrammingSteps for Dynamic ProgrammingBLAST中序列对库做比较一条查询序列跟库中每条序列做两条序列的比较,把结果排序,得到了这条查询序列跟库中序列局部匹配比较好的结果多条查询序列会被分解成单条序列与库中序列比较,得到一条一条查询序列结果的简单累积BLAST类型核酸核酸 blastn蛋白质蛋白质 bla

10、stp核酸T蛋白质 blastx蛋白质核酸T tblastn核酸T核酸 T tblastxTraditional BLAST programs ProgramDatabaseQueryTypical usesBLASTNNucleotideNucleotideMapping oligonucleotides, cDNAs, and PCR products to a genome; screening repetitive elements; cross-species sequence exploration; annotating genomic DNA; clustering seque

11、ncing reads; vector clipping BLASTPProteinProteinIdentifying common regions between proteins; collecting related proteins for phylogenetic analyses BLASTXProteinNucleotide translated into proteinFinding protein-coding genes in genomic DNA; determining if a cDNA corresponds to a known protein TBLASTN

12、Nucleotide translated into proteinProteinIdentifying transcripts, potentially from multiple organisms, similar to a given protein; mapping a protein to genomic DNA TBLASTXNucleotide translated into proteinNucleotide translated into proteinCross-species gene prediction at the genome or transcript lev

13、el; searching for genes missed by traditional methods or not yet in protein databases 生物信息学基础算法-BLAST BLAST主页 教程 BLAST中的相似性分数的统计学意义医药生物信息学中心上海创新知识中心平台海量数据生物信息学分析文本挖掘与智能语言分析活性药物及靶标数据分析临床样本及生物信息数据分析活性化合物筛选及优化4组曙光48核胖节点服务器2组惠普128核8路高性能服务器4组艮泰128核12路高性能服务器4台GPU 484核工作站12台惠普12核图形工作站108台联想生物信息学4核工作站48台联想计

14、算化学4核工作站2台GPU 248核工作站生物医药个性化数据库建设服务数据库咨询及设计服务网络数据库发展及数据库整合服务数据库软件设计及服务基于数据库的数据分析及应用医药生物信息学中心头皮屑易感基因生物信息学分析及定位2012.10-2013.4医药生物信息学中心医药信息浏览习惯文本挖掘算法医药信息分类模型骨科妇产科消化科外科内科儿科专科医生医药信息自动推送引擎2012.3-2012.9医药生物信息学中心表观遗传靶标表观遗传候选药物HEMD数据库活性适应症功能结构分析筛选杭州景杰生物科技有限公司-表观遗传药物开发及靶标数据库2011.3-2012.12医药生物信息学中心药物开发智能管理系统20

15、10.6-今医药生物信息学中心医院口腔肿瘤样本库临床手术样本生物分析数据临床样本库易感基因表达谱芯片分析分子诊断2012.12-今医药生物信息学中心公共服务面向公共开放的生物医药服务数据库及分析系统海量数据从整合到挖掘与应用数据整合数据挖掘创新应用简明的规律永远隐藏在繁杂的数据背后ASD的数据整合、数据挖掘与应用ASD的数据整合、数据挖掘与应用ASD V0.1 2009.8 Allosteric Proteins V0.4 2010.3 Allosteric Diseases V1.0 2010.7 Allosteric Interactions V1.5 2011.6 Update Entr

16、ies V2.0 2012.8 DNA&RNAASD的数据整合SOP是数据收集整理具备可持续性的唯一保证ASD的数据挖掘 (一)-新位点识别Protein Property Analysis基于知识的别构口袋识别新方法Site Property AnalysisSite Location AnalysisSite DetectionASD的数据挖掘 (二)-新作用机制识别基于知识的别构机制识别方法ASD的数据挖掘 (三)-新化合物筛选知识为基础的别构小分子筛选规则数据规律产生新的应用(一)Residue NumMutationPositionActivator EfficiencyNone(wide type)43.7%Cys52PheBinding site0%Cys52SerBinding site6%Cys52LeuBinding site19.8%Cys52AlaBinding site39.2%His54TrpBinding site34.3%Arg55AlaBinding site24.8%Arg55TrpBinding site22.6%His70ArgBindin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论