




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《生物信息学》(研究生)全册配套完整课件生物信息学课程内容1.
引言/
分子生物学数据库2.
BLAST工具3.
EST拼接和电子克隆4.
序列对位排列5.
分子进化基础6.
分子系统发育分析方法7.
基因组分析8.
专题讲座(6次)助教:徐凌丽(10210700137@)
吴佳齐(10210700106@)什么是生物信息学?
80年代末随着人类基因组计划启动而兴起的一门新兴交叉学科生命科学中的信息科学基因组相关信息的快速增长(方法与技术需求)新药开发等(企业需求)生物信息学
(Bioinformatics)
与计算生物学
(ComputationalBiology)Luscombe,N.M.etal.,2001.Whatisbioinformatics?MethodsofInformationinMedicine40:346-358.数据挖掘(DataMining)
关联Associating
分类Classifying
建模与模拟Modeling&Simulating
预测与检验Predicting&Testing发生在Wal*Mart的真实故事理念:相关联的货物最好摆在一起问题:啤酒和什么货物关联?可能的答案:花生米?红肠?……从上百万张收银单获得的答案:尿布!数据仓库(DataWarehouse)和数据挖掘(DataMining)
数据仓库的定义(W.H.Inmon):
面向主题的、集成的、稳定的、历史的数据集合,用于支持战略决策制订(而传统的操作型数据库是面向应用的、细节的、可更新的、瞬时的)1)面向主题的:每个主题对应于一个宏观分析领域2)集成的:入库之前,要进行加工集成(转成面向主题的)3)稳定的:几乎不更新(覆盖)4)历史的:一般要用到过去5-10年的数据
数据挖掘的定义:一种决策支持过程,主要基于人工智能、机器学习、统计学等技术,高度自动化地分析原始数据,做出正确的决策数据挖掘
从大量的、不完整的、有噪声的、模糊的、随机的……数据中,提取隐含其中的、人们事先不知道的、潜在有用的……信息和知识的过程、技术……流感的预测(网上数据挖掘)具体方法
AutomatedqueryselectionprocessComputationandpre-filteringConstructingtheILI-relatedqueryfractionFittingandvalidatingafinalmodelState-levelmodelvalidationBioinformatics(CABIOS)OxfordUniversityPressMPSS/MPSS/index.jsp.DomainInformation界面分子生物学数据库分子生物学数据库(门户网站)
NCBI(TheNationalCenterforBiotechnologyInformation)EMBnet(TheEuropeanMolecularBiologyNetwork)
北京大学生物信息学服务器中国科学院上海生命科学研究院(BioSino)
上海生物信息技术研究中心NCBINationalCenterforBiotechnologyInformation/全球最大的生物信息资源中心DNA序列、蛋白质序列、出版物、数据挖掘工具等NCBI主页EMBnet北京大学生物信息学服务器BioSino上海生物信息技术研究中心基因组信息资源
GenBank(/)DDBJ(http://www.ddbj.nig.ac.jp/)EMBL(http://www.embl-heidelberg.de/)DDBJEMBL(Germany)EMBL-EBI(UK)蛋白质信息资源
PDB(/pdb/)PIR(/)SWISS-PROT(http://www.expasy.ch/sprot/)TrEMBL(http://www.expasy.ch/sprot/)NRL-3D(/pdb/)密苏里植物园主页PDB密苏里植物园主页PIR密苏里植物园主页Swiss-Prot&TrEMBL密苏里植物园主页NRL-3DNARNucleicAcidsResearch(分子数据库专集)NucleicAcidsResearch(服务器专集)Transposons:MobileGeneticElementsBarbaraMcClintockchromosomeTransposonGene基
因TransposonTransposonMutantGeneTaggedInsertionalMutagenesisTransgenesisTransposonEfficientTranspositionofpiggyBac(PB)TransposoninMiceAct-PBase+MammalianPBsystem(Dingetal.Cell2005)PB[RFP]PBaseMothpiggyBac(Caryetal.Virology1989)MorphologyMutantsWTMutantWT“Sandy”/PBmice,/PBmice/.INSERT界面
MP-PBmice
(insertionalmutationsmappingsystemofPBmice)ExperimentalProcedureFlowproductionAccess-controlTableExperimentalStageTableConstantTableStatusTableviewDetaildetailedinformationpagecommentboxInformationonrelationsbetweenmoleculesGenomesGenesPathwayOrthologsExpressionSequencesimilarityChemicalsandtheirreactionsKEGG数据库组织框架KEGG光合作用代谢通路rbcL基因及一个光合作用通路蛋白质相互作用数据库(1)蛋白质相互作用数据库(2)蛋白质相互作用数据库(3)蛋白质相互作用数据库(4)蛋白质相互作用数据库(5)其他数据库RatGenomeDatabase/大鼠基因组相关数据专用工具(如VCMap–可视化比较作图软件)其他数据库UTRdb(非翻译区数据库)r.it/BIG/UTRHome/有关3’和5’UTR信息主要的序列数据格式FASTAGenBankSwissProtASN.1XMLFASTA格式用于各种FASTA工具简要说明之后就是序列没有注释信息,只有序列例:>gi|1040960|gb|U35641.1|MMU35641MusmusculusBrca1mRNA,completecdsGGCACGAGGATCCAGCACCTCTCTTGGGGCTTCTCCGTCCTCGGCGCTTGGAAGTACGGATCTTTTTTCTCGGAGAAAAGTTCACTGGAACTGGAAGAAATGGATTTATCTGCCGTCCAAATTCAAGAAGTACAAAATGTCCTTCATGCTATGCAGAAAATCTTAGAGTGTCCGATCTGTTTGGAACTGATCAAAGAACCTGTTTCCACAAAGTGTGACCACATATTTTGCAAATTTTGTATGCTGAAACTTCTTAACCAGAAGAAAGGGCCTTCACAATGTCCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAGGGAAGCACAAGGTTTAGTCAGCTTGCTGAAGAGCTGCTGAGAATAATGGCTGCTTTTGAGCTTGACACGGGAATGCAGCTTACAAATGGTTTTAGTTTTTCAAAAAAGAGAAATAATTCTTGTGAGCGTTTGAATGAGGAGGCGTCGATCATCCAGAGCGTGGGCTACCGGAACCGTGTCAGAAGGCTTCCCCAGGTCGAACCTGGAAATGCCACCTTGAAGGACAGCCTAGGTGTCCAGCTGTCTAACCTTGGAATCGTGAGATCAGTGAAGAAAAACAGGCAGACCCAACCTCGAAAGAAATCTGTCTACATTGAACTAGACTCTGATTCTTCTGAAGAGACAGTAACTAAGCCAGGTGATTGCAGTGTGAGAGACC…
GenBank格式GenBank用纯文本文件注释、作者、版本等信息例:LOCUSMMU356415538bpmRNAlinearROD18-OCT-1996DEFINITIONMusmusculusBrca1mRNA,completecds.ACCESSIONU35641VERSIONU35641.1GI:1040960KEYWORDS.SOURCEhousemousestrain=C57Bl/6.ORGANISMMusmusculusEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;Mammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Mus.REFERENCE1(bases1to5538)AUTHORSSharan,S.K.,Wims,M.andBradley,A.TITLEMurineBrca1:sequenceandsignificanceforhumanmissensemutationsJOURNALHum.Mol.Genet.4(12),2275-2278(1995)MEDLINE96177660PUBMED8634698SWISS-PROT格式用于SWISS-PROT数据库包括注释信息例:IDBRC1_MOUSESTANDARD;PRT;1812AA.ACP48754;Q60957;Q60983;DT01-FEB-1996(Rel.33,Created)DT01-NOV-1997(Rel.35,Lastsequenceupdate)DT16-OCT-2001(Rel.40,Lastannotationupdate)DEBreastcancertype1susceptibilityproteinhomolog.GNBRCA1.OSMusmusculus(Mouse).OCEukaryota;Metazoa;Chordata;Craniata;Vertebrata;Euteleostomi;OCMammalia;Eutheria;Rodentia;Sciurognathi;Muridae;Murinae;Mus.OXNCBI_TaxID=10090;RN[1]RPSEQUENCEFROMN.A.RCSTRAIN=C57BL/6;TISSUE=Embryo;RXMEDLINE=96177659;PubMed=8634697;RAAbelK.J.,XyJ.,YinG.Y.,LyonsR.H.,MeislerM.H.,WeberB.L.;RT"MouseBrca1:localizationsequenceanalysisandidentificationofRTevolutionarilyconserveddomains.";RLHum.Mol.Genet.4:2265-2273(1995).…XML格式eXtensibleMarkupLanguage类似HTML国际标准半结构化例:<?xmlversion="1.0"?><!DOCTYPEGBSeqPUBLIC"-//NCBI//NCBIGBSeq/EN"“/dtd/NCBI_GBSeq.dtd"><GBSet><GBSeq><GBSeq_locus>MMU35641</GBSeq_locus><GBSeq_length>5538</GBSeq_length><GBSeq_strandednessvalue="not-set">0</GBSeq_strandedness><GBSeq_moltypevalue="mrna">5</GBSeq_moltype><GBSeq_topologyvalue="linear">1</GBSeq_topology><GBSeq_division>ROD</GBSeq_division><GBSeq_update-date>18-OCT-1996</GBSeq_update-date><GBSeq_create-date>25-OCT-1995</GBSeq_create-date><GBSeq_definition>MusmusculusBrca1mRNA,completecds</GBSeq_definition><GBSeq_primary-accession>U35641</GBSeq_primary-accession><GBSeq_accession-version>U35641.1</GBSeq_accession-version>ASN.1格式国际标准半结构化格式用于NCBI数据例:Seq-entry::=set{level1,classnuc-prot,descr{title"MusmusculusBrca1mRNA,andtranslatedproducts",source{org{taxname"Musmusculus",db{{db"taxon",tagid10090}},orgname{namebinomial{genus"Mus",species"musculus"},…ASN.1FASTAGraphicalGenPeptGenBankMMDBUniProtEMBLXMLBIND数据格式间的关系格式转换通常一种工具采用一种格式,可用(在线)软件进行格式转换ReadSeq/seq-util/Options/readseq.htmlSEQIO/~gusfield/seqio.html数据下载查询并选择数据库数据从网页直接下载数据用脚本下载数据Perl/BioPerl用FTP批量下载数据如在一个项目中同时采用上述多种方法ATTGACTATTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGDatabaseTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTCGAGAATTCGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssembly实验室管理不同的算法TATAGCCGAGCTCCGATACCGATGACAA
BLAST
BasicLocalAlignmentSearchTool
BLAST流程QLNFSAGWQLLNNFFSSAAGGWQL=11,QM=9,HL=8,ZL=9LN=9,LB=8NF=12,AF=8,NY=8,DF=10,………......wTBLAST可搜索库统计计算NeighbourhoodWordHitextension(击中延伸)根据阈值决定终止点生成输出文件序列库W为字长e.g.,2T为阈值(score)e.g.,8/BLASTBLAST系列程序选择流程蛋白质序列?是蛋白质数据库?是blastp否蛋白质数据库?tblastn否否blastn是否tblastxblastx是数据库翻译?查询序列BLASTpBLASTIDBLAST结果(1-5)12345BLAST结果(1)BLAST
结果(2)BLAST结果(3)BLAST结果(4)BLAST结果(5)分值和E值BLASTP2.2.14[May-07-2006]Reference:Altschul,StephenF.,ThomasL.Madden,AlejandroA.Schäffer,JinghuiZhang,ZhengZhang,WebbMiller,andDavidJ.Lipman(1997),"GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms",NucleicAcidsRes.25:3389-3402.RID:1157436303-6611-9612772342.BLASTQ4Database:Allnon-redundantGenBankCDStranslations+PDB+SwissProt+PIR+PRFexcludingenvironmentalsamples3,946,334sequences;1,357,962,904totallettersQuery=Length=137Distancetreeofresults
ScoreESequencesproducingsignificantalignments:(Bits)Valuegi|16129916|ref|NP_416479.1|hypotheticalproteinb1970[Esch...2784e-74gi|110805940|ref|YP_689460.1|hypotheticalproteinSFV_2015[...2753e-73gi|15802403|ref|NP_288429.1|hypotheticalproteinZ3062[Esch...2749e-73gi|82776345|ref|YP_402694.1|hypotheticalproteinSDY_1038[S...2049e-52gi|16419612|gb|AAL20029.1|putativeperiplasmicorexportedp...2016e-51<以下内容已删除>分值是衡量查询序列同命中序列(hit)间相似性的测度。分值越高,命中序列与查询序列越相似E值是随机获得一个比所得分值高的(排列)序列的概率,即分值可靠性的测度。E值越小,所命中序列越可靠E值计算公式:E=K·m·n·e-λSK,一个与目标序列相关的经验常数λ,与计分(分值)系统相关的经验常数m,查询序列大小n,所查询数据库大小S,分值BLAST的新功能BLASTP2.2.14[May-07-2006]Reference:Altschul,StephenF.,ThomasL.Madden,AlejandroA.Schäffer,JinghuiZhang,ZhengZhang,WebbMiller,andDavidJ.Lipman(1997),"GappedBLASTandPSI-BLAST:anewgenerationofproteindatabasesearchprograms",NucleicAcidsRes.25:3389-3402.RID:1157436303-6611-9612772342.BLASTQ4Database:Allnon-redundantGenBankCDStranslations+PDB+SwissProt+PIR+PRFexcludingenvironmentalsamples3,946,334sequences;1,357,962,904totallettersQuery=Length=137Distancetreeofresults
ScoreESequencesproducingsignificantalignments:(Bits)Valuegi|16129916|ref|NP_416479.1|hypotheticalproteinb1970[Esch...2784e-74gi|110805940|ref|YP_689460.1|hypotheticalproteinSFV_2015[...2753e-73gi|15802403|ref|NP_288429.1|hypotheticalproteinZ3062[Esch...2749e-73gi|82776345|ref|YP_402694.1|hypotheticalproteinSDY_1038[S...2049e-52gi|16419612|gb|AAL20029.1|putativeperiplasmicorexportedp...2016e-51<以下内容已删除>Blast命中序列的系统树Mega-Blast可用于搜索近似完全的匹配,可以处理一批核苷酸查询,比标准BLAST查询速度快
NCBI进行基因组BLAST查询时的默认程序
/BLASTPSI-BLAST位置特定的迭代BLAST
(PositionSpecificIteratedBLAST)搜索数据库以找出与查询序列同一蛋白质家族的成员揭示亲缘关系较远的蛋白质间的关系在全序列数据库中搜索相似序列PSI-BLASTMGLLTREIF--ILQQFGLGRT-I-T-YMTN-GLVRT-ILGLEFGLLRT-IYMTQMGLLTREIF--ILQQ起始序列A029001100003200C000070000000000..Y002000080202000构建一个概型并以数字描述每一个位点的保守性概型比单一序列包含有更多的信息:利用概型来获取更多的信息进行多序列对位排列FGLLRT-I-T-YMTN-RLTRD-ILGLYFGLLRT-IFMTS新的序列被用于对位排列构建新的概型A027005101003200C000070000000000..Y202000060202000经过数次迭代后得到:注释的序列信息;多重序列对位排列;由PSI-BLAST所产生的概形(Profile);确定相似性的域值(对位排列统计结果)A029001100003200C000070000000000..Y002000080202000利用概形两个序列间的查询比较两个序列的相似性,不需要传统BLAST的数据库查询BLAST2局部对位排列,获得结构域或序列内重复信息建议不超过150kbBLAST2/BLAST基因组搜索河豚基因组河豚基因组微生物基因组微生物基因组提供
BLAST的若干网站NCBIBLAST/BLAST/DDBJhttp://www.blast.genome.ad.jp/EMBL-EBIhttp://www.ebi.ac.uk/blastall/PKU/本地BLAST查询序列网络服务器BLAST输出结果本地计算机BLAST显示结果E.coliK12GeneAE.coliO157GeneBBlast,Evaluecutoff=1e-20A.B为候选直系同源基因双向BLAST(基因组)获得直系同源序列实例一:恐龙蛋DNA研究中的一场争论恐龙蛋化石中的18srDNA
ActaSc.Nat.Univ.Pekinesis.31:140-7.1995BLAST结果U41317>gi|20377928|gb|AF372708.1|UnculturedbasidiomycetecloneBAQA52smallsubunitribosomalRNAgene,partialsequence
(2004结果)U41318>gi|2735774|gb|AF008955.1|AF008955
Corallocarpusbainesii18SribosomalRNAgene,completesequence(2004结果)U41317>EU4463601UnculturedmarineeukaryotecloneUI14F08smallsubunitribosomalRNAgene,partialsequence(2008结果)U41318>DQ068110BrassicanapusisolatemutantCr3529cloneBncr2unknownmRNA(2008结果)18sDNA系统树结论DA18s1类似于真菌DA18s7类似于被子植物DA18s1、DA18s7与鸭、人、鳄鱼和其他动物的序列差异很大鸟类与爬行类是恐龙现存的最近的物种;DA18s1/7都不是真正的恐龙DNAMol.Biol.Evol.14(5):589-91.1997实例二:用BLAST检索蚯蚓血红蛋白氨基酸序列wdesfrtfysilddehktlfngifhlaiddnadnlgelrrctgkhflneqalmqasqyqfydehkkahedfihkldgwkgdvkyakswlvnhiktidfkyrgkl实例三:麻黄碱类化合物的起源假说Dopamine能神经元结构与功能
CallierS.,2003,BiologyoftheCell运动学习记忆药物成瘾TyrosineHydroxylaseTyrosineL-DopaL-DopamineAromaticaminoacidDecarboxylaseDopamineb-HydroxylaseNoradrenalineN-methyltransferaseAdrenalineTryptophanTryptophanHydroxylase5-Hydroxy-L-tryptophanAromaticaminoacidDecarboxylaseSerotoninMethamphetamine(甲基苯丙胺)Dopamine(多巴胺)Amphetamine(苯丙胺)
Ephedrine(麻黄碱)Serotonin(血清胺)麻黄碱在人体内的结合蛋白
肾上腺素受体(AdrenergicRecptor)多巴胺转运蛋白(DopamineTransporter,DAT)AdrenergicRecptorBlastagainstFungiDopamineTransporterBlastagainstFungi镰孢菌中的FG07634蛋白与DAT相似麻黄碱制毒的进化学解释麻黄碱是麻黄的一种防御物质,其作用之一是抵抗镰孢菌的侵染麻黄碱对镰孢菌的防御与麻黄碱和镰孢菌中的FG07634蛋白结合有关FG07634蛋白与人体神经系统中主管奖励机制的一种蛋白Dopaminetransporter(DAT)具有同源性(由于这种同源性,使麻黄碱类化合物能够干扰人体“奖励系统”的正常运转,从而发生毒品效应)。麻黄碱可能是防御物质的证据Phenylalamine、Tyramine、Tryptophan代谢通路是植物防御系统的一部分苯丙醇代谢途径、酚类木质素水稻TryptophanDecarboxylase与MonoamineOxidase的激活与对Magnaporthegrisea的抗性有关(ThePlantJournal,2003)Kojicacid、picolinicacid、Fusaricacid对植物的毒性作用至少有一部分是因为抑制植物中的Polyphenoloxidase(多酚氧化酶)(Nat.Toxins,1999;TheAppliedMycologyofFusarium(pp95–105),AcademicPress,NewYork)推测FG07634蛋白的功能
因同源同功,推测其为“转运蛋白”推测被FG07634蛋白转运的物质
与Dopamine、Serotonin、Adrenaline、GABA、Proline等神经介质的功能及结构相似
可能与镰孢菌对植物的侵害有关FusaricAcid—可能被FG07634转运的物质FusaricAcid与Dopamine的相似性FusaricAcidDopamineFusaricAcid能抑制DopamineI
型受体活性(中国抗生素杂志,2001)FusaricAcid能抑制植物Dopamine代谢途径中的TyrosineHydroxylase,人Dopamine代谢途径中的Dopamineb-Hydroxylase
FusaricAcid是镰孢菌分泌的一种非特异性的毒素,在对植物侵染过程中与其他毒素有协同作用;同时在镰孢菌的不同生长时期也有不同的生理作用植物Dopamine代谢途径:人类Dopamine代谢途径:TyrosineTyramineDopamineDecarboxylaseTyrosineHydroxylaseNoradrenalineTyrosineL-DopaDopamineTyrosineHydroxylaseDecarboxylaseb-Hydroxylase相关问题探索麻黄碱类成分(从卡西酮到麻黄碱)在植物中的分布大陆间(新旧世界)麻黄碱的起源与演化(“lossvs.gain”test)相关基因克隆与调控网络分析对提高麻黄碱产量与质量的指导意义电子克隆
(insilicocloning)
利用公共数据库信息,借助计算机软件分析,推测目的基因的编码区序列并辅助全长cDNA克隆的方法
基因转录产物mRNA反转录产生的互补DNA(cDNA)代表基因中编码蛋白质的序列
EST是从cDNA文库中随机挑选不同的克隆测序所产生的序列,也可由mRNA差别显示(DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得1)作为cDNA片段,EST一般长200-400bp2)一个全长cDNA可以有许多EST,但特定的EST有时可代表某个特定的cDNA分子3)两端有重叠的共有序列的EST可以组装成一个叠连群(contig),再装配成全长的cDNA序列4)将EST定位于基因组,也可作为基因组作图时的一种标记序列表达序列标签
(ExpressedSequenceTag,EST)5’3’ESTSearchinESTdatabaseSearchinESTdatabaseSearchinESTdatabaseSearchinESTdatabase5’3’CompletecDNASeedEST(startEST)AU184451RICR2584A99AS825D004D07C25822RICS1291AAAAAAAD004D07AAAAAA99AS825AU184451RICR2584AC25822RICS1291AATGTAA一个ESTwalking的示例苹果酸脱氢酶同功酶基因ESTwalking的优点和局限优点:快速,无须实验操作局限:许多EST库不均一;一些EST库测序精度不高EST库中可能有不完全剪切产物EST,partialcdsSearchingenomic
sequencedatabaseGenomicsequenceofestGene
annotationHomologsearchbasedona.asequenceSearchinestdatabaseCorrectannotatedgenebyestandhomologPredictedgeneDesign5’-,3’-primersbasedonpredictedsequnceRT-PCRforcDNAcloningandsequencing电子克隆的优缺点缺点和局限:1.必须经实验验证2.不适用以下种类的基因预测
1)种间保守性差的基因
2)外显子数目多而且每个外显子短的基因优点:1.充分利用现有的信息资源
A.基因组测序结果
B.其他物种的est,cDNA信息2.特别适用于低丰度基因克隆3.高效,快速,工作量小WEBSITEFORGENEPREDICTIONhttp://www.ebi.ac.uk/genemark/
//genome/exons.html水稻emf2基因的注释和校读示例常用水稻EST及基因组数据库的网址常用植物基因结构分析程序密苏里植物园主页序列对位排列SequenceAlignment
通过插入空位/间隔(gap)的方法使不同长度的序列对齐(长度一致)优化的序列排列应使空位/间隔的数目达到最小,同时使相似性区域的长度达到最大
对序列X=CGATCAG(长度为7)和序列Y=CGTCAG(长度为6),只需插入一个空位/间隔即可排列后的两个序列为:
X=CGATCAGY=CG-TCAG序列对位排列(比对)
对上面两个序列X和Y,增加一个序列:Z=CGGATCAG(长度为8)排列后的三个序列为:
X=CG-ATCAGY=CG--TCAGZ=CGGATCAG对位排列类别在序列中搜索一系列单个性状或性状模式可以比较两个(成对对位排列)或更多(多重对位排列)序列全局和局部对位排列AB(a)AB(b)子序列与对位排列局部对位排列结构域A结构域B结构域B结构域A局部和全局排列(Localandglobalalignment)
全局对位排列:对全长序列进行对位排列如Needleman-Wunsch算法主要优点是适合较短序列或结构预测
局部对位排列:对序列的局部区域进行对位排列如Smith-Waterman算法主要优点是适合数据库查询或寻找结构域序列对位排列方法点阵分析法动态规划法词或K串方法点阵方法点阵方法提供了一种快速的序列对位排列的可视化方法AGCTGTCCGAATTAAGCCCTEGTAGCTAGGTATCGGATGAGCTGTCCGAAT
TAAGCCCTEGTAGCTAGGTATCGGATGAGCTXGTXCCGAATX
TAAGCCCTEGTAGCTAGGTATCGGATGAGCTXGTXCCGAATXTAAGCCCTEGTAGCTAGGTATCGGATGAXGCTXGTXCCGAXAXTXTAAGCCCTAGTAGCTAGGTATCGGATGAXXXXXXXGXXXXXXXXCXXXXXTXXXXXXXGXXXXXXXXTXXXXXXXCXXXXXCXXXXXGXXXXXXXXAXXXXXXXAXXXXXXXTXXXXXXXTAAGCCCTAGTAGCTAGGTATCGGATG简单情形:两条序列间匹配的碱基标记一个X号即使是对核苷酸序列,该方法所产生的点阵图也很杂乱窗口法:使用一个短链的序列窗AGCTGTCCGAATTAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAAT
TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAAXT
TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAAXT
TAAGCCCTAGTAGCTAGGTATCGGATG使用3个碱基的窗,并要求至少2个核苷酸匹配AGCTGTCCGAA
XT
TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAA
XT
TAAGCCCTAGTAGCTAGGTATCGGATGAGCTGTCCGAA
XT
TAAGCCCTAGTAGCTAGGTATCGGATGAXGXCXXXXTXXXXGXXXTXXXXCXXCXXXGXXXXXAXXXXXAXXXXXTXXXXXTAAGCCCTAGTAGCTAGGTATCGGATGAXGXCXXXXTXXXXGXXXTXXXXCXXCXXXGXXXXXAXXXXXAXXXXXTXXXXXTAAGCCCTAGTAGCTAGGTATCGGATG点阵中的相似性区域是类似于对角线的区域点阵图特征对角线Breaks
两条序列相似区域出现对角线当一条序列相对于另一条序列存在插入或缺失时点阵图中出现break(断裂)序列1 acgtggttcatcaggaccccggacatatcaggaccc ||||||||||||||||||||||||||||||||||序列2 acgtggttcatcaggacccgggccatatcaggaccc设N为对位排列的长度,δ为计分函数S(A)=
δ(S[i],T[i])对位排列计分i=1N
简单计分系统ACGTA1000C0100G0010T0001核苷酸氨基酸氨基酸置换矩阵用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此预测进化过程中大部分可能的氨基酸变化。该方法由M.Dayhoff(1978)建立较为成熟的有:Dayhoff和Blosum计分矩阵Dayhoff突变数据矩阵分析一组关系很近的蛋白质,其中的氨基酸置换不引起蛋白质功能上的显著变化,称为“可接受突变”一个PAM的进化距离定义为每100个氨基酸中一个点突变可被接受的概率DayhoffPAM250BLOSUM矩阵BLOSUM矩阵可以使用关系较远的序列来获得矩阵元素以大于或等于80%同一性的聚合序列构建BLOSUM80矩阵,而大于或等于62%的聚合序列则用于构建BLOSUM62矩阵BLOSUM62Sequence1:MILVKP–VVLKGDFGSequence2:MILLKPAIIIRAEY-PositionScore:544157-53322023-5Totalalignmentscore=(sumofpositionscores)-(gappenalty)=41-10=31HenikoffandHenikoff。PNAS.1992,89(22):10915-9
空位/间隔罚分(Gappenalty)为了获得两个序列间最可能的排列,必须使用空位/间隔和空位/间隔罚分空位/间隔罚分太高,空位/间隔就不会出现在匹配序列中空位/间隔罚分太小,空位/间隔就可能出现在排列序列的任一地方其他计分矩阵其他氨基酸计分矩阵遗传密码计分和化学相似性计分如Jones为跨膜蛋白建立的计分矩阵核苷酸PAM计分矩阵不同计分方式比较
根据序列一致性计分
匹配为1,非匹配为0
优点:简单直观,适用于高度相似性序列
缺点:忽略非匹配位点不等价
根据化学相似性计分
根据化学结构加权
优点:与蛋白质结构相联系
缺点:复杂、蛋白质进化机制未明根据遗传编码计分
考虑蛋白质序列置换中的最小碱基数
优点:基于分子生物学原理
缺点:蛋白质进化机制未明氨基酸物理化学性质编码蛋白质序列的基因通常进化较慢,因为它们需要维持蛋白质结构与功能,而当蛋白质序列发生变化时,它们倾向于在化学性质较近的氨基酸间进行置换多重序列对位排列(MSA)序列对位排列的主要用途用于分子进化分析(课程后续内容)结构预测序列基序鉴定功能预测数据库搜索2、结构预测acetylglucosamin结合蛋白的序列对位排列和三级结构对位排列中黄色区域是最可能建立同样三级结构的区域。图中显示了4个二硫键hevein3、基序(motif)鉴定CCCH锌指基序NatureStructural&MolecularBiology.2004,11(3):2574、数据库搜索BLAST(BasicLocalAlignmentSearchTool)CLUSTAL软件的使用CLUSTAL是一个多序列对位排列的免费软件包,由EuropeanBioinformaticsInstitute的DesHiggins等编制。该软件可在DOS、UNIX、WINDOW、VAX和Macintosh操作系统下运行。输入序列:可以是NBCF/PIR,EMBL/SwissProt和FASTA等格式中的任意一种输出矩阵:可以选择CLUSTAL,NBRF/PIR,GCG或PHYLIP格式中的任意一种ClustalW软件原理
渐进方法:用成对对位获得相似矩阵从矩阵得到导引树根据导引树进行渐进排列(1)成对对位排列
将序列两两对位排列,并计算出相似性矩阵相似性=相同位点数/总长度(2)导引树
使用距离法从相似矩阵得到导引树,近似反映序列间的进化关系(3)渐进排列先将最近的两条序列重新对位再按照导引树,往上逐步添加最接近的序列,得到优化的多重序列对位排列手工校正手工对位排列费时费力,基本被软件代替软件自动排列会出现偏差,特别是某些序列涉及复杂的生物学背景,需要手工校正作为补充途径蛋白质二级结构对位排列
二级结构类型
螺旋(Helices)折叠(
Sheets)环区(Loops)无规则卷曲或卷曲(RandomcoilsorCoil)Alpha-helixBeta-sheetLoopandTurnTurnorcoil蛋白质二级结构对位排列(在线分析平台)SSEA记分规则每一条序列中的二级结构区域用一个字符(H,E,C)及其长度表示完全匹配(H->H,E->E,C->C)记分错配不计分(H->E,E->H)与卷曲匹配记分({H,E}->C)对位排列时不拆解二级结构区域分值标准化(0-100的分值)SSEA记分举例SeqA=CCCCCHHHHHHHHCCCCHHHHHHHHHHCCCCCCC表示为C5,H8,C4,H10,C7SeqB=CCEEECCCHHHHHHCCCCHHHHHHHHCCCEEECCCC表示为C2,E3,C3,H6,C4,H8,C3,E3,C4SSEAglobalalignment:CCCCCHHHHHHHHCCCCHHHHHHHHHHCCCCCCCCCEEECCC--HHHHHH--CCCCHHHHHHHH--CCCEEECCCC
score=3+6+4+8+4=25normalizedscore=25/((34+36)/2)*100=71.4286M.Waterman,美国科学院院士,南加州大学数学系、计算机科学系和生物学系教授,序列对位排列方法的先驱分子进化基础CharlesDarwin(1809–1882)达尔文笔记与物种起源加拉帕格斯群岛地雀的鸟喙变异观察分析结论:结婚,结婚,结婚!
CambridgeUniversityLibrary结婚的好处与坏处
不结婚的好处与坏处观察与分析并不一定能保证产生科学理论!达尔文观察豆科植物6个属达30年之久孟德尔观察豌豆的7个特征达尔文进化论的逻辑架构恩斯特·迈尔(1904–2005)物种可变理论共同祖先理论渐变理论物种增殖理论
自然选择理论加拿大北部埃尔斯米尔岛上3亿7千5百万年前的沉积岩预测“大淡水鱼”棘螈
潘氏鱼
特立尼达岛阿立波河中虹鳉鱼的微进化
长期的进化过程导致上游溪流中的虹鳉鱼个体较大,下游河流中的虹鳉鱼个体较小。自然选择实验20代后,发生了逆转实验中性进化学说创立者木村资生(1924-1994)Nature1968,217:624-626蛋白质“分子钟”“Asfarasisknown,synonymousmutationsaretrulyneutralwithrespecttonaturalselection.”King&Jukes,1969.
Science,164:788
-
798有害的(性状)有益的有害的中性的Kimura(1968)Nature217624-626大多数的置换是中性的,或者说很小一部分变化是由于达尔文进化引起的中性突变(等位基因)与野生型具有相同的适合度中性进化理论下基因的“命运”在分子水平,大多数进化变化和同一物种中的大多数变异不是由于自然选择造成的,而是由与自然选择等价的基因随机漂变造成的Graur&Li.FundamentalsofMolecularEvolutionDNA序列突变用分子信息研究进化问题DNA仅由四个碱基组成DNA进化的规律性基因组信息速率和时间估计祖先基因XYt+1t时间X’Y’DNA序列的进化AAGACTTTGGACTTAAGGCCT-3百万年-2百万年-1百万年今天AGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTTAGCCCATAGACTTAGCGCTTAGCACAAAGGGCATAGGGCATTAGCCCTAGCACTTAAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTAGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT坎特伯雷故事集的“进化分析”(Nature,1998)海克尔的“生命之树”核糖体DNA的“分子生命树”WilliHennig(1913-1976)系统发育系统学(分支学)创始人单系类群(a)、并系类群(b)、复系类群(c)有根树、无根树内类群、外类群、姐妹群标度树(进化单位或时间)树的数量#sequences #unrootedtrees #rootedtrees
2 1 13 1 34 3 155 15 1056 105 9457 945 10,3958 10,395 135,1359 135,135 2,027,02510 2,027,025 34,459,425基因复制与丧失DuplicationeventLineagegoesextinct(geneloss)genelossgenelossCBA123直系同源与并系同源原始血红蛋白基因基因复制α链β链
FrogChickmousemousechickfrog直系同源直系同源并系同源两个分子系统发育分析实例1.“走出非洲”(人类起源〕假说
mtDNA序列分析
Cannetal.,1987,Nature.2.佛罗里达牙医事件
HIV相关基因序列分析
Ouetal.,1992,Science.LosAlamosHIVSequenceDB(/)AllanWilson东亚人非洲起源的Y染色体证据DNA序列间的平均置换数对于两条长度为n的序列,统计差异数目
nd;
p=nd/n为两条序列之间的距离(差异)在序列的同一个位点可能发生不止一次的变化。如在一条序列的第10个位置观测到A,而在另一条序列为T,有多种可能ATACT…DNA置换模型的必要性必须准确和无偏见地估计分歧度和速率数学模型可以考虑回复和平行突变等情况,尤其是在p值较大时核苷酸置换模型
Jukes–Cantor单参数模型Kimura双参数模型Equal-input模型Tamura模型HKY模型…...Jukes-Cantor单参数模型最简单的DNA序列进化模型假设任一位点的核苷酸置换概率相同,仅有一个参数,即一个核苷酸变为另一个核苷酸的概率为
;一个核苷酸变为其他任何一个核苷酸的概率为3ACGT嘌呤嘧啶
一个单位时间后:A演变为3种其他任何一种核苷酸的概率为γ=3
A保持不变的概率为A=1-3
Kimura双参数模型两类核苷酸嘌呤:A,G嘧啶:C,T转换(Transitions):相似置换颠换(Transversions):嘌呤被嘧啶置换,反之亦然在实际数据中,转换置换的速率常高于颠换的速率ACGT嘌呤嘧啶
转换=
颠换=
JC模型K-2模型核苷酸置换模型
Jukes–Cantor单参数模型Kimura双参数模型Equal-input模型Tamura模型HKY模型…...MEGA考虑序列间隔的情况在序列的同源区对位排列时,常常插入间隔(-表示)来表示插入或缺失(indel)。这些间隔增加了距离估计的复杂度。当然,也可能是由于实验的原因,出现丧失信息的位点(?表示)。在距离估计中,一般忽略这类位点,可用两种不同的方法处理完全删除成对删除320seq1A-AC-GGAT-AGGA-ATAAAseq2AT-CC?GATAA?GAAAAC-Aseq3ATTCC-GA?TACGATA-AGA
3101.ACGAAGAAAA2.ACGAAGAACA3.ACGAAGAAAA1 02 0.1 03 0 0.1 0距离完全删除320seq1A-AC-GGAT-AGGA-ATAAAseq2AT-CC?GATAA?GAAAAC-Aseq3ATTCC-GA?TACGATA-AGA
212seq1ACGATAGAATAAseq2ACGATAGAAACA成对删除213seq1AACGAAGGAAAAAseq3ATCGAACGAAAGA
214seq2ATCCGAAAGAAACAseq3ATCCGATAGATAAA
1 02 2/12 03 3/13 3/14 0距离序列分歧较小时,两个模型的结果基本相同序列分歧较大时,双参数模型更为准确(尤其是当转换概率明显高于颠换概率时)单参数和双参数模型的比较ModelTest软件网站常见模型的局限性所有位点的替代速率并不是一致的一些位点的进化并不是独立的,如相互作用位点可能需要互补突变(例:发卡结构)氨基酸序列与同义/非同义核苷酸置换
为什么研究氨基酸分子进化的一些重要原理(如基因重复和分子钟)都是通过研究氨基酸序列发现的蛋白质序列较为保守,能为研究基因和物种的长期进化提供有用信息对蛋白质编码基因的DNA序列对位排列时可能需要氨基酸序列校正氨基酸置换模型比核苷酸置换模型简单P距离血红蛋白140个aa的前60个进化距离(时间)越长,p值越大PC距离运用泊松分布更精确地估计置换数目假定一个给定位点氨基酸置换数k(0,1,2,…)的发生频率符合泊松分布泊松校正距离(PC距离)氨基酸置换速率在位点间有变异,可能不是泊松模型中所假设的一致速率在不太重要的位点速率通常比较高(而在酶的活性位点置换率较低)每个位点的氨基酸置换数k(0,1,2,…)的方差大于泊松分布方差,近似遵循负二项式分布Г距离Г分布非常柔性,有多种形状,由形状参数a决定a=∞时,所有位点上的置换率都是相同的(泊松分布)a=1,置换率遵循指数分布,可描述不同位点的速率变异a<1,分布将更为偏斜,有相当比例位点上的速率值趋近0,实际上它们几乎是不变的位点在不同伽马参数下位点间置换率的伽马分布和距离氨基酸置换氨基酸的置换大多发生在生化特性相似的氨基酸之间不同的置换速率影响了PC距离置换不是随机的,相似氨基酸间的回复突变和平行突变也经常发生某些氨基酸如半胱氨酸(Cys)、甘氨酸(Gly)和色氨酸(Trp)很少变化氨基酸置换矩阵用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。该方法由Dayhoff(1978)建立较为成熟的有:Dayoff和Blosum计分矩阵同义置换与非同义置换同义: Sequence1:UUUCAUCGUSequence2:UUUCACCGUCodedAminoAcids:PheHisArg
非同义:Sequence1:UUUCAUCGUSequence2:UUUCAGCGUCodedAminoAcids:PheHisArg
Gln
KA:nonsynonymoussubstitution(非同义置换)KS:synonymoussubstitution(同义置换)>1 Positiveselection(正选择)KA/KS =1 Neutralevolution(中性进化) <1 Negativeselection(负选择)适应性/选择性检测Ka/Ks检验的两类方法基于MaximumParsimony
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 闽教版信息技术三年级下册《第一单元 计算机文件的有效管理 2 排列图标找文件》教学设计
- 湖北省圆创教育教研中心2025届高三三月联合测评历史试题及答案
- 大班艺术活动寻宝课件
- 海洋产业安全保障工作计划
- 公司培训工作总结
- 业务预算与财务计划对接
- 应对职场变化的灵活计划
- 制定工作与生活平衡的策略计划
- 秋季班级团队建设活动计划
- 学生安全意识的培养与保障计划
- 2023年安徽国控资本有限公司及所属企业社会招聘考试真题及答案
- 专题08 八年级下册易混易错总结-备战2024年中考道德与法治一轮复习知识清单(全国通用)
- 中集集团招聘题库
- 赣政通管理员操作手册
- 2024年ISTQB认证笔试历年真题荟萃含答案
- 2021年以工代赈项目实施工作指南(试行)
- 分布式光伏高处作业专项施工方案
- 成语小故事胸有成竹
- JC474-2008 砂浆、混凝土防水剂
- 一年级综合实践-集中注意力
- 《大学物理学》精美课件(全)
评论
0/150
提交评论