生物信息学第五章核酸序列分析_第1页
生物信息学第五章核酸序列分析_第2页
生物信息学第五章核酸序列分析_第3页
生物信息学第五章核酸序列分析_第4页
生物信息学第五章核酸序列分析_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学第五章核酸序列分析第一页,共八十四页,编辑于2023年,星期日基因结构及功能的预测和分析PromoterEnhancerTerminatorRegulatoryelementGCboxCAATboxTATAboxPribnowbox-35regionExonExonIntronORF5`3`TGGATATTATAGCTAGAGCGGATAStem-loop第二页,共八十四页,编辑于2023年,星期日一、核苷酸频率分析(单链)核苷酸频率:对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列来说,每种核苷酸的出现是均匀分布的,即出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的,如酵母基因组核苷酸出现频率如下左表。单双链的区别:同时计算DNA的正反两条链,根据碱基配对原则,A和T、G和C的出现频率应该是相同的。但实际上A和T、G和C的出现频率不同,但是却非常接近,如酵母单链核苷酸出现频率如下右表。核苷酸频率A0.325T0.325G0.175C0.175核苷酸频率A0.344T0.343G0.157C0.155(单链)核苷酸频率同时计算DNA的正反两条链核苷酸频率第三页,共八十四页,编辑于2023年,星期日例:(单链)核苷酸频率核苷酸频率ATGC第四页,共八十四页,编辑于2023年,星期日核苷酸关联性分析-双联核苷酸频率:不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸核苷酸对频率AA0.1193400681800AC0.0520605330203AG0.0558517890546AT0.0975313373925CA0.0583060967492CC0.0325646199051CG0.0283909584052CT0.0558517890546GA0.0557622179282GC0.0348050746970GG0.0325646199051GT0.0520605330203TA0.0915019798308TC0.0557622179282TG0.0583060967492TT0.1193400681800酵母基因组两联核苷酸频率表设:Pij代表两联核苷酸(i,j)的出现频率;Pi代表核苷酸i的出现频率则:Sij=Pij/(PiPj),

Sij反应了核苷酸i和j的关联关系,若Sij=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。若Sij>1,则两个连续位置上,核苷酸i和j的出现是相关的。如:酵母基因组P(A)=0.3248,P(AA)=0.1193,则S(AA)=0.1193/(0.32482×0.32482)=1.131>1,这表明在两个连续位置上“A”的出现不是独立的,而是相关的。第五页,共八十四页,编辑于2023年,星期日三联核苷酸频率–基因密码子常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。密码子用法:在基因中,同义密码子用法(如出现频率等)并不是完全一致的,不同物种、不同个体的密码子用法存在差异。蛋白三级结构、功能与密码子用法有关。通过聚类分析(clusterAnAlysis),发现具有相似三级结构蛋白的编码基因大致聚在同一类中,对于同一类型的基因,由物种引起的同义密码子使用偏性的差异较小。AAACAAGAATAAAACCACGACTACAAGCAGGAGTAGAATCATGATTATACACCAGCATCAACCCCCGCCTCCACGCCGGCGTCGACTCCTGCTTCTAGACGAGGATGAAGCCGCGGCTGCAGGCGGGGGTGGAGTCGTGGTTGTATACTAGTATTAATCCTCGTCTTCATGCTGGTGTTGATTCTTGTTTTT6第六页,共八十四页,编辑于2023年,星期日密码子的简并(degenerAcy):氨基酸都对应2种以上密码子(M,W除外),最多有6种对应的密码子。氨基酸有20~21种,三联核苷酸有43=64种。氨基酸密码子IATT,ATC,ATALCTT,CTC,CTA,CTG,TTA,TTGVGTT,GTC,GTA,GTGFTTT,TTCMATGCTGT,TGCAGCT,GCC,GCA,GCGGGGT,GGC,GGA,GGGPCCT,CCC,CCA,CCGTACT,ACC,ACA,ACGSTCT,TCC,TCA,TCG,AGT,AGCYTAT,TACWTGGQCAA,CAGNAAT,AACHCAT,CACEGAA,GAGDGAT,GACKAAA,AAGRCGT,CGC,CGA,CGG,AGA,AGG*TAA,TAG,TGA20种氨基酸的密码子表二、密码子偏好性分析密码子使用偏好(CodonusAgebiAs):不同生物常常偏好使用编码同一个氨基酸的多个密码子中的一个;偏好的产生是一个分子进化的争论热点,一般认为密码子偏好反映了变异偏好和自然选择的平衡,在生长快的微生物中,如大肠杆菌和酵母,偏好反映了该物种tRNA的组成;偏好的密码子往往翻译更快更精确,研究tRNA进化较少。第七页,共八十四页,编辑于2023年,星期日异常起始密码子GUGUUGAUAAcinetobactercalcoaceticus,乙酸钙不动杆菌Alcaligeneseutrophus,真养产碱杆菌Bacillusamyloliquefaciens,解淀粉芽孢杆菌Bacillusbrevis,短芽孢杆菌Agrobacteriumrhizogenes,发根土壤杆菌Bacilluscereus,蜡样芽孢杆菌Clostridiumacetobutylicum,丙酮丁醇梭菌Escherichiacoli,大肠埃希氏菌Strephylococcusaureus,金黄色葡萄球菌Escherichiacoli,大肠埃希氏菌第八页,共八十四页,编辑于2023年,星期日Sequence=“ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATCCCGTCAGGCCCCCTCAAAGCCGAGATCGCGCAGAAACTTGAAGATGTCTTTGCAGGGAAGAACACCGATCTCGAGGC”Translation(StandardGeneticCode)=“MSLLTEVETYVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”Translation(PlantMitochondrialCode)=“MSLLTEVETYVLSIIPSGPLKTEIAQKLEDVFAGKNTDLE”Translation(VertebrateMitochondrialCode)=“MSLLTEVETTVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”例第九页,共八十四页,编辑于2023年,星期日密码子使用偏好性分析工具(在线):CodonUsageDatabaseCodonUsageAnalyzerCodonW第十页,共八十四页,编辑于2023年,星期日密码子分析数据库:CodonUsageDatabasehttp://www.kazusa.or.jp/codon/查询物种名称第十一页,共八十四页,编辑于2023年,星期日CodonUsageDatabase查询结果第十二页,共八十四页,编辑于2023年,星期日CodonUsageAnalyzer/codon/cgi-bin/codon.cgi第十三页,共八十四页,编辑于2023年,星期日GC含量(GCcontent):是基因组的基本参数,即DNA分子或基因组中GC碱基对所占的比例,通常用百分比表示,如15~75%。物种的GC含量存在两头少中间多的正态分布情况。GC含量可用分光计测量,DNA的解链温度(解链时260nm光的吸收率猛增),因GC间为3个氢键,因此,(超)嗜热菌GC含量高(GC-rich)。GC含量被用于分类学,也对PCR重要,一般基因内GC含量高于基因组,外显子高于内含子(原因不明)。三、GC含量分析第十四页,共八十四页,编辑于2023年,星期日ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTATotalbases=437A=98[A]=22.43%C=141[C]=32.27%T=66[T]=15.10%G=132[G]=30.21%A+T=164[A+T]=37.53%C+G=273[C+G]=62.47%第十五页,共八十四页,编辑于2023年,星期日第十六页,共八十四页,编辑于2023年,星期日ORF(Openreadframe):开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。例如,对于序列ATTCGATCGCAA,一种可能的密码子阅读顺序为ATT、CGA、TCG、CAA,另外两种可能的密码子阅读顺序分别为A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。这三种顺序被称为开放阅读框。实现方法:①扫描给定的DNA序列,在3个不同的阅读框中寻找较长的ORF。②当遇到终止密码子后,回头寻找起始密码子,以确定完整的编码区域。四、开放阅读框分析第十七页,共八十四页,编辑于2023年,星期日基因开放阅读框/基因结构分析识别工具Getorfhttp://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlEMBOSS通用Plotorfhttp://bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlEMBOSS通用ORFFinder/gorf/gorf.htmlNCBI通用BestORF/all.htmSoftberry真核GENSCAN/GENSCAN.htmlMIT脊椎、拟南芥、玉米GeneFinder/tools/genefinder/Zhanglab人、小鼠、拟南芥、酵母FGENESH/all.htmSoftberry真核GeneMark/GeneMark/GIT原核GLIMMER/genomes/MICROBES/glimmer_3.cgi/software/glimmer

Maryland原核FgeneSB/all.htmSoftberry细菌FgeneSV/all.htmSoftberry病毒Generation/generation/ORNL原核FGENESH+/all.htmSoftberry原核GenomeScan

/genomescan.html

MIT脊椎、拟南芥、玉米GeneWise

http://www.ebi.ac.uk/Wise2/EBI人、蠕虫GRAIL/grailexp/ORNL人、小鼠、拟南芥、果蝇第十八页,共八十四页,编辑于2023年,星期日例:胰岛素由A、B两个肽链组成。人胰岛素(InsulinHuman)A链有11种21个氨基酸,B链有15种30个氨基酸,共16种51个氨基酸组成。

Accession:NM_000207“AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCTCCTGCACCGAGAGAGATGGAATAAAGCCCTTGAACCAGCAAAA”第十九页,共八十四页,编辑于2023年,星期日第二十页,共八十四页,编辑于2023年,星期日ORFFinder

是一个图形的序列分析工具,分析并找到序列的ORF区(开放读码框架),这个工具使用标准的或其它特殊的遗传密码子列出所有可能的ORF区,并推出氨基酸序列。第二十一页,共八十四页,编辑于2023年,星期日点击结果出现六个图形,这是根据六种不同的编码方式得到的(包括正反链)。右边出现各个预测的ORF区的长度与编码方式。点其中一个就可以看该区域的序列,并且有推导的氨基酸序列。一般来讲,长的ORF区基本上都是正确的,有可能编码基因。第二十二页,共八十四页,编辑于2023年,星期日五、启动子分析原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC区CAAT区mRNA+1-40-25-110增强子上游启动子元件,UPE核心启动子元件转录起始位点第二十三页,共八十四页,编辑于2023年,星期日启动子预测:1、CpGProD(CpG

Island

Promoter

Detection)

预测哺乳动物

CpG

岛相关启动子序列的程序。http://pbil.univlyonl.fr/software/cpgprod_query.html

2、Dragon

Promoter

Finder

启动子预测工具,适用于预测脊椎动物启动子,支持多种序列格式。

.sg/promoter/promoter1_5/DPF.hm3、McPromoter,麻省理工大学开发的真核生物

(

主要是脊椎动物

/

果蝇

)DNA

转录起始位点预测工具,其目标是尽量精确地预测

RNA

转录酶

II

的启示转录位点,需要提供一个

Email

来接收预测结果,可以特异的选择脊椎动物或是果蝇。

/generegulation/McPromoter/4、

PromoterScan,启动子区预测工具,其预测基于比较所提交的序列与真核生物

RNA

聚合酶

II

启动子序列同源性。/molbio/proscan/5、TESS,

Transcription

Element

Search

System

是一款预测启动子上转录因子结合位点的工具,通过所提交的序列与

TRANSFAC,

JASPAR,

IMD,

CBIL-GibbsMat

数据库相比对,获得启动子上可能存在结合位点。/cgi-bin/tess/tess?RQ=SEA-FR-Query

第二十四页,共八十四页,编辑于2023年,星期日推荐:

丹麦技术大学的生物序列分析中心http://www.cbs.dtu.dk/services/Promoter/第二十五页,共八十四页,编辑于2023年,星期日启动子预测是一个复杂的,十分有技术含量的工作,需要大量的推断和演算,还需要用实验去验证。因此对于启动子的预测,一个、两个软件或者算法都是不全面的,需要综合去考虑。另一个很好用的启动子预测网站/seq_tools/promoter.html利用神经网络算法预测真核及原核生物启动子第二十六页,共八十四页,编辑于2023年,星期日例:Humanobeseprotein(ob)geneU43589第二十七页,共八十四页,编辑于2023年,星期日对于分析的结果要结合起始密码子前的非编码区序列进行综合分析,启动子区存在CAAGbox,TATAbox,-10,-35等特征区第二十八页,共八十四页,编辑于2023年,星期日PromoterpredictionpracticalexerciseRegulationofHumanobeseproteingenePracticalexerciseEnriqueBlanco-eblanco@imim.esAbstract:Inthisexercise,thepreviouslyannotatedpromoterregionoftheLeptingene(瘦素,obeseproteingene(肥胖基因))willbeusedtotestdifferentmethodsforpredictingregulatoryelements.Firstofall,amatrixwillbeconstructedfromarealcollectionofsites.Secondly,theTRANSFACdatabasewillbeaccessedtoextractrealmatricesandthen,thepromotersequencewillbescannedsearchingforpromotermotifs.Finally,duetothenumberoffalsepositivesthatwillbeobtained,aphylogeneticapproach(系统发育树)willbesuggested.Bothhumanandmousehomologueswillbealignedtoelucidate(解释)thecoordinatesoftheactualbindingsites.

自学,不做要求第二十九页,共八十四页,编辑于2023年,星期日A.DescriptionofthegeneStep1.Retrieve(检索)theannotationandthesequenceofthegene(EMBLdatabase)

GotoEMBLdatabaseatEBI

mRNAsequence:TypeU43653inNucleotidesequences

Ontop,clickovertheEMBL:HS436531entryHavealookatthedescription:IDs,references,attributes,sequencesSearchtheFeatureofCodingSequence(FTCDS).ClickoverandchecktheORFcorrectness:thebeginningandtheendofthesequencecorrespondrespectivelytotheStartandStopcodons?Accession:U43653/nuccore/1226243?report=fasta第三十页,共八十四页,编辑于2023年,星期日Step2.LearnmoreabouttheLeptingeneUsingagenomebrowserGobacktotheinitialscreenthatcontainedtheresultofyourfirstquery.Ontheleft,youwillfindtheDisplayOptionsbox.SelecttheFastaSeqsviewandpressthebuttonApplyDisplayOptions

OpentheUCSCgenomebrowser

SelectthealignmentprogramBlat(humangenome)PastetheFastasequenceoftheLeptingeneandsubmitthequeryBrowsethefirsthitinthelistofmatches

第三十一页,共八十四页,编辑于2023年,星期日Havealookatthedifferentdisplayingoptions.Werecommendtozoomout10xtheinitialpicturetoexplorethegenomiclandscapearoundthegene.Forinstance,tryto:obtaintheRefSeqgenesequence

checkthepresenceofaCpGislandinthepromoterexaminethemRNAssupportingthegeneannotationevaluatetheconservationbetweenorthologues(同源)RefSeqgenesequenceCpGislandmRNAs第三十二页,共八十四页,编辑于2023年,星期日ParameterControlit第三十三页,共八十四页,编辑于2023年,星期日Task1:Whatdoyouhavetodoifyouwanttoseethecomputationallypredictedtranscriptionfactorbindingsites?

Task2:TrytolocatethesequenceinothergenomesusingBLAT(e.g.mouse)GotoLocusLinkdatabaseatNCBI

TypeU43653inQuery

ClickontheentryLEP(leptin)

Identifymainfieldsintheentry:functionaldescription,NMandNPannotationsevaluatetheconservation第三十四页,共八十四页,编辑于2023年,星期日CLICK第三十五页,共八十四页,编辑于2023年,星期日Step3.PROMOTERinformation:sequenceandexperimentalannotation

Thistrackdescribesthelocationoftranscriptionstartsites(TSS)throughoutthehumangenomealongwithaconfidencemeasureforeachTSSbasedonexperimentalevidence.

第三十六页,共八十四页,编辑于2023年,星期日实际上,我们query的序列(U43653)是mRNA,不是DNA,因为mRNA是已经转录并剪接过的序列,无法从mRNA上预测出启动子区,要预测启动子需要的是DNA(基因组或者染色体序列),前面的演示是希望通过mRNA序列定位到染色体上,从而找到真正的基因组DNA序列,为启动子的预测提供基础。点击进入details页面第三十七页,共八十四页,编辑于2023年,星期日……………………DNAmRNA第三十八页,共八十四页,编辑于2023年,星期日定位启动子区(TSS+TPBS)HumanChromosome7:127880000-127882000SCAN第三十九页,共八十四页,编辑于2023年,星期日第四十页,共八十四页,编辑于2023年,星期日第四十一页,共八十四页,编辑于2023年,星期日>chr7:127880000-127882000TTATTGAGACAGAGTTTCACTCTTGTTGCCCAGGCTGTAGTGCAATGGTCTGATCTTGGCTCACTGCAACCTCCACTTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGATTACAGACACTCACCACCACACCTGGCTAATTTTGTATTTTTAGTAGAGATGAGGTTTCACCATGTTGGCCAGGCTGGTCTCGAAATCCTGACCTCAGGTGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGATTACAGGCTTGAGCTACCACGCCTGGCTGGGTTGGTTCTCAATGGAGTGGTTTGTTTTTGGAGCTGCTCTGCGCAGTGGGGACCAGAATAGGCCTGGGTTCCTAGCCCATTGCTATTCCTTACCAGCTGTGGATTCTAAGGAAAGTCATTTAACCTCGCTGGACCTTAGATTCCTCATCCCTGAAGCCCAAGGGTAAAACAAAACAAAACAAAACAAAACAAACCAACCCATCATGTAAAGCGGGGAACTACAAACGATACAGGTGAAACATGCCTACCACACCACTCACAGGCTATGATGACAAAAACGTGGCTACATCTGGGACCACCCCCCAACCCCCACTTTGTACGTAGGAAATACGGAGTTGAGGATGGAGACCCACAGTATGTCCAGAGTGTCCCCAAAGGCCACAGTGCCCGCCTGGAGCCCTCCAGAGAGCGTGCACTCCCTGGGGTGCCAGCCAGAGACAACTTGCCCTGAGGCTTGGAACTCGATTCTCCGCGTGCCAGAGAAGGGGTGGGACTTCAGAACCCCCAACCCCGCAATCTGGGTCGGGGAGCCTGGCGCACTGCGGGCCGCTCCCTCTAACCCTGGGCTTCCCTGGCGTCCAGGGCCGTCGGGGCCGAGTCCCGATTCGCTCCCACCCCGAAGCCGCGCCAGGACCAACGAGGGCGCAGCCGTATGCCCCAGCCCGCTCCGCGGAGCCCCTCACAGCCACCCCCgCCCCGACCGCGCCCCGCGCGGCTCGAAGCACCTTCCCAAGGGGCTGGTCCTTGCGCCATAGTCGCGCCGGAGCCTCTGGAGGGACATCAAGGATTTCTCGCTCCTACCAGCCACCCCCAAATTTTTGGGAGGTACCCAAGGGTGCGCGCGTGGCTCCTGGCGCGCCGAGGCCCTCCCTCGAGGCCCCGCGAGGTGCACACTGCGGGCCCAGGGCTAGCAGCCGCCCGGCACGTCGCTACCCTGAGGGGCGGGGCGGGAGCTGGCGCTAGAAATGCGCCGGGGCCTGCGGGGCAGTTGCGCAAGTTGTGATCGGGCCGCTATAAGAGGGGCGGGCAGGCATGGAGCCCCGTAgGAATCGCAGCGCCAGCGGTTGCAAGGTAAGGCCCCGGCGCGCTCCTTCCTCCTTCTCTGCTGGTCTTTCTTGGCAGGCCACAGGGCCCCACACAACTCTGGATCCCGGGGAAACTGAGTCAGGAGGGATGCAGGGCGGATGGCTTAGTTCTGGACTATGATAGCTTTGTACCGAGTTCTAGCCAGATAGAAGGTTACCGGGAGCTGGGGAGCGTTGGATTTGCTGCTGGGCTGTGCCGGTGCCCAGAAGGCAGGACCTTGCAGAACCAGCCAGGTCCCTGGGAGACTGTCAGACCCACCAACCTGGTGGCATTCGCAGAGCTGAGATGCATTGGAAATTGCCTTGGGCACATCCCCAAAGATCAGGATGTCCCACCCCAGTCTGAAGGAGATAAAGTTGGGGGTAGGAGAGACGCAGATGCAAGTGATCAGTCTCAGTCCCAGACATTGCCTTGCTCTGCGGGTAGGAATTCAGGATTCATTTTCCAGGGAAGTTCCTGACCTCTGAATGAGAGGGGCTGTGTAAGGCCAATGCCTGGGAGGAAGGCAAGGATGAGTAGAGGTGGGGGGAAACAAGTGTCAGGAAGACTCAAAATCTTCCAGAGAAATTGTGCAGGGTCTTACCAGATCTGTCCTCAAAGCCATGCAAATTGCCTTCTTTGCAATG

>gb|U43589.1|HSU43589:1922-2922Humanobeseprotein(ob)gene,partialpromotersequence

/seq_tools/promoter.html第四十二页,共八十四页,编辑于2023年,星期日>chr7:127880000-127882000TTATTGAGACAGAGTTTCACTCTTGTTGCCCAGGCTGTAGTGCAATGGTCTGATCTTGGCTCACTGCAACCTCCACTTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGATTACAGACACTCACCACCACACCTGGCTAATTTTGTATTTTTAGTAGAGATGAGGTTTCACCATGTTGGCCAGGCTGGTCTCGAAATCCTGACCTCAGGTGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGATTACAGGCTTGAGCTACCACGCCTGGCTGGGTTGGTTCTCAATGGAGTGGTTTGTTTTTGGAGCTGCTCTGCGCAGTGGGGACCAGAATAGGCCTGGGTTCCTAGCCCATTGCTATTCCTTACCAGCTGTGGATTCTAAGGAAAGTCATTTAACCTCGCTGGACCTTAGATTCCTCATCCCTGAAGCCCAAGGGTAAAACAAAACAAAACAAAACAAAACAAACCAACCCATCATGTAAAGCGGGGAACTACAAACGATACAGGTGAAACATGCCTACCACACCACTCACAGGCTATGATGACAAAAACGTGGCTACATCTGGGACCACCCCCCAACCCCCACTTTGTACGTAGGAAATACGGAGTTGAGGATGGAGACCCACAGTATGTCCAGAGTGTCCCCAAAGGCCACAGTGCCCGCCTGGAGCCCTCCAGAGAGCGTGCACTCCCTGGGGTGCCAGCCAGAGACAACTTGCCCTGAGGCTTGGAACTCGATTCTCCGCGTGCCAGAGAAGGGGTGGGACTTCAGAACCCCCAACCCCGCAATCTGGGTCGGGGAGCCTGGCGCACTGCGGGCCGCTCCCTCTAACCCTGGGCTTCCCTGGCGTCCAGGGCCGTCGGGGCCGAGTCCCGATTCGCTCCCACCCCGAAGCCGCGCCAGGACCAACGAGGGCGCAGCCGTATGCCCCAGCCCGCTCCGCGGAGCCCCTCACAGCCACCCCCgCCCCGACCGCGCCCCGCGCGGCTCGAAGCACCTTCCCAAGGGGCTGGTCCTTGCGCCATAGTCGCGCCGGAGCCTCTGGAGGGACATCAAGGATTTCTCGCTCCTACCAGCCACCCCCAAATTTTTGGGAGGTACCCAAGGGTGCGCGCGTGGCTCCTGGCGCGCCGAGGCCCTCCCTCGAGGCCCCGCGAGGTGCACACTGCGGGCCCAGGGCTAGCAGCCGCCCGGCACGTCGCTACCCTGAGGGGCGGGGCGGGAGCTGGCGCTAGAAATGCGCCGGGGCCTGCGGGGCAGTTGCGCAAGTTGTGATCGGGCCGCTATAAGAGGGGCGGGCAGGCATGGAGCCCCGTAgGAATCGCAGCGCCAGCGGTTGCAAGGTAAGGCCCCGGCGCGCTCCTTCCTCCTTCTCTGCTGGTCTTTCTTGGCAGGCCACAGGGCCCCACACAACTCTGGATCCCGGGGAAACTGAGTCAGGAGGGATGCAGGGCGGATGGCTTAGTTCTGGACTATGATAGCTTTGTACCGAGTTCTAGCCAGATAGAAGGTTACCGGGAGCTGGGGAGCGTTGGATTTGCTGCTGGGCTGTGCCGGTGCCCAGAAGGCAGGACCTTGCAGAACCAGCCAGGTCCCTGGGAGACTGTCAGACCCACCAACCTGGTGGCATTCGCAGAGCTGAGATGCATTGGAAATTGCCTTGGGCACATCCCCAAAGATCAGGATGTCCCACCCCAGTCTGAAGGAGATAAAGTTGGGGGTAGGAGAGACGCAGATGCAAGTGATCAGTCTCAGTCCCAGACATTGCCTTGCTCTGCGGGTAGGAATTCAGGATTCATTTTCCAGGGAAGTTCCTGACCTCTGAATGAGAGGGGCTGTGTAAGGCCAATGCCTGGGAGGAAGGCAAGGATGAGTAGAGGTGGGGGGAAACAAGTGTCAGGAAGACTCAAAATCTTCCAGAGAAATTGTGCAGGGTCTTACCAGATCTGTCCTCAAAGCCATGCAAATTGCCTTCTTTGCAATG

第四十三页,共八十四页,编辑于2023年,星期日B.BuildingrepresentationsofbindingsitesStep4.AccessingTransfacdatabaseGotoTRANSFACdatabase

Note:TRANSFACisfreeforusersfromnon-profitorganizationsbutrequiresaregistrationInTRANSFAC6.0:chooseSearchactionSelectthetableofFactor

EnterthefactornameTBP(tatabindingprotein)SetFactorName(FA)assearchingfieldandsubmitthequerySelect(T00794):youwillfindadescriptionofthefactorinhuman(Ontheleft)Findthesefields:(BS)forbindingsites,(MX)formatricesSelectoneofthesitesforinspectionB-E,requirearegistration.第四十四页,共八十四页,编辑于2023年,星期日Step5.BuildingamodelfromasetofactualsitesThisisacollectionofrealTBPsitesextractedfromTRANSFAC.ObservethedifferentcharacteristicsandtheconservationofthecoreOpentheCLUSTALWwebserveratEBIPastethecollectionof23TBPsitesSwitchontheboxes:ALIGNMENT=fastCOLORALIGNMENT=yesOUTPUTFORMAT=alnwo/numbersPresstheRunbuttonOpentheWebLogowebserver

PastetheCLUSTALalignmentintothecorrespondingboxActivateDNA/RNAintheSequencetypeboxSubmitthequery(Createlogo)toobtainarepresentationforthecollectionofTBPsitesasthefollowing.Noticethehighligthedcoreofthebindingsite(TATAAAA)第四十五页,共八十四页,编辑于2023年,星期日Figure2.Graphicalrepresentationofthealignmentof23realTATAbindingsitesStep6.ObtainingtheTRANSFACpositionweightmatricesGotoTRANSFACdatabase

InTRANSFAC6.0:chooseSearchactionSelectthetableofMatrix

EnterthefactornameTATA

SetFactorName(FA)assearchingfieldandsubmitthequeryTherearetwoentries:M00252andM00216SelectM00252matrixRepeattheproceduretorecovertheSP1(M00008)andc/EBP(M00159)matricesConservethewindowscontainingthethreematricesAlternativesolution:

PROMOisadatabaseofpre-computedmatricesthatallowsyoutoselectthespeciesorgroupofspeciesfromwhichanewweightmatrixwillbeconstructedforagivenfactor,usingTRANSFACbindingsites.第四十六页,共八十四页,编辑于2023年,星期日C.Computationalpredictionofregulatoryelements(bindingsites)Step7.SearchingfortheannotatedregulatoryelementswithcurrentmatricesOpenRSAtoolswebserver

Ontheleftframe,clickonPatternmatching-patser(matrices)

PastetheHumanobeseproteingenepromoter(1000bps)SelecttransfacasMatrixFormatandpastetheTransfacTATAmatrix(includingmatrixheader)SetOrigintostart(ofthesequence)andpressGO

Checktheresults:oneofthesetwoputativeTATAsitesistherealone(usetheannotations)Toobtainagraphicalrepresentationofpredictions,pressfeaturemap

SetasDisplaylimitsfrom0to1000andpressGO

RepeattheprocedureusingtheSP1andcEBPmatrices,tryingtofindtherealsitesintothepredictions.Noticetheamountoffalsepositivespredictedonlyusingonematrix第四十七页,共八十四页,编辑于2023年,星期日Step8.AbinitiopromoterpredictionGotoTRANSFACapplications

ChoosetheprogramMatchtoscanpromotersequencessearchingforsitesusingthecompletelibraryofTRANSFACmatricesPastetheHumanobeseproteingenepromoterinthetextareaSetcut-offs:0.75(matrixsimilarity)and0.85(coresimilarity)

SubmitthequeryFindtherealannotations(e.g.TBPandCEBP)inthistextoutput.NoticethehugenumberoffalsepositivepredictionsFigure3.GraphicalrepresentationofpredictedbindingsitesusingMATCH+TRANSFACinthepromotersequenceU43589(allofthepredictionsarenotshown)第四十八页,共八十四页,编辑于2023年,星期日D.Comparativepromoterprediction(human/mouse)Step9.Human-MousecomparisonsWehaveobtainedthehomologousgenepromoter(FASTA,1000bpsupstreamtheTSS)inmouse[Entry:U36238]

Now,thesearetheannotations(promoterelements)inbothsequences(humanandmouse)Thisisagraphicalcomparisonofbothpromoterannotations.ObservethephylogeneticfootprintingorconservationintheregulatoryelementsStep10.Locatingshortconservedregulatoryelements

ConnecttoBlast2Sequenceswebserver

Pastebothsequences[humanpromoterandmousepromoter]inthecorrespondingtextboxesTodetectshortconservedstretchesofDNA,setthefollowingparameters:Mismatch=-5Gapextension=0NoticethatsomeshortverywellconservedHSPs(blastfragments)attheendofthesequence.Checktheannotationstoverifywhethertheycorrespondtorealbindingsitesornot第四十九页,共八十四页,编辑于2023年,星期日Now,abinitiopromoterpredictionserchescanbeperformedagainbutonlyonthoseinterestingregions,usingRSAtoolsorTRANSFACWhenmorethan2genomesareavailable,amultiplelocalalignmentcanbeperformedwithprogramssuchasMEMEorAlignaceFigure5.GraphicalcomparisonofblastnalignmentofhumanpromoterU43589anditshomologueU36238inmouse第五十页,共八十四页,编辑于2023年,星期日E.ResultsHereyoucanfindthesolutionstoeveryexercise:Geneannotation:EMBLrecordGeneannotation:EMBLrecord(plaintext)FASTAsequenceoftheentryU43653Geneannotation:LocuslinkPromoterannotation:PubMedrecordPromoterannotation:NCBIentryU43589TBPsiteMultiplealignmentofTBPsTBPsequencelogoTATAboxmatrixSP1matrixcEBPmatrixPutativeTATAboxes(text)PutativeSP1sites(text)PutativecEBPsites(text)PutativeTATAboxes(plot)PutativeSP1sites(plot)PutativecEBPsites(plot)Match-TRANSFACpredictionPromoterannotation:NCBIentryU36238(mouse)Blast2seqalignment第五十一页,共八十四页,编辑于2023年,星期日六、CpG岛分析CpG岛(CpGisland):CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛。CpG岛主要位于基因启动子(promotor)和第一外显子区域,约有60%以上基因的启动子含有CpG岛。许多基因的启动子(promotor)或“起始”区域周围都含有CpG岛,CpG岛的C容易被甲基化形成T,从而经常被抑制。启动子区的高甲基化导致抑癌基因失活是人类肿瘤所具有的共同特征之一,而且这种高甲基化是导致抑癌基因失活的又一个机制。第五十二页,共八十四页,编辑于2023年,星期日CpG_MI:IdentifyingFunctionalCpGIslandusingMutualInformation8/cpgmi/TATAATATAATATATGACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATATATATATTATATATTTTTATACATTATATATATAAACTATATAACAATATAACATATTATGTGTATAATATATATTACATATAGTATAAAATATATTATATTATATTATATTATATTATATTATATTATATTAGACTGTATTACTAACAAAATTATAAACAGAAACCCCAGCAAAAATATCCTATGTATATTTGAAATTTTAGGTCAAAAATAAAATAATTTAATGTGCAGCAATTAA第五十三页,共八十四页,编辑于2023年,星期日CpGIsland分析CpGIsland/cpgislands2/cpg.aspxWebCpGfinder/berry.phtml?topic=cpgfinder&group=programs&subgroup=promoterWebCpGPlot/CpGReport/Isochorehttp://www.ebi.ac.uk/emboss/cpgplot/index.htmlWeb生物软件网/国产软件第五十四页,共八十四页,编辑于2023年,星期日七、外显子和内含子分析外显子:结构基因中编码蛋白质的序列称为外显子。内含子:结构基因中不编码蛋白质的序列称为内含子。外显子和内含子存在于真核生物中,原核生物多以间隔序列出现。外显子和内含子的角色可以相互转化。Exon1Exon3IIIIExon25`UTR3`UTRSplicingExon1Exon3Exon2Exon1Exon3Exon2Exon1Exon2Exon3Exon2Exon1Exon3第五十五页,共八十四页,编辑于2023年,星期日原理:外显子和内含子的预测是基于RNA的剪切原理进行的。RNAsplice的保守序列是“GU-----AG”,即内含子的5`端是GU,3`端是AG。当然其附近的序列也是有规律的,但没那么保守。第五十六页,共八十四页,编辑于2023年,星期日方法:1、Augustus:功能强大(http://bioinf.uni-greifswald.de/augustus/),需要Linux操作系统,并且要下载安装。2、SplicePort:功能较全面(/)3、GeneSplicer:针对Plasmodiumfalciparum、A.thaliana、human、Drosophila、andrice4、NetGene2只针对human、C.elegans、A.thaliana5、MaxEntScan:只针对human第五十七页,共八十四页,编辑于2023年,星期日第五十八页,共八十四页,编辑于2023年,星期日剪接连接点(splicingjunctions)是指在切断和重接位点处的两旁的顺序。在内含子左侧的连接点称为供体(donor)。在内含子右侧的称为受体(acceptor)。第五十九页,共八十四页,编辑于2023年,星期日Genescan工具/GENSCAN.html结果返回到邮箱(可选)提交序列提交序列文件运行GENSCAN选择物种显示氨基酸或CDS序列序列名称(可选)是否显示非最优外显子第六十页,共八十四页,编辑于2023年,星期日基因、外显子及类型正链、负链预测单元起始、终止及长度相位编码区打分值可信概率、得分值GENSCAN输出结果:文本第六十一页,共八十四页,编辑于2023年,星期日GENSCAN输出结果:图形exon1exon5exon4exon3exon2第六十二页,共八十四页,编辑于2023年,星期日提交待分析序列提交同源蛋白质序列运行GenomeScanGenomescan工具/genomescan.html第六十三页,共八十四页,编辑于2023年,星期日GenomeScan输出结果:文本预测外显子位置、可信度等信息同源比对信息预测结果氨基酸序列第六十四页,共八十四页,编辑于2023年,星期日GenomeScan输出结果:图形第六十五页,共八十四页,编辑于2023年,星期日外显子、内含子剪切位点识别:NetGene2http://www.cbs.dtu.dk/services/NetGene2/提交序列选择物种第六十六页,共八十四页,编辑于2023年,星期日NetGene2输出结果供体位点受体位点可信度第六十七页,共八十四页,编辑于2023年,星期日mRNA剪切位点识别:SpideyNCBI开发的在线预测程序用于mRNA序列同基因组序列比对分析第六十八页,共八十四页,编辑于2023年,星期日序列在线提交形式:界面中有两个窗口:上方窗口用于输入基因组序列(直接粘贴序列或用GenbankID/AC号)下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用GenbankID/AC号)可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析Spidey序列提交页面输入基因组序列或序列数据库号输入mRNA.txt文档中的6条序列判断用于分析的序列间的差异,并调整比对参数不受默认内含子长度限制,默认长度:内部内含子为35kb,末端内含子为100kb比对阈值选择物种输出格式第六十九页,共八十四页,编辑于2023年,星期日Spidey输出结果外显子对应于基因组上的起始/结束位置外显子对应于mRNA/cDNA上的起始/结束位置外显子长度一致性百分比错配和gap序列联配结果外显子序号第一条蓝色序列为基因组序列,橘黄色为外显子供体、受体位点第七十页,共八十四页,编辑于2023年,星期日分析mRNA/cDNA的外显子组成GeneSeqer/cgi-bin/gs.cgiWeb/LinuxSpidey/spideyWebPROT_MAP/berry.phtml?topic=prot_map&group=programs&subgroup=xmapWebSim4http://gamay.univ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论