




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、肇生物信息期末总结1.2.箍生物信息学Bioinformatics定义:第一章肄生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来说明和理解大量数据所包含的生物学意义.蚂或:膈生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和治理的学科.NSFC莆2.科研机构及网络资源中央:蒂NCBI:美国国立卫生研究院NIH下属国立生物技术信息中央;筮EMBnet:欧洲分子生物学网络;胭EMBL-EBI:欧洲分子
2、生物学实验室下属欧洲生物信息学研究所;蟆ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;ExpertProteinAnalysisSystem充BioinformaticsLinksDirectory;膀PDB(ProteinDataBank);芾UniProt数据库膈3.生物信息学的主要应用:蚂1.生物信息学数据库;2.序列分析;3.比拟基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性.荒4.什么是数据库:勘1、定义:数据库是存储与治理数据的计算机文档、结构化记录形式的数据集合.芍记录record、字段field、值value第2、生
3、物信息数据库应满足5个方面的主要需求:辐1时间性;2注释;3支撑数据;4数据质量;5集成性.藏3、生物学数据库的类型:一级数据库和二级数据库.蚁国际着名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;肆蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等.腿4、一级数据库与二级数据库的区别:薇1一级数据库:胭包括:a.基因组数据库-来自基因组作图;蒲b.核酸和蛋白质一级结构序列数据库;覆c生物大分子主要是蛋白质的三维空间结构数据库,来自X-衍射和核磁共振结构测定;蜗2二级数据库:薇是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的根
4、底上针对特定的应用目标而建立的.芍一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机效劳器、大容量的磁盘空间和专门的数据库治理系统支撑.蕨二次数据库的容量那么小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家.蟆5、一个数据库记录entry一般由两局部组成:妨1原始序列数据sequencedata螃2描述这些数据生物学信息的注释annotation:注释中包含的信息与相应的筮序列数据同样重要和有应用价值.蟆6、数据的完整性和注释工作量:1序列数据广,
5、序列注释不够完整;*2库数据面窄,序列注释全面.菜7、数据库的动态更新:1不断增加;2不断修正.聿5、几个大型数据库简介:膀NCBI、EBI、SIB共点:拥有庞大的一级数樨库、大量工具软件和广泛的外联.荽1、NCBI:裂NCBI是指美国国家生物技术信息中央NationalCenterforBiotechnologyInformation,NCBI,成立于1988年,其主要工作是开发以GenBank为代表的数据库,进行计算生物学研究,开发用于分析基因组数据的软件工具,发布生物医学信息.膈1Entrez集成化的数据库方Entrez是NCBI着名的用于提取序列信息的工具,它将科学文献、DNA和蛋白质
6、序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统.类似于EBI的SRS见下文,是一个查询、提取和显示系统.Theoriginalversion原始版本1991ofEntrezhadjust3nodsw2可查Protein、PubMed生物医学文献数据库、Nucleotide、GenomeGene.Pathway等相关信息.蛔2、EMBL-EBI()袂EMBLNucleotideSequenceDataLibrary(nowknownasEMBL-Bank)为世界上第一个核酸序列数据库(1980).蔗欧洲分子生物学实验室下属欧洲生物信息学研究所(Europ
7、eanBioinformaticsInstitute,EBI,1992,英国)EMBL-EBI核酸数据库提供了序列搜索的效劳.通过它的序列提取系统一SRS6(搜索引擎),我们可以用十几种不同的方法(如用关键字)搜索我们想要的序列.EBI还资助了Ensembl工程,Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站.欧洲分子生物学实验室EMBL(TheEuropeanMolecularBiologyLaboratory).ServicesUniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面.芈3、SIB()肃瑞士生物信息研究所(Swi
8、ssInstitueofBioinformatics,SIB,30March1998?).用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统:SWISS-PROT,ExPASy(ExpertProteinAnalysisSystem瑞士日内瓦大学专家蛋白质分析系统()0蚁6、核酸序列数据库:蔗1、国际上权威的核酸序列数据库:莅(1)欧洲分子生物学实验室的EMBL;蝴(2)美国生物技术信息中央的GenBank;蔓(3)日本遗传研究所的DDBJ,();蔓这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段.三个数据库中
9、的数据根本一致,仅在数据格式上有所差异,对于特定的查询,三个数据库的响应结果一样.嵋2、INSDC国际核酸序列数据库协会:节1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会(InternationalNucleotideSequenceDatabaseCollaboratioriNSDC),三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本.()蒂7、蛋白质序列数据库:薄1)PIR(ProteinInformationResource;()滕2)SWISS-PROT;()肄3)TrEMBL;()是与SWISS-P
10、ROT相关的一个数据库.包含从EMBL核酸数据库中根据编码序列(CDS)译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中;其4)NCBI美国国家生物技术信息中央(NationalCenterforBiotechnologyInformation,NCBI);蚀5)UniProt;通用蛋白质数据库()包括:(Swiss-Prot、TrEMBL、PIR)用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据.薇8、生物大分子结构数据库:蒂1)PDB(ProteinDataBank);()辑2)MMDB(MolecularModelingD
11、atabase);()蜜9、其它生物分子数据库:菱1)单碱基多态性数据库dbSNP;2)基因组数据库(GDB);3)人类基因组数据库Ensembl;4)表达序列标记数据库dbEST;5)序列标记位点数据库dbSTS;6)面向基因聚类数据库UniGene;7)蛋白质结构分类数据库SCOP;8)蛋白质二级结构数据库DSSP;9)蛋白质同源序列比对数据库HSSP;10)OMIM(OnlineMendelianInheritanceinMan),是关于人类基因和遗传疾病的分类数据库.«»»»NucleicAcidResearch«««
12、;英附:1、NCBI和EBI使用的搜索引擎分别是什么?蚂答:NCBI使用的是Entrez,EBI使用的是SRS.赣2、FASTA格式有哪些局部组成,以什么字符开始?英答:包含ginumber,Databaseidentifiers,Accessionnumber,Locusname等局部,以字符开始.薄3、NCBI的WEB和离线序列提交软件是什么?腿答:WEB提交工具:Bankit;离线提交:Sequin芨4、系统生物学:肆答:确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科.蒂10、序列数据的文件格式:第二章腿格式主要有三种:蝇DNA/RNA/氨基酸代码的标识B
13、、Z;薄GenBank数据格式;膂FASTA数据格式.袁一、GBFFGenBankflatfileGenBank平面文件格式:膀GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,那么它们是怎样交换数据的呢?这里引入GBFFGenBankflatfile即GenBank平面文件格式GBFF是GenBank数据库的根本信息单位,是最为广泛使用的生物信息学序列格式之一.GBFF文件分为三局部:a.头部包含整个记录的信息描述符;b.第.局部包含了注释这一记录的特性;c.第三局部是核甘酸序列本身.黄注:所有序列数据库记录都在最后一行以“/结尾.12瞧GBFF:LOCUS行羁(LOCUS,
14、SCU49845,5028bp,DNAlinear,PLN,21-JUN-1999)芾所有GBFF都起始于LOCUS行:踊第一项:是LOCUS名称(SCU49845):现在唯一的作用是它在数据库中是独一无二的,已不再具有任何实际意义.大多数情况下,它仅使用检索号(accesessionnumber以满足对LOCUS名称的要求;肄第二项是序列长度(5028bp):规定单条数据库记录的长度不能超过350kb.除历史原因外,GenBank已经很少接受长度低于50bp的序列了;量第三项说明分子类型(DNA):其序列必须是一种单一的分子类型;研第四项是GenBank分类码(PLN):由3个字母组成.现在
15、其作用仅限于在下载数据库时对数据库作简单的分类.菜最后一项为哪一项其最后修订日期(21-JUN-1999):有时也仅表示数据首次公开日期.3)4)螂GBFF:DEFINITION行(definition)»(DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecds.)肇LOCUS行的下一行为DEFINITION行:主要对GenBank记录中所含的生物学意义做出总结.它的说明内容包括了来源物种、基因/蛋白质名称.假设序列是非编码区,那么包
16、含对序列功能的简单描述;假设是一段编码区,那么标明该序列是部分序歹U(partialcds)还是全序歹!J(completecds).5)6)腿GBFF:ACCESSION行(accession检索号行蓬(ACCESSIONU49845)范检索号(accession是序列记录的惟一指针.通常由1个字母加5个数字(U12345)或由2个字母加6个数字(AF123456)组成.它在数据库中是惟一而且不变的.有时ACCESSION行中可能会出现多个检索号,可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录.我们称第一个检索号为主检索号,其余的统称为二级检索号.7)8)
17、 >GBFF:VERSION行(version)版本号行蛔(VERSIONU49845.1GI:1293613)薄VERSION行是版本号,格式为:检索号.版本号.版本号用于识别数据库中一条单一的特定核甘酸序列.在数据库中,如某条序列数据发生了变化,即使是单碱基的改变它的版本号也将增加,而其检索号保持不变.筮版本号系统与其后的GI(geninfoidentifier)号系统是平行运行的.即当一条序列改变后,它将被赋予一个新的GI号,其版本号也将增加.蛋白质的译发生任何变换,核酸序列都将被赋予一个新的GI号.蜗5)GBFF:KEYWORDS行(keywords)关键词行勘(KEYWORDS
18、.)范关键词行是用来描述序列的.如果该行没有任何内容,那么就只包含一个.由于没有对照词汇表,故NCBI/GenBank拒绝接受关键词,它只存在于旧的记录中.蔗6)GBFF:OURCE行(source来源行肇(SOURCESaccharomycescerevisiae(baker'syeast)ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.嵋对来源行(S
19、OURCE)没做特殊的规定,它通常包含序列来源生物的简称,有时也包含分子类型.在下面以NCBI的分类数据库为依据,指明物种的正式科学名称.建7)GBFF:REFERENCE行reference参考文献行京(REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,PE.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURN
20、ALYeast10(11),1503-1509(1994)PUBMED7871890曹参考文献行将与该数据有关的参考文献均收录在内.将最先发表的文献列于第一位.如果序列数据没有被相关文献报道,该行将出现“unpublished或“inpresso最后将有一个可能的PUBMED指针.藏8)GBFF:FEATURES行(features)特性表行鼐(FEATURESLocation/Qualifiers薄CDS<1.206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/dbxref=
21、"GI:1293614/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAgeneAEVLLRVDNIIRARPRTANRQHM"687.3158/gene="AXL2"艘特性表features腼述基因和基因的产物以及与序列相关的生物学特性.特性表提供一个参考词汇表以对合法的特性进行注释.这些特性包括:1、该序列是否执行一个生物学功能;2、它是否与一个生物学功能的表达相关;3、它是否与其它分子相互作用;4、它是否影响一条序列的复制;5、它是否与其他序列的重组相关;6、它是否是一条已
22、识别的重复序列;7、它是否有二级或三级结构;8、它是否存在变异或者它是否被修订过.筮特性表格式是按表单的方式设计的,分三个主要局部:材1特性表关键词feature,简要说明功能组;蟆2特性位置location,指明在特性表中的什么地方可以找到相关特性,在此可以包含操作符operator和功能性描述符descriptor-以指明序列需经过怎样的处理才能得到相应的特性;祎3限定词qualfier,相关特性的辅助信息,限定词组使用一组标准化的对照词汇表以利于计算机从中提取信息.蔻这段序列可以解读为:该编码序列CDS起始于第1碱基,终止于第206碱基,它的产物是TCP1-beta,基因名为“AXL2.
23、辑9GBFF:ORIGINorigin膈ORIGIN充1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg膈61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct辑修4981tgccatgactcagattctaattttaagctattcaatttctctttgatc肆在GBFF文件的最后,以类似于FASTA格式的方式给出了所记录的序列.辐二、FASTA数据格式FASTAformat:聿Accessionnumbersarelabelsforsequen
24、ces检索号辑11、RefSeq资料库:NCBIReferenceSequenceDatabas参考序歹!J数据库蔻RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库,它的序列格式和GenBank几乎完全相同,但由于是完全不同的独立资料库,为与GenBank区别,RefSeq的AccessionNumber检索号格式和GenBank的不同.该数据库所收集的参考序列一直在不断地被修改中,尽管如此,NCBIRefSeq仍是目前最可信赖的序列数据库.箍GenBank中一个基因的索引号可能有上百个,但对应一个基因的RefSeq只有一个.腿NCBI参考序
25、列数据库RefSeq旨在提供一个全面的、集成的、冗余,好的注释组序列,包括基因组DNA、转录和蛋白质.RefSeq是医学、功能和多样性研究的根底;它们提供一个稳定的参考基因组注释、基因识别和表征,突变和多态性分析特别是RefSeqGene记录,表达研究和比拟分析.肇e.g.数据库检索实例:滕搜索Genbankno.FJ798090,获得序列相关信息1.2 .蝴进入NCBI网站,选择nucleotide:FJ798090搜索,得到相关信息;3 .4 .假设从CDS行可看到有关Aa的信息,从ORIDIN行可看到DNA相关信息;5 .6 .曹在原网页上选择右边相关信息选择框的PubMed,查看关联文
26、章;7 .8 .袈主页进入DNA&RNA,选择tools,点第二个BatchEntrez,批量下载序列;9 .10.蒲提交结果,显示参数与序列下载Send选项、选File、然后选FASTA格式,下载序列,提交序列.箴12、提交序列:衿1、提交方式主要有三种:1、Bankit逐条提交、需要注册;2、Sequin10000条以下;3、Tbl2asn超过1万条、命令行.莆2、Bankit提交:先注册,后点NewSubmission创立一个新提交,SequencingTechnology测序技术,nucleotide核酸,Organism生物体,SubmissionCategory提交类别,S
27、ourceModifiers源存放器修改,Primers引物,Features特性,ReviewandCorrect检查和纠正,3处.前3、SequinDNA分析软件:ADNASequenceSubmissionandUpdateToOl唐序列提交:研究产生的新序列,需要递交到公共数据库保存;需要撰写论文发表新序列时,需要数据库接受号.方4、WEB在线提交工具:1、NCBI的Bankit;2、EBI的WEBIN;3、DDBJ的SAKURA;肇5、离线提交:NCBI的Sequin.莅6、提交比拟:Bankit提交:使用简单,每个步骤有详细说明.但一次只能提交一个序列,长度不能太长;Sequin:
28、安装在用户自己的计算机上,可同时递交假设干序列和较长序列,而且整合了许多有用的序列注释工具.唐13、引物设计及测序结果分析:第三章荽1、引物设计流程:薄1序列查找与下载GenBank;膈2序列同源性比拟Blast/alignment;覆3引物设计与筛选primer3/其他;w4引物加工与修饰酶切、保护、标签、启动子等;芾5引物评价分析Oligo6;袂6引物二次筛选blast;蠢7引物最终评估band;芈2、引物设计原那么:蛔根本原那么:1引物与模板的序列要紧密互补;2引物与引物之间防止形成稳定的二聚体或发夹结构;3引物不能在非靶点引发DNA聚合反响.箍注意点:1、引物长度在15-30bp之间;
29、肃2、GC含量为40-60%之间;蚕3、引物的特异性3'端不能有连续的GGG或CCC;藏4、M匕G的绝对值不超过9,双链形成所需自由能;妨5、密码子的兼并:3'不要位于密码子的第3位.膂3、引物设计软件:1在线工具Primer3、Primer-Blast;聿2)本地软件PrimerPremier5;袅3引物评估软件Oligo6蒙e.g.在线设计引物:膂在Primer3界面上将需要设计的序列粘贴复制进入大方框,确定根本参数和结果参数后,点击pick键后出现output页面,将所需的序列即一定要PCR出的序列用中括号括上,再复制进大方框.这两者的差异是第一个是随机的引物,而第二个选
30、出的引物必然包含你所需的那一段.腿KEYS(inorderofprecedence优选弓I物:(*target,>>>>>>leftprimer,薇<<<<<<rightprimer)节4、Oligo7手工设计引物:节上游ATGGGAAAAGACTATTACAAAATCit下游TCAATTCGGCAGCGTATCGTAGAG索选择引物长度一选定上下游引物一3ZG绝对值不能超过9一DuplexFormation二聚体分析、Hairpinformation发火分析G不能超过4.5一成分和Tm一错误引发位点分析:一般在100以下
31、,假设正确引发效率到达400,可承受超过100多点一PCR最终分析评价一引物二次筛选上下游引物在ncbi中进行blast分析搜索primerncbi并输入设计的引物,选择nr数据库引物最终评估大小、特异性、效率-保护碱基与酶切位点BamHI,NotI.芍5、测序结果分析:一、Sanger法测序;二、测序图查看;三、序列拼接.前Sanger法测序:流程:1.PCR扩增;2.产物纯化;3.测序反响;4.电泳别离;量DNA测序的实验方法:末端终止法;蟆测序图查看软件:Chromas、Seqman;唐不好的结果:杂峰、套峰.we.g.序列拼接实例:嵋1.SeqMan软件启动界面;2.原始测序文件导入软
32、件;3.Assemble装配;4.StrategyofContig重叠群策略Contig-Strategyview和Contig-Alignmentview-去除矛盾碱基和缺口手动删除、修改可疑碱基-导出拼接序列.蚀14、核酸序列分析:第四章芈常规分析、比对分析、基因结构识别赣1、常规分析:辐序列的检索、序列组分分析、序列变换、限制性酶切分析前1、核酸序列检索:Entrez、SRS赣2、核酸序列组分分析:Bioedit-分子量;DNAMAN碱基组成;EditSec碱基分布12肇EditSeq碱基组成:GoodiesDNAStatistic;34蒂Bioedit碱基组成Sequence-Nucl
33、eicAcidNucleotidecomposition;Bioedit:一种对基因序列进行分析加工或序列拼接的软件.蛰3、序列变换:反向互补序列EditSeq-GoodiesReversecomplementt聿反向序歹UEditSeqGoodies-ReverseSequence腿4、限制性酶切分析:BioEdit-SequenceNucleicAcid-RestrictMap蝴在线:NEBcutter、WebCutter、Rebase蒂2、比对分析:蝇意义:推测基因和蛋白质的进化演变规律;推测基因和蛋白质的结构和功能;胭根本假设:序列的保守性-功能的保守性;糖工具:Blast和Clust
34、alX;12量BLAST比对BasicLocalAlignmentSearchToo根本局部比对搜索工具薇BLAST程序的中央思想是将序列切割成一段一段来比拟.这两段序列长度为W分别来自提交序列,与数据库,比对分值T芾主要分三步进行:第一步:由查询序列生成的长度固定W=3的字段编译列表Score>T;第二步:在数据库中扫描获得与编译列表中的字段匹配的序列记录,作为后续延伸的种子seect第三步:对于每一对选择出来的种子,将其向两边延伸,使其在尽可能长的距离得到尽可能多的分数.薄比对结果的判读:比对结果的显着性以E值Expectvalue来衡量,E值趋向于0时,说明比对结果越显着.E值的意
35、义就是概率;蚁比对得分bitscore:说明序列比对的得分,数值越高,两序列越相似.薄【作业:以纤维素酶基因序列为靶标,进行核酸组分分析,NCBI中比对你的序列,至少使用blastn,blastx并下载不少于十个比对出来的序列.】勘回头来看NCBI参数选择:blast出blastn蚂LimitbyEntrezQuery:任何NCBIBLAST搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定;希Maxtargetsequences比对之后显示的最大的比对序列的数目;箴期望expect期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性.这个数值
36、表示你仅仅由于随机性造成获得这一联配结果的可能次数.对于blastn、blastblastxt和blastn期望值的默认设置是10.在这个E值下,随机出现得分等于或高于比对得分S的期望数为10个这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库0当将期望选项值调小时,返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小.增大E值将返回更多的结果;藏字段长度wordsize:对于蛋白质搜索,窗口大小可以被设定为3默认值或者2.当用一个查询序列来进行数据库搜索时,BLAST算法首先将查询序列分割成一系列具有特定长度字段长度的小的序列段字段.实际应用中对于蛋白质搜索很少需要改变字段的长
37、度;对于核酸序列,默认的字段长度是28,BLAST的字长缺省值为28,即BLASTN将扫描数据库,直到发现那些与未知序列的28个连续碱基完全匹配的28个连续碱基长度片段为止.然后这些片段即字被扩展.降低字段长度将会使搜索变得更准确同时也会变得更慢;肃矩P$matrix:对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵:PAM30、PAM70、BLOSUM45、BLOSUM62默认值以及BLOSUM80.一些其他的BLAST效劳器还提供了很多其他的替代矩阵,如PAM250O通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵;袁Compositionaladjustment
38、s这个选项是默认选择的,一般来说可改善E值的统计计算和提升灵敏度减少返回的假阳性结果的数目;膈2blast2双序列比对:菱Blast比对后,当数据库中搜索到多个显着相似的序列时,检测目的序列是否与之有真正关联,可进行双序列比对PairwiseAligment.蔻Ncleotide:Hsp40ORFVSbm40改变参数ProgramSerial项崛情Highlysimilar卿hks峋螂淖I;eredssiiiilrcoercesizisccnligtous门即b在;旗«0Somtiatsrnilarsequeices触加tesaBLTalgonltin.蒲点阵图Dotmatrixvi
39、ew:连续线表示序列匹配指出,缺口说明量序列不匹配之处.w比对结果:*6=3itnCi.c-r5JRei?mcrrrnccmclm-kjnt-rhMActr、气rh>43、ctrIcn43d气/王*:>£EV»«,口y:srv.131bJ01C:1=Uj.Hy工工SEnUN4>XirIKJ>VY»rXFtaX1rVKXMCXE3»KWKIKAITMK3-LFh.E-K-TXIHr5W.T-JV*jriuA.CILAUCKEXtaJKITKVK.GOMGPK.DlTlfK.1Z«OIXKiZ3A3DO+XKKAV
40、P.MTDiKWftACMLEE*fKIT*Af_A.¥BIVINSZ>K.K13K.L3-VMWX,<KU人L3XJE3-.&KKjIKVTAt3>J».T-JIE:XIT-RLIE'VjnUE-MuITK:VmT:k.勺口“XW'HE-7tMiTUiK.iu-LJ-X-aKu-LjiLAjsj0u0u3uiuH3Y3Ji三力HHWAE-7bJHjfcTTirARk_33?An13Kkki±KjX20KE-+-WFBJCizfT-iccj.iraql口BCSP-+HTTLHraQb+4TLja.Q"kT+f&a
41、mp;rLk*itn工e-w字工3a新皂立.皂口二namnoc;Mfe:1讨I_-J4J1I_.匕二UK.j«_rMLd,'_Ti;_FUri打片1?li,.*i=-_i->、:ir-'_irjiLu0M1二丁OU-H=:fcTD一03fJfal&30&口匕上*牙产whrq'=口百H"n-n=3COnHLRZ3C4r>TI-B"W314TDTEL.PVTa'S1期3、基因结构识别:袅包括:ORF识别;启动子与转录因子结合位点分析;重复序列分析;CpGisland12犀ORF识另I:.Kozak原那么:1、
42、第四位的偏好碱基为G;2、ATG的5端约15bp范围内的侧翼序列内不含碱基T;3、在第3、6、9位,G为偏好碱基;4、除第3、6、9位,在整个侧翼序列中,c为偏好碱基.蟆常见ORF在线预测工具:ORFFinder;GeneMark,hmm;Glimmer原核生物;GlimmerHMM真核生物ORF的验证:Blast.建2启动子及转录因子结合分析:PromoterScan螃3重复序列分析:repeatmasker芨4CpGisland:CpGPlot;CpGisland通常位于启动子附近荽CpG双核甘酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作C
43、pG岛.在哺乳动物基因组中的12kb的DNA片段,它富含非甲基化的CpG双倍体.CpG岛主要位于基因的启动子promotor和第一外显子区域,约有60%以上基因的启动子含有CpG岛.GC含量大于50%,长度超过200bp,建15、DNA双序列比对PairwiseSequenceAlignmenM理:第五章材1、比什么?给定两条序列DNAorprotein腿Seq1:CATATTGCAGTGGTCCCGCGTCAGGCT«Seq2:TAAATTGCGTGGTCGCACTGCACGCT蒙它们存在多大程度的相似?蕨CATATTGCAGTGGTCCCGCGTCAGGCT膀TAAATTGCGT
44、-GGTCGCACTGCACGCT蜗2、为什么比?发现功能、研究进化、某条序列的关键特征、疾病的鉴定袄3、序列变化:三种类型的变化包括:Substitution点突变、Insertion插入、Deletion删除,后两个统称为Indel插入缺失.聿4、为到达比对两序列的目的,我们需要一个定量模型来评估两序列,如何定量两序列间的相似性?一、二、量全局比对Globalalignment:嵋是对给定序列全长进行比拟的方式.在待比拟的两个序列中引入空位gap,使得对序列的全长都得到比拟,Needleman-Wunsch算法.全局序列比对,比对的是全部序列.建立一个得分矩阵,A序列在上方,B序列在左侧,方格i,j的数值是A0-i到B0-j的最正确比对.全部比对的得分在最下角四、芍局部比对:获得两序列最正确匹配的区域,有时与全局匹配一致.螂16、蛋白序列比对:第六章蜩一般规那么:蛋白质序列25%的同一性长度100,即为同源基因homologousgene,DNA序列同一性大于70%为同源序列.袅基于氨基酸相似性的序列比对:蒂打分矩阵,基于同一性的打分矩阵:对相似性序列比对不错;但对于相似性程度低的序列效果很差;膀替换矩阵,对高度相似的序列,我们可以对氨基酸替换频率进行评估打分;藏BLOSUM矩阵基于高度保守区的置换模式;袅PAM矩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB31/T 668.7-2012节能技术改造及合同能源管理项目节能量审核与计算方法第7部分:冷却塔系统
- DB31/T 1241-2020公共数据“三清单”管理规范
- DB31/T 1146.1-2019智能电网储能系统性能测试技术规范第1部分:削峰填谷应用
- DB31/T 1039-2017上海主要花坛花卉产品质量等级
- DB31/T 1036-2017悬铃木方翅网蝽防治技术规范
- DB31/T 1017-2016工作场所空气中甲苯二异氰酸酯的测定浸渍滤膜采集-高效液相色谱法
- DB31/ 565-2011中小学课业簿册安全卫生与质量要求
- 服装批发市场个性化定制与服务考核试卷
- 期货市场风险管理的数学模型考核试卷
- 2024年发动机曲轴项目资金申请报告代可行性研究报告
- 不同物种的细胞色素c分子异同比较分析
- 游泳馆卫生许可证申请书
- 工序报验申请表
- 物质安全数据表(MSDS)84消毒液
- 物业监控室视频图像点信息采集表
- 三相异步电动机的正反转
- hec教程用户手册中文版
- 救护车急诊出诊转运风险相关事项告知书
- 六辊轧机轧辊装置的设计
- 初中学生综合素质表现评价档案
- 常用音乐术语大全含详细速度值
评论
0/150
提交评论