生物信息学第三章生物信息数据库及其信息检索_第1页
生物信息学第三章生物信息数据库及其信息检索_第2页
生物信息学第三章生物信息数据库及其信息检索_第3页
生物信息学第三章生物信息数据库及其信息检索_第4页
生物信息学第三章生物信息数据库及其信息检索_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学第三章生物信息数据库及其信息检索本章主要内容本章主要内容 生物信息学数据库类型生物信息学数据库类型 序列数据库序列数据库 结构数据库结构数据库 功能数据库 其它专业数据库 生物信息学数据库的检索生物信息学数据库的检索 检索方法概述检索方法概述 检索实践和案例检索实践和案例生物信息学数据库的地位和作用生物信息学数据库的地位和作用经典生物医学实验经典生物医学实验大量零碎数据大量零碎数据数据收集整理数据收集整理大规模组学实验大规模组学实验海量组学数据海量组学数据数据存储、注释数据存储、注释数数 据据 库库生物医学应用生物医学应用理论分析理论分析检索查询检索查询生物学研究生物学研究生物信息学

2、数据库类型生物信息学数据库类型 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库,归类并展示在。核酸序列数据库RNA序列数据库蛋白质序列数据库结构数据库基因组数据库(非脊椎动物)代谢与信号通路数据库人类与其他脊椎动物基因组人类基因与疾病微阵列数据库与其他基因表达数据库蛋白质组资源其他分子生物学数据库细胞器数据库植物数据库免疫学数据库细胞生物学数据库生物信息学数生物信息学数据库类型据库类型n序列数据库n结构数据库 n功能数据库n其它专业数据库Google vs Baidu肤浅的百姓工具肤浅的百姓工具他可以更厉害!甚至超过

3、他可以更厉害!甚至超过windows、Linux或或Mac等操作等操作系统系统一、序列数据库一、序列数据库主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达序列,由基主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列。酸和蛋白质序列。n 基因组序列数据库:基因组序列数据库:Genome Database(GDB)Genome Database(GDB)数据库数据库( )包括人、

4、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和Sanger研究所联合开发。UCSC Genome BrowserUCSC Genome Browser()()加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据。n 核酸序列数据库核酸序列数据库GenBankGenBank( )EMBLEMBL( )DDBJ DDBJ ( )三个数据库每天互相交换数据三个数据库每天互相交换数据GenBankGenBank可通过可通过NCBINCBI的检索系统的检索系统EntrezEntrez获取,获取, EntrezEntrez集成来自主要集成来自主要DNAD

5、NA和蛋白序列数据库的和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息数据,包括物种、基因组、定位、蛋白结构和结构域等信息其他其他各种专业核酸数据库各种专业核酸数据库 非冗余参考序列数据库非冗余参考序列数据库RefSeq RefSeq 密码子使用数据库密码子使用数据库Codon Usage Database Codon Usage Database CUTGCUTG 基因可变剪接数据库基因可变剪接数据库ASDBASDBA.A.转录因子数据库转录因子数据库TRANSFACTRANSFACNCBINCBI (National Center of Biotechnology I

6、nformation)美国国立生物技术信息中心美国国立生物技术信息中心三大数据库之间的联系三大数据库之间的联系ATTGACTAPrimary vs. Derivative DatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGTATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGA

7、GAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAAGenBank中测序最多的中测序最多的20个物种个物种humanArabidopsisThermotoga maritimaEscherichia coliBuchnerasp. APSRickettsia prowazekiiUreaplasma urealyticumBacillus sub

8、tilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsma

9、mmalsGenome sizes in nucleotide pairs (base-pairs)10410810510610710111010109bony fishamphibians蛋白质序列数据库蛋白质序列数据库UniProtUniProt()() 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。IPI IPI ()()国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白

10、的策略而构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整合过程中,直接接受手工注释结果。NrNr( )NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇。二、结构数据库二、结构数据库核酸和蛋白质的空间结构数据库,一般通过核酸和蛋白质的空间结构数据库,一般通过X X射线衍射和核磁共振获得数据,也有同源建模等计射线衍射和核磁共振获得数据,也有同源建模等计算方法获得。算方法获得。n 结构数据库结构数据库( (

11、核酸核酸) )NDBNDB核酸结构数据库()核酸结构数据库()收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片RfamRfam数据库()数据库()RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式结构数据库(蛋白质)结构数据库(蛋白质)PDBPDB()()RCSB(Research Collaboratory for Structural Bioinforma

12、tics)专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构。蛋白质结构分类数据库蛋白质结构分类数据库SCOPSCOP( )包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库。NCBINCBI蛋白结构数据库()蛋白结构数据库()包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLINE相匹配的引用、

13、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。三、功能数据库三、功能数据库 收录生物分子的功能数据,由收录生物分子的功能数据,由IDID号与序列和结构数据链接号与序列和结构数据链接n 组织表达谱和亚细胞定位组织表达谱和亚细胞定位根据不同组织中的根据不同组织中的ESTEST、SAGESAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:或芯片杂交信号,绘制出不同组织中表达基因的图谱: BodyMapBodyMap()()UnigeneUnigene( )SAGEmapSAGEmap()()GEOGEO()()Stanford Microarray DatabaseStanford Mic

14、roarray Database()()n 亚细胞定位数据库亚细胞定位数据库n PSORTdbPSORTdb()()n DBSubLocDBSubLoc()()n 膜蛋白质数据库膜蛋白质数据库TMPDBTMPDB( :/bioinfo.si.hirosaki-u.ac.jp/TMPDB/ :/bioinfo.si.hirosaki-u.ac.jp/TMPDB/) n 线粒体蛋白质数据库线粒体蛋白质数据库MitoP2MitoP2( :/ mitop.de:8080/mitop2/ :/ mitop.de:8080/mitop2/)n 蛋白翻译后修饰蛋白翻译后修饰 n dbPTMdbPTM()()

15、n 磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。n O-GlycBaseO-GlycBase()()n 只收录只收录O O糖基化数据糖基化数据n PhosphoBasePhosphoBase()()n 只收录磷酸化位点的数据只收录磷酸化位点的数据n RESIDRESID()() n 收录蛋白质修饰的注释和结构的数据收录蛋白质修饰的注释和结构的数据 n 蛋白质蛋白质- -蛋白质相互作用数据库蛋白质相互作用数据库DIPDIP()()由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作

16、用的实验技术IntActIntAct()()提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释进行网络的扩充 n 代谢网络和信号途径代谢网络和信号途径 KEGGKEGG大百科()大百科()系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、酶分子和酶反应等信息。反应通路反应通路(KEGG)glycolysis pathw

17、ay(糖酵解糖酵解)京都基因与基因组百科全京都基因与基因组百科全书书(Kyoto Encyclopedia of Genes and Genomes)全细胞通路全细胞通路四、其它专业数据库四、其它专业数据库 n人类基因和疾病数据库人类基因和疾病数据库 nOMIMOMIM()()n收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息动物模型及其参考文献等

18、信息dbSNPdbSNP(SNP SNP )n收录已经识别的收录已经识别的SNPsSNPs的数据库的数据库nHapMap Project()HapMap Project()n收录了三大人群收录了三大人群( (非洲人非洲人, ,高加索人和亚洲人群高加索人和亚洲人群) )主要的变异模式主要的变异模式, ,所选择的所选择的SNPsSNPs具有相对代表性具有相对代表性nCGED( :/lifesciencedb.jp/cged/)CGED( :/lifesciencedb.jp/cged/)n收录多种癌症的临床和基因表达数据,更新到收录多种癌症的临床和基因表达数据,更新到20072007年年 基于电泳

19、和生物质谱的蛋白质组数据库基于电泳和生物质谱的蛋白质组数据库SWISS-2DPAGESWISS-2DPAGE()()收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息PRIDEPRIDE()()数据库收集国际蛋白质组计划所产出的鉴定结果数据PeptideAtlasPeptideAtlas()()收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库dbLEPdbLEP()()为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年免疫学数据库免疫学数据库IMGTIMG

20、T()()关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHCdbMHC()()提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频率的遗传检测工具Taxonomy Taxonomy 分类学数据库分类学数据库 北京华大基因研究中心(中科院基因组研究所) 杨焕明 国家人类基因组南方研究中心(上海) 陈竺、赵国屏 国家人类基因组北方研究中心(北京) 强伯勤 清华大学生物系生物信息研究室 孙

21、之荣 北京大学生物信息学中心 罗静初 复旦大学理论生物中心 钟扬 我国的一些主要研究中心和数据库我国的一些主要研究中心和数据库生物信息学数生物信息学数据库的检索据库的检索n检索方法概述n检索实践和案例生物信息学数据库的检索生物信息学数据库的检索 主要检索系统和工具主要检索系统和工具Entrez(National Center for Biotechnology Information, NCBI)SRS(European Bioinformatics Institute, EBI)ExPasy ExExpert P Protein A Analysis SySystem (Swiss Inst

22、itute of Bioinformatics, SIB) 日本、欧洲、美国其他研究机构的工具平台日本、欧洲、美国其他研究机构的工具平台复杂检索复杂检索1 1、限制字段类别、限制字段类别常用的有常用的有: Author: Bao YMau: Author: Bao YMauTitle: stresstiTitle: stresstiTilte/AbstractTilte/Abstract: stresstitle/abstractstresstitle/abstractDate: 1999:2009dpDate: 1999:2009dp2 2、布尔逻辑运算:、布尔逻辑运算:ANDAND、ORO

23、R、NOTNOT必须大写。必须大写。逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。优先运行。布尔逻辑检索允许在检索词后面附加字段标识布尔逻辑检索允许在检索词后面附加字段标识例如:例如:riceti AND Bao YMau AND 2008:2009dpriceti AND Bao YMau AND 2008:2009dp同样存在限制字段同样存在限制字段: :常用的有常用的有: Author: Bao YMau: Author: Bao YMautitle: SNAREtititle: SNAREtiorganis

24、m: riceorganismorganism: riceorganism或者直接输入或者直接输入: : Accession: AY077725Accession Accession: AY077725Accession Gene Name: ZFP15Gene Name Gene Name: ZFP15Gene Name Protein Name: ZFP15Protein Name Protein Name: ZFP15Protein Name如如: Bao YMau AND SNAREti AND riceorganism: Bao YMau AND SNAREti AND riceor

25、ganism如果没有限定,就是任意字段。如果没有限定,就是任意字段。如何获取如何获取GenBank中的序列中的序列?Entrez(Entrez(National Center for Biotechnology InformationNational Center for Biotechnology Information, NCBI, NCBI)选择数据库选择数据库当没有进入号时输入关键当没有进入号时输入关键词(英文和拉丁文)词(英文和拉丁文)当有进入号时输入进当有进入号时输入进入号入号NCBI主页最下面的区域,是主页最下面的区域,是NCBI的快捷连接区域的快捷连接区域举例:举例:GAPDH

26、或或g3pdh是甘油醛是甘油醛-3-磷酸脱氢酶(磷酸脱氢酶( glyceraldehyde-3-phosphate dehydrogenase )的英文缩写。该酶是糖酵解反应中的一)的英文缩写。该酶是糖酵解反应中的一个酶。该酶基因为管家(个酶。该酶基因为管家(house keeping)基因,几乎在所有组织中)基因,几乎在所有组织中都高水平表达,在同种细胞或者组织中的蛋白质表达量一般是恒定的都高水平表达,在同种细胞或者组织中的蛋白质表达量一般是恒定的,且不受含有的部分识别位点、佛波脂等的诱导物质,且不受含有的部分识别位点、佛波脂等的诱导物质 的影响而保持恒的影响而保持恒定,故被广泛用作抽提定,

27、故被广泛用作抽提total RNA,poly(A)+ RNA,Western blot等实验等实验操作的标准化的内参。操作的标准化的内参。GAPDH一般是由一般是由4个相同亚基组成的四聚体,每个亚基均含有催化结构域和个相同亚基组成的四聚体,每个亚基均含有催化结构域和辅酶结合域。辅酶结合域。GAPDH与辅酶与辅酶( NAD+)组成全酶才)组成全酶才具有催化活性。具有催化活性。基因序列搜索基因序列搜索STS序列标签位点(sequence-tagged site),是已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100500bp之间。任何DNA序列,只要知道它在基因组中的位置

28、,都能被用作STS标签。作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测出STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。不能用任何其它的特征关键词表述的具有生物学意义的区域;新的或少见的特征蛋白序列搜索蛋白序列搜索蛋白质结构搜索蛋白质结构搜索MMDB ID:34532PDB ID:1U8FNicotinamide-Adenine-Dinucleotide烟酰胺腺嘌呤二核苷酸烟酰胺腺嘌呤二核苷酸O、P、Q和和

29、R为为GAPDH的四个亚基蛋白链,其和的四个亚基蛋白链,其和1(烟酰胺腺嘌呤二核苷酸(烟酰胺腺嘌呤二核苷酸)的相互作用关系)的相互作用关系课堂练习:课堂练习:Homo sapiens p53,人体抑癌基因,该基因编码一种分子量为,人体抑癌基因,该基因编码一种分子量为53kDa的蛋白质,命名为的蛋白质,命名为P53。p53基因的失活对肿瘤形成起重要作用。但是事物必然有它的两个方面,基因的失活对肿瘤形成起重要作用。但是事物必然有它的两个方面,p53是一个重要的抗癌基因使癌细胞自杀是一个重要的抗癌基因使癌细胞自杀,防止癌变;还具有帮助细胞基因修复缺陷的功能。,防止癌变;还具有帮助细胞基因修复缺陷的功

30、能。基因序列搜索,标注(Search the target gene,and annotate the gene)蛋白序列搜索,标注(Search the target protein,and annotate the protein)蛋白质结构搜索,标注(Search the structure of the target protein,and annotate it)Question:从小鼠中查找从小鼠中查找Bao实验室发布的实验室发布的p53蛋白相关的蛋白相关的DNA序列序列.一些生物信息学相关一些生物信息学相关的名词和知识的名词和知识参考参考P74,关键字的定义,关键字的定义Atte

31、nuator:region of DNA at which regulation of termination of transcription occurs, which controls the expression of some bacterial operons, sequence segment located between the promoter and the first structural gene that causes partial termination of transcription. Enhancer:a cis-acting sequence that

32、increases the utilization of eukaryotic promoters, and can function in either orientation and in any location (upstream or downstream) relative to the promoter. Promoter:region on a DNA molecule involved in RNA polymerase binding to initiate transcription.Terminator:sequence of DNA located either at

33、 the end of the transcript that causes RNA polymerase to terminate transcription.polyA-signal:recognition region necessary for endonuclease cleavage of an RNA transcript that is followed by polyadenylation, consensus=AATAAA.PromoterPromoterEnhancerEnhancerGeneGeneTerminatorTerminatorTranscription un

34、itTranscription unit+1+1-1-1Downstream sequenceDownstream sequenceUpstream sequenceUpstream sequence-10-10Transcription start siteTranscription start siteRegulatory elementRegulatory element-2-2-3-3-4-4-5-5-6-6-7-7-8-8-9-9-11-11-12-12-13-13-14-14-16-16-17-17+2+2+3+3+4+4+5+5+6+6+7+7+8+8polyA-signalpo

35、lyA-signalAttenuatorAttenuator调节调节基因基因阻遏子阻遏子启动子启动子操纵基操纵基因因终止子终止子lacZlacYlacAlac 操纵元操纵元AttenuatorAttenuatorAAAAAAAAAAAAAAendonuclease cleavageendonuclease cleavageendonucleaseendonucleaseCAAT-signal:CAAT box, part of a conserved sequence located about 75bp up-stream of the star point of eukaryotic tr

36、anscription units which may be involved in RNA polymerase binding, consensus=GG(C or T)CAATCT.GC-signal:GC box, a conserved GC-rich region located upstream of the start point of eukaryotic transcription units which may occur in multiple copies or in either orientation, consensus=GGGCGG.TATA-signal:T

37、ATA box, Goldberg-Hogness box, a conserved AT-rich septamer found about 25bp before the start point of each eukaryotic RNA polymerase transcript unit which may be involved in positioning the enzyme for correct initiation, consensus=TATA(A or T)A(A or T).-10-signal:pribnow box, a conserved region abo

38、ut 10bp upstream of the start point of bacterial transcription units which may be involved in binding RNA polymerase, consensus=TAtAaT.-35-signal:a conserved hexamer about 35bp upstream of the start point of bacterial transcription units, consensus=TTGACa+1-50Transcription start site-25-75-100Hognes

39、s boxGC boxGC boxCAAT box+1-50Transcription start site-25-100-190Core promoterGC boxGC boxUpstream control elementGC boxGC boxGC boxBasal promoterUpstream elementDownstream element+50Transcription start site+1Hogness boxOctamer motifIntragenic promoter+90PSEA boxC boxIEClass promoterClass promoterCl

40、ass Class promoter promoterClass Class promoter promotereukaryotic transcription unitseukaryotic transcription unitsPR:TTATTCCATGTCACACTTT TCGCATCTTTGTTATGCTAT GGTTATTTCATACCAT+1+1Transcription start siteTranscription start site-10-10Pribnow boxPribnow box-35-35GACA boxGACA boxGTGCGTGTTGACTATTTTA CC

41、TCTGGCGGTGATAATGG TTGCATGTACTAAGGAGGCGGTGTTGACATAAATA CCACTGGCGGTGATACTGA GCACATCAGCAGGACGTGAGCTGTTGACAATTAAT CATCGAACTAGTTAACTAG TACGCAAGTTCACGTAACCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATGTTGT GTGGAATTGTGAGCGGCCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATAATGT GTGGAATTGTGAGCGGTTTCCTCTTGTCAGGCCGG AATAACTCCCTATAATGCG

42、CCACCACTGACACGGAATAAATGCTTGACTCTGTAG CGGGAAGGCGTATTATGC ACACCTCGCGCCGCTGATCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTA TTTCATACCATAAGCCPL:trp:lac:lacUV5:rrnA1:rrnA2:galP1:galP2:bacterial transcription unitsbacterial transcription units-35-35TTGACATTGACATATAATTATAAT +20+20 +1+1-10-10原核生物的原核生物的RNA聚合酶全酶及其在转

43、录起始区的结合聚合酶全酶及其在转录起始区的结合(1)开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。(2) CDS,是编码一段蛋白产物的序列。(3)CDS可能是一个ORF,但也可能包括多个ORF。(4)反之,每个ORF不一定都是CDS。CDS:coding sequence, sequence of nucleotides that corresponds with the sequence of amino acids in a protein (location includes stop

44、codon), feature includes amino acid conceptual translation.Open reading frame (ORF):a reading frame that does not contain a nucleotide triplet which stops translation before formation of a complete polypeptide.LTR:long terminal repeat, a sequence directly repeated at both ends of a defined sequence,

45、 of the sort typically found in retroviruses.反转录病毒的基因组的两端各有一个长末端重复序列(5LTR和3LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTP强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。The HIV-1 LTR is approximately 640 bp in length and, like other retroviral LTRs, is segmented into the U3, R, and U5 regions.5 clip:5-most region of a precursor transcript that is clipped off during processing.3 clip:3-most region of a precursor transcript that is clipped off during processing.5UTR:region at the 5 end of a mature transcript (preceding the initiation codon) that is not translated into

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论