基因组和基因预测_第1页
基因组和基因预测_第2页
基因组和基因预测_第3页
基因组和基因预测_第4页
基因组和基因预测_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组和基因预测1第一页,共一百零六页,2022年,8月28日课堂内容一、基因、基因组的概念二、典型生物的基因组特征三、人类基因组计划四、核酸测序技术五、基因组测序六、基因转录组测序七、基因的功能和预测2第二页,共一百零六页,2022年,8月28日一、基因、基因组的概念3第三页,共一百零六页,2022年,8月28日1、基因的概念基因是原核、真核生物以及病毒的DNA和RNA分子中具有遗传效应的核苷酸序列,是遗传的基本单位。基因是DNA分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位对于编码蛋白质的结构基因来说,基因是决定一条多肽链的DNA片段4第四页,共一百零六页,2022年,8月28日基因的由来孟德尔(GregorJohannMendel1822~1884),《植物杂交试验》一文中指出,生物每一个性状都是通过遗传因子来传递的,遗传因子是一些独立的遗传单位5第五页,共一百零六页,2022年,8月28日Theoryofthegene

基因是染色体上的实体

基因象链珠(bead)一样,孤立地呈线状地排列在染色体上

基因是:

功能(functionalunit)突变(mutationunit)

交换(cross-overunit)

“三位一体”的(Threeinone)最小的不可分割的基本的遗传单位(1926T.H.Morgan)6第六页,共一百零六页,2022年,8月28日基因概念的进一步发展(1)基因具重叠性1977年桑格(F.Sanger)领导的研究小组,根据大量研究事实绘制了共含有5375个核苷酸的ΦX174噬菌体DNA碱基顺序图,第一次揭示了遗传的一种经济而巧妙的编排——B和E基因核苷酸顺序分别与A和D基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结构,且基因末端密码也有重叠现象(A基因终止密码子TGA和C基因起始密码子ATG重叠2个核苷酸;D基因的终止密码子TAA与J基因起始密码子ATG互相重叠1个核苷酸,顺序为TAATG)7第七页,共一百零六页,2022年,8月28日基因重叠示意图8第八页,共一百零六页,2022年,8月28日乙肝病毒的基因组9第九页,共一百零六页,2022年,8月28日(2)内含子和外显子人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只有该基因长度的1/4,其原因是基因中一些间隔序列的转录物在RNA成熟过程中被切除了这些间隔序列叫内含子,基因中另一些被转录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看,基因由外显子和内含子构成。1978Gilbert真核生物基因的新概念

Exon(外显子)isanysegmentofaninterruptedgenethatisrepresentedinthematureRNAproduct.Intron(内含子)isasegmentofDNAthatistranscribed,butremovedfromwithinthetranscriptbysplicingtogetherthesequences(exons)oneithersideofit.10第十页,共一百零六页,2022年,8月28日OvalbuminDNAXcDNAElectro-microscope7introns8exons11第十一页,共一百零六页,2022年,8月28日(3)管家基因和奢侈基因管家基因house-keepinggene;housekeepinggene生物体各类细胞中都表达,对维持细胞存活和生长所必需的蛋白质编码的基因。如糖酵解和柠檬酸循环所需酶的编码基因等奢侈基因luxurygene组织特异性基因

tissue-specificgene特定类型细胞中为其执行特定功能蛋白质编码的基因12第十二页,共一百零六页,2022年,8月28日(4)基因的游动性早在20世纪40年代美国遗传学家麦克林托克(B.McClintock)在玉米研究中发现“转座因子”,直至1980年夏皮罗(J.Shapiro)等人证实了可移位的遗传基因存在,说明某些基因具有游动性。为此,这位“玉米夫人”荣获了1983年度诺贝尔奖13第十三页,共一百零六页,2022年,8月28日DNA转座现象的一般遗传特点:a)不依赖Donorsite与Targetsite

间序列的同源性

(非同源重组过程,不依赖recA酶)b)转座插入的靶位点并非完全随机(插入专一型)Hotspots(热点)Regionalpreference(在3kb区域内的随机插入)c)某些转座因子(Tn3)对同类转座因子的插入具有排他性(免疫性)d)靶序列在转座因子两侧会形成正向重复(DR)e)转座因子的切除与转座将产生复杂的遗传学效应14第十四页,共一百零六页,2022年,8月28日基因组中不同的区域具有不同的功能有些区域编码蛋白质的结构基因有些区域复制及转录的调控信号有些区域的功能尚不清楚基因组:细胞内遗传信息的携带者DNA的总体2、基因组的概念15第十五页,共一百零六页,2022年,8月28日①从细胞遗传学的角度来看,基因组是指一个生物物种单倍体的所有染色体数目的总和;②从经典遗传学的角度来看,基因组是一个生物物种的所有基因的总和;③从分子遗传学的角度来看,基因组是一个生物物种所有的不同核酸分子的总和;④从现代生物学的角度来看,基因组是指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。16第十六页,共一百零六页,2022年,8月28日基因组的大小:C值C值通常指一种生物单倍体基因组DNA的总量。ThetotalamountofDNAinthegenomeofhaploidisacharacteristicofeachlivingspeciesknownasitsMaximumCvalue

(单倍体基因组总DNA的含量)

最大C值(MaximumCvalue)ThetotalamountofDNAforencodingthegenesinformationistermeditsMinimumcvalue(编码基因信息的总DNA含量)

最小C值(Minimumcvalue)17第十七页,共一百零六页,2022年,8月28日基因组的大小和C值矛盾某生物单倍体的DNA总量称C值,C值与生物的进化程度不完全对应。18第十八页,共一百零六页,2022年,8月28日霉菌藻类G+细菌G-细菌显花植物鸟类哺乳类爬行类两栖类硬骨鱼类软骨鱼类棘皮类甲壳类昆虫类软体动物蠕虫类真菌支原体Cvalueparadoxofnucleotide

A生物体进化程度与大

C值不成明显正相关B亲缘关系相近的生物间大C值相差较大

C一种生物内大C值与小c值相差极大(Euk.人体c=C/10)

(Prok.Φx174c>C)

19第十九页,共一百零六页,2022年,8月28日某些生物的基因组数据

物种基因组大小基因数目基因长度

ΦX1740.7kb10λ噬菌体45Kb100大肠杆菌4.2Mb42001.2kb酿酒酵母13.5Mb63001.4kb果蝇14Mb1200011.3kb人3.3Gb3500016.3kb拟南芥70Gb2500020第二十页,共一百零六页,2022年,8月28日二、典型生物的基因组特征21第二十一页,共一百零六页,2022年,8月28日1、真核生物基因的特点22第二十二页,共一百零六页,2022年,8月28日真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。存在重复序列,重复次数可达百万次以上。基因组中不编码的区域多于编码区域。大部分基因含有内含子,因此,基因是不连续的。基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。23第二十三页,共一百零六页,2022年,8月28日,内含子、启动子24第二十四页,共一百零六页,2022年,8月28日2、

细菌基因组及其特点

a.细菌的“染色体”通常有一个环状或线型DNA分子组成,只有一个复制起点。不少细菌含有若干个小的环状DNA,被称作质粒(plasmid)。有些质粒可以从一个细菌转移到另一个细菌,不少经过改造的质粒在基因工程中被用作基因转移的载体。b.编码蛋白质的基因为单拷贝的,但rRNA基因一般是多拷贝的。c.基因组中有多种调控区,和少量重复序列,调控原件比病毒复杂,但比真核生物简单,重复序列比真核生物少得多。

d.功能相关的几个结构基因往往串联在一起,受它们上游的共同调控区控制,形成操纵子结构。e.基因组中存在与真核生物类似的可移动DNA序列(转座子)。25第二十五页,共一百零六页,2022年,8月28日26第二十六页,共一百零六页,2022年,8月28日DNAfromalysedE.colicell.Inthiselectronmicrographseveralsmall,circularplasmidDNAsareindicatedbywhitearrows.Theblackspotsandwhitespecksareartifactsofthepreparation.27第二十七页,共一百零六页,2022年,8月28日蛋白结构功能含量/每细胞相当于核蛋白基因HUα和β亚基,每个9KD使DNA压缩、类核凝聚,刺激复制,和1HF有关4万个二聚体H2BhupA.BH两个相同亚基,各28KD促使双链的互补、复性3万个二聚体H2A?IHFα10.5KDβ9.5KD有助于att位点配对重组??himA.D.H1(H-NS)15KD亚基和DNA结合,与DNA拓扑结构有关1万?osZbglYpilGHLP117KD单体?2万?firAP3KD亚基??鱼精蛋白(DNA结合蛋白)?E.coli含有的各种DNA结合蛋白28第二十八页,共一百零六页,2022年,8月28日3、病毒基因组的结构和功能病毒是最简单的生物形式,完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA(有些病毒的外壳蛋白外面有一层由宿主细胞构成的被膜(envelope),被膜内含有病毒基因编码的糖蛋白。病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸酶的破坏。29第二十九页,共一百零六页,2022年,8月28日病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组很小病毒基因组可以由DNA组成,也可以由RNA组成多数RNA病毒的基因组是由连续的核糖核酸链组成基因重叠即同一段DNA片段能够编码两种甚至三种蛋白质分子病毒基因组的大部分是用来编码蛋白质的病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的30第三十页,共一百零六页,2022年,8月28日三、人类基因组计划人类基因组计划的启动

1986年诺贝尔奖获得者R.Dulbecco提出人类基因组计划--测出人类全套基因组的DNA碱基序列(1n:3X109b)31第三十一页,共一百零六页,2022年,8月28日

人类基因组计划February2001,TheHGPconsortiumpublishesitsworkingdraftinNature(15February),andCelerapublishesitsdraftinScience(16February).32第三十二页,共一百零六页,2022年,8月28日2003年完成的人类基因组30亿个碱基对测序耗时10多年,耗资约40亿美元。到2003年底大约测出150个物种的基因组全序列。2007年5月底,Watson个人的基因组全序列公布,60亿个碱基对的测定耗时不足2年,耗资不足200万美元。2007年10月,中国人的基因组全序列测定完成。2008年1月,中国的第一个个人基因组全序列测定完成。81岁的沃森(2007年)

33第三十三页,共一百零六页,2022年,8月28日各物种基因组的比较:34第三十四页,共一百零六页,2022年,8月28日(1)绘制染色体的高分辨率遗传图谱,用各种分子标记或限制性酶所作的物理图谱。(2)对DNA进行切割和克隆,构成重叠群。(3)测定DNA的序列,绘制DNA的序列图谱。(4)对基因进行鉴定。(5)建立数据库,开发相应的软件。人类基因组计划的研究方法:1、前述的真核基因组的结构特点基本上都适用于人类基因组。2、基因组DNA有30亿个碱基对(3×109bp),5-10万个基因,目前已定位的有2000个3、编码序列只占基因组总DNA量的5%以下,非编码区占95%以上,大量为重复序列人类基因组结构特点:35第三十五页,共一百零六页,2022年,8月28日

解码生命了解生命的起源了解生命体生长发育的规律认识种属之间和个体之间存在差异的起因认识疾病产生的机制以及长寿与衰老等生命现象为疾病的诊治提供科学依据HGP(人类基因组计划)的目的36第三十六页,共一百零六页,2022年,8月28日

遗传图谱(geneticmap)又称连锁图谱(linkagemap),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示HGP的主要任务37第三十七页,共一百零六页,2022年,8月28日物理图谱(physicalmap)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱38第三十八页,共一百零六页,2022年,8月28日四、核酸测序技术39第三十九页,共一百零六页,2022年,8月28日1950196019701980199020002010DevelopmentofSangerSequencing(1977)InventionofAutomatedFluorescentSequencer(1985)InventionofCapillarySequencer(1996)InventionofAppliedBiosystemsSolidSystem(2007)InventionofIlluminaGenomeAnalyzerSystem(2006)Inventionof454GS20Sequencer(2005)chemicaldegradationmethodbyMaxam-Gilbertmethod(1977)ChemicaldegradationmethodbyWhitfield(1954)InventionofHeliscopesinglemolecularsequencerInventionofSinglemoleculerealtime(SMRT)DNAsequencingInventionofNanoporesinglemolecularsequencing(OxfordNanoporecorporation)1、测序技术的发展介绍(1)、测序技术的发展简史40第四十页,共一百零六页,2022年,8月28日(2)、一代测序技术--Sanger测序法PCR末端终止技术+电泳检测技术单个片段序列测定最高通量:小于4MB/天基于平板胶的测序技术96通道毛细管阵列41第四十一页,共一百零六页,2022年,8月28日一代测序发展:1977年Sanger等发明的双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法,标志着第一代测序技术的诞生。1954年,Whitfeld等提出了测定多聚核糖核苷酸链的降解法,利用磷酸单酯酶的脱磷酸作用和高碘酸盐的氧化作用从链末端逐一分离寡核糖核苷酸并测定其种类。80年代中期出现了以荧光标记代替放射性同位素标记、以荧光信号接收器和计算机信号分析系统代替放射性自显影的自动测序仪90年代中期出现的毛细管电泳技术使得测序的通量大为提高完成了从噬菌体基因组到人类基因组草图等大量的测序工作成本高、速度慢等方面的不足42第四十二页,共一百零六页,2022年,8月28日(3)、二代测序技术ShotGun文库构建DNA片段固定簇序列读取反应图像获得和处理序列组装和比较单条模板扩增1234TTTT…T

G

C

T

…测序原理简介43第四十三页,共一百零六页,2022年,8月28日123789456TTTTTTT

G

T…T

G

C

T

A

C

G

A

T…44第四十四页,共一百零六页,2022年,8月28日2、主要测序技术平台Metzker,NatureReviewsGenetics(2010)11:3145第四十五页,共一百零六页,2022年,8月28日200520062007BirthdayPrinciplePyrosequencingSequencing-by-SynthesisSequencing-by-LigationRoche454IlluminaGenomeAnalyzer/Hiseq2000ABISOLiD46第四十六页,共一百零六页,2022年,8月28日2.1Roche公司的454测序技术

焦磷酸测序待测DNA文库的构建喷雾法300-800bpEmulsionPCR测序数据分析释放的焦磷酸基团会与反应体系中的ATP硫酸化酶反应形成ATP。生成的ATP和荧光素酶共同氧化反应体系中的荧光素分子并发出荧光。47第四十七页,共一百零六页,2022年,8月28日2.2Illumina公司的Solexa技术边合成边测序向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4种dNTP。由于这些dNTP的3´羟基被化学方法保护,因而每轮合成反应都只能添加一个dNTP。未使用的游离dNTP和DNA聚合酶会被洗脱。加入激发荧光所需的缓冲液,用激光激发荧光信号,用光学设备完成荧光信号的记录,再通过计算机分析转化为测序结果。待测DNA文库的构建200-500bpDNA与流动槽的附着BridgePCRdsDNA的变性测序数据分析48第四十八页,共一百零六页,2022年,8月28日2.3ABI公司的SOLiD技术待测DNA文库的构建EmulsionPCR连接酶测序数据分析体系中加入DNA连接酶、通用测序引物n和具有3’-XXnnnzzz-5’结构的八聚核苷酸;第1和第2位(XX)上的碱基是确定的,并根据种类的不同在第6-8位(zzz)上加了不同的荧光标记。49第四十九页,共一百零六页,2022年,8月28日(4)、三代测序优点:1)更高的通量;2)更短的测序时间;3)更长的读取长度;4)更高的精确性,可以检测出极少的变异;5)需要很少的起始样本量;6)低成本第三代测序为单分子测序,不需要进行PCR扩增50第五十页,共一百零六页,2022年,8月28日4.1、HelicoBioScience单分子测序技术边合成边测序用末端转移酶在3‘末端加上poly(A),以及在poly(A)的末端进行荧光标记和阻断,阻断的目的是防止在测序过程中核苷酸在模板的3’末端进行延伸。把这些小片段与带有poly(T)的平板杂交,poly(T)的作用不仅是捕获模板,也是延伸时的引物。成像来获得已经杂交模板所处的位置,建立边合成边测序的位点。加入聚合酶和被Cy3荧光标记脱氧核苷酸进行DNA合成,每次只加入一种脱氧核苷酸,然后将未参与合成的的dNTP和DNA聚合酶洗脱,直接对Cy3成像,观测模板位点上是否有荧光信号Helicos公司51第五十一页,共一百零六页,2022年,8月28日4.2、PacificBioscienceSMRTT(

Single-moleculeReal-time)

技术PacificBiosciences公司边合成边测序SMRT芯片是一种带有很多ZMW(zero-modewaveguides)孔的厚度为100nm的金属片将DNA聚合酶、待测序列和不同荧光标记的dNTP放入ZMW孔的底部,进行合成反应。与其他技术不同的是,荧光标记的位置是磷酸基团而不是碱基。当一个dNTP被添加到合成链上的同时,它会进入ZMW孔的荧光信号检测区并在激光束的激发下发出荧光,根据荧光的种类就可以判定dNTP的种类。52第五十二页,共一百零六页,2022年,8月28日4.3、OxfordNanoporeTechnologies的纳米孔单分子测序技术OxfordNanoporeTechnologies公司电信号测序以α-溶血素来构建生物纳米孔,核酸外切酶依附在孔一侧的外表面,一种合成的环糊精做为传感器共价结合到纳米孔的内表面。这个系统被镶嵌在一个脂双分子层内,为了提供既符合碱基区分检测又满足外切酶活性的物理条件,脂双分子层两侧为不同的盐浓度。在适合的电压下,核酸外切酶消化单链DNA,单个碱基落入孔中,并与孔内的环糊精短暂的相互作用,影响了流过纳米孔原本的电流,腺嘌呤与胸腺嘧啶的电信号大小很相近,但胸腺嘧啶在环糊精停留是时间是其他核苷酸的2~3倍,所以每个碱基都因其产生电流干扰振幅是特有的而被区分开来。53第五十三页,共一百零六页,2022年,8月28日三代测序技术特点的比较54第五十四页,共一百零六页,2022年,8月28日五、基因组测序及其应用

(一)、基因组从头测序(二)、基因组重测序55第五十五页,共一百零六页,2022年,8月28日构建不同长度的插入片段文库高通量测序基因组杂合度分析覆盖基因区估计得到框架图或更高覆盖度500bpfragment文库Paired-end测序,测序深度达到40×以上3KBMatepair文库Paired-end测序,测序深度达到60×以上10KBMatepair文库Paired-end测序,测序深度达到80×以上基因杂合度>5%,同时启动BAC-to-BAC测序(一)、基因组从头测序经典策略56第五十六页,共一百零六页,2022年,8月28日从头测序的数据分析和产出指标框架图

覆盖基因组常染色体区域90%,覆盖基因区域95%,contigN50达到5Kb,scaffoldN50达到20Kb,单碱基错误率在万分之一以下精细图

覆盖基因组常染色体区域95%,覆盖基因区域98%,contigN50达到20Kb,scaffoldN50达到300Kb,单碱基错误率在万分之一以下完成图

完整的基因组序列,单碱基错误率在十万分之一以下从头测序的覆盖度指标从头测序主要数据分析原始数据比对组装结果统计覆盖度、深度评价基因注释比较基因组及进化分析57第五十七页,共一百零六页,2022年,8月28日蓝藻~1Mb线虫~100Mb果蝇>100Mb人~3,000Mb用于基因和基因组进化的分析小鼠~3,000Mb58第五十八页,共一百零六页,2022年,8月28日生物进化谱系树大鼠、小鼠、狗、大熊猫、牛……家鸡、火鸡……斑马鱼……拟南芥、水稻、杨树、酿酒葡萄、短柄草、黄瓜、高粱、玉米……1535个细菌基因组、49个真菌基因组和78个古细菌……

利什曼原虫、椎体虫……四类蓝藻……隐藻……蜜蜂……59第五十九页,共一百零六页,2022年,8月28日意义:第一个完全运用高通量测序技术模式完成的动物基因组从头测序;方法和结果:不同插入片段测序文库双末端测序技术的尝试:包括150bp、500bp、2kb、5kb和10kb不同插入片段,测序深度达73倍,覆盖94%的基因组区域;获得2.7MSNP位点,证明大熊猫仍然具备很高的杂合率和较高的遗传多态性;Lietal.,Nature(2009)463:311-3171、大熊猫基因组从头测序和组装60第六十页,共一百零六页,2022年,8月28日大熊猫基因组从头测序和组装利用9个Sanger测序的BAC序列评价测序的质量,表明98%的BAC序列可以比对到scaffold上预测大熊猫约有21001个基因大熊猫与人、狗和鼠的基因进化分析测序数据与BAC序列比较61第六十一页,共一百零六页,2022年,8月28日2、大肠杆菌基因组实验设计研究材料:一名16岁女孩感染者分离出菌株策略:IonTorrent(79M)Hiseq(1Gb,576Mb,576Mb)Newbler,SOAPdenovo

拼接组装研究成果完成图包括环状基因组及3个质粒(pESBL,pAA,pG2011)。发现志贺毒素产生基因和大量抗生素抗性基因完成设计诊断试剂盒;包括I型集聚性粘附菌毛编码基因(AAF/Ⅰ)与Ⅱ型志贺毒素产生基因Stx2华大基因,UniversityMedicalCenterHamburg-Eppendorf,伯明翰大学2011年5月-6月德国爆发由E.coliO104:H4引起的急性肠出血性流行病疫情。研究意义Rohde,etal.NEnglJMed.2011,365(8):718-724.62第六十二页,共一百零六页,2022年,8月28日Stx2-conveyprophageAcompositetransposonharboringmulti-resistantgenespTy3plasmidSepAaggregativeadherencefimbriaITwoantibioticsresistantgenespTY1plasmid(89,963bp)pTY2plasmid(76,284bp)63第六十三页,共一百零六页,2022年,8月28日OutbreakstrainGenenameResistanceOccurrenceratein92sequencedE.colistrainsdrfA7trimethoprim16.30%sulIsulfonamide13.04%sulIIsulfonamide19.57%strAstreptomycin19.57%strBstreptomycin18.48%tetAtetracycline10.87%blaCTX-M-15monobactampenicillincephalosporinceftazidime/blaTEM-1amino-andcarboxy-penicillin/64第六十四页,共一百零六页,2022年,8月28日Stx2-conveyprophageinoutbreakstrainissyntenicwithEnterobacteriaphageVT2phi_272.65第六十五页,共一百零六页,2022年,8月28日HGP项目:20世纪90年代美国能源部资助启动人类基因组计划,六个国家的科学家耗资4.37亿,于2000年完成人类基因组工作草图。方法和结果:应用分层shotgun+Sanger测序法,结果预测了31,000个基因,证明基因组的95%是非编码序列。意义:人类基因组测序的完成标志着分子医学时代的到来;此项目也催生了高通量测序技术。Nature(2001)409:860-921人类基因组从头测序分析分层的shotgun测序法66第六十六页,共一百零六页,2022年,8月28日(二)、重测序生物信息学分析内容67第六十七页,共一百零六页,2022年,8月28日中科院上海生命科学院、北京基因组所等六家科研机构对150个水稻RIL系进行测序利用IlluminaGA,每16个样一个道,以3个碱基为标签,测序读长为36碱基,每个样的测序深度约0.02倍第一次利用全基因组重测序筛选SNP位点,对群体进行表型分析1、利用全基因组重测序分析表型差异68第六十八页,共一百零六页,2022年,8月28日利用全基因组重测序分析表型差异分析两个亲本的基因组差异发现1,226,791SNP位点,即3.2SNPs/kb分析150个RILs发现了1,493,461SNP位点,即1SNP/40kb实验设计69第六十九页,共一百零六页,2022年,8月28日利用全基因组重测序分析表型差异与以前的该RILs的重组图谱比较分析,在150个RILs中鉴定出2334个重组框,平均每个框的大小约164kb利用slidingwindow方法分析SNP位点与表型间的关系与重组位点Slidingwindow方法70第七十页,共一百零六页,2022年,8月28日Genetech公司(已被罗氏制药收购)生物信息学与计算机生物学部,与CompleteGenomics公司合作对一名烟龄超过15年,平均每天吸烟25根的原发性肺部肿瘤患者进行分析,将这名患者的癌细胞和相邻正常组织的基因组进行测序对癌细胞完成了60倍的测序深度,相邻正常组织完成了46倍的测序深度。

(Leeetal.Nature(2010)465:473)2、利用重测序进行比较基因组学研究--肺癌组织测序数据统计71第七十一页,共一百零六页,2022年,8月28日肺癌组织比较基因组研究发现了超过5万个基因点突变,其中530个得到确认,它们当中392个在编码区域,包括以前已知的变异,如KRAS“原致癌基因”突变和放大体细胞单核苷酸突变趋势和模式统计72第七十二页,共一百零六页,2022年,8月28日MAPK信号通路中多个基因的突变的作用模式肺癌组织比较基因组研究表明遗传上复杂的肿瘤可能包含很多部分冗余的突变,而且要识别复发性致癌“驱动突变”(drivermutation),将需要对很多尚未测序的样本进行测序。这些癌基因的发现对于未来研究肺癌靶向治疗,以及基因突变具有重要的意义73第七十三页,共一百零六页,2022年,8月28日犹他大学(Universityofutah),CompleteGenomics公司,华盛顿大学等对一对夫妻和他们的两个孩子进行了全基因组测序。这家的两个孩子都患有米勒综合征和原发性纤毛运动障碍,这两种疾病都是常染色体隐性遗传病测序深度分别为父亲88倍,母亲51倍,儿子52倍,女儿54倍Coachetal.,Science(2010)328(597):636–639

3、应用全基因组重测序技术在家系中分析遗传力74第七十四页,共一百零六页,2022年,8月28日父母和子女的测序覆盖度分别达到91%、85%、92%和91%与参考序列相比,96%序列至少在一个家系成员中被检测到,81%序列在家系四个成员中都检测到应用全基因组测序技术在家系中分析遗传力测序数据与NCBI参考基因组序列比较分析测序数据统计75第七十五页,共一百零六页,2022年,8月28日通过比较两代之间的基因组序列,科学家们对儿童基因组描绘出精确的重组图谱。这让他们校正了70%的测序错误,使测序准确率达99.999%。使研究人员精确确定了重组位点和稀有的单核苷酸多态性。在他们最终的分析中,只保留了四个候选基因的突变,包括已知在纤毛运动障碍中突变的基因以及导致米勒综合征的变异体应用全基因组测序技术在家系中分析遗传力重组图谱SNP分析76第七十六页,共一百零六页,2022年,8月28日这些结果暗示对任何简单的单基因遗传病,一个或两个家庭的全基因组测序就有可能鉴定出致病突变研究人员还第一次估算出两代人之间的遗传突变率,即基因组从一代人到下一代人的遗传过程中会发生多大程度的改变,约为1.1×10-8。结果发现,从父母到孩子的基因变异率仅为之前医学界预期的一半。应用全基因组测序技术在家系中分析遗传力77第七十七页,共一百零六页,2022年,8月28日4、个人基因组计划(PGP)哈佛医学院计算遗传中心主任GeorgeChurch提出PGP目标是创建一个包含100,000人、公众可以公开访问的在线基因库,帮助科学家了解基因之间的联系和遗传特征现已公布了1000人的基因组序列个人基因组测序是个性化医疗保健的基础

GeorgeChurch和他的研究团队78第七十八页,共一百零六页,2022年,8月28日重测序意义在个体或群体水平进行差异性分析辅助分子育种,能够快速的进行种质资源普查筛选遗传进化分析及重要性状候选基因预测遗传疾病分析79第七十九页,共一百零六页,2022年,8月28日RNA是遗传信息的载体六、转录组测序及其应用80第八十页,共一百零六页,2022年,8月28日转录组测序生物信息学分析内容81第八十一页,共一百零六页,2022年,8月28日1、应用RNA-seq分析葡萄浆果发育过程中转录组意大利维罗纳大学Vitisvinifera(葡萄)浆果发育三个阶段中(开花后5周、10周和15周,即着果期、转色期和成熟期三种发育阶段中)的转录组研究数据量超过59M的36至44bp读长

,82%的测序序列能够比对到基因组上

第一次使用RNA-seq分析葡萄浆果发育过程中的基因转录差异

有参考序列82第八十二页,共一百零六页,2022年,8月28日应用RNA-seq分析葡萄浆果发育转录组分析92,051剪切点,大约0.8%剪切点参与385个基因的可变剪切与葡萄参考基因组(PinotNoir40024)比较,检测到85870个eSNP分析基因的可变剪切83第八十三页,共一百零六页,2022年,8月28日应用RNA-seq分析葡萄浆果发育转录组鉴定了浆果发育过程中的17324个基因,其中的6695的基因是以时期特异性方式表达的分析浆果发育过程中的marker基因,表明RNA-seq分析的准确性84第八十四页,共一百零六页,2022年,8月28日中科院上海生命科学院、北京基因组所和上海交通大学对一个japonica(Nipp)和两个

indica(Gla4and93-11)发芽两周的样品进行转录组测序每个样本两个生物学重复,每个样本测三次,2×40碱基测两次和2×76碱基测一次第一次运用高通量测序分析转录组以鉴定外显子剪切位点2、运用RNA-seq对水稻转录组进行功能注释有参考序列85第八十五页,共一百零六页,2022年,8月28日运用RNA-seq对水稻转录组进行功能注释与参考序列比较,约38.8%~57.3%能够比对到基因组的一个位置上共鉴定了15708个新的TARs(transcriptionalactiveregions)测序数据统计新的TAR统计86第八十六页,共一百零六页,2022年,8月28日运用RNA-seq对水稻转录组进行功能注释约48%的水稻基因具有可变剪切,这远远高于以前预测的频率检测到参考基因注释中的83.1%基因6228个基因的5’和/或3’末端至少比预测的延长50bp87第八十七页,共一百零六页,2022年,8月28日2、酵母菌-高产机理实验设计研究材料:菌株Spas和Cten策略:1.Spas43.77×;Cten26.9×2.系统进化分析、直系同源基因分析;3.不同表型菌株之间共有基因和特有基因分析;4.不同碳源下转录水平分析(3株木糖发酵型、1株木糖利用型、1株木糖利用缺陷型)。研究成果组装结果:Spas:43.77×,13.1Mb,8个scaffoldCten:26.9×,10.7Mb,61个scaffold。14株菌中,和木糖利用相关的直系同源基因都存在,包括不能利用木糖的菌株;推测是还有其他辅助因子。筛选获得10个备选基因,经验证其中两个可促进菌株生长,另外两个可以提高菌株对木糖的利用率。大部分微生物不能利用半纤维素中的五碳糖。两株可以用木糖的菌株测序期望提高生物燃料产量研究意义Wohlbach,etal.ProcNatlAcadSciUSA.2011,108(32):13212-13217.88第八十八页,共一百零六页,2022年,8月28日转录组测序应用领域转录本结构研究:UTR鉴定、Intron边界鉴定、可变剪切研究、Startcodon鉴定等基因转录水平研究全新转录区域研究Non-codingRNA研究89第八十九页,共一百零六页,2022年,8月28日miRNA是调控基因表达的一种普遍方式SmallRNA测序及其应用90第九十页,共一百零六页,2022年,8月28日SmallRNA的生物信息学分析和应用领域分类鉴定:miRNA,siRNA和piRNA和其它SmallRNA注释新的miRNA预测miRNA表达模式分析共有和特有SmallRNA分析miRNA的表达模式聚类分析miRNA靶基因预测已知miRNA的家族分析SmallRNA的系统识别和鉴定SmallRNA的进化分析SmallRNA参与细胞分化和发育的功能分析SmallRNA药物、biomarker及药物靶点的研究SmallRNA参与生命调节的研究SmallRNA与疾病发生的关系91第九十一页,共一百零六页,2022年,8月28日俄克拉荷马州立大学,生物化学与分子生物学系对逆境条件干旱、高盐和正常条件下的水稻4周幼苗进行miRNA测序三种处理分别得到102,876、54,016和174,530测序序列(43003、80990和58781个miRNAs)1、利用高通量测序鉴定水稻miRNA92第九十二页,共一百零六页,2022年,8月28日利用高通量测序技术鉴定水稻miRNA目前水稻中公布的miRNA家族为53个,鉴定了23种新的miRNA6种新的miRNA为单子叶植物特有的miRNA预测了40个候选miRNA单子叶植物特有的miRNA93第九十三页,共一百零六页,2022年,8月28日利用高通量测序技术鉴定水稻miRNA预测了9种新发现miRNA的20个靶点分析miRNA的表达模式,发现特异性表达的miRNA,而保守的miRNA是最容易检测到的94第九十四页,共一百零六页,2022年,8月28日2、利用高通量测序技术鉴定花生miRNA山东农科院对正常培养两周的花生苗的根、茎、叶进行smallRNA分析测序共获得6005941条测序序列95第九十五页,共一百零六页,2022年,8月28日利用高通量测序技术鉴定花生miRNAsmallRNA的长度主要为24bp鉴定了14个花生特有的新的miRNA和75个预测的miRNA特有的miRNA表达量低于保守miRNA,其表达具有组织特异性或者只在特定的发育阶段表达。SmallRNA长度分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论