




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章基因组序列注释1)搜寻基因2)基因功能预测3)基因功能检测4)功能基因组研究1ppt课件.5.1搜寻基因基因注释的依据1)根据基因结构特征搜寻基因2)同源基因查询3)实验确认基因2ppt课件.5.1.1根据基因结构特征搜寻基因开放读框(openreadingframe)-随机碱基排列的ORF长度预计不超过50个密码子-基因的ORF一般多于100个密码子内含子与外显子-密码子偏爱:不同种属之间使用同义密码的频率有很大差异,特定种属有特征性的密码子偏爱,这些序列在编码区常常出现。-外显子-内含子边界:内含子5’端常见序列为AGGTAAGT,3’端常见序列为PyPyPyPyPyPyCAG(Py为T或C).3ppt课件.
密码子偏爱4ppt课件.针对个别生物的策略
1)脊椎动物许多基因的上游都有CpG岛。2)水稻基因5’端含有很高的GC含量。5ppt课件.5.1.2同源基因查询同源查询:利用已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹配的碱基序列或蛋白质序列及其比例用于识别基因的方法。同源查询的依据是:现有生物的不同种属之间具有功能或结构相似的同源基因成员,它们在起源上一脉相承,存在保守的序列组成。一般认为氨基酸的一致性或相似性在25%以上可视为同源基因。6ppt课件.
同源性,一致性和相似性的定义1)同源(homological)基因系指起源于同一祖先但顺序已经发生变异的基因成员,分布在不同物种间的同源基因又称直系基因.同一物种的同源基因则称水平基因,水平基因由重复后趋异产生.2)基因同源性只有“是”和“非”的区别,无所谓百分比.3)一致性(identity)系指同源DNA顺序的同一碱基位置的相同的碱基成员,或者蛋白质的同一氨基酸位置的相同的氨基酸成员,可用百分比表示.4)相似性(similarity)系指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例.可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能.7ppt课件.相似性与一致性249MFN-MAIPFGAGAYAQALNQQQAALMASVAQGG232ILTSLTLPFSAGAYAQALNQQQTTV
IS--TS
GS注:红色为一致性氨基酸,蓝色为可取代氨基酸,白色为趋异氨基酸.
一致性氨基酸百分比为红色氨基酸所占的比例.
相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比例.8ppt课件.
同源查询(DNA顺序)1CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1802CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1151ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT2402ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT1759ppt课件.
同源查询(氨基酸顺序)氨基酸的同源性比DNA更为可靠,因为绝大多数同源基因在功能上具有相似性,这种相似性体现在关键的氨基酸通常占据相同的位置。10ppt课件.
现有基因注释软件的特点1)目前基因注释程序的编写主要依据两种信息内涵:
1.signalterms(信号指令),如起始密码,终止密码,终止信号,剪接受体位与供体位顺序,多聚嘧啶顺序等保守的顺序组成;2.contentterms(内容指令),如密码子使用偏好.2)常用的注释软如GenScan主要偏重于内容指令,而FgeneSH则着重于信号指令.
对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中,存在许多可能误判的信号指令.在超长基因注释中常出现正向错误(false-positive,多注释)或负向错误(false-negetive,少注释).
引自:NatureReviews/Genetics,4:741-749,2003.11ppt课件.基因自动注释软件的问题1)基因注释一般包括如下内容:基因组DNA顺序中确切的转录为mRNA的顺序;外显子和内含子的位置;基因编码的蛋白质顺序.2)在目前即使已有很好研究基础的生物中,最好的计算机基因注释程序对每个外显子注释的准确率也只能达到80%.如果一个基因有5个外显子,整个基因注释的准确率为0.85=33%.3)基因注释的软件通常容易犯误拼和误拆的错误,即将两个基因归在一个,或者反过来.4)容易遗漏很小的外显子,特别是保守性不强的基因.5)容易忽略小基因,尤其是基因内基因.6)无法预测mRNA中5’-和3-’非翻译区(UTR)的边界,即很难确定转录起点与终点.12ppt课件.不同注释软件比较1)目前基因组注释的软件绝大多数都是根据已有基因结构的数据编写的,具有很多的经验成分.2)由于各家采用的注释软件不同,注释结果有很大的差别,如人类基因组测序计划(HGP)注释的基因与Celara公司注释的基因仅2/3一致.13ppt课件.不同注释软件之间的效率Performanceofthreepopulargenepredictionprogramson42semiartificialgenomicsequencescontaining178knownhumangenesequences(900exons).Sensitivity(敏感性)ispercentageofexonsthatarepredictedcorrectly.Specificity(专一性)ispercentageofpredictedexonsthatarecorrect.ReproducedwithchangesfromYadaetal.,2002ColdSpringHarborGenomeSequencingandBiologyMeeting,May7-11,2002.FGENESHisbyfarthemostaccurateofthreeprograms.效率与准确率比较------------------------------------------------------------------------------------------programsensitivityspecificitymissedexon(%)wrongexon(%)------------------------------------------------------------------------------------------FGENESH77.165.79.623.2GenScan66.544.912.040.9HMMGene69.536.615.555.5------------------------------------------------------------------------------------------引自:/berry.phtml
14ppt课件.
5.1.3实验确认基因实验确认基因的依据:任何基因都可转录为RNA拷贝。实验确认基因的方法(1)分子杂交可确定DNA片段是否含表达序列(2)由EST和cDNA指认基因(3)全长cDNA边界序列文库的构建-确定基因的边界15ppt课件.
(1)分子杂交确认基因将RNA经琼脂糖凝胶电泳分离,然后转移到杂交膜上,将待测DNA样品标记后与RNA杂交,如果RNA中含有DNA的转录产物,会显示明显的信号。16ppt课件.
(2)由EST和cDNA指认基因EST(expressedsequencetag,表达序列标签):基因转录产物的一段cDNA序列。由于EST和cDNA是基因转录加工后的产物,可以确切无疑地代表相应基因成员的存在。EST和cDNA是特定组织器官基因的表达产物,可初步判断基因表达的场所,为基因功能研究提供线索。17ppt课件.(3)基因边界的确定构建全长cDNA边界序列文库,或称基因鉴别信号(geneidentificationsignature,GIS):分离每个全长cDNA5’端和3’端各20个碱基序列。--------------------------基因1基因2基因318ppt课件.几种模式生物注释的基因总数大肠杆菌(E.coli):4800酵母(yeast):6200线虫(nematode):19000果蝇(fly):13600拟南芥(Arabidopsis):25000水稻(rice):60000玉米(maize):59000(估计数)老鼠(mouse):3000019ppt课件.5.1.4基因的命名和分类迄今为止国际上还没有一个普遍公认的适合所有生物种属的基因命名规则.由于历史,习惯以及其它各种原因,基因命名中常常存在许多同名歧义,或者同义歧名的现象.许多基因在生物的不同发育阶段具有不同的功能,这一点也给准确的基因命名造成了实际困难.很多科学家都希望基因的命名标准化,曾经在1997年和1999年举行了两次有关基因命名的研讨会,但因研究领域的不同以及基因命名本身存在的复杂问题,无法达成一个统一的意见。目前不同生物种属的基因命名规则仍由各相关领域的专家讨论分别制定,然后推荐给研究者选择采用.20ppt课件.基因注释水平的分类Knowngene(已知基因):
与已知cDNA和蛋白质顺序同源的基因.Novelgene(新基因):
与其他物种cDNA或蛋白质同源的基因.Noveltranscripts(新转录物):
与novel基因相似,但缺少明确的ORF.Putativegene(可能的基因):
有同源EST支持,但缺少cDNA或ORF.Predictedgene(预测基因):
数据库中至少有一个外显子支持,但缺少cDNA或明确的ORF.Pseudogene(假基因):与已知蛋白质有50%的同源性,但
cDNA残缺,在其它位点存在正常的同源基因的顺序.
引自:Nature414:865-871,2001(人类22号染色体注释)21ppt课件.5.2基因功能预测传统的基因功能的研究方法是逐个进行的,需要通过一系列的突变体筛选、基因功能互补等遗传学和分子生物学程序予以检测和验证。采用生物信息学进行同源性比较来预测基因功能,蛋白质结构域是预测基因功能的主要依据。22ppt课件.同源基因都拥有一个共同的祖先基因,在漫长的进化岁月中它们仍然保持原有的生物学功能。同源基因有2类-直向同源基因:不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。-共生同源基因:同一种生物内部的同源基因,它们常常是多基因家族的不同成员。同源基因23ppt课件.1)任何基因编码的蛋白质都由一些在高级结构水平具有特征性的功能域组成,如信号肽,
受体区,激酶区,DNA或RNA结合域等.2)功能域具有很强的保守性,关键的氨基酸组成及其排列位置是相当保守的,是鉴定功能域的主要标识.3)功能域是目前确定基因功能的主要依据之一.4)已由许多专门的功能域注释软件,可用于基因组顺序的注释.蛋白质结构域在功能预测中的意义24ppt课件.什么是结构域或功能域(domain)?定义:结构域指蛋白质结构中具有相对独立的亚结构区,通常含有数个二级结构基序,具有相对独立的功能。1)Regionofaproteinwithadistincttertiarystructure(e.g,globularorrodlike)andcharacterristicactivity;homolgousdomainsmayoccurindifferentprotein.(引自“MolecularCellBiology”)2)Adiscretecontinuouspartoftheaminoacidsequenceofaproteinthatcanbeequatedwithaparticularfuction.(引自“GeneVII”)3)Portionofaproteinthathasatertiarystructureofitsown.Inlargerproteinseachdomainisconnectedtootherdomainbyshortflexibleregionsofpolypeptide.(引自“MolecularBiologyofTheCell”)25ppt课件.
RRM结合域26ppt课件.5.3基因功能检测1.
基因剔除2.基因过表达3.突变体库构建4.抑制差减杂交5.RNA干扰与基因功能检测27ppt课件.5.3.1基因剔除(knock-out)外源基因表达载体导入细胞后的命运1)同源重组;2)随机重组;3)未发生重组.如何识别与筛选转化处理不同结局的胚胎干细胞?正负筛选法。28ppt课件.转基因剔除胚胎干细胞的筛选29ppt课件.正负选择法(postive-negativeselection)在基因打靶载体中克隆上两个选择标记基因。neo基因叫做正选择标记基因,它编码的新霉素磷酸转移酸可抑制抗菌素G418的活性。因此,获得了neo基因的转化细胞,能够在含有G418抗菌素的选择培养基中生长、存活。HSV-tk基因叫做负选择标记基因,它编码的单纯疟疾病毒胸苷激酶可以把核苷类似物GCV(联合丙氧鸟苷)磷酸化,三磷酸化的GCV可通过抑制DNA合成酶活性或掺入DNA链中中止链的延长,从而造成细胞中毒死亡。因此,选择培养基中的GCV能够持异性地杀死表达HSV-tk基因的转化细胞。30ppt课件.
基因剔
除
老
鼠
操作流程
31ppt课件.5.3.2基因的过表达用于功能检测用两种技术可使基因过量表达-增加基因的拷贝数-采用强启动子使基因超表达。32ppt课件.33ppt课件.5.3.3突变体库构建技术路线:1)利用天然的DNA转座子构建表达载体转化受体细胞,当转座子活化时可被动转座并随机插入受体细胞基因组引起基因突变.2)将转化的发生转座事件的细胞系再生获得可遗传的转化子后代,观测突变再生植株的表型变化,分离与克隆插入突变基因的结构与功能.3)采用转座子突变技术可重复地大规模诱导和筛选插入突变株系,进行全基因组范围的基因功能研究.34ppt课件.植物DNA转座子35ppt课件.Ac-Ds突变体库技术存在的问题1)程序复杂,需构建多套转化载体系统和转化株系.2)必需经过组织培养和细胞再生,容易激活内源转座子,产生干扰的非目标的转座事件.3)因植物基因组,特别是谷类作物均有高比例的重复冗余基因,可掩盖插入突变的效应.4)插入突变绝大多数为隐性突变,需在纯合条件下才可发现突变表型,周期较长.5)因插入位点的位置效应,易造成转基因沉默.36ppt课件.5.3.4抑制差减杂交(SSH)程序(1)37ppt课件.抑制差减杂交(SSH)原理(2)1)TcDNA与过量DcDNA第一次杂交,凡与D群体相同的cDNA片段均被复性除去,剩余的为T群体特异的cDNA.2)TcDNA与过量DcDNA第一次杂交进一步富集T群体特异cDNA片段.3)削减杂交后,TcDNA群体中存在a,b和c三种类型.4)混合A和B两个TcDNA群体后,只有e类型可扩增.38ppt课件.5.3.5RNAi在基因功能分析中的应用1)如何发现RNAi2)什么是RNAi3)RNAi的分子机制39ppt课件.RNAi是如何发现的?RNA干扰现象最初发现于1995年,Cornell大学的研究人员Guo和Kemphues研究阻断秀丽新小杆线虫中的par-1基因时,利用反义RNA(AntisenseRNA)技术特异性地阻断par-1基因的表达,同时在对照实验注射正义RNA(SenseRNA)以期观察到基因表达的增强。但结果是二者都同样地切断了par-1
基因的表达途径,这与传统上对反义RNA技术的解释相矛盾,但他们没能给出合理解释。直到1998年2月,AndrewFire和CraigMello首次揭开谜底,并把这种现象首次命名。他们证实,Guo等遇到的正义RNA抑制基因表达的现象,以及过去有关反义RNA对基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年咖啡师应试技巧试题及答案
- 新闻写作中的逻辑思维试题及答案
- 2024年 收纳师考试成功经验分享试题及答案
- 2024年电网考试内容全面解析及试题及答案
- 多媒体设计师市场分析技巧试题及答案
- 公务员省考高分技巧 试题及答案
- 档案管理指标评估试题及答案2024
- 2024年秘书证考试学术能力试题及答案
- 意式咖啡机的使用方法试题及答案
- 2024年税务师冲刺阶段注意试题及答案
- 《中华人民共和国民法典》宣传手册课件
- 分供方准入资格预审表(劳务、专业分包商)
- XX化工有限责任公司维保方案
- 基础会计课件(完整版)
- 品质异常处罚细则及奖罚制度
- 二年级下册心理健康教案-第二十四课 帮爸爸妈妈分担 妈妈谢谢您|北师大版
- 诊所备案申请表格(卫健委备案)
- 人教PEP版五年级英语下册-《课时学练测》全册含答案
- 锅炉水冷壁安装作业指导书
- 《雷锋叔叔_你在哪里》说课稿
- 赞美诗歌400首全集
评论
0/150
提交评论