(物理学专业论文)人类基因组中选择性剪接位点的预测及序列特征分析.pdf_第1页
(物理学专业论文)人类基因组中选择性剪接位点的预测及序列特征分析.pdf_第2页
(物理学专业论文)人类基因组中选择性剪接位点的预测及序列特征分析.pdf_第3页
(物理学专业论文)人类基因组中选择性剪接位点的预测及序列特征分析.pdf_第4页
(物理学专业论文)人类基因组中选择性剪接位点的预测及序列特征分析.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已 经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内墓查太堂及 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:趟堡指导教师签名: e t 期:! 盘:三! e t期:础! :12 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全 部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索, 也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期 间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古 大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:墨丝塑妻墨 e l 期:业:堇:呈f 二导教师签名:扭 日 人类基因组中选择性剪接位点的预测及序列特征分析 摘要 信使r n a 的选择性剪接是真核生物有别于原核生物的基本特征之一。选择性 剪接使单个基因产生多种转录物,是多细胞高等真核生物蛋白质多样性和功能复 杂性的主要机制。m r n a 前体的选择性剪接具有组织发育阶段性、特异性等特征, 在系统发育、分化和癌变过程中发挥着非常重要的作用。论文首先对人类基因组 中剪接位点序列与假剪接位点序列的保守性及空间结构特征进行了统计分析;其 次根据剪接位点序列的碱基联体的保守性特征及剪接位点上下游区域的空间结 构特征,构建剪接位点的信息向量,利用支持向量机对剪接位点的供体端和受体 端进行了预测。对于供体端,5 - f o l d 交叉检验方法的敏感性、特异性及总体预测精 度都达至i jt 9 2 3 0 以上,相关系数为0 6 9 ,3 - w a yd a t as p l i t 检验方法的敏感性、特 异性及总体预测精度达到了9 1 9 6 以上,相关系数为0 6 8 ;对受体端的5 。f o l d 交叉 检验方法的敏感性、特异性及总体预测精度都达到了9 0 5 3 以上,相关系数为 0 6 3 ,3 - w a yd a t as p l i t 检验方法的敏感性、特异性及总体预测精度达到t 8 9 6 2 以 上,相关系数为0 6 2 。 选择性剪接位点和组成性剪接位点在序列水平上没有明显的差异,而且选 择性剪接位点事件中每一对选择性剪接位点之间的距离都很近,所以选择性剪 接位点事件预测工作是理论预测工作的一项挑战。论文中以位置关联权重矩阵 和d n a 结构信息参数作为剪接位点信息输入向量,应用支持向量机对选择性剪 接位点和组成性剪接位点做分类。对于供体端剪接位点 特异性及总体预测精度都在7 3 3 0 以上,相关系数为0 独立检验集的敏感性、特异性及总体预测精度都在7 4 0 4 9 。此结果要明显的好于最近的文献中的预测结果,表明我们的方法可以作为 选择性剪接位点识别问题的工具之一。 关键词:选择性剪接;组成性剪接;位置关联权重矩阵;d n a 结构信息;支持 向量机 i i p r e d i c t i o no fa l t e r n a t i v es p l i c es i t ea n da n a l y s i so f s e q u e n c ec h a r a c t e r i s t i ci nh u m a ng e n o m 匣 a b s t r a c t a l t e r n a t i v ep r o c e s s i n go fm r n ai sab a s i cd i s t i n c t i o nb e t w e e ne u k a r y o t e sa n d p r o k a r y o t e s ,w h i c hi sak e ym e c h a n i s me n r i c h i n gp r o t e o m i cd i v e r s i t ya n df u n c t i o n a l c o m p l e x i t yo fh i g h e rm u l t i c e l l u l a re u k a r y o t e sb yp r o d u c i n gs e v e r a lt r a n s c r i p t sf r o m s i n g l eg e n e a l t e m a t i v es p l i c i n go fp r e m r n ai ss p e c i f i ct od i f f e r e n ts t a g e so f一一一一 一一 d e v e l o p m e n ta n dp a r t i c u l a rt i s s u e so fo r g a n i s m m o r e o v e r ,i tp l a y sa ni m p o r t a n tr o l e i nd e v e l o p m e n t ,d i f f e r e n t i a t i o na n dc a n c e ro f s y s t e m f i r s t l y ,i nt h i sp a p e rs o m eb a s i c c o n s e r v a t i o nf e a t u r e sa n dt h es p a t i a ls t r u c t u r ec h a r a c t e r i s t i c so f s p l i c es i t e sa sw e l la s p s e u d os p l i c es i t e si nh u m a ng e n o m ew e r ea n a l y s e d ,a n db a s e do nt h ec o n s e r v a t i o n o fn u c l e o t i d e sa n ds p a t i a ls t r u c t u r ec h a r a c t e r i s t i c so fs p l i c es i t e s u p s t r e a ma n d d o w n s t r e a mr e g i o n s ,t h ei n f o r m a t i o nv e c t o ro f s p l i c es i t e si sc o n s t r u c t e d s e c o n d l y , t h es u p p o r tv e c t o rm a c h i n e ( s v m ) m o d e l sc o m b i n e dw i t ht h ef e a t u r e so fi n f o r m a t i o n v e c t o ra r ed e v e l o p e da n du s e dt op r e d i c tt h ed o n o ra n d a c c e p t o rs p i c es i t e so fh u m a n g e n o m e f o rf i v e f o l dc r o s s - v a l i d a t i o n ,t h et o t a lp r e d i c t i o na c c u r a c i e sa r e9 2 5 5 a n d 9 0 7 0 f o rd o n o r sa n da c c e p t o r sr e s p e c t i v e l y f o rt h r e e w a yd a t a s p l i t ,t h et o t a l a c c u r a c i e sa r e9 2 2 5 a n d8 9 8 7 f o rd o n o r sa n da c c e p t o r s ,r e s p e c t i v e l y i i i o nt h es e q u e n c el e v e l ,t h e r ei sn oo b v i o u sd i f f e r e n c eb e t w e e na l t e r n a t i v ea n d c o n s t i t u t i v es p l i c es i t e s m o r e o v e r , t h ed i s t a n c e sb e t w e e nt w od o n o r ( o ra c c e p t o r ) s i t e sf o rt h es a m ee x o na r ev e r yc l o s ei na l t e r n a t i v es p l i c i n ge v e n t s t h e r e f o r e ,i ti s s t i l lac h a l l e n g ef o rt h et h e o r e t i c a lp r e d i c t i o no fa l t e r n a t i v es p l i c i n gs i t e s i nt h i sp a p e r , b a s e do n p o s i t i o n - c o r r e l a t i o nw e i g h tm a t r i x ( p c w m ) a n dd n as t r u c t u r a l i n f o r m a t i o n ,a na p p r o a c hf o rp r e d i c t i n gt h ea l t e r n a t i v es p l i c es i t e si sp r e s e n t e d t h e p r e d i c t i v es u c c e s sr a t e sa r e7 3 3 2 a n d7 4 6 2 r e s p e c t i v e l yf o rd o n o rs i t e sa n d a c c e p t o rs i t e s t h ep r e d i c t i o nr e s u l t sa r eb e r e rt h a nt h er e c e n tm e t h o d sw h i c ha r e b a s e do nt h em e c h a n i s mo fs p l i c es i t ec o m p e t i t i o n k e y w o r d s :a l t e r n a t i v es p l i c es i t e s ;c o n s t i t u t i v es p l i c es i t e s ;p o s i t i o n - c o r r e l a t i o n w e i g h tm a t r i x ;d n as t r u c t u r a li n f o r m a t i o n ;s u p p o r tv e c t o rm a c h i n e i v 目录 第一章引言 1 1 研究背景。 1 1 2 剪接过程与简介2 1 2 1 剪接位点和剪接反应2 1 2 2 选择性剪接的研究背景和调节机制 1 3 可变剪接的模式和功能 1 4 可变剪接的实验和理论探测方法。8 1 4 1 可变剪接的实验探测方法 1 4 2 可变剪接的理论研究方法1 0 1 4 3 理论方法存在的问题。1 2 1 5 论文的研究内容与安排1 3 第二章理论预测方法与评价1 4 2 1 位置关联权重矩阵( p o s i t i o n - c o r r e l a t i o nw e i g h tm a t r i x ) 。1 4 2 2d n a 结构信息参数。1 6 2 3 支持向量机1 7 2 4 预测结果的评价。 2 5r o c 曲线1 9 第三章基于位置关联权重矩阵及d n a 结构信息预测人类剪接位点2 l 3 1 材料和方法2 1 3 1 1 数据库2 l 3 1 2 位置关联权重矩阵( p c w m l 2 2 3 1 3d n a 结构信息参数2 2 3 1 4 支持向量机( s v m ) 2 2 3 1 5 方法流程2 3 3 1 6 检验方法2 4 3 1 7 评价指标2 4 v 3 2 结果和讨论 3 2 1k 值选择 2 4 2 4 3 2 2d n a 结构信息分析。2 5 3 2 3 预测结果2 7 3 2 4 结果比较2 7 3 3 结论: 8 第四章人类基因组中选择性剪接位点与组成性剪接位点的识别 4 1 材料和方法。:;o 4 1 1 数据集构建3 0 4 1 2p c w m 中k 值选择3 1 4 1 2d n a 结构信息分析。3 2 4 1 3 方法流程及应用。3 5 4 2 结果3 5 4 2 1 预测结果。3 5 4 2 2 结果比较。 3 5 4 3 讨论:;7 第五章总结和展望。3 8 5 1 全文总结3 8 5 2 工作展望3 9 参考文献4 0 致谢z 1 9 攻读硕士学位期间发表的学术论文5 0 v 1 内蒙古大学硕士学位论文 人类基因组中选择性剪接位点的预测及序列特征分析 1 1 研究背景 第一章引言 近百年来,人们已从孟德尔观察到基因是一种颗粒状结构开始,通过发现基因由d n a 构成,从而进展到w a t s o n 和c r i c k 的d n a 双螺旋模型,近些年更是完成了人类、酵母、线 虫、果蝇、拟南芥等许多生物的全基因组序列测定。基因组的研究也随之进入了一个崭新的 时代一后基因组时代。在后基因组时代,功能基因组研究正逐渐取代基因组学基础数据积累 而成为研究重点【l 】。生物学研究的模式将从传统的实验为主转向理论与实验相结合,一个科 学家将可以从理论推测出发,然后再返回实验中去,追踪或验证这些理论假设【2 ,3 】。基因组研 究的重心转向基因功能,即由测定基因的d n a 序列、解释生命的所有遗传信息转移到从分 子整体水平对生物学功能的研究上,在分子层面上探索人类健康和疾病的奥秘。基因组计划 所产生的数据爆炸,也促使理论生物学的一门分支学科一生物信息学应运而生并正在飞速 的发展。综合运用数学、物理、计算机科学和生物学的各种工具,来分析和解释大量序列和 结构数据中所包含的生物学意义及规律,是生物信息学的重要研究内容。 基因是指染色体上的一段包含了特定的遗传信息的d n a 片段,是控制生物体性状的基 本遗传单位。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体 的性状表现。后基因组时代的一个研究热点是确定基因组内所有基因并阐明这些基因中所包 含的全部功能信息【4 j 。对基因的研究可以帮助人们从本质上认识生物进化、物种间差异的起 因、生长发育的调控、疾病产生机制等生命现象。为了发现基因组内的未知基因并研究清楚 它们的功能,发展相应的理论预测方法很有必要【5 期;从理论上对未知基因进行较准确预测, 可以减少盲目实验的花费,提高实验效率,加快研究进程。 基因的表达遵从分子生物学的中心法则。当一个蛋白质编码基因表达时,需要通过转录 过程,生成该基因的一个r n a 转录本,该r n a 转录本能够用来指导合成蛋白质。蛋白质是 生物体内制药的功能分子,直接执行各种生物学功能。一个基因是否在生物体内发挥作用, 要看它是否表达,即在细胞内是否出现该基因所编码的蛋白质,基因表达效率的高) 决定了其 所编码的蛋白质在细胞内浓度的高低。基因是否表达,或者表达效率的高低在不同的细胞中 内蒙古大学硕士学位论文人类基因组中选择性剪接位点的预测及序列特征分析 可能不同,也可能会随着细胞的发育阶段而发生变化,这些过程在生物体内受到了非常精确 的调控的影响7 】【引。基因表达的调控作用能够发生在转录水平、转录后的加工水平、以及翻译 水平。对于真核生物的基因,剪接过程就是转录后加工为成熟m r n a 过程中非常重要的一部, 因而,发生在剪接过程中的剪接( 即何时何处发生何种剪接以及不同剪接产物浓度的相对比 例等) 是真核生物基因表达调控的一个重要环节【9 1 【1 0 1 1 l j 【1 2 1 。 1 2 剪接过程与简介 1 2 1 剪接位点和剪接反应 原核生物的蛋白质编码基因不具有割裂结构,m r n a 在产生时就是成熟的,不需要经过 转录后加工,大部分原核生物的m r n a 半衰期很短,转录和翻译几乎同时进行。而绝大多数 真核蛋白质编码基因具有割裂结构,其顺序由编码蛋白质的外显子和非编码蛋白质的内含子 间隔组成。内含子在基因转录生成的前体m r n a ( p r e m r n a ) 力h i 成熟过程中被除去,并使基 因中的外显子拼接形成成熟的m r n a 。外显子和内含子之间的边界成为剪接位点,按它们在 内含予两端的位置又可分为57 剪接位点( 位于内含子的5 端,也称为供体位点) 和3 剪接位 点( 位于内含子的3 端,也称为受体位点) 。基因的前体m r n a 通过转录之后,必须通过剪接 反应,切除掉内含子,把外显子连接在一起形成一个成熟的m r n a ,然后才能由细胞核内转 运到细胞质中进行翻译。 杂合r n a 前体实验表明,任何一个5 剪接位点原则上都能同任何一个3 剪接位点连接, 是什么原因保证了内含子的正确识别和剪接呢? 研究显示前体m r n a 的内含子具有很强的序 列保守性:( 1 ) 绝大多数前体m r n a 的内含子供体位点端的两个核苷酸为g u ,受体位点端的 两个核苷酸为a g ;( 2 ) 内含子受体端上游区域通常有一个多嘧啶区;( 3 ) 受体位点端上游1 8 , - - 4 0 个核苷酸处有一分支位点a ,其作用是鉴别最靠近的受体剪接位点的同时作为供体剪接位点 连接的靶;( 4 ) 以及其他的一些序列保守特征。一般情况下,满足上述保守条件的同时,剪接 过程可以分为一下两步进行( 见图1 1 ) : 第一步:供体端剪接位点的切割由位于内含子序列内部分支位点a 的2 c 上的o h 基 团发起转酯反应。羟基的攻击使得供体端剪接位点的磷酸二酯键断裂,同时这个a 与内含子 中的第一个核苷酸( 即5 - g u 中的g ) 形成5 一2 磷酸二酯键,左侧的外显子取线性分子形式,右 侧的内含子自身成环状,形成套索结构。 2 内蒙古大学硕士学位论文人类基因组中选择性剪接位点的预测及序列特征分析 第二步:受体端剪接位点的断裂和外显子的连接由上游外显子末端的3 - o h 攻击受体 端剪接位点的磷酸二酯键发生第二次转酯反应,切割后释放套索结构的游离内含子,该内含 子又重新变成线性结构,最后被降解。同时上游外显子的3 端与新形成的下游外显子的5 端 相连,完成剪接过程。 d 嘲和獭融l p 嘲l 嗍孵 脚兰, 戳圣。 匕= = 孙锚卜一加嘞臣 一。h e 蝣聃l 豫拍o n 2 二二盈眨= 二 1 p 謇o d u c t 1 g x o n 2 匿= = ,。,i i a 纽t 狮翩 图1 1m r n a 前体的剪接过程示意图。 f i g1 1s k e t c hm a po fs p l i c i n ga p p r o a c hw i mp r e m r n a 1 2 2 选择性剪接的研究背景和调节机制 最初发现内含子时,人们认为每个基因总是生成相同的成熟m r n a ,换句话说就是一个 基因的外显子只能以一种方式连接,即m r n a 只能发生组成性剪接。二十世纪七十年代发现 一些基因可以有两个或者更多的转录产物,1 9 7 8 年,w a l t e rg i l b e r t 提出可变剪接的概念:同 一个前体m r n a 在产生成熟m r n a 的过程中内含子的剪接方式可能不同。八十年代被实验 证实,但是真正研究可变剪接的革命发生在人类基因组测序工作开展之后。 在不同的序列信息和功能元件调控下,可变剪接使单一的基因产生多个转录异构体,各 个转录异构体编码的蛋白质在结构和功能不尽相同,这些结构和功能不尽相同的蛋白质分别 在细胞个体发育的不同阶段,不同组织中有各自特异的表达和功能。例如,果蝇的性别决定 系统涉及一个选择性剪接级联,果蝇s x l 基因前体发生可变剪接,决定能否形成s x l 蛋白, 3 内蒙古大学硕士学位论文 人类基因组中选择性剪接位点的预测及序列特征分析 最终决定了果蝇的雌雄性别【1 引。可变剪接是高等真核生物转录体和蛋白质多样性的主要来源, 按照人类蛋白组的规模预测,人类基因组应该有8 0 0 0 0 - - - 1 0 0 0 0 0 个基因,研究表明人类基因组 大约拥有2 5 0 0 0 个基因【1 4 1 ,因为有没有功能意义的开放阅读框的存在【1 5 1 ,这个数量可能会更 低。如此少的基因如何编码生物性状复杂的人类蛋白质呢? 一个重要的原因就是高等真核生 物中存在大量的可变剪接现象,使一个前体m r n a 能够产生不止一个成熟的m r n a ,大大提 高了编码基因的利用率,指数式的丰富了蛋白质的多样性。 从1 9 7 8 年提出可变剪接概念到人类基因组计划开展前,用经典分子生物学试验研究方法 共发现数百种有可变剪接的基因,并推测在高等真核生物细胞总约5 的基因有可变剪接,可 变剪接被认为是一种个别的现象。随着基因组测序工作的进行,产生了数量庞大的表达序列 标签和m r n a 数据,为大规模研究可变剪接现象提供了广阔的空间,通过生物信息学方法对 全部人类基因组进行分析显示,大约7 6 的人类基因存在可变剪接【1 6 】【7 1 1 8 】【1 9 1 。可变剪接具有 发育阶段特异性和组织特异性,而现有的e s t s 数据来自有限组织和发育阶段,并没有覆盖所 有基因,每个基因只测得其中一部分的e s t s ,e s t s 不是全部的m r n a ,多数位于m r n a 的 5 和3 端,因此真正的可变剪接数量可能会更高。2 0 0 8 年1 1 月n a t u r e 上的一篇关于可变剪接 的文章分析表明约9 2 9 4 的人类基因存在可变剪接【2 0 】。拟南芥,鸡,小鼠,猪,线虫 2 1 1 1 2 2 1 2 3 】【2 4 】 2 5 】,果蝇等生物的基因中也存在大量的可变剪接。 可变剪接是高等真核生物蛋白质组多样性和多细胞高等真核生物复杂性的主要机制,但 是目前的研究对于其复杂的调节机制了解的还不够深入。可变剪接除了受核心剪接信号:保 守的5 剪接位点:5 - a g o gu a a g u 3 ,37 剪接位点:5 一p y p y p y p y p y p y n c a gj ,3 分支位点: 呵y u i y 的调节外,还受到结合到非剪接位点的剪接调控元件( s p l i c i n gr e g u l a t o r ye l e m e n t s , s r e s ) 的多重调节( 见图1 2 ) 。 s r e s 主要包括r n a 元件剪接因子和u 1 ,u 2 ,u 4 ,u 5 ,u 6 s n r n p s 以及一百多种非s n r n p s 蛋白。p r e m r n a 经过5 戴帽,3 加尾,r n a r n a ,r n a 蛋白质,蛋白质一蛋白质等多重相互 作用,形成成熟的m r n a 9 1 。参与可变调节的r n a 元件包括外显子剪接增强子( e x o ns p l i c i n g e n h a n c e r , e s e ) :位于外显子内,促进所在外显子的使用;内含子剪接增强子( i n t r o ns p l i c i n g e n h a n c e r , i s e ) - 位于内含子内,促进临近剪接位点或外显子的使用;外显子剪接沉默子( e x o n s p l i c i n gs i l e n c e r , e s s ) :位于外显子内,抑制所在外显子的使用;内含子剪接沉默子( i n t r o n s p l i c i n gs i l e n c e r , i s s ) :位于内含子内,抑制临近剪接位点或外显子的使用【9 】f 2 6 1 1 2 7 1 1 2 8 1 。e s e 、i s e 、 e s s 、i s s 都是很短的序列,一般有6 - - 1 0 个碱基组成,主要通过各种机制招募激活或抑制识别 剪接位点或剪接体组装的转录作用因子起作用,每一类成员内部之间有相对的特异性和简并 4 内蒙古大学硕士学位论文 人类摹因组中选择性剪接位点的预测及序列特征分析 性,且经常出现交叉和冗余作用 2 9 1 。e s e 在组成性剪接中比较常见,而且比剪接沉默子的作 用明显f 3 0 1 【3 l 】1 3 2 1 。s r 蛋白是多细胞生物中高度保守的剪接因子家族,其成员多带有一个或两个 拷贝的r n a 识别基序,在组成性剪接和可变剪接中有多种作用,可以识别并结合e s e 或i s e , 提高相邻剪接位点的活性。h n r n p 蛋白是一组由多种r n a 结合蛋白组成的具有多种功能的多 肽家族,其成员带有多种不同形式的r n a 结合基序和富含甘氨酸的结构域,影响m r n a 的剪 接、出核转运、翻译、r n a 定位和降解1 3 3 j 。s r 蛋白和h n r n p 蛋白在剪接位点选择中的拮抗作 用是造成多种可变剪接的原因之一【3 4 1 。 图1 2 可变剪接剪接调控示意图。空心盒子代表外显子,锯齿状曲线代表内含子,括弧表示 剪接位点。剪接位点的一致模体用p i c t o g r a m 表示,腺苷分支点在图中也被标出。虚 线代表是否包含中间外显子的两种剪接途径。剪接受顺式调控元件( 外显子增强子, 外显子沉默子,内含子增强子,内含子沉默子) 和剪接因子( s r 蛋白,核不均一r n p ) 的调控。 f i g1 2a s c h e m a t i co fr e g u l a t e da l t e m a t i v es p l i c i n g ( o p e nb o x e s ) e x o n s ,o a g g e dl i n e s ) i n t r o n s , ( b r a c k e t s ) s p l i c es i t e s ( s s ) t h ec o n s e n s u sm o t i f so fs sa r es h o w ni np i c t o g r a m ,a n dt h e b r a n c hp o i n ta d e n o s i n ei si n d i c a t e d ( d a s h e dl i n e s ) t w oa l t e r n a t i v es p l i c i n gp a t h w a y s , w i t ht h em i d d l ee x o ne i t h e ri n c l u d e do re x c l u d e d s p l i c i n gi sr e g u l a t e db yc i s e l e m e n t s ( e s e ,e s s ,i s s ,a n di s e ) a n dt r a n s - a c t i n gs p l i c i n gf a c t o r s ( s rp r o t e i n s ,b n r n p ,a n d u n k n o w nf a c t o r s ) 1 9 1 1 3 可变剪接的模式和功能 尽管可变剪接是后基因组时代研究的热点之一,每年世界各大期刊发表大量的相关文章, 但导致可变剪接的精确机制还没有研究透彻。可变剪接的过程通过连接同一基因的不同外显 子,形成不同的成熟信使r n a 。相对于可变剪接,组成性剪接可定义为:如果某一个剪接模 式始终是不变的,则称之为组成性剪接。从基因结构观点考虑,相对组成性剪接,可变剪接 内蒙古大学硕士学位论文 人类基因组中选择性剪接位点的预测及序列特征分析 模式主要包括以下五种基本形式【3 5 1 【3 6 1 ( 见图1 3 ) : 簟 龇蜘y 磐?柚嗽3 嘤瘿l a m a 埔t m i a a _ _ ;二二二每_ ;二;h i 冒i i i _ 嘲一_ 曩,一_ = :l 瞳_ l l 豳_ p 一 、,、,_ 。、 = = 毛每争= 苓笔扣予二专争一= 鼍净谗季一 图1 3 选择性剪接模式黑色和灰色分别表示组成性外显子和选择性剪接区域。实线表示内含 子,虚线表示剪接行为 f i g1 3t y p e so fa l t e r n a t i v es p l i c i n g c o n s t i t u t i v ee x o n sa n da l t e r n a t i v es p l i c e dr e g i o n sa r es h o w n i nb l a c ka n dg r a y ,r e s p e c t i v e l y ;i n t r o n sa r er e p r e s e n t e db ys o l i dl i n e s ,a n dd a s h e dl i n e si n d i c a t e s p l i c i n ga c t i v i t i e s 1 选择性5 剪接位点( a l t e r n a t i v e5 s p l i c es i t e s ) :不同的剪接过程选择不同的57 剪接位点( 供 体位点) ,即内含子的57 剪接位点在变化,从而导致外显子被延长或截短; 2 选择性37 剪接位点( a l t e r n a t i v e3 s p l i c es i t e s ) :与上一种情况类似,这种可变剪接模式是 选择不同的3 剪接位点( 受体位点) ,即内含子的3 剪接位点在变化; 3 内含子保留( i n t r o nr e t e n t i o n ) :在部分剪接过程中某个内含子未被切除,而当做基因的 编码区出现在最终的剪接产物中; 4 盒式外显子( e x o ns k i p p i n g ) :在部分剪接过程中一个外显子连同它两翼的内含子一起当 做一个内含子序列被切除,从而使得该外显子不被表达; 5 互斥外显子( m u t u a l l ye x c l u s i v ee x o n s ) :两个外显子分别在不同的剪接产物中存在,每 个剪接产物必须包括,且只包括其中一个外显子。 此外,可变剪接包括发生在5 非翻译区和3 q 翻译区的可变剪接( 见图1 4 ) ,以及多个 可变剪接模式的组合【3 7 j 。 。,_ _ r 1 盂i 二咽 二王k 二j 二二、 图1 45 7 和3 7 非翻译区可变剪接。 f i g1 45 a n dy u t r sa l t e r n a t i v es p l i c i n g 6 内蒙古大学硕士学位论文 人类基因组中选择性剪接位点的预测及序列特征分析 由于识别剪接位点的噪声数据和识别方法的局限性,在识别和描述上有很大的难点,实 验和理论的数据又很有限,导致目前还没有很好的生物信息学研究方法和大量的相关阅读文 献,供专门的研究分析 3 7 3 8 1 。 可变剪接扩大了真核生物基因组的蛋白质编码能力,l e w i s 等人的统计表明大部分的可 变剪接产生早熟的密码子,是n m d ( n o n s e n s e m e d i a t e dm r n ad e c a y ) 监控机制的目标,但是这 部分基因同时也是靠这种受n m d 制约的可变剪接来发挥调节其他蛋白表达的功能,说明这 是一种有意义的调节方式1 3 9 。可变剪接对其蛋白质的影响可能是改变开放阅读框架,导致具 有不同的功能区域,从而具有不同的特性,甚至是对抗的性质。即使氨基酸序列只有很小的 差异,也会落在关键的活性位点上,打开或关闭某种关键的特性。如作为电压门空通道定位 在轴突的n 型钙离子通道,在脊椎动物神经系统中发挥调节神经递质释放的重要作用,它的 功能中心亚基具有一个很小的外显子盒,使其可变剪接形式的产物之间只相差两个氨基酸 e t ,具有这个e t 片段的亚型具有较慢的活性作用动力学特点,而这个e t 片段被定位在胞 外l o o p 斟4 0 。b o u e 等建议利用蛋白质序列、结构数据,分析a s 对蛋白产物的影响,利用相 似性,或基于序列从头预测的蛋白质功能的预测方法,预测产物在功能域和结构上的改变, 从而预测a s 结构上的功能。 可变剪接具有发育阶段性、组织特异性等特征1 4 1 4 2 1 ,在系统发育、分化和癌变等过程中 发挥着非常重要的作用。可变剪接多发生在参与信号传导和表达调节等复杂过程的基因以及 免疫和神经系统中【4 3 1 1 4 4 ,如人类脑细胞比其他组织更容易发生可变剪接【4 5 】【4 6 1 1 4 7 。 可变剪接在发育、分化和癌症等过程中发挥着非常重要的作用。近年来,越来越多的研 究表明可变剪接与癌症有着密切的关系,由基因突变引起的疾病中约1 5 与错误的可变剪接 调控有关 1 4 0 1 4 6 】【4 8 1 。剪接位点的变异可能导致异常剪接,而m r n a 剪接中的缺陷是导致疾 病的重要原 天:1 1 4 9 1 1 5 0 】【5 1 1 【5 2 1 。肿瘤抑制因子基因的内含子剪接位点经常引起外显子的丢失【5 3 1 。例 如,h s n f 5 基因中在5 端位点发生g t 到a t 的转变时,会导致第七外显子缺失,缩短开放阅 读框架,当选择第二剪接位点时,会引发婴儿脑肿瘤;当3 端发生a g 到a t 突变时,会导致 a p c 基因的第四外显子缺失【5 4 】;在m l h l 基因中,3 端位点上游内含子碱基的突变会导致蛋 白质缩短,从而引起直肠癌【5 5 】。不适当的产生剪接信号也会改变剪接位点的选择,例如,碱 基a a 到a g 的突变,在b r c a lm r n a 中产生了一个潜在的3 剪接位点,从而在乳腺癌家 族中产生了一个缩短的蛋白剧5 6 】。转录因子也与可变剪接有密切关系,例如,n r s f 转录沉 默因子会导致小细胞肺癌中产生一个被截短的蛋白质【5 7 1 ;男性荷尔蒙受体转录因子会导致阅 读框架内的第三外显子缺失的可变剪接,引起d n a 编码框架内的3 6 氨基酸缺失,这样的剪 7 内蒙古大学硕士学位论文 人类基因组中选择性剪接位点的预测及序列特征分析 接形式在8 种乳腺癌细胞中被检出,而在5 个正常的乳腺细胞中未被检出【5 s l 。尽管已经发现 可变剪接与癌症有密切关系,但可变剪接在癌症治疗的临床应用才刚刚开始。 从进化的角度来看,可变剪接是主要的进化驱动力之一【5 9 1 。单拷贝基因在进化过程中更 易形成可变剪接形式,可变剪接的数量与基因家族的大小成负相关唧l 。最近的一些报道显示, 可变剪接加快了外显子的进化速度,它与外显子的产生和丢失有密切相关【5 9 1 ,外显子重排是 新基因产生的重要途径,重排过程中由于内含子的外显子化会产生许多新外显子,而这些新 外显子多数是低表达水平的可变外显子1 6 l 】。 a l u 序列是哺乳动物包括人类基因组中含量最丰富的一种中度重复序列,在单倍体人类 基因组中重复达3 0 0 ,0 0 0 - 5 0 0 ,0 0 0 次,约占人基因组的3 6 。a l u 序列的每个成员长度约 3 0 0 b p ,属于短分散片段( s i n e s ) ,由于每个长度中有一个限制性内切酶a l u 的切点,从而将 其切成1 3 0 和1 7 0 b p 的两段,因而命名为a l u 序列。a l u 序列主要分布在内含子中,但在成 熟m r n a 的编码区也发现了少量的a l u 序列,这些序列由于内部存在潜在的剪接位点而被外 显子化 6 2 1 6 3 1 。通过比较人类基因组的c d n a 和e s t s 数据库发现,多于5 的可变剪接外显子 来源于m u 序列,所有包含a l u 序列的外显子都参与可变剪接f 6 3 1 。 1 4 可变剪接的实验和理论探测方法 1 4 1 可变剪接的实验探测方法 大规模的基因组测序、高通量的表达序列e s t s 、c d n a 测序使得在基因组范围内研究可 变剪接成为可能。目前主要利用两种方法探测可变剪接:( 1 ) l l 对已有的大量e s t s 、m r n a 、 c d n a 序列确认可变剪接事伊1 6 l 【删【6 5 】;( 2 ) 利用m i c m a r r a y s 等高通量技术识别可变剪接事件鲫。 表达序列标签是从c d n a 文库中生成的一些很短的序y i j ( 3 0 0 - 5 0 0 b p ) ,现在g e n b a n k 中人 类e s t s 序列已超过3 0 0 万条,覆盖了全部人类基因的9 0 以上,它们代表在特定组织和发 育阶段表达的基因,是寻找新基因、了解基因在基因组中的定位及其精细结构、m r n a 可变 剪接等研究的重要依据和基础。e s t s 主要应用于新基因克隆、基因组图谱绘制、基因组序列 编码区的确定等方面。由于一个基因m r n a 剪接位点不同,可获得多个c d n a 克隆,因此 e s t s 既可能对应于一个c d n a 的某一部分,又可能代表m r n a 的不同剪接方式。通过比对 基因组序列和e s t s 序列,可以发现一些可能的可变剪接位点。e s t s 能够提供丰富的转录信 息,但仍存在一些内在问题影响可变剪接的识别,导致一些可变剪接没有被探测到,低估了 8 内蒙古大学硕士学位论文人类基因组中选择性剪接位点的预测及序列特征分析 可变剪接的频率,这些问题主要包括: ( 1 ) e s t s 数据具有偏向性,e s t s 通常从3 、5 端测序,两端的信息较丰富而覆盖中间区域的 信息较稀疏,导致发生在中间区域的可变剪接事件在e s t s 的比对中可能看不到。 ( 2 ) e s t s 测序的平均质量不高,因为早期高通量e s t s 测序的主要目的是为了快速发现新基因, 测序质量没有达到目前错误率应低于1 的标准。 ( 3 ) 并非所有e d n a 文库都经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论