




已阅读5页,还剩49页未读, 继续免费阅读
(系统工程专业论文)基于判别分析的植物poly(A)位点识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 植物m r n a 序列中多聚腺苷化位点( 简称p o l y ( a ) 位点) 识别是基因识别的 重要组成部分,在基因组分析中,对p o l y ( a ) 位点的正确识别有助于确定基因编 码的终止位置,对分析基因的转录过程及探索基因表达的调控机制都起着十分重 要的作用。大量的研究人员已经对不同生物的p o l y ( a ) 位点识别问题进行了研究, 但由于植物的p o l y ( a ) 位点表现出分散性、多样性以及复杂性的特点,所以在植 物m r n a 序列中关于p o l y ( a ) 位点选择的理解仍十分有限。 判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统 计学方法。逐步判别分析是对进入判别模型的特征根据对判别贡献的大小进行逐 步选择,最后根据筛选出的特征建立判别模型。 本文根据拟南芥p o l y ( a ) 位点上下游周围序列顺式作用元件的特征,运用逐 步判别分析的方法来建立p o l y ( a ) 位点的识别模型。对建立模型采用的训练集数 据,使用k - g r a m 核苷酸模式、z 曲线、位置特异性分数矩阵、一阶异构马尔可 夫模型、阶乘矩等方式表示提取的生物特征;首先使用基于信息增益、熵等多种 属性选择算法对特征空间进行初步的筛选,获得若干重要特征。而后对得到的序 列特征的数值编码作为逐步判别分类的输入,针对训练数据建立判别模型。本文 使用建立的判别模型对测试数据进行预测,并对各测试组的预测结果进行分析, 发现逐步判别分类在识别精度上基本取得了令人满意的结果。逐步判别在位点识 别模型的建立过程中可以进一步筛选出对位点预测有显著作用的特征,选择出的 变量更能够反应类间差异,大大减少了新序列测定位点所需抽取的特征量。模型 的训练和测试结果表明,拟南芥p o l y ( a ) 位点的逐步判别模型是一种有效且高性 能的位点预测模型。 关键词:p o l y ( a ) 位点识别;特征提取;逐步判别模型 a b s t r a c t m e s s e n g e rr n a ( m r n a ) p o l y a d e n y l a t i o ni sac r u c i a ls t e pd u r i n gt h em a t u r a t i o n o fm o s te u k a r y o t i cm r n a ,i nw h i c hap o l y a d e n i n e 【p o l y ( a ) 】t r a c ti sa d d e dt ot h e c l e a v e d3 e n do fap r e c u r s o r - m r n a p o s t t r a n s c r i p t i o n a l l y a n dp r e d i c t i n gt h ep o l y ( a ) s i t eo fm r n ae n c o d e db yag e n ew o u l dh e l pt op r e d i c tg e n eb o u n d a r i e s m a n y r e s e a r c h e r sh a v ed o n er e s e a r c ho nt h i sp r o b l e mi nd i f f e r e n ts p e c i e s h o w e v e r , b e c a u s e o fd i v e r s i t ya n dc o m p l e x i t y , p l a n tm r n a p o l y ( a ) s i t es e l e c t i o no n l yg a i nv e r yl i m i t e d u n d e r s t a n d i n g ,a n dt h e r ei sn of o r m a lr e p o r to nt h ep r e d i c t i o no ft h ep o l y ( a ) s i t e s u s i n gac o m p u t e ra l g o r i t h m d i s c r i m i n a n ta n a l y s i si sas t a t i s t i cm e t h o dt op r e d i c tt h et y p eo ft h eo b j e c tb a s e o ni n d i c a t o r so ft h e0 b j e c t s t e p w i s ed i s c r i m i n a n ta n a l y s i si st ob u i l dt h em o d e lb a s e o n s c r e e n i n gc h a r a c t e r , w h i c hi ss e l e c t e df r o mc h a r a c t e r s c o n t r i b u t i o nt o d i s c r i m i n a n t i nt h i st h e s i s ,ib u i l dad i s c r i m i n a n tm o d e lb a s eo nn u c l e o t i d ed i s t r i b u t i n g c h a r a c t e ra r o u n dt h ea r a b i d o p s i sp o l y ( a ) s i t e ig e tt h et r a i n i n gd a t af r o mk g r a m n u c l e o t i d em o d e ,z - c h iv e ,s c o r em a t r i xo fl o c a t i o ns p e c i f i c ,ab a n dh e t e r o g e n e o u s m a r k o vm o d e l ,f a c t o r i a lm o m e n t ,e t c f i r s t l y , is e l e c tt h ec h a r a c t e rs p a c eb a s eo n i n f o r m a t i o ng a i n , e n t r o p ya n dg e tt h ei m p o r t a n tc h a r a c t e r ;t h e nit r a n s l a t et h e c h a r a c t e r si n t od i g i t a la n db u i l dt h em o d e l f i n a l l y ,it e s tm ym o d e lt h r o u g ht e s td a t a a n da n a l y z et h er e s u l t i ti s s a t i s f ya b o u tt h er e c o g n i t i o na c c u r a c yo fs t e p w i s e d i s c r i m i n a n ta n a l y s i s s t e p w i s ed i s c r i m i n a n ta n a l y s i sc a ns e l e c tc h a r a c t e r sw h i c h a r eu s e f u lt op r e d i c tp o l y ( a ) s i t e ,f i n dd i f f e r e n c eo fv a r i a b l e s ,g r a d u a l l yr e d u c et h e c h a r a c t e rt op r e d i c tp o l y ( h ) s i t e t h er e s u l to ft r a i n i n ga n dt e s ts h o wt h a ts t e p w i s e d i s c r i m i n a n t a n a l y s i so f a r a b i d o p s i sp o l y ( a ) s i t ei sf e a s i b l ea n de f f e c t i v e k e yw o r d s :p o l y ( a ) s i t ei d e n t i f i c a t i o n ;f e a t u r ee x t r a c t i o n ;s t e p w i s ed i s c r i m i n a n t m o d e l 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :弘7 参修 7 年多月加e l 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( ( 请在以上相应括号内打“4 ) 作者签名: 导师签名: 矽。库6 月加日 渺产汨萄日 第一章绪论 1 。1 前言 第一章绪论 近年来人类基因组计划和水稻基因组计划等大型国际合作研究项目的实施, 使人类在生命科学领域尤其是核酸和蛋白质等生物大分子的序列、结构与功能等 方面迅速积累了大量的数据和信息。迄今为止,已有一万多种蛋白质的空间结构 以不同的分辨率被测定。基于互补d n a 序列测序所建立起来e s t 数据库其记录已 达数百万条。在这些数据基础上派生、整理出来的数据库已达5 0 0 余个。这一切 构成了一个生物学数据的海洋。这种科学数据的急速和海量积累,在人类的科学 研究历史中是空前的。数据并不等于信息和知识,但却是信息和知识的源泉,如 何处理、分析、解释和利用这些数据是一个迫切需要解决的问题。同时与正在以 指数方式增长的生物学数据相比,人类相关知识的增长却十分缓慢。这构成了一 个极大的矛盾,由此催生了一门新兴的交叉学科生物信息学【1 ,2 ,3 1 。生物信息 学是生物学与计算机科学以及应用数学等学科相互交叉而形成的- - 1 7 边缘学科。 它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据 所蕴含的生物学意义的目的。 生物信息学是内涵非常丰富的学科,其核心是基因组信息学,它希望通过对 d n a 、r n a 和蛋白质的研究,分析生物序列中的结构、功能、进化,以及生物 序列间的关系。生物信息学研究所要达到的目标主要包括: l 识别出基因的精确外显子一内含子结构,以及对各部分的认识,识别和搜 索,其中包括一些控制信号,例如p r o m o t e r ,e n h a n c e r 等。 2 从氨基酸的序列预测蛋白质的高级结构( - - 级和三级) 。 3 了解基因表达的调控机理及对其功能的研究和分析。 其中了解基因表达的调控机理是生物信息学的重要内容,根据生物分子在基 因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示基 因组信息结构的复杂性及遗传语言的根本规律。近来的研究表明,基因组不仅是 基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化 过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织 基于判别分析的植物p l o y ( h ) 位点识别研究 结构和信息结构,是解释生命的遗传语言的关键。 基因表达的第一步是从d n a 上的遗传密码转录成信使r n a ( m r n a ) ,转录的 启动是基因表达的一个主要调控点,而转录后水平的调控在整个基因的表达调控 网络中也处于非常重要的地位。真核生物中,成熟的有功能的m r n a 要经过原 初转录本( p r e m r n a ) 5 帽子的形成、内含子的剪切及3 末端的加工才能形成。而 关于3 末端的加工包括两个过程,加工首先在3 非编码区内某一特定的多聚腺苷 化位点( 简称p o l y ( a ) 位点) 处切割,产生断裂,随后在断裂末端进行多聚腺苷 化。多聚腺苷化后的成熟的m r n a 才能保证被运送到细胞质中进入核糖体被翻 译,同时,多聚腺苷化对m r n a 的稳定性有很大影响。多聚腺苷化有两个主要 的问题,一是由在p r e m r n a 的3 - u t r 区的一组特定的信号来决定哪里是p o l y ( a ) 位点,这一信号是由基因组信息所决定。另一个是由一组蛋白质与酶来识别这些 信号,然后在p o l y ( a ) 位点上切割,加上一大串腺嘌呤( a d e n i n e ) 。这篇论文主要 是研究如何在植物m r n a 序列中识别p o l y ( a ) 位点的问题。 1 2 一些相关的生物学方面的基础知识 1 2 1 遗传物质 遗传是物种延续和进化的前提,携带了遗传信息,生命体才能按照指令正确 地生长、发育并维持其自身结构和功能,并且把这种遗传信息从亲代传递给子代。 基因是遗传的基本单位,现代分子生物学研究已经证实d n a 是遗传物质的主要 载体,每个基因都是由代表一种特殊蛋白质信息的d n a 序列组成的。几乎所有 生物的遗传物质都是d n a ,只有少数噬菌体、植物病毒和动物病毒的遗传物质 是r n a ( r i b o n u c l e i ca c i d ,核糖核酸) 。生物体的形态是生物体所具备的全部基因 及其发育环境相互作用结果,而当d n a 序列发生变化而引起表型改变时,就揭 示了基因对生物体的影响。 2 第一章绪论 生物可以分成两大类一一原核生物和真核生物。原核生物( p r o k a r y o t e ) 是单 个细胞,其遗传物质分布在整个细胞中。真核生物( e u k a r y o t e ) 中,遗传物质被 组织在细胞核这个轮廓分明的结构部分中,在细胞分裂前及准备细胞分裂时, d n a 被暂时组织成一种紧密结构,称为染色体( c h r o m o s o m e ) 。d n a 是染色体 中最重要的组成部分,它是一种很长的多聚体,叫多核苷酸( p o l y n u c l e o t i d e ) 。核 苷酸由核糖、磷酸基团及碱基( b a s e ) 三部分 组成。如图1 1 所示,碱基是腺嘌呤( a d e n i n e , a ) 、鸟嘌呤( g u a n i n e ,g ) 、胞嘧啶( c y t o s i n e , c ) 、胸腺嘧啶( t h y m i n e ,d 中的一种。 a t c g 在结构上是以成对的方式存在的,a 叟 菱 只与t 配对,c 只与g 配对,反之亦然。因鋈 五 此,通常称d n a 序列中的一个字符为一个重 量 碱基对( b a s ep a i r , b p ) ,以此作为d n a 序列善 的长度单位,例如人类基因组大约共有3 0 舌 亿个碱基对。核苷酸之间相互由磷酸二酯键 连接起来成为长链的d n a 分子。位于核酸 链一端的末端核苷酸有一个游离的磷酸( 5 端) ,另一端的末端核苷酸有一个游离的羟 基( 3 端) 。生物学上对多核苷酸序列的记录 、n i h 图1 1 核苷酸结构 及四种碱基的配对 通常按照从5 端到3 端的顺序进行,例如5 a t g g t c a a c t g 3 。 w a t s o n c r i c k 提出的d n a 双螺旋( d o u b l e h e l i x ) 结构模型吲为遗传信息传 递奠定了物质结构基础。对于d n a 的结构来说,w a t s o n 和c r i c k 模型的重要特 点是:d n a 分子( 通常) 并不是一条多核苷酸链,而是两条。这两条链以双螺 旋的方式彼此缠绕在一起,就像拧在一起的两股绳子一样,如图1 2 所示: 3 爱占92iq曼壁昔dsoidk口a了 h 、 拜 耋魏绷纱 , o删勿攀o删。窜。,秘 堪卜判别分析的植物p l o y ( a ) 位点识) ;q t i j f ) 4 图1 2d n a 的双螺旋结构 图片来源:m o i s e sb u r s e t ,r o d e r i cg u i g o e v a l u a t i o no fg e n es t r u c t u r ep r e d i c t i o np r o g r a m s g e n o m i c s i9 9 6 - 3 4 ( 3 ) :3 5 3 3 6 7 卜图中,两条d n a 单链上的碱基互补形成双螺旋结构,一条链的3 端到5 端对应于另一条链的5 端到3 端。右图为双螺旋的分子结构图。 每条链的基本骨架是交替的糖一磷酸基团,两条链的极性是相反的,也就是 沈,一条链上的原子序列与另一条相反。因此,一条链对另条链来讲是倒置的, 也叫反向平行。碱基排列跟基本骨架成直角,并伸入分子中央。条链上的碱基 总是跟另一条链上同一水平的碱基配对。因此,两条链沿其全长通过碱基对之i 0 j 的氢键结合在一起。其全部结构就像是沿着轴心旋转的绳梯一样,边上的绳子相 当于糖一磷酸的基本骨架;梯级相当于配对的碱基。 双螺旋分子两条链的严格互补性,是指一条链的核苷酸顺序,无例外地取决 于另一条链。每条d n a 链都能作为模板,以合成一条准确地限定核苷酸顺序的 新链。图1 3 显示的d n a 复制( d n ar e p l i c a t i o n ) 机理,即根据互补规则,解释 d n a 的两条链如何指导互补链的合成,从而产生两个与亲本d n a 相同的分子 的。图的下部表示亲代双链体,上部表示正在互补的碱基配对产生的两个子代双 链体。亲代的两条链已经分开,因此每条链都能作为互补合成的模板,每一个子 代双链体在序列上与原先的亲代完全相同,而且含有一条亲代链和一条新合成的 链。细胞的每一次分裂都会产生一个完整的基因组拷贝,这是遗传信息从一个细 第一章绪论 胞传递到其它新生细胞的基础。 图1 3d n a 的复制 作为遗传物质,d n a 具有如下特性: ( 1 ) 储存遗传信息和在需要时将遗传信息传递给细胞的能力。 ( 2 ) 把遗传信息以最小的错误率传递给子代的能力。 ( 3 ) 具有物理的和化学的稳定性,从而不会丧失信息。 ( 4 ) 具有遗传变异的能力,而又不会使亲代丧失较多的信息。 r n a 是一种生物化学上欠稳定的较小分子,其核苷酸的数目很少超过几千 个,而一般d n a 中则约达几百万个。在组分上,r n a 具有的是核糖,而d n a 对应所含的是脱氧核糖;r n a 含有尿嘧啶( u r a c i l ,u ) 而不是胸腺嘧啶( d ,且 u 与a 配对。r n a 是单链结构,是一种具有高度转换速率的多核苷酸,能暂时 与核蛋白体结合;它在结构基因d n a 上合成并反映该d n a 的碱基编码。 r n a 主要在蛋白质合成中起作用,它的一项重要功能是充当信使,将遗传 信息( 来自d n a 编码的指令) 传递到细胞中蛋白质合成的核糖体部位上。这种 形式的r n a 称为信使r n a ( m e s s e n g e rr n a ,m r n a ) 。信使r n a 在所有的活细 胞中有着确定的目标:通过遗传密码转译成蛋白质。核糖体含有一类特殊的r n a 称为核糖体r n a ( r i b o s o m a lr n a ,r r n a ) ,构成大部分细胞内的r n a 。第三类 基于判别分析的植物p l o y ( a ) 位点识别研究 r n a 称为转运r n a ( t r a n s f e rr n a ,t r n a ) ,连在氨基酸( a m i n oa c i d ) 上,在蛋白 质合成过程中,t r n a 用m r n a 复合物作为模板,携带氨基酸到相对其他氨基酸 正确的位置上。 所有的细胞r n a 分子是通过转录( t r a n s c r i p t i o n ) 由d n a 模板合成的,合成 后的r n a 分子转运到细胞质中,在那里决定蛋白质中氨基酸的顺序。蛋白质通 过翻译( t r a n s l a t i o n ) 过程,由m r n a 模板合成。这种从d n a 到蛋白质的遗传信 息的传递途径,连同d n a 的复制机制,通常被统称为分子生物学的中心法则 ( c e n t r a ld o g m a o fm o l e c u l a rb i o l o g y ) 5 1 ( 图1 4 ) 。 _ 。_ 一 麓塑遂_ 1 2 2 遗传密码 图1 4 分子生物学中心法则 箭头表示遗传信息的传递方向 中心法则最核心的内容是遗传信息从由4 个字母组成的d n a 链传递给由2 0 个氨基酸语言组成的多肽( p o l y p e p t i d e ) 链,所以必须有某种碱基的组合以对应 特定的氨基酸,即每3 个核苷酸对应一个氨基酸。这种核苷酸三联体与氨基酸之 间的对应关系就是遗传密码( g e n e t i cc o d e ) 【5 1 ,而相应的核苷酸三联体被称为密 6 第一章绪论 码子( c o n d o n ) ,基因即由密码子组成。 核昔酸三联体可能的排列有6 4 种( 4 x4 x4 ) ,因而共有6 4 个密码子。其中, 6 1 个密码子编码2 0 种氨基酸( 不同密码子可编码同一氨基酸,具体见表1 1 ) , 其余3 个( i ,a a 、u g a 和u a g ) 密码子并不编码任何氨基酸,而是起着终止肽 键合成的作用,称为终止密码子。翻译过程起始于m r n a 的起始密码子( 通常 是a u g ) ,随后是编码氨基酸序列的密码子,最后以至少一个m r n a 的终止密 码子结束。 表1 1m r n a 的密码子 第二个字母 uc a g u u u 苯丙氨酸u c u 丝氨酸u a u 酪氨酸u g u 半胱氨酸 u u u c 苯丙氨酸u c c 丝氨酸u a c 酪氨酸u g c 半胱氨酸 c u u u a 亮氨酸u c a 丝氨酸u a a 终止u g a 终止 a u u g 亮氨酸 u c g 丝氨酸u a g 终止u g g 色氨酸g c u u 亮氨酸c c u 脯氨酸c a u 组氨酸c g u 精氨酸 u c c u c 亮氨酸c c c 脯氨酸c a c 组氨酸c g c 精氨酸 c 第 c u a 亮氨酸 c c a 脯氨酸 c a a 谷氨酰胺 c g a 精氨酸 a第 个 c u g 亮氨酸c c g 脯氨酸c a g 谷氨酰胺c g g 精氨酸 g 个 字 a u u 异亮氨酸a c u 苏氨酸a a u 天冬酰胺a g u 丝氨酸 u 字 母 a u c 异亮氨酸a c c 苏氨酸a a c 天冬酰胺 a g c 丝氨酸c 母 a a u a 异亮氨酸 a c a 苏氨酸 a a a 赖氨酸a g a 精氨酸a a u g 甲硫氨酸a c g 苏氨酸a a g 赖氨酸a g g 精氨酸 g g u u 缬氨酸g c u 丙氨酸g a u 天冬氨酸g g u 甘氨酸 u g u c 缬氨酸 g c c 丙氨酸 g a c 天冬氨酸 g g c 甘氨酸c g g u a 缬氨酸 g c a 丙氨酸g a a 谷氨酸g g a 甘氨酸a g u g 缬氨酸g c g 丙氨酸 g a g 谷氨酸g g g 甘氨酸g 起始密码子a u g 及其对应的氨基酸用斜体表示。三个终止或无义密码子 u a a 、u a g 和u g a 用黑体表示。 1 2 3 基因的结构及表达 化学组成上,基因是一段具有特定结构与功能的连续d n a 序列;结构上, 基因由多个不同的区域组成。一般来说,真核生物的基因组比较大,但基因的密 度小,而原核生物的基因组较小,基因之间只有很小的间隔或几乎没有间隔。但 7 j - 燕- p 笋l y j l l 3 , ) 析的植物p l o y ( a ) 位点识别研究 无论是原核基因还足真核基凶,都叮划分为编码区和非编码区两个基本组成部 分。编码区是可以被转录的区域,e 自外显子( e x o n ,编码蛋白质,包含密码子) 、 内含子( i n t r o n ,不编码蛋白质,原核基因无内含子) 、5 端非翻泽区( 5 u n t r a n s l a t e dr e g i o n ,5 一u t r ) 和3 端tl ei l l l 译区( 3 u n t r a n s l a t e dr e g i o n ,3 - u t r ) 构 成。非编码区则位于转录区以外,包含基因调控序列。典型的真核基因的基本结 构如图1 5 所示。 糠为r n a 童舱点。于舯r 一 转录为的起点一。j 。之p o 颐a ) 位点一 童上一主。 雳餐麓溺鬣黼溺簇溺辫绻戮麟 5 u w t 3 。町鼬 i 启动子+ 卜一转录区一终止子一i i 一基因t 一 基因的表达过程与其结构密切相关。转录是基因表达的第一个阶段,它由 d n a 模板链借助r n a 多聚酶生成m r n a 前体( p r e m r n a ) 。剪切( s p l i c i n g ) 和 多聚腺苷化是第二个阶段。经过剪切,可以将p r e m r n a 中的内含子序列移去, 同时在5 端d hi - - _ 甲基化鸟嘌呤帽子( c a p p i n g ) 。多聚腺苷化是指在p r e m r n a3 末端,通过r n a 内切酶的作用,在特定的位点上切割掉一部分以形成新的末端, 同时一串腺嘌呤核苷酸,称为多聚a 尾巴( p o l y ( a ) t a i l ) 被添加到3 末端,这样 才能形成成熟的r n a 。具体的步骤如图1 6 所示,其中箭头u 处表示相应的 p o l y ( a ) 位点。 8 第一嚣绪沦 p r e m r n a 5 u t re x o n li n w o ne x o n 23 u t r 。p o l y a d e n y l a t i o n 毒 墨霪窀墨乏翟盔z 置_ a a a a a a a a m a t u r em r n a 图1 6 真核生物的m r n a 前体处理过程( 重点为3 末端的处理) 多聚腺苷化后的成熟的m r n a 才能保证被运送到细胞质中进入核糖体,然 后被翻译成相应的蛋白质一一基因表达的第三个阶段。因此,多聚腺苷化是基因 表达过程中的一个关键步骤,对其位点的特征提取和识别也成为本文的研究重 点。 基因的结构、表达和调控都是非常复杂的,本节仅简要介绍了与本文相关的 一些分子生物学基础知识,目的是为后文的阐述建立必要的生物学基础。 1 3p o l y ( a ) 位点识别研究的意义 真核生物中,转录与翻译在时间和空间上分丌进行。虽然转录过程的调控是 基因表达调控中最重要的一环,但是转录后水平的调节对基因的表达调控也是十 分重要的。初始转录的p r e ,m r n a 需要经过转录后的加工修饰才能成为有功能的 m r n a 。对m r n a 的5 非翻译区( 5 - u n t r a n s l a t e dr e g i o n ,5 - u t r ) 内的有关顺式 作用元件一直研究颇多,而对y - u t r 的研究却相对较少。近几年来,真核m r n a 的y - u t r 在基因表达调控中的作用越来越受到重视。现己了解,3 - u t r 不仅 9 基于判别分析的植物p i o y ( a ) 位点识别研究 调控m r n a 的体内稳定性及降解速率,控制其利用效率,协助辨认特殊密码子; 而且还决定m r n a 的翻译位点及控制其翻译效率。对3 - u t r 一级结构的分析和 数据积累有助于尚处起步阶段的3 - u t r 序列二级结构的解析,从而更深刻地理 解非编码区的调控特征。 有关y - u t r 顺式作用元件的数据挖掘研究,已提供了大量的研究线索。对 具有p o l y ( a ) e s t 数据集的挖掘,可鉴别出3 末端的顺式作用元件,发现和总结 出它们的序列特征。在对y - u t r 区域的分析和研究领域中,p o l y ( a ) 位点的识别 一直是一个饶有趣味并富有挑战性的课题。它的主要任务是从未知的m r n a 序 列中确定p o l y ( a ) 位点存在的位置。这在基因组分析中有重要的应用意义,对 p o l y ( a ) 位点的正确识别有助于我i f 笋u 断基因编码的终止位置。同时对p o l y ( a ) 位 点的识别研究不仅可以帮助我们理解和挖掘3 - u t r 内的有关调控序列及其功 能,而且对于人们对转录过程的理解与分析以及探索理解基因表达的调控机理都 起着十分重要的作用。 1 4 植物p o l y ( a ) 位点识别的现状 目前辨识p o l y ( a ) 位点的机制完全依赖于对恰好带有p o l y ( a ) 尾巴的表达序列 标签( e x p r e s s e ds e q u e n c et a g s ,e s t s ) 的识别。然而,由于表达方式的不同及e s t 数据的不完整性,许多p o l y ( a ) 位点无法被明确地辨识出来,甚至在许多情况下 被错误标识。在农业作物中尤其如此,因为其可获的e s t 数据十分有限。 m r n a3 - u t r 的处理过程包含两个主要构件。第一个构件是顺式元件 括e l e m e m s ) ,位于m r n a 前体3 u t r 序列内。另一个构件是转录因子,它辨认 顺式元件,并在p o l y ( a ) 位点处剪切1 1 1 矾a 前体并加入p o l y ( a ) 尾巴【6 1 。 顺式元件 作为辨识并决定p o l y ( a ) 位点的选择机制的特征信号,由蛋白质转录因子来辨认1 6 , 7 1 。因此,如果掌握t p o l y ( a ) 信号特征,就可以准确地辨识出p o l y ( a ) 位点,也即 剪切位点。 有关p o l y ( a ) 顺式作用元件的数据挖掘研究,文献已提供了大量的研究线索。 这些基本上是对具有p o l y ( a ) e s t 数据集的挖掘,由此鉴别出3 - u t r 的顺式作用 元件,发现和总结出它们的序列特征【8 9 1 。目前对3 - u t r 采用的计算机辅助分析 1 0 第一章绪论 方法主要有对碱基字符串的出现频率进行显著性分析、对位置分布特征的鉴别和 组成序列的比对等【8 ,9 ,1 0 1 。涉及的模型包括统计学模型、分类数学模型和马尔可 夫模型等。 动物基因的p o l y ( a ) 位点的信号特征比较保守( c o n s e r v e d ) ,尤其在哺乳动物 中,六联子序列( h e x a m e re l e m e n t ) a a u a a a 所占比例高达8 0 【8 】。而植物基因 的p o l y ( a ) 位点具有分散性、多样性及复杂性的特点,位置并非像动物那样固定 不变,其顺式元件保守性( c o n s e r v a t i o n ) 差,最佳的特征序列a a u 丸认也仅占 到总数的1 0 左右【1 1 1 。同时,动物基因转录本中一般只有一个p o l y ( a ) 位点,而植 物中则普遍存在着多位点现象【1 2 1 ,如烟草中一个编码叶绿体m r n a 结合蛋白的基 因中竟发现了1 4 个不同的3 加工位点。因此至今为止,在p o l y ( a ) 位点的计算机识 别方面,国内外的相关文献其绝大多数都是针对动物基因的位点进行研究,其识 别一般可以得到比较高的准确率;而对于植物的p o l y ( a ) 位点,目前只有本课题 组发表了一篇正式文献报道【1 5 】。 对植物p o l y ( a ) 位点信号及特征的信息匮乏已成为两个领域一一农业作物基 因组分析以及对作物基因的注释以及作物遗传学工程上转基因的精确设计一一 发展的瓶颈。因此,本文针对上述植物p o l y ( a ) 位点识别问题展开研究,研究内 容和采用的方法如下文所述。 綦1 :n n s ) - 析的植物p l o y ( a ) 位点识别研究 1 5 本文的研究内容和采用的方法 图1 7 基于判别分析的植物p o l y ( a ) 位点识别的整体研究框架 基于判别分类的位点识别的基本原理是根据某个特定位点上下游的碱基分 布特征判定该位点是否是p o l y ( a ) 位点。对于原始的基因数据库,给定的通常为 长序列,为了预测出长序列中的p o l y ( a ) 位点,使用固定长度的滑动窗口扫描序 列,对序列的每个位点,根据其上下游的碱基分布提取出一组特征。因此,在使 用判别算法进行分类之前,首先必须将长序列切割成多个窗口序列,将原始基因 数据库转化为窗口序列数据库。 基于判别分类的位点识别过程包括训练和测试两个步骤,为此,窗口序列数 第一章绪论 据库必须分为训练数据库和测试数据库两个部分。为使位点识别模型能适应不同 的序列,训练的数据集使用了多种序列的集合,而为了预测模型对不同序列的预 测效果,测试数据集也采用了多种不同的序列。 对于训练数据库中的任何一条给定的窗口序列,通过特征提取将序列向量化 表示,转化为特征数据库。这里的特征包括阶乘矩值、n u e 六联子权重、k g r a m 核苷酸模式、z 曲线分量及偏差量、基于p s s m 的c i s 分值以及基于一阶异构马 尔科夫模型的概率。对应上述不同的特征,都有不同的特征提取算法。通过特征 提取过程,训练数据库就转化为对应的训练特征数据库。 首先通过训练过程得到判别模型。对数字化后的序列使用逐步判别算法进行 分类,训练得到判别模型。根据逐步判别模型,我们可以筛选出对位点识别有显 著意义的特征变量。 模型的测试过程:对己转化为窗口序列的测试数据库,根据相应的特征提取 算法,提取出模型筛选出的特征,从而转化为测试特征数据库。再使用训练得到 的判别模型进行位点预测,每个窗1 :3 序列都对应一个分类结果( 是p o l y ( a ) 位点 或不是p o l y ( a ) 位点,模型中用l 和0 表示) 。 对长序列位点的精确定位需将上述窗口序列的结果还原成整条长序列的位 点识别结果,通过计算性能指标s n 、s p 和c c 值进行分析。 1 6 本文的结构 本论文第一章绪论介绍问题的产生背景,该问题在生物学上的重要意义以及 一些必要的生物学方面的基础知识,并对论文的基本内容做整体介绍。 第二章详细介绍植物p o l y ( a ) 位点特征空间的产生,介绍了建立位点识别模 型用到的训练和测试用的数据,阐明了拟南芥p o l y ( a ) 位点周围序列的核苷酸分 布特征以及信号模式,然后进一步介绍了模型采用的特征以及提取这些特征采 用的相应算法。 第三章首先对识别模型采用的判别分析和l o g i s t i c 回归算法进行介绍,然后 详细阐述了根据2 1 个特征建立的全模型和逐步判别分析筛选出的6 个特征建立 的逐步判别模型,以及逐步回归和判别分析相结合建立的判别模型,并对几组不 同的模型对训练样本的回代预测的精度进行了比较。 基于判别分析的植物p l o y ( a ) 位点识另0 研究 第四章对实验结果进行了讨论与分析,首先介绍了结果分析使用到的性能指 标,然后比较测试数据集使用模型预测的结果,然后结合所选择的性能度量指标 进行说明,验证所建立模型的可行性和有效性,并分析各特征对位点识别的影响 大小。 第五章总结了论文所作的主要工作,分析所建立的模型仍存在的一些问题。 提出在模型建立和识别过程中的一些改进建议,供进一步完善识别模型借鉴。 1 4 第二章 植物p o l y ( a 啦点特征空问的产生 第二章植物p o l y ( a ) 位点特征空间的产生 2 1 训练和测试用的数据 训练及大部分的测试数据( 拟南芥基因组序列,a r a b i d o p s i sr e l e a s e5 o ) 从g e n b a n k ( r e l e a s e8 5 0 ,d e c 0 8 ,2 0 0 3 ) 下载,共8 ,1 6 0 条e s t s ( 称为8 k 数据集) 。这些序列长度均为4 0 0 n t ,始于p o l y ( a ) 位点上游3 0 i n t ,结束于位点 下游9 9 n t ,已知的p o l y ( a ) 位点位于每条序列的第3 0 i n t 与第3 0 2 n t 之间( 从左 到右) 。 为使位点识别模型能适应不同的序列,训练的数据集特别是训练的假序列集 使用了多种序列的集合。训练所用的序列均是窗口序列( 长度为1 6 2 n t 的序y d ) : 即使用1 6 2 n t 的滑动窗口,将长序列划分为长度为1 6 2 m 的窗口序列。 训练所用的真序列( p o s i t i v es e q u e n c e s ) 是从8 k 数据集中通过v i t e r b i 1 3 1 算法定 位正确的序列随机抽取一部分,共4 8 7 条。因为模型必须能用于预测长序列( 长 度大于窗口序y d ) 的位点,则对于长序列的真位点旁边的序列有必要将其分类为 假窗口序列,所以- o s l 练所用的假序列集( n e g a t i v es e q u e n c e s ) 包括: 纯随机序y l j ( 1 0 0 条) ; 保持真序列统计特征的一阶马尔可夫序列1 4 1 ( 1 0 0 条) ; 拟南芥的编码区序列( 1 0 0 条) ; 拟南芥内含子序列( 1 0 0 条) ; 拟南芥5 - u t r 序y l j ( 1 0 0 条) ; v i t e r b i 定位3 0 1 位置的序列在3 0 1 位置偏差l o 个位置后截取的窗口序列( 6 0 0 条) ; v i t e r b i 定位3 0 1 位置的序列经过切割1 6 2 n t 后抽取窗口序y d ( 5 0 0 条) 。 为预测模型对不同序列的预测效果,测试集( 完全不与训练集重复) 包括: 1 1 5 条多位点长序列中的3 5 条; 保持拟南芥含位点序列统计特征的一阶马尔可夫序列; 拟南芥的编码区序列; 内含子序列; 1 5 龌于判别分析的植物p l o y ( a ) 位点识别研究 2 2 植物p o l y ( a ) 位点周围序列的碱基分布特征 早期的研究表明植物的p o l y ( a ) 位点具有三个特点:n u e ( n e a ru p s t r e a m e l e m e n t ,近端上游元件) 、f u e ( f a ru p s t r e a me l e m e n t ,远端上游元件) 和多聚腺苷 酸化位剧16 1 。而新近的研究又在多聚腺苷酸化位点的前后发现新的富含碱基u 的区域,称为分裂点元件( c l e a v a g ee l e m e n t 简称c e ) 1 6 】。以拟南芥为例,其 m r n a 多聚腺苷酸化信号模型如图2 。l 所示: 3 u t r 厂人 1 0 0 l y ( ) j 1 r 雹暖圈霸暖翻麟曩瞳曩_ l 目嘲 一 缀型 瞪豳甥嗣曩瞄醑暖糊 l 、 。、。l 、r j l y 溉 n u ec e l c e r 量75 62一s7 矗9 一i - l一- 。 _ l c e 图2 1 :拟南芥m r n a 多聚腺苷酸化信号模型 图片来源:l o k ej c ,s t a h l b e r ge a ,s t r e n s k id g , h a a sb j ,w o o dp c ,l iq q c o m p i l a t i o no fm r n a p o i y a d e n y l a t i o ns i g n a l si na r a b i d o p s i sr e v e a l e dan e ws i g n a le l e m e n ta n dp o t e n t i a ls e c o n d a r ys t r u c t u r e s j p l a n t p h y s i 0 1 2 0 0 5 13 8 :14 5 7 - 14 6 8 根据这个模型,以p o l y ( a ) 位点作为参照位点,n u e 是最保守的信号,其信 号长度大概为6 n t 1 0 n t ,位于p o l y ( a ) 位点上游1 0 n t 到3 0 n t 的位置。这个区域 最保守的序列是a a u a a a ,然而在拟南芥中,这个序列也只占到8 1 0 左右 ( l o k ee ta l ,2 0 0 5 ) 1 6 】。f u e 区域可能分布在一3 0 n t 1 3 0 n t 之间,( p o l y ( a ) 位点的 上游序列标为“一”,而位点的下游序列标为“+ ”) ,信号长度大概为6 - - 9 个核苷酸。c e 分布在c s 位点上游1 0 n t 到下游1 0 n t 的区域间,其信号长度在5 n t 1 6 第二辛 直物p 0 1 5 ( a ) 位点特征窄叫的产生 7 n t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 度环保题材纪录片制作合同
- 2025年浙江省宁波兴宁中学初三暑期阶段性考试化学试题含解析
- 护理安全文化建设
- 焦作市济源市2025届三年级数学第二学期期末教学质量检测试题含解析
- 苏州大学应用技术学院《公共体育2》2023-2024学年第二学期期末试卷
- 河北美术学院《食品毒理分析》2023-2024学年第二学期期末试卷
- 2025年湖南省岳阳市一中下学期高考原创信息试卷生物试题(三)含解析
- 温州市洞头县2025届五下数学期末学业质量监测模拟试题含答案
- 北京体育大学《光纤通信与数字传输》2023-2024学年第一学期期末试卷
- 福建省泉州市永春第二中学2025年高中毕业班第二次诊断性检侧(物理试题理)试题含解析
- 幼儿园紧急避险安全教案
- 沼气发电工艺流程
- 16 有为有不为 公开课一等奖创新教案
- 2025年安康岚皋县岚水流韵文化传媒有限责任公司招聘笔试参考题库附带答案详解
- 2024-2025学年人教版英语七年级下册Unit 5 Here and now Section A Grammar教案
- 2025年全国海洋知识竞赛题库及答案(共200题)
- 洁净风管安装施工方案
- 深圳广东深圳市福田区慢性病防治院招聘工作人员笔试历年典型考点(频考版试卷)附带答案详解版
- 2025年云南曲靖师宗县县属事业单位选调工作人员11人历年高频重点提升(共500题)附带答案详解
- 电商直播运营(初级)营销师-巨量认证考试题(附答案)
- 2025年长庆油田分公司招聘笔试参考题库含答案解析
评论
0/150
提交评论