（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-12 格式：PDF 页数：54 大小：6.97MB 积分：0 举报 版权申诉

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf_第2页

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf_第3页

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf_第4页

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf_第5页

已阅读5页，还剩49页未读，继续免费阅读

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要植物m r n a 序列中多聚腺苷化位点( 简称p o l y ( a ) 位点) 识别是基因识别的重要组成部分，在基因组分析中，对p o l y ( a ) 位点的正确识别有助于确定基因编码的终止位置，对分析基因的转录过程及探索基因表达的调控机制都起着十分重要的作用。大量的研究人员已经对不同生物的p o l y ( a ) 位点识别问题进行了研究，但由于植物的p o l y ( a ) 位点表现出分散性、多样性以及复杂性的特点，所以在植物m r n a 序列中关于p o l y ( a ) 位点选择的理解仍十分有限。判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。逐步判别分析是对进入判别模型的特征根据对判别贡献的大小进行逐步选择，最后根据筛选出的特征建立判别模型。本文根据拟南芥p o l y ( a ) 位点上下游周围序列顺式作用元件的特征，运用逐步判别分析的方法来建立p o l y ( a ) 位点的识别模型。对建立模型采用的训练集数据，使用k - g r a m 核苷酸模式、z 曲线、位置特异性分数矩阵、一阶异构马尔可夫模型、阶乘矩等方式表示提取的生物特征；首先使用基于信息增益、熵等多种属性选择算法对特征空间进行初步的筛选，获得若干重要特征。而后对得到的序列特征的数值编码作为逐步判别分类的输入，针对训练数据建立判别模型。本文使用建立的判别模型对测试数据进行预测，并对各测试组的预测结果进行分析，发现逐步判别分类在识别精度上基本取得了令人满意的结果。逐步判别在位点识别模型的建立过程中可以进一步筛选出对位点预测有显著作用的特征，选择出的变量更能够反应类间差异，大大减少了新序列测定位点所需抽取的特征量。模型的训练和测试结果表明，拟南芥p o l y ( a ) 位点的逐步判别模型是一种有效且高性能的位点预测模型。关键词：p o l y ( a ) 位点识别；特征提取；逐步判别模型 a b s t r a c t m e s s e n g e rr n a ( m r n a ) p o l y a d e n y l a t i o ni sac r u c i a ls t e pd u r i n gt h em a t u r a t i o n o fm o s te u k a r y o t i cm r n a ，i nw h i c hap o l y a d e n i n e 【p o l y ( a ) 】t r a c ti sa d d e dt ot h e c l e a v e d3 e n do fap r e c u r s o r - m r n a p o s t t r a n s c r i p t i o n a l l y a n dp r e d i c t i n gt h ep o l y ( a ) s i t eo fm r n ae n c o d e db yag e n ew o u l dh e l pt op r e d i c tg e n eb o u n d a r i e s m a n y r e s e a r c h e r sh a v ed o n er e s e a r c ho nt h i sp r o b l e mi nd i f f e r e n ts p e c i e s h o w e v e r , b e c a u s e o fd i v e r s i t ya n dc o m p l e x i t y , p l a n tm r n a p o l y ( a ) s i t es e l e c t i o no n l yg a i nv e r yl i m i t e d u n d e r s t a n d i n g ，a n dt h e r ei sn of o r m a lr e p o r to nt h ep r e d i c t i o no ft h ep o l y ( a ) s i t e s u s i n gac o m p u t e ra l g o r i t h m d i s c r i m i n a n ta n a l y s i si sas t a t i s t i cm e t h o dt op r e d i c tt h et y p eo ft h eo b j e c tb a s e o ni n d i c a t o r so ft h e0 b j e c t s t e p w i s ed i s c r i m i n a n ta n a l y s i si st ob u i l dt h em o d e lb a s e o n s c r e e n i n gc h a r a c t e r , w h i c hi ss e l e c t e df r o mc h a r a c t e r s c o n t r i b u t i o nt o d i s c r i m i n a n t i nt h i st h e s i s ，ib u i l dad i s c r i m i n a n tm o d e lb a s eo nn u c l e o t i d ed i s t r i b u t i n g c h a r a c t e ra r o u n dt h ea r a b i d o p s i sp o l y ( a ) s i t e ig e tt h et r a i n i n gd a t af r o mk g r a m n u c l e o t i d em o d e ，z - c h iv e ，s c o r em a t r i xo fl o c a t i o ns p e c i f i c ，ab a n dh e t e r o g e n e o u s m a r k o vm o d e l ，f a c t o r i a lm o m e n t ，e t c f i r s t l y , is e l e c tt h ec h a r a c t e rs p a c eb a s eo n i n f o r m a t i o ng a i n , e n t r o p ya n dg e tt h ei m p o r t a n tc h a r a c t e r ；t h e nit r a n s l a t et h e c h a r a c t e r si n t od i g i t a la n db u i l dt h em o d e l f i n a l l y ，it e s tm ym o d e lt h r o u g ht e s td a t a a n da n a l y z et h er e s u l t i ti s s a t i s f ya b o u tt h er e c o g n i t i o na c c u r a c yo fs t e p w i s e d i s c r i m i n a n ta n a l y s i s s t e p w i s ed i s c r i m i n a n ta n a l y s i sc a ns e l e c tc h a r a c t e r sw h i c h a r eu s e f u lt op r e d i c tp o l y ( a ) s i t e ，f i n dd i f f e r e n c eo fv a r i a b l e s ，g r a d u a l l yr e d u c et h e c h a r a c t e rt op r e d i c tp o l y ( h ) s i t e t h er e s u l to ft r a i n i n ga n dt e s ts h o wt h a ts t e p w i s e d i s c r i m i n a n t a n a l y s i so f a r a b i d o p s i sp o l y ( a ) s i t ei sf e a s i b l ea n de f f e c t i v e k e yw o r d s ：p o l y ( a ) s i t ei d e n t i f i c a t i o n ；f e a t u r ee x t r a c t i o n ；s t e p w i s ed i s c r i m i n a n t m o d e l 厦门大学学位论文原创性声明兹呈交的学位论文，是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果，均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。声明人( 签名) ：弘7 参修 7 年多月加e l 厦门大学学位论文著作权使用声明本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版，有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅，有权将学位论文的内容编入有关数据库进行检索，有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于 1 、保密() ，在年解密后适用本授权书。 2 、不保密( ( 请在以上相应括号内打“4 ) 作者签名：导师签名：矽。库6 月加日渺产汨萄日第一章绪论 1 。1 前言第一章绪论近年来人类基因组计划和水稻基因组计划等大型国际合作研究项目的实施，使人类在生命科学领域尤其是核酸和蛋白质等生物大分子的序列、结构与功能等方面迅速积累了大量的数据和信息。迄今为止，已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于互补d n a 序列测序所建立起来e s t 数据库其记录已达数百万条。在这些数据基础上派生、整理出来的数据库已达5 0 0 余个。这一切构成了一个生物学数据的海洋。这种科学数据的急速和海量积累，在人类的科学研究历史中是空前的。数据并不等于信息和知识，但却是信息和知识的源泉，如何处理、分析、解释和利用这些数据是一个迫切需要解决的问题。同时与正在以指数方式增长的生物学数据相比，人类相关知识的增长却十分缓慢。这构成了一个极大的矛盾，由此催生了一门新兴的交叉学科生物信息学【1 ，2 ，3 1 。生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的- - 1 7 边缘学科。它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达到揭示数据所蕴含的生物学意义的目的。生物信息学是内涵非常丰富的学科，其核心是基因组信息学，它希望通过对 d n a 、r n a 和蛋白质的研究，分析生物序列中的结构、功能、进化，以及生物序列间的关系。生物信息学研究所要达到的目标主要包括： l 识别出基因的精确外显子一内含子结构，以及对各部分的认识，识别和搜索，其中包括一些控制信号，例如p r o m o t e r ，e n h a n c e r 等。 2 从氨基酸的序列预测蛋白质的高级结构( - - 级和三级) 。 3 了解基因表达的调控机理及对其功能的研究和分析。其中了解基因表达的调控机理是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律。近来的研究表明，基因组不仅是基因的简单排列，它有其特有的组织结构和信息结构，这种结构是在长期的演化过程中产生的，也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织基于判别分析的植物p l o y ( h ) 位点识别研究结构和信息结构，是解释生命的遗传语言的关键。基因表达的第一步是从d n a 上的遗传密码转录成信使r n a ( m r n a ) ，转录的启动是基因表达的一个主要调控点，而转录后水平的调控在整个基因的表达调控网络中也处于非常重要的地位。真核生物中，成熟的有功能的m r n a 要经过原初转录本( p r e m r n a ) 5 帽子的形成、内含子的剪切及3 末端的加工才能形成。而关于3 末端的加工包括两个过程，加工首先在3 非编码区内某一特定的多聚腺苷化位点( 简称p o l y ( a ) 位点) 处切割，产生断裂，随后在断裂末端进行多聚腺苷化。多聚腺苷化后的成熟的m r n a 才能保证被运送到细胞质中进入核糖体被翻译，同时，多聚腺苷化对m r n a 的稳定性有很大影响。多聚腺苷化有两个主要的问题，一是由在p r e m r n a 的3 - u t r 区的一组特定的信号来决定哪里是p o l y ( a ) 位点，这一信号是由基因组信息所决定。另一个是由一组蛋白质与酶来识别这些信号，然后在p o l y ( a ) 位点上切割，加上一大串腺嘌呤( a d e n i n e ) 。这篇论文主要是研究如何在植物m r n a 序列中识别p o l y ( a ) 位点的问题。 1 2 一些相关的生物学方面的基础知识 1 2 1 遗传物质遗传是物种延续和进化的前提，携带了遗传信息，生命体才能按照指令正确地生长、发育并维持其自身结构和功能，并且把这种遗传信息从亲代传递给子代。基因是遗传的基本单位，现代分子生物学研究已经证实d n a 是遗传物质的主要载体，每个基因都是由代表一种特殊蛋白质信息的d n a 序列组成的。几乎所有生物的遗传物质都是d n a ，只有少数噬菌体、植物病毒和动物病毒的遗传物质是r n a ( r i b o n u c l e i ca c i d ，核糖核酸) 。生物体的形态是生物体所具备的全部基因及其发育环境相互作用结果，而当d n a 序列发生变化而引起表型改变时，就揭示了基因对生物体的影响。 2 第一章绪论生物可以分成两大类一一原核生物和真核生物。原核生物( p r o k a r y o t e ) 是单个细胞，其遗传物质分布在整个细胞中。真核生物( e u k a r y o t e ) 中，遗传物质被组织在细胞核这个轮廓分明的结构部分中，在细胞分裂前及准备细胞分裂时， d n a 被暂时组织成一种紧密结构，称为染色体( c h r o m o s o m e ) 。d n a 是染色体中最重要的组成部分，它是一种很长的多聚体，叫多核苷酸( p o l y n u c l e o t i d e ) 。核苷酸由核糖、磷酸基团及碱基( b a s e ) 三部分组成。如图1 1 所示，碱基是腺嘌呤( a d e n i n e ， a ) 、鸟嘌呤( g u a n i n e ，g ) 、胞嘧啶( c y t o s i n e ， c ) 、胸腺嘧啶( t h y m i n e ，d 中的一种。 a t c g 在结构上是以成对的方式存在的，a 叟菱只与t 配对，c 只与g 配对，反之亦然。因鋈五此，通常称d n a 序列中的一个字符为一个重量碱基对( b a s ep a i r , b p ) ，以此作为d n a 序列善的长度单位，例如人类基因组大约共有3 0 舌亿个碱基对。核苷酸之间相互由磷酸二酯键连接起来成为长链的d n a 分子。位于核酸链一端的末端核苷酸有一个游离的磷酸( 5 端) ，另一端的末端核苷酸有一个游离的羟基( 3 端) 。生物学上对多核苷酸序列的记录、n i h 图1 1 核苷酸结构及四种碱基的配对通常按照从5 端到3 端的顺序进行，例如5 a t g g t c a a c t g 3 。 w a t s o n c r i c k 提出的d n a 双螺旋( d o u b l e h e l i x ) 结构模型吲为遗传信息传递奠定了物质结构基础。对于d n a 的结构来说，w a t s o n 和c r i c k 模型的重要特点是：d n a 分子( 通常) 并不是一条多核苷酸链，而是两条。这两条链以双螺旋的方式彼此缠绕在一起，就像拧在一起的两股绳子一样，如图1 2 所示： 3 爱占92iq曼壁昔dsoidk口a了 h 、拜耋魏绷纱， o删勿攀o删。窜。，秘堪卜判别分析的植物p l o y ( a ) 位点识) ；q t i j f ) 4 图1 2d n a 的双螺旋结构图片来源：m o i s e sb u r s e t ，r o d e r i cg u i g o e v a l u a t i o no fg e n es t r u c t u r ep r e d i c t i o np r o g r a m s g e n o m i c s i9 9 6 - 3 4 ( 3 ) ：3 5 3 3 6 7 卜图中，两条d n a 单链上的碱基互补形成双螺旋结构，一条链的3 端到5 端对应于另一条链的5 端到3 端。右图为双螺旋的分子结构图。每条链的基本骨架是交替的糖一磷酸基团，两条链的极性是相反的，也就是沈，一条链上的原子序列与另一条相反。因此，一条链对另条链来讲是倒置的，也叫反向平行。碱基排列跟基本骨架成直角，并伸入分子中央。条链上的碱基总是跟另一条链上同一水平的碱基配对。因此，两条链沿其全长通过碱基对之i 0 j 的氢键结合在一起。其全部结构就像是沿着轴心旋转的绳梯一样，边上的绳子相当于糖一磷酸的基本骨架；梯级相当于配对的碱基。双螺旋分子两条链的严格互补性，是指一条链的核苷酸顺序，无例外地取决于另一条链。每条d n a 链都能作为模板，以合成一条准确地限定核苷酸顺序的新链。图1 3 显示的d n a 复制( d n ar e p l i c a t i o n ) 机理，即根据互补规则，解释 d n a 的两条链如何指导互补链的合成，从而产生两个与亲本d n a 相同的分子的。图的下部表示亲代双链体，上部表示正在互补的碱基配对产生的两个子代双链体。亲代的两条链已经分开，因此每条链都能作为互补合成的模板，每一个子代双链体在序列上与原先的亲代完全相同，而且含有一条亲代链和一条新合成的链。细胞的每一次分裂都会产生一个完整的基因组拷贝，这是遗传信息从一个细第一章绪论胞传递到其它新生细胞的基础。图1 3d n a 的复制作为遗传物质，d n a 具有如下特性： ( 1 ) 储存遗传信息和在需要时将遗传信息传递给细胞的能力。 ( 2 ) 把遗传信息以最小的错误率传递给子代的能力。 ( 3 ) 具有物理的和化学的稳定性，从而不会丧失信息。 ( 4 ) 具有遗传变异的能力，而又不会使亲代丧失较多的信息。 r n a 是一种生物化学上欠稳定的较小分子，其核苷酸的数目很少超过几千个，而一般d n a 中则约达几百万个。在组分上，r n a 具有的是核糖，而d n a 对应所含的是脱氧核糖；r n a 含有尿嘧啶( u r a c i l ，u ) 而不是胸腺嘧啶( d ，且 u 与a 配对。r n a 是单链结构，是一种具有高度转换速率的多核苷酸，能暂时与核蛋白体结合；它在结构基因d n a 上合成并反映该d n a 的碱基编码。 r n a 主要在蛋白质合成中起作用，它的一项重要功能是充当信使，将遗传信息( 来自d n a 编码的指令) 传递到细胞中蛋白质合成的核糖体部位上。这种形式的r n a 称为信使r n a ( m e s s e n g e rr n a ，m r n a ) 。信使r n a 在所有的活细胞中有着确定的目标：通过遗传密码转译成蛋白质。核糖体含有一类特殊的r n a 称为核糖体r n a ( r i b o s o m a lr n a ，r r n a ) ，构成大部分细胞内的r n a 。第三类基于判别分析的植物p l o y ( a ) 位点识别研究 r n a 称为转运r n a ( t r a n s f e rr n a ，t r n a ) ，连在氨基酸( a m i n oa c i d ) 上，在蛋白质合成过程中，t r n a 用m r n a 复合物作为模板，携带氨基酸到相对其他氨基酸正确的位置上。所有的细胞r n a 分子是通过转录( t r a n s c r i p t i o n ) 由d n a 模板合成的，合成后的r n a 分子转运到细胞质中，在那里决定蛋白质中氨基酸的顺序。蛋白质通过翻译( t r a n s l a t i o n ) 过程，由m r n a 模板合成。这种从d n a 到蛋白质的遗传信息的传递途径，连同d n a 的复制机制，通常被统称为分子生物学的中心法则 ( c e n t r a ld o g m a o fm o l e c u l a rb i o l o g y ) 5 1 ( 图1 4 ) 。 _ 。_ 一麓塑遂_ 1 2 2 遗传密码图1 4 分子生物学中心法则箭头表示遗传信息的传递方向中心法则最核心的内容是遗传信息从由4 个字母组成的d n a 链传递给由2 0 个氨基酸语言组成的多肽( p o l y p e p t i d e ) 链，所以必须有某种碱基的组合以对应特定的氨基酸，即每3 个核苷酸对应一个氨基酸。这种核苷酸三联体与氨基酸之间的对应关系就是遗传密码( g e n e t i cc o d e ) 【5 1 ，而相应的核苷酸三联体被称为密 6 第一章绪论码子( c o n d o n ) ，基因即由密码子组成。核昔酸三联体可能的排列有6 4 种( 4 x4 x4 ) ，因而共有6 4 个密码子。其中， 6 1 个密码子编码2 0 种氨基酸( 不同密码子可编码同一氨基酸，具体见表1 1 ) ，其余3 个( i ，a a 、u g a 和u a g ) 密码子并不编码任何氨基酸，而是起着终止肽键合成的作用，称为终止密码子。翻译过程起始于m r n a 的起始密码子( 通常是a u g ) ，随后是编码氨基酸序列的密码子，最后以至少一个m r n a 的终止密码子结束。表1 1m r n a 的密码子第二个字母 uc a g u u u 苯丙氨酸u c u 丝氨酸u a u 酪氨酸u g u 半胱氨酸 u u u c 苯丙氨酸u c c 丝氨酸u a c 酪氨酸u g c 半胱氨酸 c u u u a 亮氨酸u c a 丝氨酸u a a 终止u g a 终止 a u u g 亮氨酸 u c g 丝氨酸u a g 终止u g g 色氨酸g c u u 亮氨酸c c u 脯氨酸c a u 组氨酸c g u 精氨酸 u c c u c 亮氨酸c c c 脯氨酸c a c 组氨酸c g c 精氨酸 c 第 c u a 亮氨酸 c c a 脯氨酸 c a a 谷氨酰胺 c g a 精氨酸 a第个 c u g 亮氨酸c c g 脯氨酸c a g 谷氨酰胺c g g 精氨酸 g 个字 a u u 异亮氨酸a c u 苏氨酸a a u 天冬酰胺a g u 丝氨酸 u 字母 a u c 异亮氨酸a c c 苏氨酸a a c 天冬酰胺 a g c 丝氨酸c 母 a a u a 异亮氨酸 a c a 苏氨酸 a a a 赖氨酸a g a 精氨酸a a u g 甲硫氨酸a c g 苏氨酸a a g 赖氨酸a g g 精氨酸 g g u u 缬氨酸g c u 丙氨酸g a u 天冬氨酸g g u 甘氨酸 u g u c 缬氨酸 g c c 丙氨酸 g a c 天冬氨酸 g g c 甘氨酸c g g u a 缬氨酸 g c a 丙氨酸g a a 谷氨酸g g a 甘氨酸a g u g 缬氨酸g c g 丙氨酸 g a g 谷氨酸g g g 甘氨酸g 起始密码子a u g 及其对应的氨基酸用斜体表示。三个终止或无义密码子 u a a 、u a g 和u g a 用黑体表示。 1 2 3 基因的结构及表达化学组成上，基因是一段具有特定结构与功能的连续d n a 序列；结构上，基因由多个不同的区域组成。一般来说，真核生物的基因组比较大，但基因的密度小，而原核生物的基因组较小，基因之间只有很小的间隔或几乎没有间隔。但 7 j - 燕- p 笋l y j l l 3 , ) 析的植物p l o y ( a ) 位点识别研究无论是原核基因还足真核基凶，都叮划分为编码区和非编码区两个基本组成部分。编码区是可以被转录的区域，e 自外显子( e x o n ，编码蛋白质，包含密码子) 、内含子( i n t r o n ，不编码蛋白质，原核基因无内含子) 、5 端非翻泽区( 5 u n t r a n s l a t e dr e g i o n ，5 一u t r ) 和3 端tl ei l l l 译区( 3 u n t r a n s l a t e dr e g i o n ，3 - u t r ) 构成。非编码区则位于转录区以外，包含基因调控序列。典型的真核基因的基本结构如图1 5 所示。糠为r n a 童舱点。于舯r 一转录为的起点一。j 。之p o 颐a ) 位点一童上一主。雳餐麓溺鬣黼溺簇溺辫绻戮麟 5 u w t 3 。町鼬 i 启动子+ 卜一转录区一终止子一i i 一基因t 一基因的表达过程与其结构密切相关。转录是基因表达的第一个阶段，它由 d n a 模板链借助r n a 多聚酶生成m r n a 前体( p r e m r n a ) 。剪切( s p l i c i n g ) 和多聚腺苷化是第二个阶段。经过剪切，可以将p r e m r n a 中的内含子序列移去，同时在5 端d hi - - _ 甲基化鸟嘌呤帽子( c a p p i n g ) 。多聚腺苷化是指在p r e m r n a3 末端，通过r n a 内切酶的作用，在特定的位点上切割掉一部分以形成新的末端，同时一串腺嘌呤核苷酸，称为多聚a 尾巴( p o l y ( a ) t a i l ) 被添加到3 末端，这样才能形成成熟的r n a 。具体的步骤如图1 6 所示，其中箭头u 处表示相应的 p o l y ( a ) 位点。 8 第一嚣绪沦 p r e m r n a 5 u t re x o n li n w o ne x o n 23 u t r 。p o l y a d e n y l a t i o n 毒墨霪窀墨乏翟盔z 置_ a a a a a a a a m a t u r em r n a 图1 6 真核生物的m r n a 前体处理过程( 重点为3 末端的处理) 多聚腺苷化后的成熟的m r n a 才能保证被运送到细胞质中进入核糖体，然后被翻译成相应的蛋白质一一基因表达的第三个阶段。因此，多聚腺苷化是基因表达过程中的一个关键步骤，对其位点的特征提取和识别也成为本文的研究重点。基因的结构、表达和调控都是非常复杂的，本节仅简要介绍了与本文相关的一些分子生物学基础知识，目的是为后文的阐述建立必要的生物学基础。 1 3p o l y ( a ) 位点识别研究的意义真核生物中，转录与翻译在时间和空间上分丌进行。虽然转录过程的调控是基因表达调控中最重要的一环，但是转录后水平的调节对基因的表达调控也是十分重要的。初始转录的p r e ，m r n a 需要经过转录后的加工修饰才能成为有功能的 m r n a 。对m r n a 的5 非翻译区( 5 - u n t r a n s l a t e dr e g i o n ，5 - u t r ) 内的有关顺式作用元件一直研究颇多，而对y - u t r 的研究却相对较少。近几年来，真核m r n a 的y - u t r 在基因表达调控中的作用越来越受到重视。现己了解，3 - u t r 不仅 9 基于判别分析的植物p i o y ( a ) 位点识别研究调控m r n a 的体内稳定性及降解速率，控制其利用效率，协助辨认特殊密码子；而且还决定m r n a 的翻译位点及控制其翻译效率。对3 - u t r 一级结构的分析和数据积累有助于尚处起步阶段的3 - u t r 序列二级结构的解析，从而更深刻地理解非编码区的调控特征。有关y - u t r 顺式作用元件的数据挖掘研究，已提供了大量的研究线索。对具有p o l y ( a ) e s t 数据集的挖掘，可鉴别出3 末端的顺式作用元件，发现和总结出它们的序列特征。在对y - u t r 区域的分析和研究领域中，p o l y ( a ) 位点的识别一直是一个饶有趣味并富有挑战性的课题。它的主要任务是从未知的m r n a 序列中确定p o l y ( a ) 位点存在的位置。这在基因组分析中有重要的应用意义，对 p o l y ( a ) 位点的正确识别有助于我i f 笋u 断基因编码的终止位置。同时对p o l y ( a ) 位点的识别研究不仅可以帮助我们理解和挖掘3 - u t r 内的有关调控序列及其功能，而且对于人们对转录过程的理解与分析以及探索理解基因表达的调控机理都起着十分重要的作用。 1 4 植物p o l y ( a ) 位点识别的现状目前辨识p o l y ( a ) 位点的机制完全依赖于对恰好带有p o l y ( a ) 尾巴的表达序列标签( e x p r e s s e ds e q u e n c et a g s ，e s t s ) 的识别。然而，由于表达方式的不同及e s t 数据的不完整性，许多p o l y ( a ) 位点无法被明确地辨识出来，甚至在许多情况下被错误标识。在农业作物中尤其如此，因为其可获的e s t 数据十分有限。 m r n a3 - u t r 的处理过程包含两个主要构件。第一个构件是顺式元件括e l e m e m s ) ，位于m r n a 前体3 u t r 序列内。另一个构件是转录因子，它辨认顺式元件，并在p o l y ( a ) 位点处剪切1 1 1 矾a 前体并加入p o l y ( a ) 尾巴【6 1 。顺式元件作为辨识并决定p o l y ( a ) 位点的选择机制的特征信号，由蛋白质转录因子来辨认1 6 ， 7 1 。因此，如果掌握t p o l y ( a ) 信号特征，就可以准确地辨识出p o l y ( a ) 位点，也即剪切位点。有关p o l y ( a ) 顺式作用元件的数据挖掘研究，文献已提供了大量的研究线索。这些基本上是对具有p o l y ( a ) e s t 数据集的挖掘，由此鉴别出3 - u t r 的顺式作用元件，发现和总结出它们的序列特征【8 9 1 。目前对3 - u t r 采用的计算机辅助分析 1 0 第一章绪论方法主要有对碱基字符串的出现频率进行显著性分析、对位置分布特征的鉴别和组成序列的比对等【8 ，9 ，1 0 1 。涉及的模型包括统计学模型、分类数学模型和马尔可夫模型等。动物基因的p o l y ( a ) 位点的信号特征比较保守( c o n s e r v e d ) ，尤其在哺乳动物中，六联子序列( h e x a m e re l e m e n t ) a a u a a a 所占比例高达8 0 【8 】。而植物基因的p o l y ( a ) 位点具有分散性、多样性及复杂性的特点，位置并非像动物那样固定不变，其顺式元件保守性( c o n s e r v a t i o n ) 差，最佳的特征序列a a u 丸认也仅占到总数的1 0 左右【1 1 1 。同时，动物基因转录本中一般只有一个p o l y ( a ) 位点，而植物中则普遍存在着多位点现象【1 2 1 ，如烟草中一个编码叶绿体m r n a 结合蛋白的基因中竟发现了1 4 个不同的3 加工位点。因此至今为止，在p o l y ( a ) 位点的计算机识别方面，国内外的相关文献其绝大多数都是针对动物基因的位点进行研究，其识别一般可以得到比较高的准确率；而对于植物的p o l y ( a ) 位点，目前只有本课题组发表了一篇正式文献报道【1 5 】。对植物p o l y ( a ) 位点信号及特征的信息匮乏已成为两个领域一一农业作物基因组分析以及对作物基因的注释以及作物遗传学工程上转基因的精确设计一一发展的瓶颈。因此，本文针对上述植物p o l y ( a ) 位点识别问题展开研究，研究内容和采用的方法如下文所述。綦1 ：n n s ) - 析的植物p l o y ( a ) 位点识别研究 1 5 本文的研究内容和采用的方法图1 7 基于判别分析的植物p o l y ( a ) 位点识别的整体研究框架基于判别分类的位点识别的基本原理是根据某个特定位点上下游的碱基分布特征判定该位点是否是p o l y ( a ) 位点。对于原始的基因数据库，给定的通常为长序列，为了预测出长序列中的p o l y ( a ) 位点，使用固定长度的滑动窗口扫描序列，对序列的每个位点，根据其上下游的碱基分布提取出一组特征。因此，在使用判别算法进行分类之前，首先必须将长序列切割成多个窗口序列，将原始基因数据库转化为窗口序列数据库。基于判别分类的位点识别过程包括训练和测试两个步骤，为此，窗口序列数第一章绪论据库必须分为训练数据库和测试数据库两个部分。为使位点识别模型能适应不同的序列，训练的数据集使用了多种序列的集合，而为了预测模型对不同序列的预测效果，测试数据集也采用了多种不同的序列。对于训练数据库中的任何一条给定的窗口序列，通过特征提取将序列向量化表示，转化为特征数据库。这里的特征包括阶乘矩值、n u e 六联子权重、k g r a m 核苷酸模式、z 曲线分量及偏差量、基于p s s m 的c i s 分值以及基于一阶异构马尔科夫模型的概率。对应上述不同的特征，都有不同的特征提取算法。通过特征提取过程，训练数据库就转化为对应的训练特征数据库。首先通过训练过程得到判别模型。对数字化后的序列使用逐步判别算法进行分类，训练得到判别模型。根据逐步判别模型，我们可以筛选出对位点识别有显著意义的特征变量。模型的测试过程：对己转化为窗口序列的测试数据库，根据相应的特征提取算法，提取出模型筛选出的特征，从而转化为测试特征数据库。再使用训练得到的判别模型进行位点预测，每个窗1 ：3 序列都对应一个分类结果( 是p o l y ( a ) 位点或不是p o l y ( a ) 位点，模型中用l 和0 表示) 。对长序列位点的精确定位需将上述窗口序列的结果还原成整条长序列的位点识别结果，通过计算性能指标s n 、s p 和c c 值进行分析。 1 6 本文的结构本论文第一章绪论介绍问题的产生背景，该问题在生物学上的重要意义以及一些必要的生物学方面的基础知识，并对论文的基本内容做整体介绍。第二章详细介绍植物p o l y ( a ) 位点特征空间的产生，介绍了建立位点识别模型用到的训练和测试用的数据，阐明了拟南芥p o l y ( a ) 位点周围序列的核苷酸分布特征以及信号模式，然后进一步介绍了模型采用的特征以及提取这些特征采用的相应算法。第三章首先对识别模型采用的判别分析和l o g i s t i c 回归算法进行介绍，然后详细阐述了根据2 1 个特征建立的全模型和逐步判别分析筛选出的6 个特征建立的逐步判别模型，以及逐步回归和判别分析相结合建立的判别模型，并对几组不同的模型对训练样本的回代预测的精度进行了比较。基于判别分析的植物p l o y ( a ) 位点识另0 研究第四章对实验结果进行了讨论与分析，首先介绍了结果分析使用到的性能指标，然后比较测试数据集使用模型预测的结果，然后结合所选择的性能度量指标进行说明，验证所建立模型的可行性和有效性，并分析各特征对位点识别的影响大小。第五章总结了论文所作的主要工作，分析所建立的模型仍存在的一些问题。提出在模型建立和识别过程中的一些改进建议，供进一步完善识别模型借鉴。 1 4 第二章植物p o l y ( a 啦点特征空问的产生第二章植物p o l y ( a ) 位点特征空间的产生 2 1 训练和测试用的数据训练及大部分的测试数据( 拟南芥基因组序列，a r a b i d o p s i sr e l e a s e5 o ) 从g e n b a n k ( r e l e a s e8 5 0 ，d e c 0 8 ，2 0 0 3 ) 下载，共8 ，1 6 0 条e s t s ( 称为8 k 数据集) 。这些序列长度均为4 0 0 n t ，始于p o l y ( a ) 位点上游3 0 i n t ，结束于位点下游9 9 n t ，已知的p o l y ( a ) 位点位于每条序列的第3 0 i n t 与第3 0 2 n t 之间( 从左到右) 。为使位点识别模型能适应不同的序列，训练的数据集特别是训练的假序列集使用了多种序列的集合。训练所用的序列均是窗口序列( 长度为1 6 2 n t 的序y d ) ：即使用1 6 2 n t 的滑动窗口，将长序列划分为长度为1 6 2 m 的窗口序列。训练所用的真序列( p o s i t i v es e q u e n c e s ) 是从8 k 数据集中通过v i t e r b i 1 3 1 算法定位正确的序列随机抽取一部分，共4 8 7 条。因为模型必须能用于预测长序列( 长度大于窗口序y d ) 的位点，则对于长序列的真位点旁边的序列有必要将其分类为假窗口序列，所以- o s l 练所用的假序列集( n e g a t i v es e q u e n c e s ) 包括：纯随机序y l j ( 1 0 0 条) ；保持真序列统计特征的一阶马尔可夫序列1 4 1 ( 1 0 0 条) ；拟南芥的编码区序列( 1 0 0 条) ；拟南芥内含子序列( 1 0 0 条) ；拟南芥5 - u t r 序y l j ( 1 0 0 条) ； v i t e r b i 定位3 0 1 位置的序列在3 0 1 位置偏差l o 个位置后截取的窗口序列( 6 0 0 条) ； v i t e r b i 定位3 0 1 位置的序列经过切割1 6 2 n t 后抽取窗口序y d ( 5 0 0 条) 。为预测模型对不同序列的预测效果，测试集( 完全不与训练集重复) 包括： 1 1 5 条多位点长序列中的3 5 条；保持拟南芥含位点序列统计特征的一阶马尔可夫序列；拟南芥的编码区序列；内含子序列； 1 5 龌于判别分析的植物p l o y ( a ) 位点识别研究 2 2 植物p o l y ( a ) 位点周围序列的碱基分布特征早期的研究表明植物的p o l y ( a ) 位点具有三个特点：n u e ( n e a ru p s t r e a m e l e m e n t ，近端上游元件) 、f u e ( f a ru p s t r e a me l e m e n t ，远端上游元件) 和多聚腺苷酸化位剧16 1 。而新近的研究又在多聚腺苷酸化位点的前后发现新的富含碱基u 的区域，称为分裂点元件( c l e a v a g ee l e m e n t 简称c e ) 1 6 】。以拟南芥为例，其 m r n a 多聚腺苷酸化信号模型如图2 。l 所示： 3 u t r 厂人 1 0 0 l y ( ) j 1 r 雹暖圈霸暖翻麟曩瞳曩_ l 目嘲一缀型瞪豳甥嗣曩瞄醑暖糊 l 、。、。l 、r j l y 溉 n u ec e l c e r 量75 62一s7 矗9 一i - l一- 。 _ l c e 图2 1 ：拟南芥m r n a 多聚腺苷酸化信号模型图片来源：l o k ej c ，s t a h l b e r ge a ，s t r e n s k id g , h a a sb j ，w o o dp c ，l iq q c o m p i l a t i o no fm r n a p o i y a d e n y l a t i o ns i g n a l si na r a b i d o p s i sr e v e a l e dan e ws i g n a le l e m e n ta n dp o t e n t i a ls e c o n d a r ys t r u c t u r e s j p l a n t p h y s i 0 1 2 0 0 5 13 8 ：14 5 7 - 14 6 8 根据这个模型，以p o l y ( a ) 位点作为参照位点，n u e 是最保守的信号，其信号长度大概为6 n t 1 0 n t ，位于p o l y ( a ) 位点上游1 0 n t 到3 0 n t 的位置。这个区域最保守的序列是a a u a a a ，然而在拟南芥中，这个序列也只占到8 1 0 左右 ( l o k ee ta l ，2 0 0 5 ) 1 6 】。f u e 区域可能分布在一3 0 n t 1 3 0 n t 之间，( p o l y ( a ) 位点的上游序列标为“一”，而位点的下游序列标为“+ ”) ，信号长度大概为6 - - 9 个核苷酸。c e 分布在c s 位点上游1 0 n t 到下游1 0 n t 的区域间，其信号长度在5 n t 1 6 第二辛直物p 0 1 5 ( a ) 位点特征窄叫的产生 7 n t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf

文档简介

温馨提示

最新文档

评论

（系统工程专业论文）基于判别分析的植物poly（A）位点识别研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档