




已阅读5页,还剩71页未读, 继续免费阅读
(系统分析与集成专业论文)生物信息学方法研究microrna.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 0 0 6 年上海大学坝二l 学位论文 摘要 从系统科学的角度看,生命体是一个开放的复杂巨系统。d n a 、r n a 和蛋 白质都在生命活动中扮演着不同的角色。近年来,新发现了一类长约2 1 2 4 n t 的非编码小分子r n a 一一m i c r 0 r n a ( m i r n a ) ,m i r n a 可以通过与靶基因 m r n a 的特定位点结合,抑制该蛋白的合成或诱导该m r n a 的降解,从而参与 基因的表达调控。m i r n a 的一个特点是它的前体常形成分子内茎环结构,成熟 的m i r n a 来自于此茎环结构的一条臂上,并且不能包含大的内环和突环,特别 是不能包含大的不对称的内环。m i r n a 通常位于基因间隔区( i n t e r g e n i cr e g i o n , i g r ) ,这说明e t f j 来自独立的转录单位。但是也有相当一部分m i r n a 来源于 p r e - m i r n a 的内含子。一些m i r n a 的基因结构和功能在进化中呈现高度的保守 性。 由于m i r n a 具有非常重要的调控功能,因此,2 0 0 1 年后,寻找新的m i r n a 成为生命科学领域的一大热点。寻找m i r n a 基因的方法包括实验途径和生物信 息学途径,两种途径必须结合使用,才能比较准确地找到m i r n a 基因。到目前 为止,m i r b a s e 上公布的m i r n a 总数有3 5 0 0 多种,然而在不同生物中仍有大量 的m i r n a 基因尚未鉴定,每种生物体中m i r n a 的基因总数还未知,生物信息 学分析手段为发现新的m i r n a 基因提供了有效的方法。目前国际上较为普遍使 用的两个计算机分析工具是m i r s c a n 和m i r s e e k e r 。前者已用于线虫和脊椎动物 候选基因的分析,后者则用于果蝇及昆虫基因组候选基因的系统分析。像n c b i 的b l a s t 软件以及m f o l d 软件等也是利用生物信息学方法寻找m i r n a 常用的 软件工具。 由于在克隆测序过程中,测出的序列中有相当比例是来自其他已知r n a 的 降解片段或其他生物的污染,并且成熟的m i r n a 应具有保守的发夹结构。针对 这些问题,我们开发了一个预测与搜寻m i r n a 基因的完全自动化的系统 m i r d e t e c t o r 。文中详细介绍了用c + + 语言编码的m i r d e t e c t o r 系统的总体设计流 程,着重讲解了实现系统的两个重要算法:茎环结构判断算法和基因组定位算法。 并且用水稻m i r n a 基因对系统的预测精度进行了检验,检验证明系统的假阳性 率较低。由于m i r d e t e c t o r 系统适用于各种生物,对于动、植物,只要改变系统 参数即可,并且易于处理大批量数据,因此它将是m i r n a 研究的有用的辅助工 具。 关键词:m i r n a ,m i r n a 前体,茎环结构,同源性,保守性,计算识别 2 0 0 6 年上海大学硕士学位论文 a b s t r a c t f r o mt h ep o i n to fv i e wo fs y s t e m ss c i e n c e ,t h el i f ei sa l lo p e n ,c o m p l e x ,a n d g i a n ts y s t e m d n a s ,r n a sa n dp r o t e i n sa r ea l lp l a y i n gd i f f e r e n tr o l e si nt h el i f e a c t i v i t y m i r n a sr e p r e s e n tac l a s so f2 1 - 2 4 n tn o n c o d i n gs m a l lr n a s b yb i n d i n gt o s p e c i f i cr e g i o n o ft a r g e tm r n a sv i as t r e n t c h e so fs e q u e n c e c o m p l e m e n t a r i t y , m i r n a si n h i b i tt h ep r o d u c t i o no ft a r g e tp r o t e i n so ri n d u c ed e g r a t i o no fm r n a s a c h a r a c t e r i s t i co fm i r n ai s p r e m i r n ag e n e r a l l yf o r m e ds t e m l o o p s t r u c t u r e m a t u r em i r n ad e r i v e sf r o mo n es i d eo fs t e mr e g i o na n dc a nn o tc o n t a i nb i gi n t e r i o r l o o po rb u l g el o o p ,e s p e c i a l l yb i ga s y m m e t r i ci n t e r i o rl o o p m i r n ag e n e sg e n e r a l l y l i ei ni n t e r g e n i cr e g i o no ri n t r o nr e g i o n m o s to fm i r n a s s t r u c t u r ea n df u n c t i o na r e h i g hc o n s e r v e di ne v o l u t i o n m i r n a sp l a yi m p o r t m e n tr e g u l a t o r yr o l e si nb o t ha n i m a l sa n dp l a n t s ,s oa f t e r 2 0 0 1 ,l o o k i n gf o rn e wm i r n a sb e c o m eag r e a tf o c u so fb i o l o g i c a lf i e l d t h em i r n a s e a r c h i n gm e t h o di n c l u d e se x p e r i m e n tw a ya n db i o i n f o r m a t i c sw a y t w ok i n d so f w a y sm u s tb ec o m b i n e da n du s e dt h a tc o u l df i n dm i r n ag e n e sm o r ea c c u r a t e l y u p t on o w ,t h e r ea r em o r et h a n3 5 0 0k i n d so fm i r n aa n n o u n c e do nm i r b a s e h o w e v e r , t h e r ea r ea l a r g en u m b e ro fm i r n ag e n e st h a th a v en o tb e e ni d e n t i f i e dy e t t h e n u m b e ro fm i r n ag e n e si ne v e r ys p e c i e si ss t i l lu n k n o w n b i o i n f o r m a t i c sa n a l y t i c m e t h o dh a sb e e nu s e dt of i n dn o v e lm i r n ag e n e s t w oc o m p u t a t i o n a lt o o l st h a t p o p u l a ru s e di nt h ew o r l da r em i r s c a na n dm i r s e e k e r t h ef o r m e rh a sa l r e a d yb e e n u s e di nt h ea n a l y s i so fc a n d i d a t eg e n e si nc a e n o r h a b d i t i sa n dv e r t e b r a t e ,a n dt h el a t t e r i su s e di n d r o s o p h i l aa n di n s e c t s u c ha sb l a s ts o f t w a r eo fn c b ia n dm f o l d s o f t w a r ea r et h ec o m m o n l yu s e ds o f t w a r e si nc o m p u t a t i o n a li d e n t i f i c a t i o no fm i r n a g e n e s a l a r g en u m b e ro fs e q u e n c e sc o m ef r o md e g r a d a t i o ns e g m e n t so fo t h e rk n o w n r n ao ro t h e rb i o l o g i c a lp o l l u t i o ni nt h ep r o c e s so fc l o n i n gs e q u e n c i n g a n dm a t u r e m i r n a sa r ed e r i v e df r o mc o n s e r v e dh a i r p i nr n a p r e c u r s o r s t ot h e s eq u e s t i o n s ,w e h a v ed e v e l o p e da c o m p l e t ea u t o m a t e ds y s t e mc a l l e dm i r d e t e c t o rt op r e d i c ta n d s e a r c hm i r n a g e n e s t h eo v e r a l ld e s i g np r o c e d u r eo fm i r d e t e c t o rs y s t e mc o d i n gb y c + + i si n t r o d u c e dd e t a i l e di nt h i sa r t i c l e a l s o w ee x p l a i nt w oi m p o r t a n ta l g o r i t h m s : t h es t e m - l o o ps t r u c t u r ej u d g e m e n ta l g o r i t h ma n dg e n o m eo r i e n ta l g o r i t h m m o r e o v e r i l 2 0 0 6 年上海大学硕士学位论文 w eu s e do r y z as a t i v am i r n a g e n e st oe x a m i n et h ep r e d i c t i o nq u a l i t ya n dp r o v e dt h e f a l s ep o s i t i v er a t eo fm i r d e t e c t o rw a sl o w b e c a u s em i r d e t e c t o rs y s t e mi ss u i t a b l e f o rv a r i o u sk i n d so fo r g a n i s m s ,t ot h ea n i m a l so rp l a n t s ,o n l yh a v et o c h a n g et h e s y s t e m a t i cp a r a m e t e r , a n da p tt od e a lw i t ht h ed a t ai ne n o r m o u sq u a n t i t i e s ,i tw i l lb e t h eu s e f u lh a n d l i n gt o o lt os t u d ym i r n a k e yw o r d s :m i r n a ,p r e m i r n a ,s t e m - l o o ps t r u c t u r e ,h o m o l o g y , c o n s e r v a t i s m , c o m p u t a t i o n a li d e n t i f i c a t i o n i l l 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校司 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:日期: 2 0 0 6 年。l 海大学顺j “学位论文 第一章绪论 无沦是从构成还怂从生命活动方面考察,生命体无疑都是一个高度复杂的动 力学系绫。生命动力学系统懿薹本壤杂是其有方癌往熬d n a 一鬏n a 一蛋篷菇秘 结构,它是一个高度肖序的( 从结构和生命活动上看都是这样) 、开放的( 新陈 代谢) 、舆有耗散特征的( 生命的维持需要不断地伴随着物质和能量的消耗) ,而 又是遂鬻平衡态静 ”丌 头,每行不超过8 0 个字符( 包括说明行) ,最好每行低于6 0 个字符。 b l a s t 程序提供的参数很多,在m i r n a 的搜寻中,我们使用默认参数就可 以达到比较好的结果,如果适当调整参数,可能会得到更好的结果,这有待进一 步的研究。 3 1 4 本地b l a s t 除在线b l a s t 搜索外,还可以将b l a s t 下载到本地计算机上运行。在本 地做b l a s t 可以加快速度和保汪安全。在m i r n a 的搜寻巾,因数据量很大, 我们选择本地做b l a s t 而非在线提交。首先需要从n c b i 上下载一个单机用 n s , 盯 舯瞰吣邮酗 2 0 0 6 年l 海大学硕:l 学位论文 的d o s 版b l a s t 程序,下载地址为f t p :n c b i n l m n i h g o v b l a s t 。在安装完b l a s t 后,需要在操作系统安装目录下创建一个名为n c b i i n i 的配置文件。在这个文件 中写入下面两行代码: 【n c b i 】 d a t a = ”p a t h d a t a 比如,本研究中的n c b i i n i 文件内容如下: n c b i d a t a = ”d :m i r d e t e c t o r d a t a ” 本地做b l a s t 所需的数据库必须为f a s t a 格式的,在做b l a s t 之前,需 要将数据库进行格式化。因为应用对象是m i r n a ,所以只考虑应用于核酸序列 的命令,如下: f o r m a t d b - ii n p u t _ d b pf _ ot 其中一些主要参数的含义见表3 4 。 表3 4f o r m a t d b 命令的参数 将数据库格式化以后,就可以利用b l a s t a l l 命令进行序列比对和查询了。具 体语法格式为: b l a s t a l l 呻b l a s t n - dl l r iq u e r y _ oo u t q u e r y 比对结果输出到文件o u t q u e r y 中。n r 代表所查询的数据库。 b l a s t a l l 命令的部分参数列在表3 5 中。 2 0 0 6 年上海大学硕,l 学位论文 表3 5b l a s t a l l 命令的参数 参数含义 p d 1 e - o 选用程序名,b l a s t n 、b l a s t p 、b l a s t x 、t b l a s t n 或t b l a s t x 数据库名,缺省值为n r 查询文件,缺省值为s t d i n e 值,缺省值为1 0 o b l a s t 结果输出文件,缺省值为s t d o u t 本地做b l a s t 是从基因组中搜索可能的m i r n a 基因的重要步骤,能够避 免在线做b l a s t 的速度慢、不安全等不利条件。将b l a s t 程序嵌入到计算识 别m i r n a 基因的软件中,能够为进一步计算识别m i r n a 基因提供数据。 3 2r n a 二级结构预测 在计算诅 别m i r n a 的过程中,需要预测m i r n a 前体的二级结构,判断潜 在m i r n a 是否在茎环结构的其中一条臂上。r n a 二级结构预测的方法很多,典 型算法包括n u s s i n o v 的碱基最大配对方法、z u k e r 的最小自由能算法、螺旋区组 合类方法以及基于多序列比较的r n a 二级结构预测方法等。本研究中采用了基 于z u k e r 的最小自曲能算法的程序r n a s t r u c t u r e 对m i r n a 前体进行二级结构预 测。 3 2 1z u k e r 的最小自由能算法 r n a 二级结构是通过分子中碱基之间配对形成的,碱基之问配对有三种类 型:g c ,a u 和g u 。碱基之间的连续配对形成螺旋区,对r n a 二级结构起 着稳定作用,从而降低整体结构自由能,而r n a 分子中没有配对的单链部分形 成环状结构( 发夹环、内环、突环和多分支环) ,不利于结构的稳定,升高自由 能,r n a 二级结构的形成就是这种矛盾之间的一种平衡。预测r n a 二级结构最 常用的方法就是在各种可能结构之问寻找最小自由能结构。 在整个r n a 二级结构预测中,z u k e r 的最小自由能算法影响最大。目前许 多序列分析软件包中都含有基于该算法的预测模块,如g c g 中的f o l d 模块、 p c g e n e 中r n a 二级结构预测模块、p c f o l d 系统等。最小自由能算法的计算 对象不是简单的碱基配对数,而是一套复杂的自由能参数。其基本思想就是针对 2 0 0 6 年。t 海大学顾上学位论文 各种不鄹的r n a 基本结构单元并根据不同的碱熬鳃成,分别鲻实验方法测出它 们静自文能,建立超一张完整的自由髓参数表。缎设这些辇本绣构荜元豁舀囊能 具有可加性和相对独立性,也就是说一个二级结构的自由能是组成它的各基本结 构单元豹囊出能之和麒这些自由能之间是互不影蛹互不关联的。然后用下蕊的递 推公式来箨出总抟能餐的全局最小德i 明: e “攀m i n e ,+ l ,1 十c t q , m i n ( e 。“,十成) ,m i n ( e i ,卜 + 卢i ) ,m i n ( e f “j j + y k + t ) , m i n ( e i “+ 曩川+ n 幽) ,6 川】 其中,嘞表示i ,j 鬣对时翁堆狡熊,展,h ,# 。,6 。焱分潮裳示突环、淘环、 多分支环和发夹环的能嶷,当计算到层,。时就得到了r n a 序列的最小自由能, 嚣它豹二缀结携逶逮甏瀑裁可鞋 ! 霉到了。 实际计算中,z u k e r 的算法用到了4 个自由能函数和5 个幼态规划矩阵; ( 1 ) e s ( i ,) :这个函数给出了两对相邻配对碱基i - ,和a + 1 ) - ( ,一1 ) 之间的 堆积鑫幽能,它妥涉及到构藏这个堆积豹配对躐旗s ,s i ,j 。帮s 。的各稳缀合类 型。因为碱基互补配对是构成稳定的蒙索,所以醇( f ,) 一般都是负值。除了典 墼醚薅g c 、a u 癸,摆动嚣对g 。u 龟惫含在瘛,不适宅夔壤舔篷一簸较弱。 ( 2 ) e h ( i ,m 给出了由i j 封口的发兴环的自由能。它与环长,s i 和s , 以及环上邻接于s ,s :的未配对贼基旃关。 ( 3 ) e l ( i ,j , i ,j ) :给出了一个以f j 为外部配对以及i j 为内部配对的内 环或突环的自由能。网e l l 类似,它取决于i 一f ,一,四个醚对碱基类型以及 邻按予配对碱基的环上碱基。 ( 4 ) e m q ,。i ,”,) :给出了由f ,封阴以及内部配对f l , 组 成豹多分支g 的垂盘黢。 以上四个函数实际上就代表了一张具体的自谢能参数表格。由于多分支环的 多样性和复杂性,试验二测定它们的具体自由能很困难,所以圈前大都根据经验 对其进行遗 娃处理了。簸姥之羚,箕它l 量基本上罄是毫表霉焱麴。表3 6 纛3 。7 作为例子列出了堆积自由能参数和部分环区自幽参数,更详细的内容可以参考 2 0 0 6 年上海火学硕士学位论文 z u k e r 的主页( h t t p :w w w b i o i n f o r p i e d u 一z u k e r m m a ) 。 表3 , 63 7 。c 时相邻配对碱基之间的堆积自由能 ( 纵石一y ,横工一y 且工 x 1 y y ) a uu ag c c g g uu g a - u一0 91 12 12 2- 0 6- 1 4 u a- 1 3- 0 92 12 41 o1 3 g c 2 42 23 33 4 - 1 5- 2 5 c g2 12 12 43 31 4- 2 1 g u1 31 42 12 5一o 51 3 u g1 00 61 4 1 5 0 3o 5 表3 73 7 。c 时各类环的非稳定能量 环区能量:g 品( k c a l m 0 1 ) 环长内环突环发夹环 1 3 8 2 2 8 - 3 3 25 7 41 73 65 6 51 84 05 6 3 03 76 17 7 上个动态规划矩阵如f : ( 1 ) ( ,) :头,个碱基片段s 。s :s j 达到最优结构的自由能( 即最小自由 能) 。这是最关键的一个矩阵,如果计算到了w ( n ) ,则通过回溯这个矩阵就找到 了相应的最小自由能结构。 ( 2 ) v ( i ,) :假定f j 构成配对时s ,s ,的最优结构自由能。 ( 3 ) v b i ( i ,) :假定i j 封起一个突环或一个内环时s ,s j 的最优结构自由 能。 ( 4 ) v m q ,) :假定i j 封起一个多分支环时5 。s ,的最优结构自由能。 2 0 0 6 年i 一海大学硕:卜学位论文 ( 5 ) w m ( i ,) :用于计算v m ,是一个辅助矩阵,用于提高多分支环的计 算速度。 这些矩阵的相互关系及其具体的计算填充过程为: ( 0 ) = 0 - 矿( ,) = m i n ( w ( j 一1 ) ,m i n ( 矿o ,) 十w ( i 1 ) ) ) f o rj ,o , ij 。 细rz 7 矿( f ,j ) 2 t 1 。m i - n ( e h ( i , j ) , e s o ,j ) + y o + 1 ,一1 ) ,v b i ( i , ) ,v m ( i , ,) ) 。f o r i 。j v b i ( i ,) 2 毋乎( e l ( i ,力+ 矿( 吲) ) l i j 。 v m ( i ,j ) = 。田细( e m ( f ,f ,。,f :,j :,j 。) + v ( i ,。) ) # ,l i ,jj t 2 j 2 t o ,“ 一 h “叫1 “3 :妄“叫卜。 多分支环的实际自由能值目前还不是很清楚,为了缩减动态规划算法的运行 时间因此有必要进行近似处理,而不是非要达到一个非常精确的物理模型。处 理方法是假设一个多分支环的自由能是一个关于其分支数和其环上未配对碱基 数的线性函数: p m ( ,- 矗t , ) 2 口m + c ( ( i - - i - 1 ) + ( 卜,, - 1 ) + 薹( f + l _ ,n 一1 ) ) 其中,a , b ,c 是经验常数,k 为分支数。基于这个关系,再利用一个辅助矩阵 w m ( i ,) ,表示多分支环上一段碱基5 一,s 的最优结构自由能,通过它来计算 v m : w m ( f ,f ) = c w m ( i ,) 2m i n ( v ( i ,) + 6 ,骢( w m ( i ,h 一1 ) + w m ( h ,脚) 胁i , v m ( i ,) 2 f + 嬲一。( w m ( i + 1 ,h 一1 ) + w m ( h ,严1 ) + 。) 从上面的公式可以看到,这些矩阵的计算存在相互调用和自我递归调用的情 况,因此必须保证当前计算所需要的值都己在上一步中计算出来。对于矩阵 v ,v b l ,v m 的填充过程,是逐步增加扫描的子序列长j i ,从内部配对计算到外 部配对的过程。这些矩阵都没有依赖,所以的计算是放在最后进行的。对 环区自由能的计算进行些处理之后,最小自由能算法的时间复杂度和空间复杂 2 0 0 6 年h 海大学倾士学位论文 度都为o ( n 3 ) 和o ( x2 ) 1 6 8 】,可以看出这种算法的缺点是计算时间长,这就使得 所要预测的核苷酸长度受到限制。基于z u k e r 算法开发的m f o l d 程序是r n a 二 级结构预测当中最常用的软件。 3 2 2r n a s t r u c t u r e 4 2 程序介绍 由于我们的研究是基于w i n d o w s 平台的,而m f o l d 是u n i x 平台软件,所以 在计算中使用的程序是m f o l d 的w i n d o w s 版本r n a s t r u c t u r e 4 2 。r n a s t r u c t u r e 4 2 程序可以从h t t p :r n a c h e m r o c h e s t e r e d u i n d e x h t m l 一免费下载。r n a s t r u e t u r e 使用 z u k e r 算法预测r n a 二级结构,预测一个结构分两步进行。第一步是使用回归 算法生成一个最优结构与一系列次优结构。生成次优结构的个数由用户输入的两 个参数( m a x e n e r g yd i f f e r e n c e 和m a xn u m b e ro fs t r u c t u r e s ) 决定。其中, m a x e n e r g yd i f f e r e n c e 设定的是输出结构的自由能允许与最小自由能相差的 百分数。例如,如果结构的最小自由能为1 0 0 k c a l m o l ,最大能量百分误差为1 0 , 则将输出所有能量为等于或大于9 0 k c a l m o l 的结构。而m a x n u m b e r o f s t r u c t u r e s 设定的是生成的结构数量,最大为1 0 0 0 。程序输出的预测结构直到这两个参数 中的任何一个达到要求为止。第二步是重新排序最有可能的结构,使用公式重新 计算每个结构的最小自由能,输出根据重新计算的最小自由能排序。这两步是连 续进行的。 当输入一条需要预测其二级结构的r n a 序列时,r n a s t r u c t u r e 会生成两个 文件,s e q 文件和c t 文件。其中,s e q 文件是别输入序列的格式化文件,而c t 则为含有二级结构信息的文件,用程序中的d r a w 命令打开c t 文件可以看到所预 测的二级结构( 含有最优和一系列次优结构) ,如图3 2 。对c t 文件进行数据挖 掘是计算识别m i r n a 基因的重要步骤。 2 0 0 6 年上海大学硕_ 上学位论义 2 。,6 、k “g ,一 黟 ,。 眵一 v 。 、k 幽3 2r n a s t r u c t u r e 4 2 预测的二级结构 此文件只古有一个最优结构,最小自由能为9 9 k c a l m o l 3 3 识别m i r n a 的各种计算方法 在第二章中我们提到目前国际上较为普遍使用的两个计算机分析m i r n a 的 工具是m i r s e e k e r 和m i r s c a n ,本节重点讲述这两个计算工具以及其他一些研究 者们使用的几种计算方法。 3 3 1 用于动物m i r n a 识别的m i r s e e k e r 和m i r s c a n 程序 l a i 等人1 在果蝇m i r n a 研究中,依据m i r n a 的三个特点:( 1 ) m i r n a 的保守性,具有一个可形成发夹结构的7 0 1 0 0 n t 的前体;( 2 ) 在相似的物种中, m i r n a 是很保守的;( 3 ) 在相距较远的物种问,m i r n a 是有一定的分歧的,建 立起一个被称为m i r s e e k e r 的计算机程序,对果蝇的全基因组进行了搜索,成功 地识别了7 5 ( 1 8 2 4 ) 的已知果蝇m i r n a ,预测出4 8 个高分值的可能m i r n a 基因,其中3 2 个已通过杂交验证。据l a i 等人推测,果蝇基因组中应该包含有 1 1 0 个甚至更多的m i r n a 基因。m i r s e e k e r 程序包括以下三个步骤:( 1 ) 通过 2 0 0 6 年上海大学硕士学位论文 a v i d 寻找果蝇中基因间隔区的保守序列;( 2 ) 通过m f o l d 辨认此序列是否能形 成保守的茎环结构,并给这个结构打分评价;( 3 ) 评价m i r n a 在不同物种中的 分歧模式。最后,m i r s e e k e r 也需要通过生物化学的方法,加以验证。 m i r s c a n 是一个能特异地识别两个物种间的同源序列的程序,可以通过 h 哑;如业箜:婴i ! :d h 地遮垫访问使用。l i m 等人【3 7 】用它在c e l e g a n s 和c b r i g g s a e 中寻找到同源的发夹结构通过已知m i r n a 的训练后,它去给那些发夹结构片 段打分,以预测线虫中的m i r n a 。打分规则为:对于给定的2 i n t 候选m i r n a , m i r s e a n 利用了共有发夹结构的7 个特征( 图3 3 ) :工j ,“m i r n a b a s ep a i r i n g ”, 在2 i n t 候选m i r n a 中的碱基列总数;石2 ,“e x t e n s i o no fb a s ep a i r i n g ”,在发夹 结构片段中的2 i n t 候选m i r n a 中碱基对外面的碱基对总数;x ,“5 c o n s c r v a t i o n ”,候选m i r n a 前1 0 个碱基中在c e l e g a n s 和c b r i g g s a e 之间保守的 碱基数目:工。,“3 c o n s e r v a t i o n ”,候选m i r n a 后1 1 个碱基中保守的碱基数目; z ,“b u l g es y m m e t r y ”,候选m i r n a 中的凸起或错误匹配减去互补序列中的凸 起或错误匹配碱基的数目;x 。,“d i s t a n c ef r o ml o o p ”,发夹环和候选m i r n a 之 间的碱基对的数日;z ,“i n i t i a lp e n t a m e r ”,候选序列靠近5 端的前5 个碱基。 对于特征x ,m i r s c a n 按n ;d t 公式打分: 删扎s :( 糕) 其中, 0 ,) 是对训练集中已知m i r n a 中的特征值x ,频率的估计,而毋 ,) 是 对待测的所有发夹结构片断中x 频率的估计。候选m i r n a 的总得分即为这七个 特征的得分之和: 扣娶。一) 2 0 0 6 年上海大学硕,卜学位论文 3 a a “u u u f k 。 l 卜 糕 一a 图3 3c e l e g a n s c b r i g g s a e 的m i r 2 3 2 被m i r s c a n 打分的七个组成部分 “m 等人用同样的方法,在脊椎动物里寻找m i r n a 基因,并预测出人的 m i r n a 基因数在1 8 0 2 5 5 之间,这个数字大约是人类基因组的1 。2 0 0 4 年, m i r s c a n 程序又被用来检测了线虫中m i r n a 基因上下游序列的同源性,和内含 子中产生m i r n a 的寄主基因( h o s tg e n e ) 的同源性,并且找到了一个非常一致 的序列模块,运用这个不断改进的m i r s c a n ,又在线虫中发现了9 个m i r n a , 并被p c r 实验所证实。 3 3 2w a n g 等人1 6 9 i 预测和识别拟南芥m i r n a 的方法 为了能够通过计算的方法来预测新的m i r n a ,首先定义了用来区别m i r n a 和其他基因的序列和结构方面的特征,这些特征是通过对1 9 个已知的拟南芥 m i r n a 的研究总结的。包括:m i r n a 前体的发夹二级结构,成熟m i r n a 序列 中g + c 的含量,前体结构中发夹坏的长度,包含成熟m i r n a 序列的发夹结构 茎区中错误匹配的个数和位置,以及在水稻基因组中成熟m i r n a 发育的保守性。 3 8 2 0 0 6 年上海大学填:e 学位| 仑立 对于已知的1 9 个m i r n a 序列,m i r n a 序列的g + c 的含量在3 8 7 0 之间; 1 5 个m i r n a 前体的二级结构中发夹环的长度在2 0 n t7 5 n t 之间;在m i r n a 前体发夹结构中,所有的成熟m i r n a 均可在发夹的茎区找到;1 5 个m i r n a 在 水稻基因组中是高度保守的。因此,预测拟南芥m i r n a 的约束条件可设为:g + c 的含量在3 8 到7 0 之问,前体的发夹环长度在2 0 到7 5 n t 之间,在水稻 中高度裸守。根据这三个条件设计出的计算预测拟南芥m i r n a 的流程如图3 4 所示: 图3 , 4 计算识别拟南芥m i r n a 的流程 阴影框中表示的是候选m i r n a 平段兑发夹结构前体的个数,括弧中是己知的拟南芥m i r n a 的个数;羽影框中表示被淘汰的己知的拟南芥m i r n a 。 步骤一,根据数据库中的注释信息提取出拟南芥和水稻基因组的基因间隔 区,在拟南芥的基因间隔区搜索可能的发兴结构。大多数m i r n a 的长度约2 i n t , 所以可用一个2 i n t 的滑动窗口来搜索可能的m i r n a 前体。方法如下;对于每一 2 0 0 6 年上海大学硕:l 学位论文 个连续的2 i n t 的查询序列,如果它的超过7 5 正确互补配对的2 i n t 的序列可以 在它的下游一段给定的距离( 我们限制从前面的查询序列的最后一个碱基到后面 的互补配对序列的第一个碱基之间的距离最小为l o n t ,最大为1 5 0 n t ) 内找到, 那么整个序列( 从查询序列的开头到互补配对序列的结尾) 就被提取出并标记为 可能的带有发夹结构的m i r n a 前体序列。在比对中,允许插入间隙和缺失,这 些都被看作是错误匹配。每个2 i n t 的查询序列和它下游的互补序列被称作 “2 1 m e t 候选m i r n a ”。如果在同一个发夹结构中含有一连串重叠的查询序列及 其互补配刘序列,那么每一个都被认为是独立的2 1 m e r 。 步骤二,根据候选m i r n a 的核苷酸组成和序列保守性来剖析m i r n a 。用g + c 含量在3 8 7 0 和发央结构中发夹环长在2 0 7 5 n t 之间这两个条件来过滤 上一步得到的所有2 1 m e r s 。将剩下的2 1 m e r s 序列利用b l a s t n 与水稻基因间 隔区进行比对从而识别出水稻基因间隔区内的同源序列。然后,用m f o l d 程序 预测拟南芥候选m i r n a 前体和同源的水稻前体的二级结构只有那些在拟南芥 前体和水稻同源前体中都含有发夹样的折叠作为它们的最低能级的2 1 = m e r s 才傲 认为是稳定的。因为一些非编码r n a 没有包含在目前的拟南芥基因注释中,利 用b l a s t n 可以删除掉那些除m i r n a 外的已知非编码r n a 的同源物。通过了 以上全部序列和结构过滤的2 1 m e r s 被认为是最终的候选m i r n a 。 总的来说,w a n g 等人的方法预测了拟南芥中9 5 个候选m i r n a ,其中包括 1 2 个己知的和8 3 个新的。对于已知的m i r n a 的预测率是6 3 ( 1 2 1 9 ) ,剩下 的7 个已知的m i r n a 因为其在水稻基因组中较低的序列保守性或二级结构中较 长的发夹环长而在预测过程中被滤出。 3 3 3w a n g 等人【7 0 | 基于序列和结构比对的m i r n a 识别 m i r n a 序列是保守的,m i r n a 基因的二级结构比序列更加保守,因此根据 同源查找预测新的m i r n a 基因时,利用二级结构更加有效。w a n g 等人提出一 个基于序列和结构比对的计算方法来预测动物m i r n a 。试验表明这种方法较之 其他方法具有更高的敏感性和特异性。 w a n g 等人的方法被称为m i r a l i g n ,此程序可通过h t t p :b i o i n f o a n t s i n g h a a e d u c n m i r a l i g n 使用。它和其他方法相比有两个主要的不同点:第一,能找到远 缘同系物,m i r a l i g n 既不要求整个m i r n a 前体序列保守,也不要求长约2 2 n t 2 0 0 6 年上海大学坝士学位论立 的成熟m i r n a 序列近似完全匹配,而只要求成熟m i r n a 序列相对保守。第二, 考虑了更多的m i r n a 结构特征。不像序型( 由多个序列归纳而成的一级结构特 征) 搜索方法,需要很多家族成员来构造序型,m i r a l i g a 引入了一个结构比对 的策略,使每一个单独的m i r n a 都可以作为一个查询序列柬进行同源搜索。通 过试验,m i r a l i g n 在数据的敏感性和特异性上优于b l a s t 和e r p i n 。用这个方 法,能够找到一个m i r n a 更多的远源同系物或直向同源物。 m i r a l i g n 的流程如图3 5 所示。 图3 5m i r a l i g n 流程 首先,对序列进行预处理。通过以下两步从基因组中提取m i r n a 候选序列: ( 1 ) 将训练集中的所有已知m i r n a s 前体序列在基因组中做b l a s t ,设置系数 w o r d l e n g t h 为7 ,e v a l u e 为1 0 :( 2 ) 从基因组中将潜在区域两端各截取7 0 n t , 再用一个1 0 0 n t 的滑动窗口来扫描,步长为1 0 n t 。删除掉重复序列,剩下的就是 候选序列。 然后,约7 0 n t 的候选前体序列通过m i r a l i g n 进行打分,打分过程如下: 2 0 0 6 年上海大学碳:i :学位论文 步骤一,二级结构预测 m i r a l i g n 首先分析候选序列及其反向互补序列。r n a f o l d ( 最小自由能原则) 对这两条链进行二级结构预测。留下最小自由能低于2 0 k c a l m o l 的链。 步骤二,多序列比对 经过步骤一筛选的候选序列和训练集中所有2 2 n t 的已知m i r n a 序列做多 序列比对。候选序列和每一个已知的成熟m i r n a 之间的序列相似性得分 ( m a t u r e _ s e qs i m ) 通过c l u s t a l w 进行计算。当且仅当m a t u r e _ s e q s i r e 大于 用户定义的阈值( m i ns e c ts i m ) 时,此候选己知m i r n a 对被认为是潜在的同 源对,并被用于之后的分析。这里m a t u r e _ s e q _ s i m = 7 0 为m i r a l i g n 的缺省值。 超过9 8 1 的已知动物m i r n a 的同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省无锡市积余中学2025年初三年级8月摸底考试数学试题含解析
- 重庆市江津区2025年初三第五次适应性训练数学试题试卷含解析
- 重庆市重点中学2025年初三下学期期末仿真模拟生物试题含解析
- 互联网时代干部培训策略与实施
- 枣强中学高一上学期第三次月考生物试题
- 目标控制程序培训资料
- 2025租赁合同范本:测量仪器出租合同
- 2025笔记本电脑买卖合同
- 2025财经大学服务合同(教室租赁类)
- 2025年建筑项目基础施工合同范本
- 导线的连接精品课件
- 论提高行政效率的途径 开题报告
- 059.商业计划书和可行性报告精制食油厂年产万吨精制山茶油项目可行性研究报告
- 米度盾构导向系统
- [说明]心血管内科(心内科)_见习教案_6_动脉粥样硬化和冠状动脉粥样硬化性心脏病
- Q∕GDW 11257.3-2020 熔断器技术规范 第3部分:跌落式熔断器
- 汽车焊接夹具设计外文文献翻译
- 浓缩机的选择与计算
- 沪教版六年级下册单词表
- 红星美凯龙租赁合同
- 最新投标书密封条
评论
0/150
提交评论