




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、LTR查找器使用手册1.0.2版本李顺 2011.11.131十进位计数法1.1 LTR逆转录转座子的结构Figure 1: basic structure of a full-length LTR retrotraiispeson这是整个LTR逆转录转座子的典型结构的图示。1、LTR区域:5LTR和3LTR是两个小的区域。当LTR逆转录转座子被插入到宿主基因组 时,5LTR和3LTR这两个小区域可以被辨别出来,并且一旦被插入,这两个小区域就开始 自主复制。变异和缺失在它们自主复制过程中经常发生。一个典型的LTR逆转录转座子有 一个TG.CA的结构(TG在5LTR的5端,CA在3LTR的3端)
2、。2、TSR区域:TSR是位于5和3端侧面的一条4-6bp的短的直接重复带。它是转座因子成 功插入宿主的标志。3、PBS:在5LTR的3端附近,存在一段18bp长的序列,这段序列是某些tRNA的补充物。 这段序列很重要,因为tRNA的掺入过程是逆转录开始的第一步。4、PPT:聚嘌吟片段是一段富集嘌吟的短片段,全长大概11-15bp。正如PBS 一样,PPT 这段片段对逆转录很重要。5、蛋白域:在典型的病毒基因组中有三段多基因:gag,、pol和env。在这三段多基因中, pol是最保守的。在pol中有三个重要基因区域:IN (整合酶)、RT (逆转录酶)和RH (H 核糖核酸酶),这些都是用于
3、插入和逆转录的酶。RT和IN对自主复制的LTR单元正常行驶 功能有重要作用。6、在进化过程中,这些信号可能会变得模糊或甚至无法检测。1.2战略步骤这个研究项目首先成功用一种基于后缀数组的算法将碱基对精确连接并将碱基对延伸成一 段长的高度相似的碱基序列。然后史密斯沃特曼算法用于调整待用的LTR,以获得平齐边界。 这些平齐边界有利于再调节作用,再调节作用需要用到TG.CA结构和TSR,再调节后就可 以筛选出可靠的LTR。接下来,LTR查找器通过内建对准技术和计数模块辨别LTR结构内 的PBS、PPT和RT区域。RT鉴定包括动态规划处理骨架的转移。对于其他蛋白域,如果 他们发生,LTR查找器就会调用
4、ps扫描去定位重要酶的核心。然后根据定位结果构造开放 性读码框架。最后,研究报告将根据LTR查找器搜索到的信号和区域,以不同信任级别的 形式显示可能的LTR逆转录转座子模型。2.输入数据2.1形式LTR查找器只接受FASTA形式的序列并且只有不间隔的标示符才能被记录下来,以辨别被输入序列,而其他标示符将被忽略,不被记录下来。以下是输入的一个例子:CHR1 19971009 Chromosome I SequenceCCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAAT
5、CrrAACCCrrGGCCAACCrrGTCrrCTCAACnTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACTGATGGAGAGGGAGGGTAGTTGACATGGAGTTAGAATTGGGTCAGTGTTAGTGTTAGTGT TAGTATTAGGGTGTGGTGTGTGGGTGTGGTGTGGGTGTGGGTGTGGGTGTGGGTGTGGGT GTGGGTGTGGTGTGGTGTGTGGGTGTGGTGTGGGTGTGGTGTGTGTGGGCHR2 19970727 Chromosome II Sequence
6、AAATAGCCCTCATGTACGTCTCCTCCAAGCCCTGTTGTCTCTTACCCGGATGTTCAACCA A AAG CT A CTTACTACCTTTATTTTATG TTTA CTTTTTATA G GTT GTCTTTTTATCCC ACT TCTTCGCACTTGTCTCTCGCTACTGCCGTGCAACAAACACTAAATCAAAACAATGAAATA以上是染色体I和染色体II的部分序列2.2序列大小的限制LTR查找器只能呈现50000000byte以下的序列。上传序列的超时限制为60分钟。当要扫 描很大的序列时,可以选择使用计算机的二进制代码。3输出形式LTR查
7、找器有三种形式的输出方式:完整的输出、摘要输出和以图形式输出。 3.1完整的输出和摘要输出以下是完整输出的例子:An example of Full output format is presented as follows:Sequence: CHR2 Len:8131381 CHR2 Leu:813138 29632 - 35590 Leu: 5959 Strand:+ScoreStatus5-LTR 3TTR5JScoreStatus5-LTR 3TTR5J-TGWTSR Sharpness Strand 十1111111110029632 - 29963 Leu: 33235259 -
8、 35590 Leu: 332TG , TGCA , CA29627 - 29631 , 35591 - 35595 ATAAT0.479,0.52PBS: 17/22 30031PBS: 17/22 30031PPT: 11/15 35215Domain: 31889 - 32416(IN (core)-(IN (core)possible 0:3119335236,CAAGCACA-TAT-AATTGTTGGAATAAAAATCAACTATCATCTACTAAC*-*129632Details of the LTR alignment(3J-end):35590|*ACAATTACATCA
9、AAATCCACATTCTCTACAATAATAGAATAATGAA-CGATAACACACAI llllll Hill llllll Hill Illi II* I III II II II I IIACAATTACATCAAAATCCACATTCTCTACA-TGGTAGCGCCTA-TGCTTCGGTTACTT29963 |Details of the PBS alignment(+):tRNA type: ThrAGTGCTTCCAATCGG-ATTTGI llllll IIIII HillGCTTCCAATTTACCGGAATTTGI 30031Details of PPT(+):A
10、ACAAACAAATGGAT135215虽然查找器直接输出了数据,有些区域还是要进一步说明。分数分数是从0到11的整数。如果有信号就会有输出结果。因为TG.CA结构包含四部分:在 5LTR的5端的TG、在5LTR的3端的CA、在3LTR的5端的TG和在3LTR的3端的CA, 所以总共有11个信号(分数)。查找器输出的LTR的分数值大小与3LTR和5LTR的相似 程度有关。查找器输出的分数值是一个介于0和1之间的十进制数。标识信号的标识用的是11位二进制字符串,每一位都标识着一个确切信号。从左到右,信号 是:在5LTR的5端的TG、在5LTR的3端的CA、在3LTR的5端的TG、在3LTR的3
11、端的CA、TSR、PBS、PPT、RT、IN (核心)、IN(C末端)和RH。如果出现信号,在相 应的位置就会标上“1”和“0”。清晰度清晰度是用于评估LTR区域边界的精确性的介于1和0之间的十进制数。清晰度越高,说 明边界越精确。第一个值是5端的精确性,第二个值是3端的精确性。在视野范围内的2W 长的边界,中心位置的清晰度是:M M清晰度=泌込土心(老师,公式编辑器那里我找不到减号,只有加减号)W W其中M.d和M id分别表示左边和右边视野中碱基对的数量,将中心位置放到边界位置 insideoutside就可以获得其清晰度。PBS 和 PPT对于PBS,方括号内的第一个数字表示碱基对的数量
12、,第二个数字表示PBS的线性全长。对于PPT,方括号内的第一个数字表示嘌吟的数量和公认的PPT长度,第二个数字是信号 标识。括号括起来的字符串是 tRNA类型和反密码子(详细信息可以查看以下网页: HYPERLINK /GtRNAdb/lege_nd.html_%ef%bc%89%c2%b0tRNA_%e7%b1%bb%e5%9e%8b%e5%89%8d%e7%9a%84%e8%b4%9f%e5%8f%b7%e4%bb%a3%e8%a1%a8%e5%8f%8d%e4%b9%89%e9%93%be%ef%bc%88%e5%9c%a8 /GtRNAdb/lege nd.html )tRNA 类型前
13、的负号代表反义链(在 此例中没有显示)。精确碱基对的详细信息该部分显示了用于构成线性LTR的精确碱基对。方括号内的数字表示碱基对的数量,括号 内的数字表示相邻碱基对的距离。线性LTR的详细信息该部分显示了线性LTR区域的3和5边界的详细信息。在“ 内的“*”表示经再次边界 定位后公认的边界(边界的定位请看“战略步骤”部分)。其他连续的4-6个“*”表示TSR 的位置。PBS和PPT的详细信息那些数字都暗示了 5末端的信息。3.2精简形式的输出精简形式的输出是通过省略完整版输出的细节信息后得到的精简信息。以下是精简形式输出 的一个例子:Sequence: CHR2 Len:8131381 CHR
14、2 Leu:813138LocationScoreStatus5,LocationScoreStatus5,LTR即LTR5J-TGTSRSharpnessStrand +9 LTR match score:11111111110029632 - 29963 Len: 33235259 - 35590 Len: 332TG , TGCA , CA29627 - 29631 , 35591 - 35595 ATAAT17/22 3003111/15 35215-30052 (ThrAGT)17/22 3003111/15 35215-30052 (ThrAGT)-35229PBSPPTDomai
15、nDomain31889 - 32416 possible 0:31193-35236, (IN (core)33779 - 34387 possible 0:31193-35236, (RT)3.3图像形式的输出如果选择用图像输出结果,LTR查找器将用PNG逆转录转座子的相应位置。产生的图像是 用普通的轴线和对数轴线标识的。浸没在银溶液中的元件将按他们的实际大小在图像上显示 出来,即1像素代表1对数底数。浸没在蛋清液中的元件将被显示在对数轴上,因而元件之 间的距离将被调整,才能被放在小的粗帆布上。蓝色的圈表示PBS,棕色的圈表示PPT,在 LTR边界上紫色的圈表示TSR。Fig: CHR10
16、 Gray backgroundSeal已 1111 base = 1 p|x 已丨S3 me position (no offset)White background Scale mlogfn)N bases = c x log(N) pixels4UTR( + J score:8(0.835)1083Fig: CHR10 Gray backgroundSeal已 1111 base = 1 p|x 已丨S3 me position (no offset)White background Scale mlogfn)N bases = c x log(N) pixels4UTR( + J sc
17、ore:8(0.835)1083&RT3LTR(+) score: 11(1)47211 336 何RTIN (core)IN (core)1LTR(+) 5core:(l)_r 帼玮 197244371-2LTR( + ) score:8(0.862)5423771 TK7RT* 477904lot A372151IN (core)StarVStop positionFigure 2: Legend of output figure4.参数LTR查找器有很多参数,这些参数可以被分成两组:用于查找LTR逆转录转座子的参数(结构参数)和用于筛选(过滤)不可信结果的参数【筛选(过滤)参数】第一组参
18、数包括-0、 -t、-e、-m、-u、-D、-d、-L、-1、-p、-g、-J、-j、-s、-a 和-r,第二组参数包括-S、 -B、-b、-w、-0、-P 和-Fo4.1 -o, Gap ope n pen alty(正整数)-t, Gap extend penalty(正整数)-e, Gap end penalty(正整数)-m,匹配率(正整数)-u,错配率(负整数)这五个参数控制线性算法。将gap open penalty标记为Popen,把gap extend penalty 标记为Pext,把gap end penalty标记为Pend,把匹配率标记为Smatch,把Smismatc
19、h,分 比率和总比率分别由下列公式可得:分比率= Smatch 分比率= Smatch 总比率= SmatchN +Smatc h mismatch N u +S 一matc h mismatch其中match表示碱基配对数,mismatchN- Pmismatc hinner -gapN- P-Pmismatchinner -gap5 gap -P3 gap表示碱基错配数。另外:mner-gapPg* gapnner-gapden - 1)mner-gapPg* gapPd、gap JenPd、3fgap Jen其中inner-gap-len是末端碱基的长度。通常Popen比Smatch高。
20、4.2 -D, LTR之间的最大距离(正整数)-d, LTR之间的最小距离(正整数)-L, LTR之间的最大长度(正整数)-l, LTR之间的最小长度(正整数)LTR之间的距离由以下公式可得:Dkt = P世 LT R-b 亡gi n p5f LTR-en d + 】这四个参数可使探索出来的LTR逆转录转座子模型符合实际LTR逆转录转座子的特点。4.3 -g,延伸最大间隙(正整数)-j,延伸间隙(介于0和1之间的十进制数)-J,可靠延伸(介于0和1之间的十进制数)这三个参数控制的是LTR的延伸。两个相邻的LTR碱基对已经在图3中显示出来。如果 sib .m 和 sjb .n 足够相似的话,我们
21、将把 LTR 从 sib .i 和 smb .m 延伸至 sib .m bebebebebe和 si .n 。b e如图3:lbrih Hemb incrih HeFigure 3: 只肉Figure 3: 只肉.it. 久 and - me 占卜盹- 陀PP和P2已被预先整理过,因而jb三ib、nb 基对序列可知:P】的长度=i -ib +1 = j -jb +1e be bP2 的长度=m -mb +1 = n -nb +1e be b明显地,P1和P2之间的间隙长度为:三mb、jb三mb。从P1和P2是准确匹配的碱 TOC o 1-5 h z HYPERLINK l bookmark50
22、 o Current Document gapi = mb 1gap? =- 1介绍Diff, Diff表示延伸造成的碱基差异的数量:Diff =Lengthsgapt 0 and gap2 0Diff =maa:gapi, gap mingapi, gap otherwiseLength.是si + 1.mb - 1和sj + 1.nb - 1结合造成的不同碱基的数量。结合部位的相 inner -misebeb似度由以下公式可得:m打_ 旌?Van + m曲g缈弘衍 + 血毗e DQ7lenpai + maxgap1,gap2 +在LTR查找器确定能否将相邻的碱基对结合前,要先计算Diff,
23、以确定Diff值不超过延伸 的最大间隙值,然后计算 Sim。如果Simv extension cutoff,碱基对的延伸将会停止, PJsR .ij, sjb .j将被初定为LTR逆转录转座子。如果Sim reliable extension,新碱基 对P2和内碱基对都将与前碱基对P结合构成一个更长的碱基对序列Psib .me,sjb .ne, 然后LTR查找器将继续查找另外的相邻碱基对。如果 extension cutoff Sim Athal-chr4.tma25-AlaAGC (13454563-13454635) GGGGATGTAGCTCAGATGGTAGAGCGCTCGCTTAGCATGCGAGAGGCACGGGGATCGATA CCCCGCATCTCCA查找器用序列标识符最后的负号后的字符串作为tRNA的类型名称。-a,使用ps扫描预测IN (核心),IN (C末端)和RH这一参数是指示名称。LTR查找器可以通过调用 PS扫描预测蛋白域,PS扫描可从ExPASy-PROSITE 获得(/prosi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- STEAM理念下的高中地理教学研究
- 任务期限合同范例
- 代收房产贷款合同范例
- 排污泵施工方案
- 代理债务合同范例范例
- 伐木买卖合同范本
- 付款转让协议合同范例
- LCL型并网逆变器解耦和谐波抑制策略的研究
- 耦合计算机视觉及高精度雨洪数值模拟的城市内涝实时减灾研究
- 加盟商合同范例
- 2024年10月自考01685动漫艺术概论试题及答案含评分参考
- 2024 IMT-2030(6G)推进组白皮书 -面向6G的智能超表面技术研究报告
- 中华人民共和国保守国家秘密法实施条例培训课件
- 八年级数学分式经典练习题分式的乘除
- 设备工程师招聘面试题与参考回答
- 读书分享读书交流会《你当像鸟飞往你的山》课件
- 口腔牙齿美白课件
- 2024年中国山地滑道市场调查研究报告
- GB/T 2423.65-2024环境试验第2部分:试验方法试验:盐雾/温度/湿度/太阳辐射综合
- 【三菱】M800M80系列使用说明书
- 2024年巴中市中考历史试卷(含答案解析)
评论
0/150
提交评论