


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于二代测序的枇杷染色体步移研究
据报道,枇杷筛选计划始于2011年。近年来,以IlluminaHiseq为代表的二代测序的价格逐年降低,目前通过二代测序技术获得6G基因组数据量的价格已经低于千元。二代测序的单个Reads有150bp,双端测序时可以含盖200~500bp的DNA区域(根据需要,建库时可以选择更长的片段测序),这使得通过Reads的匹配来实现染色体步移成为可能。针对大量的测序数据,目前已经有一些工具可以使用,例如NCBI的Magicblast工具笔者对‘火炬’枇杷进行二代测序,获得原始测序数据。首先使用Magicblast工具进行染色体步移,在此基础上再使用生物信息学方法新开发了一款基于二代测序数据的启动子序列快速挖掘的脚本程序,并对‘火炬’枇杷中8个基因的启动子进行分离。最后通过PCR克隆和Sanger测序的方式进行验证。在枇杷和其他未公布基因组的物种中,本研究有助于快速获得相关基因的启动子序列,提高实验效率。1材料和方法1.1选择适应性品种‘火炬’枇杷(Eriobotryajaponica‘Huoju’)为晚花耐寒品种,适合江浙沪地区种植。为了方便后续研究,选择该品种为试验材料,2018年4月采集幼嫩叶片,使用CTAB法提取基因组DNA1.2对所获得的基因序列进行检测Magicblast针对测序原始数据设计,所以包含CleanReads的fastq文件不需要额外处理,可以直接操作。使用Makeblastdb指令对需要检索的基因序列前100bp进行建库,在使用Magicblast主程序检索测序获得的CleanReads.fq,设置参数score为60。现阶段Magicblast并不能设置检索到10个Reads后停止,只能等它运行完成。可以手动结束,但无法知晓它已经获得几个匹配的Reads。运行一次后,收集匹配的Reads,使用Seqman软件进行装配1.3pc机病毒提取fpsd本研究新开发的脚本程序需要对CleanReads进行预处理。共设计开发3个Perl脚本程序,分别为Fastqtofasta.pl,Readsformate.pl和Promoter_Scan.pl。前两者为Reads预处理脚本。所有脚本程序以及使用范例已经上传至百度云盘(链接:/s/13iB4RNom0IKjcF7aNzkLFQ,提取码:gvnf)。Fastqtofasta.pl负责提取包含CleanReads的fastq文件里的序列信息形成fasta格式文件。Readsformate.pl从双端测序的两端Reads的序列文件中分别分离首尾的10bp序列建立索引文件,首部索引为其反向互补序列,后部索引为正常序列。每一对双端测序Reads包含4个10bp的索引序列(图1-A)。这样Perl程序只需要先匹配10bp的序列,提前过滤不匹配的Reads,极大地提高了运行效率。由于需要遍历整个测序数据,耗时很长,本研究中60GB数据耗时约7h。该脚本只需要执行1次即可。1.4索引序列匹配Promoter_Scan.pl为核心程序。它首先读取目的基因的前100bp序列。按顺序检索每对Reads的4个10bp的索引序列,未匹配跳到下一个Reads。如果匹配,再次使用目的基因的前30bp序列(诱饵)和Reads进行匹配,再次匹配后触发延伸指令,两次匹配保证了准确性。在索引序列匹配过程中有两种情况,左端或者右端Reads的后索引匹配(图1-A),此时另一端Reads在下游,只能起校检作用,本次延伸长度短。另一种情况为左端或者右端Reads的前索引匹配(图1-B),前索引为反向互补序列,此时另一端Reads在上游,也进入拼接程序,中间未知部分使用N表示。本研究建库时片段长度为200~500bp。两端的Reads分别是150bp,所以中间部分为-100~200bp长度,平均为50bp。一轮拼接完成后,程序自动选择新序列的前100bp进行检索,直至延伸长度达到2000bp为止。从枇杷转录本中随机挑选8个基因进行启动子挖掘1.5pcr扩增测序根据步移结果设计引物(表1),使用PCR扩增获得‘火炬’枇杷的启动子序列进行验证。PCR反应体系为20μL(10μLLATaqHSpremix,1μL上游引物,1μL下游引物,DNA样品1μL,双蒸水7μL)。PCR程序为:94℃5min;94℃30s,55℃30s,72℃2min30s,35个循环。通过电泳割胶回收产物。使用PromegapGEM-TEasy对PCR产物和PUC19载体进行连接,转化到DH5α大肠杆菌,涂板挑选单克隆菌株送生工生物测序。使用Clustalx对预测和测序的序列进行比对2结果与分析2.1碱基数据获得使用IlluminaHiseqXten测序仪进行二代基因组测序,过滤掉测序质量差的Reads后(0.07%),获得2.06亿对双端150bp的Reads数据,共计61.77GB的碱基数据。测序数据已经上传至中国科学院BIGD数据库(BIGDataCenter:CRR056810)(/gsa)。前人估测枇杷基因组大小为700MB,所以测序深度约为85倍(表2)。2.2前端100p序列的检索使用CL15890.Contig2(细胞壁扩展蛋白EjEXP3)为测试基因,从枇杷转录本文库中找到该基因的序列,使用前端100bp序列建立Magicblast文库并进行检索。测试的‘火炬’枇杷二代测序数据超过60GB,整个数据的完全检索需要花费超过5h,所以运行0.5h后手动终止,获得部分检索结果。序列拼接后往前延伸,根据新序列建立新文库,循环延伸直至启动子区域超过2000bp。整个检索过程总共获得147个匹配Reads,拼接19次,耗时9.5h。2.3转录本的使用为了估测Promoter_Scan所需要花费的时间,随机挑选枇杷中8个基因进行测试。从转录组中获得转录本,逐一使用Promoter_Scan对每个基因的启动子区域进行染色体步移。统计延伸长度达到2000bp所需要拼接的次数和耗时。结果显示拼接次数需要9到14次,平均11.8次。耗时从15.2~28.4min,平均21.3min。表3说明通过Promoter_Scan可以显著提高实验效率。2.48ejop3基因启动子序列比对为了进一步验证本研究中开发的方法,对拼接后的启动子序列设计引物,通过克隆测序进行验证。笔者首先对Magicblast,Promoter_Scan和克隆测序后的EjEXP3基因(CL15890.Contig2)启动子序列进行比对(图2)。篇幅限制仅展示部分比对结果,除了Promoter_Scan中含有一定的未知序列N外,其余序列高度一致。通过PCR方式扩增剩余7个基因,Sanger克隆测序结果与预测结果序列完全一致,说明Promoter_Scan得出的结果可靠。3基于二代测序数据的启动子序列获取枇杷基因组测序相关数据尚未公布,想要获得相关基因的启动子序列很难,这也是很多研究团队进行基因组测序的原因。传统方法多基于PCR法的染色体步移或者通过已公布近源种基因组同源克隆获得。染色体步移实验过程繁琐,风险大基于此,本研究基于二代测序数据使用了两种方法来获取启动子序列。通过Magicblast检索耗时很长,但获得的匹配Reads很多,通过拼接可以校正一些不正确的碱基。Magicblast已经模块化,所以只能依据检索结果进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论