生物信息学分析的计算机环境最优配置-_第1页
生物信息学分析的计算机环境最优配置-_第2页
生物信息学分析的计算机环境最优配置-_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学分析的计算机环境最优配置摘要:生物信息学是现代生物学、计算机科学和数学的交叉学科,主要通过数学方法借助计算机对生物数据进行科学分析,相对于传统实验方法更高效、更具有逻辑性。本文主要以Linux系统的衍生系统——Ubuntu系统为分析系统,介绍如何配置最适合于生物信息学分析的计算机环境。

关键词:生物信息学;分析环境配置;Ubuntu系统;生物数据分析

生物信息学是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,是生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示繁杂的生物数据所蕴含的生物学意义。ubuntu系统基于Debian发行版和GNOME桌面环境。它的目标在于为用户提供一个最新的、相对稳定的主要由自由软件构成的操作系统,可免费使用,并带有社团及专业支持。本文介绍了如何借助Ubuntu系统,配置较优的生物信息学分析环境。

1生物信息分析环境的配置

1.1安装win+Ubuntu双系统

第一步:进入程序员管理空间Win+X,在管理磁盘栏目下面选择二进制空间完好且较大的空间进行分配。将分配空间进行二进制码压缩,选择60*1024MB的二进制空间压缩。然后产生黑色可用空间。

第二步:同样在程序员空间下进入电源选项,修改原来在windows系统下的電源功能。将原来的默认值修改为关闭快速启动的值,保证在安装Ubuntu系统后的grub正常运行。最后使用wq方式保存当前安装。也可以进入DOS环境编译修改win的设置。

第三步:在DOS环境中restart个人终端。通过快捷键进入bios空间。进入方式依据PC型号不同而不同,进入系统bios后将U盘启动调整为最优先工程,设置后再次restart切换进入ubuntu安装界面。进入ubuntu主界面后在U盘中找到刻录的ISO文件双击翻开ubuntu安装文件,完成默认设置。【1】

第四步:在Ubuntu下创立新的二进制空间,以add方式创立四个新的分区空间,分区空间以之前分配的60*1024MB为基准。首先将10*1024MB分配为根底二进制空间,又在根底二进制空间上,添加20*1024MB作为空间的起始局部。通过布尔转换设置空间的日志及逻辑分区,将剩下的空间全部作为衔接双系统的swap逻辑空间。

切换回windows系统设置引导内容,保证两个系统在开机中有选择性进入栏目。在DOS下进入/boot编译设置,将引导路径设置为由windows下主导的路径。restart终端,进入Win10下的EasyBCD完成最后的引导设置。在进入add新条目栏目下选择Linux/BSD操作系统,在“驱动器〞栏目选择接近200M的Linux分区,点添加条目。

为了将Ubuntu系统配置为适合生物信息分析系统,方便编译生物信息分析软件,需要修改gcc,通常计算机内置gcc为以下:

Lrwx1rootroot72021

rwxrxrx1rootroot22154232021

rwxx1rootroot2143692021

rwxrxrx1rootroot3365472021

由上面显示可以看出默认安装的是gcc4.6,现在来改成gcc4.4:

〔1〕rmdirpgcc-4.6/usr/bin/etc/gcc。将这个连接的软性设置删除

〔2〕terminal:sudormdirr/usr/bin/etc/gcc&chown/usr/bin/etc/gcc770

〔3〕创立一个软连接,指向gcc4.4【2】

〔5〕terminalusing:gccv

〔6〕使用内建specs

目标:i686linuxgnu

配置为:

2软件安装与编译

高通量测序数据下载后的原始fastq文件,包含4行,其中一行为质量值,另外一行那么为对应序列,我们都了解高通量的数据处理首先要进行质量控制【3】,这些过程包括去接头、过滤低质量reads、去除低质量的3和5端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,一般使用Fastxtoolkit,下载如下:

./configure&&make&&sudomakeinstall

ExportPATHPKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH

cd../fastx_toolkitsudomakeinstall

TopHat是一个快速将RNASeq数据剪接映射的程序,它将读段大小分散成不同的小片段,对每个小片段进行重新建模,再根据空位罚分机制将小片段和参考基因组上的片段进行比对。在片段长度足够小的时候会增加非特异性比对次数,所以需要设置最小片段的最大长度限制。通常大基因组物种选择长读段测序,设置较大最小片段的最大长度,小基因组物种那么反之。

直接下载适合于Linuxx86_64的二进制文件,解压缩即可使用。

需要注意,很多接头序列比较长,应搞清楚具体实验时的接头长度。通常情况下,我们需要将接头之间的序列进行比对和过滤。

3结论

生物信息的环境配置首先要将原Ubuntu系统的g++/gcc进行修改,这样可以将权限及操作环境修改为最适合生物信息分析的状态。

软件安装上,使用Fastx_toolkit和比对软件可以对各种测序结果进行数据分析。

Tophat可以将数据进行动态映射,保证数据分析的快速性。

参考文献:

2021〔01〕:4756.

【2】汤庄力,王添,肖生祥,王晓鹏.表皮松解性掌跖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论