版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MATLAB在生物序列信息分析中的应用生物技术(生物制药方向09)杨清松0909501162摘要:MATLAB生物信息工具箱为广大用户提供了一个用于基因组和蛋白质组分析的综合环境,它利用数据库资源,使科学研究事半功倍,在工具箱提供的开放环境里,用户甚至可以按照自己的目的来设计和利用分析工具。本文主要介绍MATLAB生物信息工具箱在基因序列分析中的应用,包括确定核背酸组成,密码子组成,氛基酸转化和组成等,所有操作简便高效,结果可视化程度高。尖键词:MATLAB,序列分析,序列比对,ORF,密码子生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的尖系的统计工具和算法的开发结合在一起m。人类基因组测序工作完成后,我们在后基因组时代面临的一个重要问题,即如何处理越来越多的数据,进而分析基因组序列的意义,研究尚不清楚的结构和功能等。这对生物信息学的工具提出了新的挑战。在国际学术界,MATLAB已经被公认为准确、可靠的科学计算标准软件。从MATLAB6。5。1首次增加了引人注目的生物信息学工具箱以来,如今的版本生物信息学工具箱的数据处理能力得到了极大的提升-。目前,MATLAB可以进行序列分析,系统发生分析,芯片数据分析,可视化等,并可以在互联网上获取数据库资料。最新版本的工具箱则强化了质谱分析和统计推论与预测功能,包括基线校正、平滑、排比和重新取样等。能让研究人员执行质谱仪资料分析、统计推论与预测、绘图及处理大量基因组和蛋白质体序列分析等工作。文章主要介绍当前在基因序列分析、序列比对中的应用。1基因序列分析序列分析是利用计算机方法来寻找有尖核背酸或氨基酸。序列的信息序列分析的一般工作是基因识别,确定两个基因的相似性,确定一个基因的蛋白质编码以及研究另一相似基因的功能。在分析完一段序列时,首要任务就是研究序列中的核莒酸组成。下面是序列分析的主要内容和相应函数。1.1确定核背酸的组成可以使用序列统计函数确定这个序列是否含有蛋白质编码域的特征。1.2绘制密度图可用ntdensity函数绘制单体密度和联合体密度图。1-3计算核背酸数目可用basecount函数计算链中的核背酸数目。1.4计算互补核昔酸数目显示核背酸分布可用seqrecomplement函数显示核背酸的分布。1.5饼状图可用basecount函数显示饼状图。1.6计算二聚体个数可用dimercount函数计算一个序列中的二聚体个数,并在一个条形图中显示出来。1.7确定密码子组成三核背酸密码子编码一个氨基酸,在一个核昔酸序列中有个可能的密码子。知道序列中密码子的百分比有助于用户假设密码子的排列情况。1.8计算密码子数目可用函数计算一个核背酸序列中的密码子数目。1.9绘制热红外分布图可用绘图程序绘制热红外分布图显。1.10显示密码子示出个阅读框中的所有的个密码子。1.11确定密码子分布运用codecount函数。1.12氨基酸转化和组成确定蛋白质相矢的氨基酸组成可以提供给用户蛋白质特征图谱。1-13确定氨基酸组成和分子量可用atomiccomp函数和molweight函数确定蛋自质的氨基酸组成和分子量。2序列比对序列比对是生物信息学的重要基础。进行序列比对的目的之一是判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。序列比对的基本算法主要有两个, 一是用于全局比对的Needleman-wunsch算法,另一个是主要用于局部比对的Smith-waterman算法,而后者又是在前者的基础上发展起来的冏。在MATLAB生物信息工具箱中,序列比对主要用这两种算法。运用MATLAB进行序列比对的一般步骤如下:2.1查找序列信息2.1.1查找目的基因在NCBI中查询并获得目的基因序列。2.1.2读入序列数据用getgenebank函数可将基因信息被以结构列表的形式导人MATLAB工作区。2.1.3读入另一序列的信息导入另一可能有同源性的基因序列,如果用户能够在数据库中定位一个未知的基因,那么这个未知基因和已知基因的功能和特征很可能是相同的w°2.2确定蛋白质编码序列2.2.1查找目的基因的ORFORF即开放阅读框,指可以连续编码蛋白的核酸序列。利用seqshowORFs函数的输出结果给出了人类的所有阅读框中ORF中起始和终止密码子的位置。2.2.2查找另一参比基因的ORF2.3比较氨基酸序列2.3.1将ORF转换为氨基酸序列2.3.2绘制散点图用Seqdotplot可绘制散点图。2.3.3比对这两个氨基酸序列用nwalign函数可比对两序列。2.3.4截短序列2.3.5比对被截短的氨基酸序列2.3.6局部比对两氨基酸序列Matlab生物信息学工具箱提供了生物信息学中常用的函数,由于这些函数均经过严格测试,稳健性可以得到保证,免去我们自己设计这些函数的不便。Matlab生物信息学工具箱可用于计算生物学和设计新算法,创建可独立运行应用程序并得到可视化结果,使研究人员更专注于生物信息算法。目前,此工具箱还不能提供核酸和蛋白质高级结构的分析功能,这也为大家提供了改进的空间。以后Matlab会设计更好的算法,可重用的软件模块,改进数据库和不同数据类型的可视化显示,改进知识系统,以及用于阐述环境和遗传与环境相互作用对健康和疾病的影响。应用程序设计者可以用Matlab提供的工具设计生物技
术和药学软件。Matlab将在药物发现,基因组和蛋白质组学研究中有广泛的应用⑸。Reference:[1]CollinsFS5GreenED,GuttmacherAE,etal.Avisionforthefutureofgenomicsresearch[J].Nature,2003,422:⑵TheMathWorks.BioinformaticstoolboxforusewithMATLAB[M].TheMathWorksInc,2005.1-2.[3]唐玉荣•生物信息学中的序列比对算法[J]计算机工程与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024会计面试自我介绍范文(33篇)
- 造气知识-关于鲁奇炉
- 医院应急的演练总结
- 探索2024:2小毛虫教案设计详解
- 2022-2023年军队文职人员招聘《军队文职历史学》预测试题10(答案解析)
- 2024年中考物理一轮复习单元达标全攻略专题专题20电与磁含解析
- 2024年课堂教学革新:《鸡毛信》课件的新使命
- 2办公室5s策略:2024年培训课件
- 2025版高中数学一轮复习课时作业梯级练二十八平面向量的基本定理及坐标表示课时作业理含解析新人教A版
- 部编版道德与法治八年级下册4.2依法履行义务课时训练
- 2024年公开招聘大社区工作人员报名表
- 2024年上海市普通高中学业水平等级性考试(物理)附试卷分析
- 服务营销《(第6版)》 课件 第5章 服务产品与服务品牌
- 甘肃省庆阳市2023-2024学年六年级上学期语文期中试卷(含答案)
- 广州中医药大学-中药学模拟试题
- 2024年高考政治考试题海南卷及参考答案
- 食品供应商遴选制度(一)
- 吉林旅游外宣翻译策略探析
- 六年级语文小课题研究
- 广告宣传物料投标方案(技术方案)
- 天津市一中2024-2025学年高一语文上学期期中试题含解析
评论
0/150
提交评论