生物信息学及其在寄生虫遗传变异和进化分析上的应用_第1页
生物信息学及其在寄生虫遗传变异和进化分析上的应用_第2页
生物信息学及其在寄生虫遗传变异和进化分析上的应用_第3页
生物信息学及其在寄生虫遗传变异和进化分析上的应用_第4页
生物信息学及其在寄生虫遗传变异和进化分析上的应用_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学及其在寄生虫遗传变异和进化分析上的应用第1页/共48页OUTLINE

生物信息学的来源及基本概念

生物信息学的研究内容及数据库资源

生物信息学在寄生虫遗传变异和进化分析上的具体应用第2页/共48页IntroductiontoBioinformatics一、生物信息学的来源

人类基因组计划的实施带动大量模式生物测序工作的展开生物信息学应时代要求而生从数据的汪洋大海中淘出对人类有用的相关信息对数据搜集、管理、处理、分析和释读海量的生物学数据涌现第3页/共48页IntroductiontoBioinformatics三种科学文化的融合生物学家(生物学问题)数学物理学家计算机科学家(基础理论问题)工程师(技术应用)第4页/共48页IntroductiontoBioinformatics二、生物信息学的准确概念它是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。U.S.Departmentofenergy,officeofhealthandenviron-mentalresearch,humangenomeprogram,nationalinstitutesofhealth(UnitedStates),nationalcenterforhumangenomeresearch.Understandingourgeneticinheritance:TheU.S.humangenomeproject:thefirstfiveyears,FY1991-1995第5页/共48页生物信息学自诞生以来,大致经历了以下三个阶段:

前基因组时代:标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析;基因组时代:标志性工作包括基因寻找和识别、网络数据库系统的建立和交互界面的开发;后基因组时代:标志性工作是大规模基因组分析、蛋白质组分析以及各种数据的比较和整合。第6页/共48页一方面是实验数据即核苷酸和氨基酸序列的获得、处理、贮存以及在互联网的传输、共享。另一方面是数据的搜索、分析和注解,从而诠释数据中所蕴含的生物学意义。由此引发生物信息学的研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两个方面上。IntroductiontoBioinformatics第7页/共48页IntroductiontoBioinformatics三、生物信息学的研究内容新基因的发现与鉴定完整基因组的比较研究大规模基因功能表达谱的分析生物大分子的结构模拟与药物设计非编码区信息结构分析遗传密码起源和生物进化的研究第8页/共48页libraryofBioinformatics三、生物信息学的数据库资源二级数据库在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。一级数据库直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库一级蛋白质序列数据库:SWISS-PROT库、PIR库一级蛋白质结构数据库:PDB库、SCOP库、CATH库第9页/共48页libraryofBioinformatics第10页/共48页一级数据库简介1、核酸(DNA)序列数据库世界三大核酸序列数据库(公共序列数据库,PublicSequenceDatabase)

GenBank(美国)

EMBL(欧洲)

DDBJ(日本)EMBLGenBankDDBJ第11页/共48页libraryofBioinformatics

GenBank(美国国家生物技术信息中心,NCBI)

1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)

/汇集并注释了所有公开的核酸以及蛋白质序列。第12页/共48页第13页/共48页libraryofBioinformatics

EMBL(欧洲分子生物学实验室,EMBL)1982EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)

http://www.ebi.ac.uk/第14页/共48页第15页/共48页libraryofBioinformatics

DDBJ(日本国家遗传学研究所,NIG)1984DatabankofJapanNIG(NationalInstituteofGenetics)

http://www.ddbj.nig.ac.jp/searches-e.html第16页/共48页第17页/共48页libraryofBioinformatics2、蛋白质序列数据库

SWISS-PROT(欧洲)

PIR(美国)第18页/共48页libraryofBioinformatics

SWISS-PROT1.瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;

3.数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)4.数据存在滞后性TrEMBL数据库的建立SWISS-PROT的网址:/sprotTrEMBL的网址:http://www.ebi.ac.uk/trembl/index.html第19页/共48页第20页/共48页libraryofBioinformatics

PIR(proteininformationresource)1.是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组/蛋白质组研究。

2.PIR还包含以下信息:

(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;

(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。

3.PIR提供三种类型的检索服务:

(1)基于文本的交互式查询,用户通过关键字进行数据查询。

(2)标准的序列相似性搜索,包括BLAST、FASTA等。

(3)结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。

网址:/第21页/共48页第22页/共48页libraryofBioinformatics3、蛋白质结构数据库

PDB(proteindatabank)

1.目前最主要的蛋白质分子结构数据库;

2.1970年代建立,美国Brookhaven国家实验室维护管理;3.1988年,由美国RCSB(researchcollaboratoryforstructuralbiology)管理;

4.以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;

5.PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。PDB的网址:/pdb(美国)PDBsum的网址:http://www.biochem.ucl.ac.uk/bsm/pdbsum第23页/共48页第24页/共48页libraryofBioinformatics

SCOP(StructuralClassificationofProtein)

英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;SCOP的网址:http://scop.mrc-lmb.cam.ac.uk/scop/

CATH(class,architecture,topology,homology)

英国伦敦大学开发维护;CATH的网址:http://www.biochem.ucl.ac.uk/bsm/cath

第25页/共48页二级数据库简介二级数据库是在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。一级库和二级库间并没有明显的界限。二级数据库的形式:大多以web界面为基础,以文字信息、表格、图形、图表等方式显示数据库内容;第26页/共48页libraryofBioinformatics基因组信息二级数据库

E.coli基因组数据库德国Pastear研究所建立。除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。

TransFac的网址:/Colibri/

TransFac(真核生物基因转录调控因子数据库)

德国生物工程研究所开发维护,始建于1988年。包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。TransFac的网址:

第27页/共48页libraryofBioinformatics蛋白质序列二级数据库

Prosite(蛋白质序列功能位点数据库)

始建于1990年初,由瑞典生物信息学研究所SIB负责维护。基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。Prosite的网址:/prosite/

第28页/共48页libraryofBioinformatics蛋白质结构二级数据库

DSSP(DefinitionofSecondaryStructureofProteins)

蛋白质二级结构构象参数数据库

DSSP的网址:http://www.cmbi.kun.nl/gv/dssp/

FSSP(FamiliesofStructuralSimilarProteins)

蛋白质家族数据库

FSSP的网址:http://www2.embl-ebi.ac.uk/dall/fssp/

HSSP(HomologyDerivedSecondaryStructureofProteins)

同源蛋白质数据库

HSSP的网址:http://www.cmbi.kun.nl/gv/hssp/

第29页/共48页四、生物信息学在寄生虫遗传变异和进化分析上的具体应用

第30页/共48页

生物进化分析是生物信息学的一个重要分支,它通过对生物序列的研究推测物种的进化历史。主要方法包括通过DNA序列,蛋白质序列,蛋白质结构等来构建分子进化树或者种系发生树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究主要包括判定直系/旁系同源基因;估计分歧时间;重建祖先序列/性状;发现生物序列上自然选择影响较大的重要位点;确定基因重组的发生位点;识别和疾病关联的突变;确定病原体的分类等。生物信息学在寄生虫进化分析和遗传变异中的应用主要是借助分子生物学技术开发有效的分子标记或以整个基因组作为研究对像,配合分子进化分析软件来共同完成。第31页/共48页1、寄生虫基因组序列数据的管理

我们的研究和分析工作也是建立在对数据库资源的解读和利用基础之上。伴随寄生虫基因组计划的实施产生了大量的EST序列、全长cDNA序列和蛋白质序列等数据。EBI已经建立了附属EMBL的寄生虫基因组数据库(http://www.ebi.ac.uk/)对寄生虫基因组数据进行管理。第32页/共48页传统的分类方法已经不能完全解决寄生虫种、株的鉴定问题。这就需要生物信息学结合分子生物学技术对数据库中的寄生虫核酸或氨基酸序列信息进行检索、比对分析,通过计算机建立数学模型构建系统发育进化树来解决寄生虫的真实归属问题。2、生物信息学在寄生虫分子分类和鉴别诊断上的应用第33页/共48页

2008年有学者利用RT-PCR和克隆测序技术获得猪囊尾蚴10个分离株的coxI部分基因序列,分别用ClustalX1.81程序对序列进行比对,然后用PAUP4.0程序最大简约法(maximumparasimony,MP)和邻接法(neighbor-joining,NJ)绘制种系发育树,并用PUZZLE5.2程序构建最大似然树(maximumlikelihood,ML);同时利用WDANSIST2.5程序和DNAstar5.0中的Megalign程序进行同源性分析。结果表明10个猪囊尾蚴分离株的coxI部分基因序列属于猪带绦虫亚洲基因型;猪囊尾蚴coxI部分基因可有效区分出Asian和American/African两种基因型,并可用于不同种带科绦虫的鉴别诊断。从而推断出猪囊尾蚴coxI基因有望作为一种鉴别标记用于带科绦虫病和囊尾蚴病的鉴别诊断。

赵光辉,张改平,等.基于coxI基因对猪囊尾蚴河南分离株种系发育关系的研究[J].畜牧兽医学报,2008,39(1):72-78.第34页/共48页亚洲型猪带绦虫第35页/共48页(1)早期的研究多是基于对单个基因或多条基因联合来进行分析。

2003年Shrivastava等利用微卫星DNA技术结合计算机建模重构系统发育进化树对中国大陆7省8个流行区域的日本血吸虫进行种群遗传关系分析,结果显示,日本血吸虫的遗传变异在同一流行类型区域与距离没有关系,但与流行类型关系密切,其种群关系分为低洼湖区(安徽、江西、湖北、浙江和湖南)和山区(四川和云南)两个分支。

(SHRIVASTAVAJ,QIANBZ,MCVEANG,etal.AninsightintothegeneticvariationofSchistosomajaponicuminmainlandChinausingDNAmicrosatellitemarkers[J].MolEcol,2005,14(3):839-849.)3、生物信息学在寄生虫种系发育分析、系统进化上的应用

第36页/共48页

2006年Wang等利用M5A,RRPS,MF1,2AAA,J5和MPA等6个微卫星位点结合生物信息学分析方法对人、水牛、牛、山羊、犬、猫和猪体内的日本血吸虫进行种群遗传关系分析,结果发现每种群体在每一个位点的特有等位基因数很多,其中人在每个位点的平均等位基因数目最高(7.8),而水牛、牛、羊、猪、犬、猫分别为5.54、1.19、2.82、1.19、0.1、0。进化树聚类分析发现人和牛、水牛位于一枝,说明人的感染和牛与水牛的感染密切相关,也在理论上解释了给人单独使用化学药物治疗血吸虫病效果不佳的原因,因为人与家畜的接触随即会产生再感染。

(WangTP,ShrivastavaJ,JohansenMV,etal.Doesmultiplehostsmeanmultipleparasites?PopulationgeneticstructureofSchistosomajaponicumbetweendefinitivehostspecies[J].IntJParasitol,2006,36(12):1317-1325.)第37页/共48页人与水牛、牛聚为一枝第38页/共48页

2009年Zhao等以线粒体基因序列cox3,nad4和nad5作为研究对象,对这三段序列进行联合比对分析并重构系统发育进化树,相关生物信息学分析表明联合使用这三段基因可以对血吸虫做有效的种内种间区分,并能很好的解释出湖南岳阳楼区因长期实施化学药物灭螺导致该地区日本血吸虫发生较大的变异,其在进化树上有别于其他的湖区型日本血吸虫特点而单独成为一枝。这在理论上解释了长期的化学药物灭螺加速了日本血吸虫的变异速度,也在一定程度上解释了常规药物治疗效果每况愈下的原因。ZhaoGH,MoXH,ZouFC,LiJ,WengYB,LinRQ,XiaCM,ZhuXQ,2009GeneticvariabilityamongSchistosomajaponicumisolatesfromdifferentendemicregionsinChinarevealedbysequencesofthreemitochondrialDNAgenes.VetParasitol162:67–74第39页/共48页湖南岳阳楼区单独聚为一枝山区型第40页/共48页(2)建立在全基因组抽样基础上的进化树的拓扑结构相对于常规的靠一个或一些基因而建的进化树较少受到基因组变化的影响如水平基因转移,缺失,错位以及在某种程度上的数据缺失。因此大量数据甚至全基因组的生物信息学比较分析也被引入解决寄生虫深度进化的问题上来。第41页/共48页2009年Huang等用深度测序的方法获得了日本血吸虫童虫和成虫两个发育阶段的小RNA文库。通过生物信息学建模和软件分析确定了176个新的日本血吸虫小RNA。并在这些发现的小RNA中找到了一些可以显示两个发育阶段差异表达的。作者通过将他实验获得的这些小RNA与其他的多细胞生物已知的小RNA比对分析发现,有21种是与日本血吸虫直系同源的。同时也发现日本血吸虫小RNA中的一些核苷酸位点有发生变异如miR-8等,这确实与其它两侧对称动物直系同源的micRNA大不相同。这在我们判定直系/旁系同源基因、估计分歧时间、重建祖先序列/性状以及发现生物序列上自然选择影响较大的重要位点上具有重要意义。

HuangJ,HaoP,ChenH,HuW,YanQ,etal.(2009)Genome-WideIdentification

ofSchistosomajaponicumMicroRNAsUsingaDeep-Sequencing

Approach.PLoSONE4(12):e8206.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论