从Genbank中提取原始数据经过机群系统的处理-生物信息课题组_第1页
从Genbank中提取原始数据经过机群系统的处理-生物信息课题组_第2页
从Genbank中提取原始数据经过机群系统的处理-生物信息课题组_第3页
从Genbank中提取原始数据经过机群系统的处理-生物信息课题组_第4页
从Genbank中提取原始数据经过机群系统的处理-生物信息课题组_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学

及其软件平台庄君中科院计算所生物信息学实验室2002年2月生物信息学

及其软件平台庄君2002年2月1第一部分:

生物信息学研究需要什么?第一部分:

生物信息学研究需要什么?2需要什么?数据库(DNA、蛋白质序列)各种算法(Blast,Genscan……)这样就行了吗?——用户(生物学研究人员)如何能更好的使用a和b需要什么?数据库(DNA、蛋白质序列)3Bioinformatics–aDefinition

--OxfordEnglishDictionary(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformationsystemformolecularbiologyandhasmanypracticalapplications.Bioinformatics–aDefinition

4Bioinformatics:科技界一颗耀眼的新星在BIOINFORMATICS没有诞生之前,一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS研究项目。Bioinformatics:科技界一颗耀眼的新星在BI5美国电脑执照--高薪阶层“BIOINFORMATICSCERTIFICATION”,这是目前最新的一门生物化学工程与电脑技术相结合的课程。包括“CBS”证书和“CBM”证书。VisualBasic

--$1195VisualC++

--$1295BioInformatics

--CBS,CBM

$2500

MIT:Course:20.01sDate:June24-28,2002Tuition:$2,500

美国电脑执照--高薪阶层“BIOINFORMATICSCE6后基因组时代后基因组时代的挑战:

1.蛋白组学:序列->结构->功能2.研究生物的生长代谢的过程和疾病的机制3.基因组药物………生物信息学离不开高性能计算机。并需要信息学家的参与。急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。后基因组时代后基因组时代的挑战:

1.蛋白组学:7pic2pic28pic3pic39Pic4Pic410Pic5Pic511Pic6Pic612Pic7Pic713MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationI:Designing14MajorApplicationII:FindingHomologsMajorApplicationII:Finding15MajorApplicationIII:

OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,StatisticsMajorApplicationIII:

Overall16proteomicsdataproteomicsdata17Proteomicstools

IdentificationandcharacterizationDNA->ProteinSimilaritysearchesPatternandprofilesearchesPost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignmentProteomicstoolsIdentificatio18CIF:生物信息学构架

CorporateInformationFactory(CIF)是一个支援企业级的信息系统构架结构。生物信息学是在生物研究中信息系统的应用。CIF正是一个从不同的源头来集成生物信息学数据,数据库中管理这些信息,并将这些信息递交专家系统进行处理的一个完整的体系,数据集成、数据标准化、数据完整准确性是CIF的特点。当这些运作起来之后,CIF提供了一个企业级管理生物信息数据的方法。CIF:生物信息学构架

CorporateInformat19生物信息学构架(2)数据结构、信息提取过程的不统一、数据集成和标准化工作的不力是目前生物信息学的一个问题,这个问题妨碍了信息的交互,这一点在基因组和蛋白组学研究中很突出。孤立的基因组和蛋白组数据只能揭示很少的在活体细胞内的基因/蛋白的功能信息,而一个集成的,以系统学方法管理的生物信息学数据将为研究者带来更广阔的视野。生物信息学构架(2)数据结构、信息提取过程的不统一、数据集20服务器-客户式结构

client-server生物信息网络中的数据库服务广泛采用服务器-客户式结构,这些服务器包括为数众多的数据库搜索和序列对比服务器以及各专业领域的服务器.服务器-客户式结构

client-server生物信息网21生物信息数据库种类生物信息数据库是种类繁多。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个数据库生物信息数据库种类生物信息数据库是种类繁多。22BioinformaticsandXMLXML因其将数据信息本身的存储与关联与表现形式相分离,强大的可扩展性,本身层次清晰的树形结构特性以及跨平台、跨语言的特性而成为良好网际语言,并在各种数据和存取工作中大显神通。生物信息学的发展同样引入了XML技术。BioinformaticsandXMLXML因其将数据23 JAVA

Java是一种跨平台的编程语言在基于JAVA语言开发的网上序列查询和类比排列系统上,科学家们可通过视图方式对已知DNA、蛋白质结构、基因结构及科学家们提交的序列进行比较,分析出有意义的信息,包括新基因的发现,重复序列的测定,调控基因的确定,完整基因的分析等等。 JAVAJava是一种跨平台的编程语言24Java(2)Java迫使你更加系统化,必须进行程序构架规划。而且它还能帮助你避免通常的编码错误。”

有人说,Java很慢.真的吗?Java(2)Java迫使你更加系统化,必须进行程序构架规25第二部分:

我国生物信息学第二部分:

我国生物信息学26现状及问题1.我国已有强大的DNA测序中心:

华大,北方,南方,..但我们需要运算速度远比现在计算速度快的机器或方法.

2.生物信息学处理系统处于初级规模.有一些Genbank,EMBL,GCG的镜象.

(1).没有自己的完善的系统(2).没有大量新算法的开发

3.后基因组:科研单位及制药工业并未完全吸收利用生物信息学的工具.现状及问题1.我国已有强大的DNA测序中心:

华大,北方27现有各种生物信息学网站(公共免费的,如NCBI,EMBL)特点:数据多、全,并且具有权威性缺点:1)用户太多(全世界),国内的网慢,比如有时递交较长的序列做Blast会很长时间得不到结果2)数据库太大太多,使用不易付费的,如:eB,doubletwist,com,虽然使用方便,帮助用户在网站上保留数据,服务性好,软件也好用但是需付费,学术力量不强现有各种生物信息学网站(公共免费的,如NCBI,EMBL)28第三部分:

建立自主知识产权的生物信息学处理软件平台第三部分:

建立自主知识产权的生物信息学处理软件平台29时期生物信息学的作用

我们能做的序列基因组收集、存储、分析和共享信息资源能功能基因组识别基因及功能,图谱能蛋白质组鉴别和分类能治疗/研究疾病基因预测/基因芯片能?药物设计研制新药/产业化能??我们能做什么时期生物信息学的作用我们能做的序列基因组收集、存储、分30GenbankHTGHTG是GenBank、DDJB及EMBL为使生物学家更好地进行同源性对比搜寻高通量基因组序列而作的特殊分类。占所有DNA序列的70%以上。HTG部分包括那些通过高通量测序中心测序产生的尚未完成的DNA序列,有或没有注释。

GenbankHTGHTG是GenBank、DDJB及E31项目目标(生物信息学处理软件平台)开发一个可以使用Genscan,Blast,Blocks等分析GeneBank的基因组数据并可以通过Web界面进行查询的原型系统不断完善,添加算法和更新数据,最终可以通过提供数据和服务来获取社会效益和经济效益项目目标(生物信息学处理软件平台)开发一个可以使用Gensc32

各种序列:DNA,Protein生物信息学处理软件平台BlastGenscanBlocks生物学家计算生物学模型/算法软件并行软件:Blast,Phrap,SW市场化各种算法串行后基因组学数据并行各种序列:生物信息学BlastGenscanBlocks生33项目功能描述(一)从Genbank中提取原始数据,经过机群系统的处理(运行各种目前流行的算法,如Blast、GenScan、Blast等对提取的数据进行分析),生成rawdata,最后经过文本处理程序(perl)的处理,得到xml格式的数据。项目功能描述(一)从Genbank中提取原始数据,经过机群系34项目功能描述(二)用户通过网页提交检索,检索经过预处理的核酸、蛋白质序列数据库,将结果以图形、图像的形式,通过网页返回给用户查看,检索后的数据应具备较高的可用性(以图形化的方式将相应的算法处理结果表达出来)项目功能描述(二)用户通过网页提交检索,检索经过预处理的核酸35竞争优势强大的计算资源高性能计算机高性能算法的支持并行Blast解决了Blast在单节点上的瓶颈问题我们对生物信息领域深刻的理解GenebankHTGDivision生物学家与计算机开发人员的紧密配合竞争优势强大的计算资源36社会效益和经济效益社会效益具有我国自主知识产权的生物信息处理软件平台1、提供个人数据和服务2、为客户的特殊要求度身定做数据或处理系统3、新算法的开发社会效益和经济效益社会效益37生物信息学处理

软件平台版本1。0

1。目前只注释人类的Genome数据库a.预测基因结构

b.预测蛋白编码基因

2。目前数据库最重要来源是GenBank序列。未完成注释的HTG序列70%,已部分完成注释的PRI序列30%.

我们的平台包括:

a.通过一个庞大的算法流水线(pipeline)来

加工,和注释未完成(或已完成)的基因组的DNA序列.

b.数据库格式化:

XML技术.c.通过搜索引擎在网络上实现可用性。

d.数据图视化及用户服务。生物信息学处理

软件平台版本1。01。目前只注释人类的38流程图Genbankflatfile用户数据算法流水线集群运算(曙光,PBS,…..)数据处理,数据库管理,XML,。。。搜索引擎网站WEBServerHTML图视化流程图Genbank用户数据算法流水39xPBS命令GUIxPBS命令GUI40xPBSMON节点监控xPBSMON节点监控41图视化—HTG没有Genbank注释

图视化—HTG没有Genbank注释42图视化—PRI(有Genbank注释)图视化—PRI(有Genbank注释)43未来的图视化未来的图视化44第四部分:

基因组分析的算法的

现状和发展问题第四部分:

基因组分析的算法的

现状和发展问题45Algorithms—已有算法(1)我们的分析使用算法:(已完成的)

a.GENSCAN--

预测exons(外显子),introns(内显子)和Promotor(起动子)...

预测可用作替换拼接形式的基因

b.BLOCKS--

预测出蛋白质的结构:motifs(模式)和domains(域)。c.BLASTx--

预测蛋白质的功能和相似性的家族。

Algorithms—已有算法(1)我们的分析使用算法:(已46blocks-算法(2)BLOCKS

>PR006781/10blocks:PI3KINASEP85REGULATORYSUBUNITSIGNATUREBlockFrameLocation(aa)BlockE-valuePR00678D0416-4341.6|---157aminoacids---|

PR00678

AAA::::::BB::::CCCC::::::DDDEEEE:::::FFFGGGG7UP1_DROME<::::::::::::::::::::::::::DDD

blocks-算法(2)BLOCKS47Blastx-算法(3)Blastx-算法(3)48算法(4)

a.REPEAT_MASKER--RepeatMasker是一程序.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论