生物信息学软件PPT课件_第1页
生物信息学软件PPT课件_第2页
生物信息学软件PPT课件_第3页
生物信息学软件PPT课件_第4页
生物信息学软件PPT课件_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学软件vPISCESvCH-HITvMRMRvSVMvWekavKINMEUniprotvUniProt? ?是?Universal?Protein?的英文缩写,?是信息最丰富、资源最广的蛋白质数据库.?它由整合Swiss-Prot、?TrEMBL?和?PIR-PSD?三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息.vSWISS-PROT?数据库是最齐全的注释精炼的蛋白序列库,建立于1986年,?1987年起由日内瓦大学(University?of?Geneva)医学生物化学系和?EMBL?数据馆(即现在

2、的欧洲生物信息研究所EBI)共同维护?UniprotvSwiss-Prot,?which?is?manually?annotated?and?reviewed?vTrEMBL,?which?is?automatically?annotated?and?is?not?reviewed PISCESv序列相似性比对软件v进行序列相似性比对v蛋白质预测时序列相似性一般选取:?25%,40%CH-HITvCD-HIT?was?originally?a?protein?clustering?programv序列相似性比对软件vDOS下运行v最低的序列相似性为40%LibSVMv可以在Matlab,?R,

3、?Perl,?Java,?Dos下运行v如何利用python?grid选择最优参数vDOS?系统下的LibSVM可以实现MRMRv最大相关性,最小冗余性的特性选择方法v可以在DOS,JAVA,Matlab下运行v可以进行特性选择,提高预测结果的准确率WekavWeka的全名是怀卡托智能分析环境(Waikato?Environment?for?Knowledge?Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine)的,基于JAVA环境下开源的机器学习(machine?learning)以及数据挖掘(data?minining)软件.?v它和

4、它的源代码可在其官方网站下载.?有趣的是,该软件的缩写WEKA也是New?Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New?Zealand的the?University?of?Waikato。KINMEvKNIME?(Konstanz?Information?Miner)?是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台.?它给了用户有能力以可视化的方式创建数据流或数据通道,可选择性地运行一些或全部的分析步骤,并以后面研究结果,模型以及可交互的视图。vKNIME?由Java写成,其基于?Eclipse?并通过插件的方式来提供更多的功能。通

5、过以插件的文件,用户可以为文件,图片,和时间序列加入处理模块,并可以集成到其它各种各样的开源项目中,比如:R?语言,Weka,?Chemistry?Development?Kit,?和?LibSVM.vJASPARvConSitevTRANSFACvrVista?2.0 vMEME?vWeblog转录因子结合位点v转录因子:能够结合在某基因上游特异核苷酸序列上的蛋白质,活化后从胞质转位至胞核,通过识别和结合基因启动子区的顺式作用元件,启动和调控基因表达v转录因子结合位点:转录因子结合位点是转录因子调节基因表达时,与转录因子结合的区域JASPARvJASPAR?是收集有关转录因子与DNA?结合位

6、点模体(motif)的最全面的公开的数据库,?该数据库是由哥本哈根大学维护。vJASPAR?数据库中所包含的数据,?都经过严格筛选,?有确切的实验依据,?通过计算机辅助软件进行整合识别匹配并用生物学手段进行注释v(1)?JASPAR?COREv(2)?JASPAR?CNEv(3)?JASPAR?FAMv(4)?JASPAR?PBMv(5)?JASPAR?PBM_HLHv(6)?JASPAR?PBM_HOMEOJASPAR_CORE?核心数据库vThe?JASPAR?CORE?database?contains?a?curated,?non-redundant?set?of?profiles,?

7、derived?from?published?collections?of?experimentally?defined?transcription?factor?binding?sites?for?eukaryotes.?vThe?prime?difference?to?similar?resources?(TRANSFAC,?etc)?consist?of?the?open?data?access,?non-redundancy?and?quality.?JASPAR?CNEvJASPAR?CNE?is?a?collection?of?233?matrix?profilesvBy?clus

8、tering?of?overrepresented?motifs?from?human?conserved?non-coding?elements.?vThe?biochemical?and?biological?role?of?most?of?these?patterns?is?still?unknown?如何得到位置矩阵位置矩阵如何打分Phylogenetic?footprintingvPhylogenetic?footprinting?is?a?technique?used?to?identify?transcription?factor?binding?sites?(TFBS)?wit

9、hin?a?non-coding?region?of?DNA?of?interest?by?comparing?it?to?the?orthologous?sequence?in?different?species.同源v若两个或多个结构具有相同的祖先,则称它们同源(Homology)v这里相同的祖先既可以指演化论意义上的祖先,即两个结构由一个共同的祖先演化而来,也可以指发育意义上的祖先,即两个结构由胚胎时期的同一组织发育而来。 直系同源与旁系同源v如果两个基因有着几乎一样的DNA序列,那么它们很可能同源 。v同源序列可分为两种:直系同源(orthology)和旁系同源(paralogy)。v

10、直系同源的序列因物种形成(speciation)而被区分开(separated):若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的。v啮齿动物和人类v旁系同源的序列因基因复制(gene?duplication)而被区分开(separated):若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。v肌红蛋白(myoglobin)和血红蛋白(hemoglobin)被认为是古老的旁系同源体ConSitevConSite?is?a?user-friendly,?web-based?tool?for?finding?cis-regulatory?eleme

11、nts?in?genomic?sequences.?vPredictions?are?based?on?the?integration?of?binding?site?prediction?generated?with?high-quality?transcription?factor?models?and?cross-species?comparison?filteringvBy?incorporating?evolutionary?constraints,?selectivity?is?increased?by?an?order?of?magnitude?as?compared?to?si

12、ngle-sequence?analysis TRANSFAC vTRANSFAC数据库是关于转录因子、结合位点和与DNA结合的profiles的数据库。v由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。Match - 1.0 Public vMatch?is?a?weight?matrix-based?program?for?predicting?transcription?factor?binding?sites?(TFBS)?in?DNA?sequences.?It?uses?a?library?of?positio

13、nal?weight?matrices?from?TRANSFAC?Public?6.0.rVista?2.0 vAnalyzing?novel?sequences?for?the?presence?of?known?transcription?factor?binding?sites?or?their?weight?matrices?produces?a?huge?number?of?false?positive?predictions?that?are?randomly?and?uniformily?distributed. vrVista?combines?database?search

14、es?with?comparative?sequence?analysis,?reducing?the?number?of?false?positive?predictions?by?95%?while?maintaining?a?high?sensitivity?of?the?search?MEMEvMotif-based?sequence?analysis?toolsv寻找DNA,RNA和蛋白质的共有序列v可以在启动子区域搜寻TFBS的结合位点v可以搜寻蛋白质家族的模体(motif)WeblogvWeblogo基于多序列比对信息,把多序列的保守信息通过图形表示出来。每个logo由一系列碱基(氨基酸)组成,在每一个序列位置上用总高度表示此位置上的序列保守性,用碱基(氨基酸)字母的高度表示出现的频率PSIPREDvPSIPRED?(Position?Specific?Itera

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论