第二讲 文献、核酸序列、蛋白质序列查询_第1页
第二讲 文献、核酸序列、蛋白质序列查询_第2页
第二讲 文献、核酸序列、蛋白质序列查询_第3页
第二讲 文献、核酸序列、蛋白质序列查询_第4页
第二讲 文献、核酸序列、蛋白质序列查询_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲文献、核酸序列、蛋白质序列的搜索2014/9/13李永海副教授遗传与基因工程教研室生命科学技术学院第一节文献及核酸蛋白序列的搜索NIH•美国Department

of

Health

&

Human

Services

的下属机构•NIH=NationalInstitute

of

HealthNIH

Mark

O.

Hatfield

Clinical

Research

Center,

Bethesda,

Maryland,

USNIH•美国生物医学界科研经费的主要来源之一–2013年预算为308.6亿美元–2013年NSF(NationalScience

Foundation)预算为73.73亿美元–2012年国家自然基金委预算为124.8亿元–2012年科技部预算为286.78亿元(包括行政支出)–(124.8+286.78)/6.2=66.38亿美元0

NIH•27个下属机构,1200个PI,4000多个博士后Career

levelYears

of

experienceStipendPostdoctoral1234567

or

more$39,264$41,364$44,340$46,092$47,820$49,884$51,582$54,180NCBI•世界上最大,最全,最常用,也是最完备的生物信息数据库•世界上生物医学的文献集中营•生物研究者最常用的网站利用NCBI进行文献查询•Non‐redundant•大致按照时间排序•条件宽松•举例:查询有关Methanosarcinaacetivorans(乙酸甲烷八叠球菌)的论文••••常用使用技巧多添加关键词可以减少搜出的文献数量作者+关键词是一种好办法作者的名字:Ferry

JG使用好Advanced•邮件通知可以将某一个领域的新论文每天都发给你ISIWebofKnowledge•ThomsoScientific公司开发的信息检索平台,通过这个平台用户可以检索关于自然科学、社会科学、艺术与人文学科的文献信息,包括国际期刊、免费开放资源、图书、专利、会议录、网络资源等,可以同时对多个数据库(包括专业数据库和多学科综合数据库)进行单库或跨库检索,可以使用分析工具,可以利用书目信息管理软件。•提供了精确的,无冗余的文献搜索服务•更重要的,Web

of

knowledge提供了引用分析•Web

of

knowledge具有无可辩驳的权威性SCI•SCI=Science

Citation

Index•JCR=Journal

Citation

Report–每年六月份发布上一年的影响因子结果•什么叫做引用–自引–他引•影响因子:近两年的总引用数除以近两年的

总论文数影响因子的问题•领域之间不一致;•Open

access可以提高影响因子;•杂志的种类(review,综合性等)影响很大;•编辑政策有很大影响;•以影响因子为纲很容易使得科研工作者急功近利.中科院分区•一区:第一流杂志•二区:主流杂志•三区:灌水杂志•四区:垃圾杂志h‐index•一个科研工作者的h-index意味着他发表过被引用h次以上的论文共h篇。•在物理学界–h=12:副教授–h=18:正教授–h=15‐20:美国物理学会的fellowship–h=45:美国院士ESI数据库是一个衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具,是基于ISI引文索引数据库ScienceCitationIndex(简称SCI)和SocialScienceCitationIndex(简称SSCI)所收录的全球8500多种学术期刊的900万多条文献纪录而建立的计量分析数据库。ESI在农学、生物学、化学等22个专业领域内分别对国家、研究机构、期刊、论文、科学家进行统计分析和排序,帮助用户了解在一定排名范围内的科学家、研究机构(大学)、国家(城市)和学术期刊在某一学科领域的发展和影响力。ESIESI•按照工作的重要性对人/单位/论文排名•重要性的主要评价标准是总引用次数和平均引用率•••••Google

scholar不但可以搜索论文,而且可以搜索专利。绝无漏网之鱼;可以搜索全文;按照相关性排序;查找“最相关”论文的时候有用;•搜索很宽松;•不适合用来做“literature

survey”

新乡医学院图书馆资源学术搜索与全文递送系统

Pubmed检索平台

Ovid-Medline医学文献库

Ovid-LWW医学期刊全文数据库

SpringLINK全文数据库

新乡医学院馆藏外文期刊全文数据库

外文博硕士论文服务系统(FDTS)

NSTL外文回溯期刊全文数据库

NSTL国外网络版期刊跨库检索平台

CNPLINKER中图在线

OpenAccessLibrary开放存取资源ScienceDirect数据库

DIALOG国际联机检索系统

中国科学文献服务系统

万方数据知识服务平台

万方医学网中国期刊全文数据库(本地)

中国知识资源总库(本地)

中国专利全文数据库

中文科技期刊数据库

维普期刊资源整合服务平台

中国生物医学文献服务系统

TIGR数据库•TIGR数据库是Craig

Venter

Institute建立并

维护的微生物数据库。•TIGR数据库比NCBI数据库注释更加精确,也

更加易于查询相应基因上下游的情况•三天两头罢工特定基因的上下游序列•利用各数据库均可以查询•各数据库之间均可互相印证•举例:Trichoderma

reesei

的tmk3基因的上

下游基因基因的预测•整体上来说,基因预测目前并不十分准确•基因预测的必要性不大•可以利用GENSCAN来预测基因•/GENSCAN.html利用NCBI对蛋白质的查询•利用NCBI对蛋白质的查询和对基因的查询类似•蛋白质也有相似的Accession

No.和GI

number•注意蛋白质和核酸的序列并不是一一对应的。•FASTA格式通过NCBI鉴定蛋白质的结构域进行序列相似性搜索:blast和FASTA第二节基于blast的序列搜索数据库搜索的基础是序列的相似性比对及双序列对比。实际工作中我们经常遇到的两种情况开始序列已知吗?数据库搜索Y数据库检索(SRS/Entrez)N数据库中有与之相似的序列吗?

数据库查询为生物学研究提供了一个重要工具,在实际工作中经常使用。然而,在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。对于氨基酸序列来说,有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。因此,数据库搜索与数据库查询一样,是生物信息学研究中的一个重要工具。数据库搜索的基础是序列的相似性比对,即双序列比对(pairwisealignment)。新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(probesequence);通过数据库搜索得到的和检测序列具有一定相似性的序列称目标序列(subjectsequence)。为了确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后,还需要判断其序列相似性程度。如果检测序列和目标序列的相似性程度很低,还必须通过其它方法或实验手段才能确定其是否属于同一基因家族。对统计学意义的评价--E值(E-Value)P值(P-Value)(概率值)

BLAST程序中使用了E值而非P值,这主要是从直观和便于理解的角度考虑。比如E值等于5和10,总比P值等于0.993和0.99995更直观。但是当E<0.01时,P值与E值接近相同。E值就是S值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于这条显示的序列的可能性。所以它的分值越低越好。表6数据库相似性搜索程序BLAST和FASTA程序清单注:n:核酸序列或核酸序列库;p:蛋白质序列或蛋白质序列库

FastA和BLAST程序是目前最常用的基于局部相似性的数据库搜索程序,它们都基于查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行,而不必依赖计算机硬件系统而解决运行速度问题。

BLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”[Altschul,1990,1997]。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST程序之所以使用广泛,主要因为其运行速度比FastA等其它数据库搜索程序快,而改进后的BLAST程序允许空位的插入。可以访问NCBI的网站在线进行BLAST和FastA的搜索表7BLAST程序检测序列和数据库类型程序名检测序列数据库类型方法Blastp蛋白质蛋白质用检测序列蛋白质搜索蛋白质序列数据库Blastn核酸核酸用检测序列核酸搜索核酸序列数据库Blastx核酸蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库Tblastn蛋白质核酸用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库Tblastx核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库

BLAST程序是免费软件,可以从美国国家生物技术信息中心NCBI等文件下载服务器上获得,安装在本地计算机上,包括UNIX系统和WINDOWS系统的各种版本。但必须有BLAST格式的数据库,可以从NCBI下载,也可以利用该系统提供的格式转换工具由其它格式的核酸或蛋白质序列数据库经转换后得到。对核酸序列数据库而言,不论用哪种方式,都需要很大的磁盘空间;而程序运行时,需要有较大的内存和较快的运算速度,因此必须使用高性能的服务器。

欧洲生物信息研究所BLAST服务器的用户界面(图4)比较简洁,提供的数据库和参数很多,用户可以根据不同要求,选择不同的数据库和各种参数。一般情况下,可以先按照系统给定的缺省参数进行初步搜索,对结果进行分析后再适当调整参数,如改变相似性矩阵、增加或减少空位罚分值、调节检测序列滑动窗口大小等。对于核酸序列数据库,一般选择重复序列屏蔽功能,而对于蛋白质序列,特别是球蛋白,通常不必选择重复序列屏蔽功能。图4欧洲生物信息学研究所的BLAST服务器的用户界面BLAST结果的评价比对好坏的评价:Bit分值;考虑了比对中相同和相似基团、gap、替代矩阵,并经过标化;

Bit分值越高,比对越好;比对统计学意义的评价:E值(E-value)

E值越低,则比对就更有可能具有显著性;其他:比对的长度也是一个关键因素。BLAST程序的选择蛋白:BLASTP-tBLASTN核酸:blastn-blastx-tblastx数据库的选择:nr最为常用;month跟踪每个月新增数据;Swissprot蛋白库注释详尽。比对结果是否有意义的判定统计学显著性;一致性:蛋白序列>25%,核酸序列>70%(参考);长度。BasicLocalAlignmentSearchTool,BLAST

(基本的局部比对搜索工具)UsingNCBI-BLAST1.ChoosingtheBLASTProgram2.EnteringtheQuerySequenceTherearethreeoptionsforthis:pasteinthebaresequence,pasteinafileinFASTAformat,orenteravalidNCBIidentifier.>gi|11611818|gb|AF287139.1|AF287139LatimeriachalumnaeHoxa-11gene,partialcdsTACTTGCCAAGTTGCACCTACTACGTTTCGGGTCCCGATTTCTCCAGCCTCCCTTCTTTTTTGCCCCAGACCCCGTCTTCTCGCCCCATGACATACTCCTATTCGTCTAATCTACCCCAAGTTCAACCTGTGAGAGAAGTTACCTTCAGGGACTATGCCATTGATACATCCAATAAATGGCATCCCAGAAGCAATTTACCCCATTGCTACTCAACAGAGGAGATTCTGCACAGGGACTGCCTAGCAACCACCACCGCTTCAAGCATAGGAGAAATCTTTGGGAAAGGCAACGCTAACGTCTACCATCCTGGCTCCAGCACCTCTTCTAATTTCTATAACACAGTGGGTAGAAACGGGGTCCTACCGCAAGCCTTTGACCAGTTTTTCGAGACGGCTTATGGCACAACAGAAAACCACTCTTCTGACTACTCTGCAGACAAGAATTCCGACAAAATACCTTCGGCAGCAACTTCAAGGTCGGAGACTTGCAGGGAGACAGACGAGAAGGAGAGACGGGAAGAAAGCAGTAGCCCAGAGTCTTCTTCCGGCAACAATGAGGAGAAATCAAGCAGTTCCAGTGGTCAACGTACAAGGAAGAAGAGGTGC

3.ChoosingtheDatabasetoSearchDatabases:Proteindatabases(1)nonredundant(非冗余数据库)Theproteindatabaseisconstructedfrom:-SwissProt,-SwissProtupdates,-SwissProtsplicevariants,-TrEMBL,-TrEMBLupdates,-TrEMBLsplicevariants,-Genpept,-Genpeptupdates,-andasmallsubsectionofPIRcontainingsequencesnotintheotherdatabases(usuallyforgoodreasons).Updatedweekly,usuallyonweekends.Databases:Proteindatabases(2)SwissProt

ThemostrecentfullreleaseofSwissProt.Doesincludeweeklyupdatesandsplicevariants.SwissProt/TrEMBL/TrEMBL_NEW

AcombinationofSwissProtandTrEMBL(includingupdatesandsplicevariantsbutnotREM-TrEMBL).ThisdatabasecontainsallconsolidatedproteinsandORFs(updatedweekly).TrEMBL/TrEMBL_NEW

Sameasabove,butwithoutSwissProt.Databases:Proteindatabases(3)GenPept(由GenBank编码序列自动翻译而成的数据库)

ThemostrecentreleaseofGenPeptfile.Doesnotincludeupdates(updatedweekly).GenPeptupdates

ThemostrecentGenPeptupdatefile.Usefulforlimitingthesearchtonewsequences(updatedweekly).Databases:Proteindatabases(4)Worm(C.elegans)TheproteindatabasecontainsallannotatedC.elegansORFs(updatedoccasionally).Yeast(S.cerevisiae)TheproteindatabasecontainsallannotatedyeastORFs(updatedoccasionally).Non-redundant3DstructureAnon-redundantdatabaseofallthesequencesfoundinPDB(updatedoccasionally).Allmicrobialgenomes

Acollectionofallavailablemicrobial(archaeandeubacteria)genomesfromtheHAMAPproject(updatedweekly).Databases:DNAdatabases(1)EMBLisnowprovidedinthedifferentsubdivisions(Updatedweekly,usuallyonweekends.):Bacteriophage(phg)Fungi(fun)GSS(gss)STS(sts)HTG(htg)Human(hum)Invertebrate(inv)Organelles(org)OtherMammals(mam)OtherVertegrates(vrt)Patents(patent)Plants(pln)Prokaryotes(pro)Rodents(rod)Synthetic(syn)Other(unclassified)(unc)Viruses(vrl)YoucanselectthemostrecentfullreleaseoftheEMBLdatabasesorthecumulativeweeklyupdates(updatedweekly).

DoesnotcontaintheESTsections.Databases:DNAdatabases(2)dbESTisnowprovidedinsubdivisions(updatedweekly):Human(est_hum)Mouse(est_mus)Rat(est_rat)Rodent(est_rod)Cow(est_cow)Plants(est_pln)OtherMammals(est_mam)Zebrafish(est_dan)OtherVertebrates(est_vrt)Arabidopsis(est_ara)Drosophila(est_dro)Invertebrates(est_inv)Fungi(est_fun)Prokaryotes(est_pro)4.ChoosingtheParametersofthe

Search/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome5.SubmittingtheSearch6.ViewingtheResults7.ChoosingtheFormatHeaderofaBLASTreportThebody:graphicaloverviewThebody:one-linedescriptionsThebody:alignmentshigh-scoringsegmentpair(HSP)123BLASTpdiagramProteinsequenceBlastpComparethequeryproteinsequencetoknownproteinsequencedatabases(e.g.Swiss-Prot)AnalysisoftheoutputfileDeducepotentialfunctionBLASTprograms(2)blastncomparesanucleotidequerysequenceagainstanucleotidesequencedatabase

(用核酸序列搜索核酸序列数据库)进行序列相似性搜索:blast和FASTA•Blast和FASTA首先是一种算法,其次才是一个软件,最后才是一个网上工具。•Blastp•Blastn•Blastx:Search

protein

database

using

a

translated

nucleotide

query•tblastn:Search

translated

nucleotide

database

using

a

protein

query•tblastx:Search

translated

nucleotide

database

using

a

translated

nucleotide

query1.在NCBI中查询如下论文Ox-LDLpromotesmigrationandadhesionofbonemarrow-derivedmesenchymalstemcellsviaregulationofMCP-1expression.ZhangF,WangC,WangH,LuM,LiY,FengH,LinJ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论