实习三:相似序列的数据库搜索_第1页
实习三:相似序列的数据库搜索_第2页
实习三:相似序列的数据库搜索_第3页
实习三:相似序列的数据库搜索_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实习三:相似序列的数据库搜索学号 姓名 专业年级实验时间 提交报告时间实验目的:学会使用BLAST在数据库中搜索相似序列学会本地运行 BLAST(local blast)学会分析数据库搜索结果实验内容:依据实验教材学会网页式BLAST的使用,能够使用不同的算法得到与查询蛋白 和核酸相似的序列;学会使用本地化BLAST批处理比对大量序列;及通过迭代 搜索的方式分析结果,寻找同源序列。作业:Search DNA topoisomerase 1 of yeast on the BLAST server. Choose the BLASTN program, answer the following

2、questions:检索号:NM_001183260Is there a sequence identical as your query in the result? What is the bit score and the raw score?包含原始序列,raw score 为 4620,bit score 为 4167What is the score for match, mismatchand gap penalty?匹配2,错配-3,空位引入罚分5,延伸罚分2What values of K and 入 were used for calculating the expect

3、values (E)? Where do these values come from?在搜索结果中的点击“Search Summary”显示:Lambda 0.625; K 0.41;K和入的估计:一些数据库搜索程序,例如FASTA或其它基于Smith-Waterman算法的程序,在进行序列搜 索时,会对数据库中的每条序列进行联配并给出联配值,这些值大部分与未知序列无关,但 它们被用于了 K和入参数的估计。这一方法避免了随机序列模型因使用真实序列 (real sequence)造成的随意性,但同时产生了使用相关序列估计参数的难题。BLAST仅通过部分 而不是全部无关序列计算最适联配值,这赢得

4、了搜索速度。因此,对于某一选定的替换矩阵 和空位罚值,必须进行K和入参数的预先估计,估计中使用真实序列,而非通过随机序列 模型产生的模拟序列。这一估计的结果看来非常准确。lambda即入,是BLAST程序的一个统计参数,可以用来进行raw score (S)与bit score (S)的 转换;来源,根据可观测点突变资料得到的氨基酸相对突变力(mi)和频率fl,氨基酸aj发生 变化的概率为1- M jj,这必须与突变力相一致,即1- M jj 8 mj或按下式定义常数入:Mjj = 1-入mj同样 Mjj 8 mj Aij由于 Mjj 和E Mkj 之和必为1,Mjj=A mj Aij /Z

5、Akj又因1PAM为100氨基酸中预期发生一次替换,则另外99个氨基酸不发生变化,有99= 100Z fi Mii入=1/Z 100 mifiHow many database sequences were searched?弹出页面显示出127条序列What classes of organisms do the matched sequences originate from?通过在搜索结果页面中点击Taxonomy Report中查看分布;第一行显示root共71种,这包括:37 种 Saccharomycetales23 种 Pezizomycotina3 种 Taphrinomyco

6、tina7 种 Endopterygota1 种 synthetic constructSearch the PDB database for 1jfm and save the chain A of this sequence in fasta format for BLASTP search. Run the BLASTP and answer the following questions:在搜索时将数据库限定为PDB时,如上的各种设置在查找结果中可以发现显著地差异:Change “Expect threshold “ from 10 to 0.0001, is there any di

7、fference in the search result, why?当算法中的“Expect threshold”设置为10时,搜索结果为20条;当算法中的“Expect threshold”为0.0001搜索结果仅为为3条;由此可以看到,Expect Threshold (E-value值)设置得越小,搜索到的相似序列数目越少,反之 则越大。因为这个数值表示仅仅因随机性造成获得这一联配结果的可能次数。这一数值越接 近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,联配结果越显著。Change “Matrix” from BLOSUM62 to “PAM30”,is there an

8、y difference in the result why? 打分矩阵设为“BLOSUM62 ”时算法中的空位罚分一栏为“引入罚分11延伸罚分1”查找 的序列结果为20条;而矩阵选择“PAM30”时空位罚分自动变为“引入罚分9延伸罚分1”,查找的结果仅有3 条;这可能是空位罚分系统的改变影响的,此外PAM基于进化的点突变模型,如果两种氨基酸 替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。而BLOSUM基于蛋白 的保守性构建的。因此,BLOSUM62与PAM30适用于不同的方向,BLOSUM更倾向于寻找保 守区域,而PAM更适合于寻找进化关系,表现在空位罚分上也就不同。Chan

9、ge “Gap costs” from “11, 1” to “7, 2,is there any difference in the result, why?当“Gap costs”设为11, 1时,查找结果有20条;当“Gap costs”设为7, 2,结果变为19条;条件2与1相比,当空位的引入罚分降低时,查找更倾向于引入更多的起始空位,使更多的 结果获得高分;而延伸空位降低时,空位的过多延伸会明显的降低得分,使结果更少。综合 考虑,结果2与结果1的搜索差异不大;Pick a protein sequence of your interest to run PSI-blast, do i

10、teration several times until convergence (very few new sequences found). Briefly describe the new sequences found in each iteration, are these sequences homologous to your query sequence?首先于PDB中寻找avian flu(禽流感)弹出的结果中选择条目 “Crystal Structure of a H5N1 influenza virus hemagglutinin (禽流感血 球凝集素结晶)Influen

11、za A virus (A/Viet Nam/12032004(H5N1)选择FASTA格式序列保存,2FK0 a链;进入blastp网页,上传刚保存的选择其FASTA格式的序列;选择PSI-BLAST算法,点击“blast”进行第一次的查找;再经第二次迭代查找后,新出现很 多黄色标注的结果,其中之一如:hemagglutinin Influenza A virus (A/tiger/Thailand/CU-T604(H5N1) 72272298% 0.099% AAX83397.1(scored below threshold on previous iteration)此条目描述为 hem

12、agglutinin Influenza A virus (A/chicken/Thailand/ICRC-V1432007(H5N1)即甲型流感病毒H5N1的血凝素,其相似度高达99%,又由于禽流感是甲型流感的一种,故 认为该两条序列间存在同源关系,又因为其来源均为H5N1,而在不同物种(越南与泰国禽) 故判断其为直系同源,经第三次迭代,未出现新结果,可以判断同源序列基本已找齐。4. Search the protein database for “nitrogenase” sequences, limit the database to RefSeq and the organism to

13、 Rhizobiaceae (根瘤菌属).Then save the result as fasta format. Construct the database file with formatdb command. Search the protein database for alpha chain nifD from Rhizobium etli as the query(500aa). Construct the database then run local blast search with the query sequence, explain your procedure a

14、nd interpret the result. (Explain the relationship (ortholog, paralog, xenolog) between your query sequence and some hits)1、数据库与查询序列的保存登入refseq输入nitrogenase并进行高级设置,添加“organism”选项卡,并填写Rhizobiaceae得到的结果中选择Rhizobium etli CIAT 652 plasmid pB, complete sequence保存为 FASTA格式,更改文件名及拓 展名为 bio3_database.seq;用同

15、样的方法在refseq中寻找“alpha chain nifD”,“organism”选项卡填写Rhizobium etli” 并保存FASTA格式,更名为bio3_query.seq;2、本地BLAST比对、在D盘下创建一个名为blast的新文件夹,运行blast-2226-ia32-win32.exe自解压;、将上述得到的数据库序列文件bio3_database.seq和查询序列文件bio3_query.seq复制到 D:blastbindatabase 下;、打开 cmd,切换至 d:blastbin,输入命令 formatdb.exe -i databasebio3_database.

16、seq -p F,运行建库程序formatdb建蛋白库;、比对与输出:运行比对程序 blastall,输入命令blastall.exe -p blastn -i databasebio3_query.seq -d databasebio3_database.seq -o. output.txt ,即可以得到输出结果 outpt.txt;3、结果分析:打开outpt.txt,查看结果:首先可以发现“BLASTN”标识出现了九次,这说明查询的序列文件bio3_query.seq中含有九 条序列,比对进行了九次;以第一条序列和数据库中第二条比对结果为例分析Query= gi|190893983|re

17、f|NC_010996.1| Rhizobium etli CIAT 652 plasmid pB, complete sequence (429,111 letters)/查询序列的标识gi|89255298|ref|NC_004041.2| Rhizobium etli CFN 42 symbiotic plasmidp42d, complete sequenceLength = 371254/比对序列的详细信息Score = 7.052e+004 bits (35572), Expect = 0.0Identities = 3590436019 (99%), Gaps = 2736019

18、 (0%)Strand = Plus / Plus/在这么长的序列中,得分非常高,由此得到了 99%的相似性,显然为同源关系,由于均来 源Rhizobium etli而由于基因复制导致相似的序列的蛋白产生了不同的功能,故认为其为旁 系同源。结果的末尾包含了 Database: databasebio3_database.seq/数据库信息Posted date: Jun 8, 2013 3:41 PMNumber of letters in database: 60,540,652Number of sequences in database: 98Lambda K H 统计参数1.370.7111.31GappedLambda K H1.370.7111.31Matrix: blastn matrix:1 -3Gap Penalties: Existence: 5, Extension: 2/罚分方法Number of Sequences: 98Number of Hits to DB: 69,408,227 比对结果的统计信息Nu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论