版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学实验报告姓名:__黄栋_______学号:_______指导老师:___宋晓峰____南京航空航天大学2023年11月实验一生物信息数据库的检索实验目的:1.了解生物信息学的各大门户网站以及其中的重要资源。2.了解重要数据库的内容及结构,理解各数据库注释的含义。3.以PubMed为例,学会文献数据库的基本查询检索方法。实验内容:(1)国际与国内的生物信息中心国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以及国内CBI、BioSino网站的熟悉及内容的了解。核酸序列数据库:genbank/EMBL-bank/DDBJNCBI网址:HYPERLINK""EBI网址:HYPERLINK""EMBL网址:HYPERLINK""蛋白质序列数据库:SwissProt、ExPASy网址:HYPERLINK""Uniprot网址:HYPERLINK""蛋白质结构数据库:PDB网址:HYPERLINK""(2)检索练习:ThespikeproteinofSARS-CoronaVirus在NCBI中的核酸记录序列:ﻩLOCUSCS2444393897bpDNAlinearPAT17-JUL-2023DEFINITIONSequence3fromPatentWO.ACCESSIONCS244439VERSIONCS244439.1GI:84659113KEYWORDS.SOURCESARScoronavirusORGANISMHYPERLINK""SARScoronavirusViruses;ssRNApositive-strandviruses,noDNAstage;Nidovirales;Coronaviridae;Coronavirinae;Betacoronavirus.REFERENCE1AUTHORSAltmeyer,R.,Nal-Rogier,B.,Chan,C.,Kien,F.,Kam,Y.W.,Siu,Y.L.,Tse,K.S.,Staropoli,I.andManuguerra,J.C.TITLENucleicacids,polypeptides,methodsofexpression,andimmunogeniccompositionsassociatedwithsarscoronavirusspikeproteinJOURNALPatent:WO-A2315-DEC-2023;INSTITUTPASTEUR(FR);HongKongPasteurResearchCentreLimited(CN)FEATURESLocation/Qualifierssource1..3897/organism="SARScoronavirus"/mol_type="unassignedDNA"/db_xref="taxon:HYPERLINK""227859"HYPERLINK""CDS44..3847/note="unnamedproteinproduct"/codon_start=1/protein_id="HYPERLINK""CAJ56183.1"/db_xref="GI:84659114"/translation="MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFHTINHTFGNPVIPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAVSKPMGTQTHTMIFDNAFNCTFEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLPSGFNTLKPIFKLPLGINITNFRAILTAFSPAQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQNPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNITNLCPFGEVFNATKFPSVYAWERKKISNCVADYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPGQTGVIADYNYKLPDDFMGCVLAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLNDYGFYTTTGIGYQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTDSVRDPKTSEILDISPCSFGGVSVITPGTNASSEVAVLYQDVNCTDVSTAIHADQLTPAWRIYSTGNNVFQTQAGCLIGAEHVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNFSISITTEVMPVSMAKTSVDCNMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQMYKTPTLKYFGGFNFSQILPDPLKPTKRSFIEDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGLTVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKQIANQFNKAISQIQESLTTTSTALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLMSFPQAAPHGVVFLHVTYVPSQERNFTTAPAICHEGKAYFPREGVFVFNGTSWFITQRNFFSPQIITTDNTFVSGNCDVVIGIINNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQYIKWPWYVWLGFIAGLIAIVMVTILLCCMTSCCSCLKGACSCGSCCKFDEDDSEPVLKGVKLHYTGPGGDYKDDDDK"ORIGIN1ctatagggcgaattgggtaccgctagcggatccgcgcgccaccatgtttattttcctgct61gtttctgactctgaccagcggcagtgacctggaccggtgcaccacttttgatgatgtgca121ggctcctaattacactcagcatacttcctctatgaggggcgtgtactatcctgatgaaat181ttttagatccgacactctgtatctgactcaggatctgtttctgccattctattctaatgt241gacaggctttcatactattaatcatacctttggcaaccctgtgatcccttttaaggatgg301catctattttgctgccacagagaagtccaatgtggtgcggggatgggtgttcggctctac361catgaacaacaagtcccagtccgtgattattattaacaattctactaatgtggtgatccg421agcctgtaactttgaactgtgtgacaacccattctttgctgtgtctaagcccatgggcac481acagacacatactatgatcttcgataatgcctttaattgcactttcgagtacatctctga541tgccttttccctggatgtgtccgaaaagtccggcaactttaagcacctgcgagagtttgt601gtttaagaataaggatggctttctgtatgtgtataagggctatcagcctatcgacgtggt661gcgcgatctgccttctggctttaacactctgaagcctatttttaagctgcctctgggcat721taacattacaaattttcgggccattctgacagcctttagccctgctcaggacatttgggg781cacctctgctgccgcctattttgtgggctatctgaagccaactacctttatgctgaagta841tgatgaaaatggcacaatcacagatgctgtggattgttctcagaatccactggctgaact901gaagtgctctgtgaagagctttgagattgacaagggaatctaccagacctctaatttccg961cgtggtgccctctggagatgtggtgagattccctaatattacaaacctgtgtccttttgg1021agaagtgtttaatgctactaagttcccttctgtgtatgcctgggagagaaagaagatttc1081taattgtgtggctgattactctgtgctgtacaactccacattttttagcacctttaagtg1141ctatggcgtgtctgccactaagctgaatgatctgtgcttctccaatgtgtatgccgattc1201ttttgtggtgaagggagatgatgtgagacagatcgccccaggacagactggcgtgattgc1261tgattacaattataagctgccagatgatttcatgggctgtgtgctggcttggaatactag1321gaacattgatgctacttccactggcaattataattacaagtatcggtatctgagacatgg1381caagctgaggccctttgagagagacatctctaacgtgcctttcagccctgatggcaagcc1441ttgcaccccacctgctctgaattgttattggccactgaatgattatggcttttacaccac1501tactggcattggctaccagccttacagagtggtggtgctgtcttttgaactgctgaatgc1561ccctgccacagtgtgtggaccaaagctgtccactgacctgattaagaaccagtgtgtgaa1621ctttaactttaatggactgactggcactggcgtgctgactccttctagcaagagatttca1681gccatttcagcagtttggccgggatgtgtctgatttcactgattccgtgcgagatcctaa1741gacatctgaaatcctggacatttccccttgctcttttggcggcgtgagcgtgattacacc1801tggaacaaatgcttcctctgaagtggctgtgctgtatcaggatgtgaactgcactgatgt1861gtctacagccatccatgccgatcagctgacaccagcttggcgcatctattctactggaaa1921caatgtgttccagactcaggccggctgtctgatcggagctgagcatgtggacacttctta1981tgagtgcgacattcctattggagctggcatttgtgctagttaccatacagtgtctctgct2041gcggagtactagccagaagtctattgtggcttatactatgtctctgggcgctgatagttc2101cattgcttactctaataacaccattgctatccctactaacttttccattagcattactac2161agaagtgatgcctgtgtctatggctaagacctccgtggattgtaatatgtacatctgcgg2221agattctaccgaatgtgctaatctgctgctgcagtatggcagcttttgcacacagctgaa2281tcgggctctgtctggcattgctgctgaacaggatcgcaacacacgggaagtgttcgctca2341agtgaagcagatgtataagaccccaactctgaagtattttggcggctttaatttttccca2401gatcctgcctgaccctctgaagcccactaagcggtcttttattgaggacctgctgtttaa2461caaagtgacactggctgatgctggctttatgaagcagtatggcgaatgcctgggcgatat2521taatgctagagatctgatttgtgcccagaagttcaatggcctgacagtgctgcctcctct2581gctgactgatgatatgattgctgcctacactgctgctctggtgtctggcactgccactgc2641tggatggacatttggcgctggcgctgctctgcagatcccttttgctatgcagatggccta2701tcggttcaatggcattggagtgacccagaatgtgctgtatgagaaccagaagcagattgc2761caaccagtttaacaaggccattagtcagattcaggaatccctgacaacaacatccactgc2821cctgggcaagctgcaggacgtggtgaaccagaatgctcaggccctgaacacactggtgaa2881gcagctgagcagcaattttggcgccatttccagtgtgctgaatgatatcctgtcccgact2941ggataaagtggaggccgaagtgcagattgacaggctgattacaggcagactgcagagcct3001gcagacctatgtgacacagcagctgatcagggctgctgaaatcagggcttctgccaatct3061ggctgctactaagatgtctgagtgtgtgctgggacagtccaagagagtggacttttgtgg3121aaagggctaccacctgatgtccttcccacaggctgcccctcatggagtggtgttcctgca3181tgtgacctatgtgccatcccaggagaggaacttcaccacagccccagccatttgtcatga3241aggcaaggcctacttccctcgggaaggcgtgttcgtgtttaatggcacttcttggtttat3301tacacagcggaacttctttagcccacagatcatcactacagacaatacatttgtgtccgg3361aaattgtgatgtggtgattggcatcattaacaacacagtgtatgatcctctgcagcctga3421gctggactccttcaaggaagagctggacaagtacttcaagaatcatacatccccagatgt3481ggatctgggcgacatttccggcattaacgcttctgtggtgaacattcagaaggaaattga3541ccgcctgaatgaagtggctaagaatctgaatgaatccctgattgacctgcaggaactggg3601caagtatgagcagtatattaagtggccttggtatgtgtggctgggcttcattgctggact3661gattgccatcgtgatggtgacaatcctgctgtgttgcatgacctcctgttgcagttgcct3721gaagggcgcttgctcttgtggatcttgctgcaagtttgatgaggatgactctgagccagt3781gctgaagggcgtgaagctgcattacacagggcccggcggcgactacaaggacgatgacga3841caagtgatagatcgatgcatggatccgtttaaaccgagctccagctttgttcccttaThespikeproteinofSARS-CoronaVirus在SWISS-PROT蛋白质序列:ThespikeproteinofSARS-CoronaVirus在PDB蛋白质结构序列:(3)文献信息的查找与管理有效地使用NCBIPubMed提供的各种重要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。查询InfluenzaAViruses分子进化研究方向的文章。(3)NCBI数据库简介:Nucleotide该数据库由国际核苷酸序列数据库成员HYPERLINK""\t"_blank"美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和HYPERLINK""\t"_blank"英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。这三个组织联合组成国际核苷酸序列数据库协作体,天天互换各自数据库中的新增序列记录实现数据共享。其中的序列数据也通过与HYPERLINK""\t"_blank"基因组序列数据库(GSDB)合作获取;专利序列数据通过与美国专利与商标局、国际专利局合作获取。Genome即HYPERLINK""\t"_blank"基因组数据库,提供了多种基因组、完全染色体、Contiged序列图谱以及一体化基因物理图谱。Structure即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。MMDB的数据从PDB(ProteinDataBank)获得。NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间互相作用的图像。Taxonomy即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。PopSet包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列。PopSet既包含核酸序列数据又包含蛋白质序列数据。Entrez功能强大,在于它的大多数记录可互相链接,既可在同一数据库内链接,也可在数据库之间进行链接。当运用BLAST软件比较某氨基酸或DNA序列与库中其他氨基酸或DNA序列差异即进行相似性检索时,则会涉及到蛋白质库或核苷酸库的库内链接。库间链接发生在核苷酸数据库内的记录与PubMed库中已发表序列的引文间的链接,或蛋白质序列记录与核苷酸序列库中编码它的核苷酸序列间的链接。NCBI数据库检索NCBI数据库的检索方法很简朴,在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed。可以通过下拉菜单选择记录的显示格式,通常选择GenBankReport格式或FASTAReport格式。当选择GenBankReport格式后,屏幕显示较完整的基因记录,其内容涉及:基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、核酸编号(NID)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊Journal)、Medline存取号(Medline)、序列特性(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele)对等的肽(Mat-Peptide)、计算碱基数(BaseCount)、原序列(Origin)。而FASTAReport格式仅涉及检出序列的简要特性描述。OMIMHYPERLINK""\t"_blank"孟德尔遗传学(OMIM)数据库是人类基因和基因疾病的目录数据库。该数据库涉及原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。主页如图3所示。BLAST相似性检索BLAST(BasicLocalAlignmentSearchTool)是用于序列相似性检索的一个重要数据库,是区分基因和基因特性的工具。该软件能在15秒内完毕整个DNA数据库的序列检索。BLAST记录的相关度有明确的记录学解释,以便更容易地将相关记录与的数据库记录相区分。在NCBI主页的左工具条中,点击BLAST图标,即进入BLAST主页。BLAST主页提供了几种BLAST检索软件。其中BLAST2.0是一种新的BLAST检索工具,它在原有基础上作了改善,运营速度更快,灵敏度更高,同时具有GappedBLAST和PSI-BLAST两种软件的新功能。GappedBLAST允许在对准的序列中引入空位(碱基缺失或插入),引入空位(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似限度。PSI-BLAST的全称是Position-SpecificIteratedBALST,即特殊位置反复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源的有效工具。实验规定:(1)以其中的一个信息中心网站为例,列举其中的重要资源(数据库、网上分析、生物计算、数据下载等)。(2)可以解释给定序列或基因组数据的含义。(3)检索文献的技巧和效率。实验二序列多重比对及进化分析实验目的:学习序列比对工具BLAST以及ClustalW等的使用,可以对序列数据进行初步的分析。掌握基于DNA序列和蛋白质序列构建系统进化树的常用方法和常用工具。实验内容:在GeneBank数据库中,检索10条轮状病毒(Homosapiens,Rotavirus)VP7基因的DNA序列,并使用CLUSTALW软件对序列进行多重序列比对;检索结果详见电子稿附件:VP7.txt文献多重序列比对结果详见电子稿附件:VP7.aln文献在GeneBank数据库中检索10条SARS病毒Spike蛋白的氨基酸序列,使用CLUSTALX软件对这十条序列进行多重序列比对;检索结果详见电子稿附件:SpikeSARS.txt文献多重序列比对结果详见电子稿附件:SpikeSARS.aln文献使用ClustalW软件或其他软件包构建上述DNA分子系统发生树。实验规定:提交使用CLUSTALX及PHYLIP软件进行多重序列比对及构建系统发生树的结果;VP7outtree:SpikeofSARSouttree:总结多重序列比对及构建系统发生树的关键事项。选择合适的比对算法,构建系统发生树时适当选择独立关系的分支序列。实验三蛋白质结构分析及结构预测实验目的:1、掌握蛋白质序列检索的操作方法;2、熟悉蛋白质基本性质分析;3、了解蛋白质二级结构预测。5.学会运用结构浏览软件对生物大分子的结构进行观测。实验内容:使用Entrez或SRS信息查询系统检索水通道(Aquaporin-1,AQP1)蛋白质序列。>gi|57163949|ref|NP_.1|aquaporin-1[Ovisaries]MASEFKKKLFWRAVVAEFLAMILFIFISIGSALGFHYPIKSNQTTGAVQDNVKVSLAFGLSIATLAQSVGHISGAHLNPAVTLGLLLSCQISILRAIMYIIAQCVGAIVATVILSGITSSLPDNSLGLNALAPGVNSGQGLGIEIIGTLQLVLCVLATTDRRRRRDLGDSGPLAIGFSVALGHLLAIDYTGCGINPARSFGSSVITHNFQDHWIFWVGPFIGAALAVLIYDFILAPRSSDLTDRVKVWTSGQVEEYDLDADDINSRVEMKPK给出实例了解生物大分子结构数据库PDB中的记录方式,看懂记录中的内容并会运用Rasmol软件观测蛋白质的三维结构。PDB文献1IH5.pdb的记录方式分析见附录。下图为在Rasmal软件中观测的结果:球棒模型三维图含标注的分组丝带模型使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析。分子质量与氨基酸组成:疏水性分析:使用PSIPREDwebserver(HYPERLINK"")对水通道蛋白质序列进行二级结构预测。同时上uniprot数据库查看水通道蛋白质二级结构,并做对比。在线分析:Uniprot与PDB数据库:预测结果与数据库结果基本一致。实验规定:提交使用上述软件对人水通道蛋白质序列进行基本性质分析、结构分析以及二级结构和三维结构的分析结果;见上图。实验四核酸序列分析一.实验目的掌握已知或未知序列接受号的核酸序列检索的基本环节;掌握使用BioEdit软件进行核酸序列的基本分析;熟悉共有序列logo图的使用;熟悉RNAfold软件的使用;三.实验内容1、使用Entrez或SRS信息查询系统检索人瘦素(leptin)的mRNA、基因组DNA、外显子等核酸序列,连接提取该序列内容,阅读序列格式的解释,理解其含义;2、使用BioEdit软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换等基本分析,并从BioEdit软件的“help”栏了解该软件的其它功能;3.使用weblogo方法(HYPERLINK"")对多序列比对结果构建共有序列进行可视化表达。4.使用RNAfold(HYPERLINK""),对microRNA前体的二级结构进行预测。四.实验方法1、调用Internet浏览器,并在其地址栏输入Entrez网址:HYPERLINK""\t"_parent";2、在输入栏输入homosapiensleptin;将检索的核酸序列输入BioEdit软件进行序列基本分析;3、对如下的多序列进行共有序列的分析:>19082_AF115399ttctctgaaatatgaatttagACTGGTACTTATCATGGAG>45328_AB000381gcctgctttctcccctctcagGGACTTACAGTTTGAGATG>45328_AB000381cattgctgcttctttttttagGCATAAATTCTCGTGAACT>45330_AB001517aacttcctgtgtgttttgcagACAGCTGGATAGAAAACGA>45331_AB001517acaattttgttttcttcacagTTTTCAAATTTGCTGGGTA>45331_AB001517tgtggtttttgtctttatcagCAACAAATCTGACACGCTG>45331_AB001517gtgacctct
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 达英-35对未育女性人工流产术后子宫内膜的影响
- 初级会计实务-初级会计《初级会计实务》模拟试卷681
- 初级会计实务-《初级会计实务》模考试卷247
- 城市复杂环境低成本北斗-GNSS高精度单车定位技术研究
- 补阳还五汤联合杵针治疗腰椎术后残留神经根症状的临床疗效观察
- 建筑物消防安全巡查
- 二零二五版研发成果专利代理全流程服务协议3篇
- 二零二五版污泥运输合同范本(含污泥深度处理及资源化)3篇
- 二零二五年度大型商场消防系统维护管理合同2篇
- 水泥沟清淤施工方案
- 工程造价专业职业能力分析
- 医药高等数学知到章节答案智慧树2023年浙江中医药大学
- 冲渣池施工方案
- 第4章操作臂的雅可比
- 人教版初中英语八年级下册 单词默写表 汉译英
- 学校网络信息安全管理办法
- 中国古代文学史 马工程课件(下)21第九编晚清文学 绪论
- 2023年铁岭卫生职业学院高职单招(语文)试题库含答案解析
- 2205双相不锈钢的焊接工艺
- 2023年全国高中数学联赛江西省预赛试题及答案
- 外科学-第三章-水、电解质代谢紊乱和酸碱平衡失调课件
评论
0/150
提交评论