版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蛋白质蛋白质相互作用第二章第1页,共88页,2023年,2月20日,星期二生物信息学数据库的种类核酸、蛋白序列数据库基因组数据库生物大分子三维结构数据库以上述数据库及文献为基础的二次数据库第2页,共88页,2023年,2月20日,星期二生物信息学数据库资源截至2011年,生物信息学数据库总数已经达到1380个,其中少数大型数据库存储着大多数生物信息原始数据,绝大多数的数据库是针对特定领域的数据提供检索与分析。自2000年以来,NecleticAcidsResearch杂志每年的第一期会收集全世界的生物信息数据库信息,每年的第七期会出版全世界生物信息分析工具信息。第3页,共88页,2023年,2月20日,星期二核酸序列数据库内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释GenBank美国基因数据银行
/Embl欧洲分子生物实验室
http://www.ebi.ac.uk/embl.htmlDDBJ日本国立遗传研究所核酸数据库
http://www.ddbj.nig.ac.jp第4页,共88页,2023年,2月20日,星期二蛋白质序列数据库SWISS-PROT(瑞士日内瓦大学)蛋白质序列数据库http://www.Expasy.chNCBI蛋白质数据库/entrezPIR蛋白质序列信息资源库(美、德)
内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能第5页,共88页,2023年,2月20日,星期二NCBI数据库NCBI(美国国家生物信息中心)成立于1988年,是NIH(国家卫生研究院)的附属机构。主要任务:建立公共数据库(GenBank,dbSNP,OMIM等.)开展计算生物学方面的研究开发序列分析的软件工具传播生物医学信息网址:第6页,共88页,2023年,2月20日,星期二在NCBI数据库中查询序列集成检索系统:
Entrez系统第7页,共88页,2023年,2月20日,星期二限定发表时间限定领域标签限定数据库限定基因组位置限定修改时间限定序列片段限定分子类型排除选项第8页,共88页,2023年,2月20日,星期二GenBankflatfile(GBFF)格式数据。GBFF格式数据可分为三部分:第一部分为描述信息,第二部分为序列特征信息,第三部分为序列本身。第9页,共88页,2023年,2月20日,星期二第10页,共88页,2023年,2月20日,星期二第11页,共88页,2023年,2月20日,星期二在NCBI中进行序列相似性比对序列相似性与功能相似性具有一定的相关性,但不绝对。对于某物种中新克隆的序列通过寻找其它物种中与之相似的序列有助于对该序列功能的预测。因此序列相似性比对常常是一个新克隆出的序列最先进行的生物信息学分析。第12页,共88页,2023年,2月20日,星期二序列相似性比对工具BLASTBLAST:是BasicLocalAlignmentSearchTool基本局部比对搜索工具的英文缩写。NCBI提供了网络版的BLAST搜索在线服务(/BLAST/),该服务方便、免费,缺点是不利于大批量数据的比对,并且也不能搜索自有的数据库。NCBI提供该程序的单机版本,通过建立本地数据库可以实现批量比对及搜索自有数据库。BLAST包含5个子程序:
blastnblastpblastXtblastntblastX第13页,共88页,2023年,2月20日,星期二QuerySequence氨基酸序列DNA序列tBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated第14页,共88页,2023年,2月20日,星期二程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系,进行SEG过滤blastnNucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列第15页,共88页,2023年,2月20日,星期二Blastx
目标序列为ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC6个读码框翻译5’端到3’端第一位起始:ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第二位起始:TGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第三位起始:GAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC3’端到5’端第一位起始:GCGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第二位起始:CGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第三位起始:GGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第16页,共88页,2023年,2月20日,星期二第17页,共88页,2023年,2月20日,星期二BLAST原理Query:
GTACTGGACATGGACCCTACAGGAAGTACTGGACATTACTGGACATGACTGGACATGGCTGGACATGGATGGACATGGACGGACATGGACCGACATGGACCCACATGGACCCTCATGGACCCTA
…….Minimumwordsize=7Blastndefault=11Megablastdefault=28第18页,共88页,2023年,2月20日,星期二序列匹配的最低标准核酸BLAST需要一个精确的匹配蛋白BLAST需要在40个氨基酸内有两个匹配NeighborhoodwordsExactwordmatchATCGCCATGCTTAATTGGGCTT
CATGCTTAATT一个匹配GTQITVEDLFYNI
SEI
YYN两个匹配第19页,共88页,2023年,2月20日,星期二BLASTn缺点的一个反例第20页,共88页,2023年,2月20日,星期二在NCBI中进行序列相似性比对第21页,共88页,2023年,2月20日,星期二第22页,共88页,2023年,2月20日,星期二第23页,共88页,2023年,2月20日,星期二核酸数据库参考RNA数据库,参考染色体数据库染色体数据库est表达序列标签数据库基因组勘测数据库高通量基因组测序数据库专利序列数据库蛋白质数据存储数据库alu_repeats数据库序列标签位点数据库
全基因组鸟枪序列拼接数据库
转录组鸟枪序列拼接数据库16S核糖体RNA序列数据库第24页,共88页,2023年,2月20日,星期二第25页,共88页,2023年,2月20日,星期二第26页,共88页,2023年,2月20日,星期二第27页,共88页,2023年,2月20日,星期二第28页,共88页,2023年,2月20日,星期二第29页,共88页,2023年,2月20日,星期二第30页,共88页,2023年,2月20日,星期二BlastP第31页,共88页,2023年,2月20日,星期二打分矩阵:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45PAM模型可用于寻找蛋白质的进化起源,而BLOSUM模型则用于发现蛋白质的保守域。第32页,共88页,2023年,2月20日,星期二进行比对的数据库图形化结果第33页,共88页,2023年,2月20日,星期二E值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。第34页,共88页,2023年,2月20日,星期二基因开放读码框的识别/gorf/gorf.html第35页,共88页,2023年,2月20日,星期二第36页,共88页,2023年,2月20日,星期二第37页,共88页,2023年,2月20日,星期二第38页,共88页,2023年,2月20日,星期二/GENSCAN.html第39页,共88页,2023年,2月20日,星期二预测单位编号类型正负链起始终止位点长度分值及概率第40页,共88页,2023年,2月20日,星期二第41页,共88页,2023年,2月20日,星期二CpG岛定义:位于多种脊椎动物已知基因转录起始位点周围、由胞嘧啶(C)和鸟嘧啶(G)组成的串联重复序列。CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛,在哺乳动物基因组中的1~2kb的DNA片段,它富含非甲基化的CpG双倍体。CpG岛主要位于基因的启动子(promotor)和第一外显子区域,约有60%以上基因的启动子含有CpG岛。GC含量大于50%,长度超过200bp。
第42页,共88页,2023年,2月20日,星期二CpG岛区域预测http://www.ebi.ac.uk/Tools/emboss/cpgplot/第43页,共88页,2023年,2月20日,星期二第44页,共88页,2023年,2月20日,星期二转录终止信号预测在mRNA终止密码子的下游位置上一般有加尾信号,其主要标志位AATAAA序列,称为多聚腺苷酸信号,简称PolyA信号,据此可以预测基因终止位点。第45页,共88页,2023年,2月20日,星期二第46页,共88页,2023年,2月20日,星期二启动子区域的预测/molbio/proscan/第47页,共88页,2023年,2月20日,星期二第48页,共88页,2023年,2月20日,星期二可变剪切和转录多样性数据库ASTD该数据库是有EBI开发的可变剪切和转录多样性数据库(alternativesplicingandtranscriptdiversity,ASTD),能提供可变剪切时间(alternativesplicingevent),转录产物(transcriptproduct),选择性转录起始位点(TSS)及polyA位点等详细信息。第49页,共88页,2023年,2月20日,星期二电子克隆该方法基于EST和基因组数据库,运用生物信息学知识和计算机技术对EST或基因组数据库进行同源比对,然后拼接出基因的编码序列。首先,我们要有某个基因的一段EST序列作为种子序列,通过它来电子克隆该基因。我们选用拟南芥中的AMP1基因作为起始序列,克隆油菜(Brassicanapa)的AMP1基因。第50页,共88页,2023年,2月20日,星期二第51页,共88页,2023年,2月20日,星期二比对获得13条同源序列第52页,共88页,2023年,2月20日,星期二油菜的这些EST序列与拟南芥AMP1基因序列高度同源。第53页,共88页,2023年,2月20日,星期二第54页,共88页,2023年,2月20日,星期二将序列存储为FASTA个格式的文件,下载下来。第55页,共88页,2023年,2月20日,星期二第56页,共88页,2023年,2月20日,星期二EST序列拼接对得到的13个EST按照它们的重叠区域进行序列拼接,合为一条长的序列。该过程被称为Contig,可以使用的软件是CAP3,网址为http://pbil.univ-lyon1.fr/cap3.php第57页,共88页,2023年,2月20日,星期二第58页,共88页,2023年,2月20日,星期二得到Contig1序列以后,重复进行Blastn比对油菜的EST序列,再次进行序列延长,直到序列不能再延长为止。第59页,共88页,2023年,2月20日,星期二以上做的是亲缘关系较近的电子克隆,应用Blastn比对程序较容易获得比对结果,但如果对于物种亲缘关系较远的物种则上述方法就不容易找到匹配序列。我们可以尝试使用tblastn和tblastx程序进行比对。下面我们应用拟南芥的AMP1基因对水稻EST做电子克隆。第60页,共88页,2023年,2月20日,星期二第61页,共88页,2023年,2月20日,星期二第62页,共88页,2023年,2月20日,星期二第63页,共88页,2023年,2月20日,星期二第64页,共88页,2023年,2月20日,星期二碱基总数大于50000的序列的拼接应用online的CAP3程序允许的最大碱基总数为50000,对于碱基总数大于50000的可选择其它软件进行拼接。这里我们用VectorNTI软件进行拼接。第65页,共88页,2023年,2月20日,星期二打开ContigExpressProject程序,导入FASTA格式的文件第66页,共88页,2023年,2月20日,星期二第67页,共88页,2023年,2月20日,星期二第68页,共88页,2023年,2月20日,星期二第69页,共88页,2023年,2月20日,星期二第70页,共88页,2023年,2月20日,星期二......第71页,共88页,2023年,2月20日,星期二关于电子克隆的一些问题对于亲缘关系较远的物种宜选择tblastx序列比对EST,这样能获得较多的同源EST。但如果EST数量太多,则需要设定一定条件筛选掉一部分匹配较差的EST。EST中经常混有载体序列,应注意在拼接前去除载体部分。第72页,共88页,2023年,2月20日,星期二克隆载体的去除载体的去除可以使用NCBI提供的网上工具VecScreen,网址为/VecScreen/VecScreen.html第73页,共88页,2023年,2月20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省南阳市部分示范高中上学期高三语文月考试卷(含答案)
- 销售工作总结1
- 母婴护理儿童护理48
- 2025年度信用卡额度借用及还款责任合同4篇
- 2024版矿山技术服务合同范文
- 2025年人脸识别身份验证服务合同
- 二零二五年度出租车行业安全风险评估合同7篇
- 二零二五年度物流配送中心仓单质押融资合同范本正规范本3篇
- 二零二五年度商场顾客满意度提升服务合同3篇
- 2025年品牌加盟合同
- 2024年社区警务规范考试题库
- 2024年食用牛脂项目可行性研究报告
- 2024年全国各地中考试题分类汇编(一):现代文阅读含答案
- 2024-2030年中国户外音箱行业市场发展趋势与前景展望战略分析报告
- GB/T 30306-2024家用和类似用途饮用水处理滤芯
- 家务分工与责任保证书
- 消防安全隐患等级
- 温室气体(二氧化碳和甲烷)走航监测技术规范
- 华为员工股权激励方案
- 部编版一年级语文下册第一单元大单元教学设计
- 条形基础的平法识图课件
评论
0/150
提交评论