版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蛋白质蛋白质相互作用第二章第一页,共八十八页,2022年,8月28日生物信息学数据库的种类核酸、蛋白序列数据库基因组数据库生物大分子三维结构数据库以上述数据库及文献为基础的二次数据库第二页,共八十八页,2022年,8月28日生物信息学数据库资源截至2011年,生物信息学数据库总数已经达到1380个,其中少数大型数据库存储着大多数生物信息原始数据,绝大多数的数据库是针对特定领域的数据提供检索与分析。自2000年以来,NecleticAcidsResearch杂志每年的第一期会收集全世界的生物信息数据库信息,每年的第七期会出版全世界生物信息分析工具信息。第三页,共八十八页,2022年,8月28日核酸序列数据库内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释GenBank美国基因数据银行
Embl欧洲分子生物实验室
DDBJ日本国立遗传研究所核酸数据库
第四页,共八十八页,2022年,8月28日蛋白质序列数据库SWISS-PROT(瑞士日内瓦大学)蛋白质序列数据库NCBI蛋白质数据库PIR蛋白质序列信息资源库(美、德)
内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能第五页,共八十八页,2022年,8月28日NCBI数据库NCBI(美国国家生物信息中心)成立于1988年,是NIH(国家卫生研究院)的附属机构。主要任务:建立公共数据库(GenBank,dbSNP,OMIM等.)开展计算生物学方面的研究开发序列分析的软件工具传播生物医学信息网址:第六页,共八十八页,2022年,8月28日在NCBI数据库中查询序列集成检索系统:
Entrez系统第七页,共八十八页,2022年,8月28日限定发表时间限定领域标签限定数据库限定基因组位置限定修改时间限定序列片段限定分子类型排除选项第八页,共八十八页,2022年,8月28日GenBankflatfile(GBFF)格式数据。GBFF格式数据可分为三部分:第一部分为描述信息,第二部分为序列特征信息,第三部分为序列本身。第九页,共八十八页,2022年,8月28日第十页,共八十八页,2022年,8月28日第十一页,共八十八页,2022年,8月28日在NCBI中进行序列相似性比对序列相似性与功能相似性具有一定的相关性,但不绝对。对于某物种中新克隆的序列通过寻找其它物种中与之相似的序列有助于对该序列功能的预测。因此序列相似性比对常常是一个新克隆出的序列最先进行的生物信息学分析。第十二页,共八十八页,2022年,8月28日序列相似性比对工具BLASTBLAST:是BasicLocalAlignmentSearchTool基本局部比对搜索工具的英文缩写。NCBI提供了网络版的BLAST搜索在线服务(),该服务方便、免费,缺点是不利于大批量数据的比对,并且也不能搜索自有的数据库。NCBI提供该程序的单机版本,通过建立本地数据库可以实现批量比对及搜索自有数据库。BLAST包含5个子程序:
blastnblastpblastXtblastntblastX第十三页,共八十八页,2022年,8月28日QuerySequence氨基酸序列DNA序列tBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated第十四页,共八十八页,2022年,8月28日程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系,进行SEG过滤blastnNucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列第十五页,共八十八页,2022年,8月28日Blastx
目标序列为ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC6个读码框翻译5’端到3’端第一位起始:ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第二位起始:TGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第三位起始:GAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC3’端到5’端第一位起始:GCGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第二位起始:CGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第三位起始:GGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第十六页,共八十八页,2022年,8月28日第十七页,共八十八页,2022年,8月28日BLAST原理Query:
GTACTGGACATGGACCCTACAGGAAGTACTGGACATTACTGGACATGACTGGACATGGCTGGACATGGATGGACATGGACGGACATGGACCGACATGGACCCACATGGACCCTCATGGACCCTA
…….Minimumwordsize=7Blastndefault=11Megablastdefault=28第十八页,共八十八页,2022年,8月28日序列匹配的最低标准核酸BLAST需要一个精确的匹配蛋白BLAST需要在40个氨基酸内有两个匹配NeighborhoodwordsExactwordmatchATCGCCATGCTTAATTGGGCTT
CATGCTTAATT一个匹配GTQITVEDLFYNI
SEI
YYN两个匹配第十九页,共八十八页,2022年,8月28日BLASTn缺点的一个反例第二十页,共八十八页,2022年,8月28日在NCBI中进行序列相似性比对第二十一页,共八十八页,2022年,8月28日第二十二页,共八十八页,2022年,8月28日第二十三页,共八十八页,2022年,8月28日核酸数据库参考RNA数据库,参考染色体数据库染色体数据库est表达序列标签数据库基因组勘测数据库高通量基因组测序数据库专利序列数据库蛋白质数据存储数据库alu_repeats数据库序列标签位点数据库
全基因组鸟枪序列拼接数据库
转录组鸟枪序列拼接数据库16S核糖体RNA序列数据库第二十四页,共八十八页,2022年,8月28日第二十五页,共八十八页,2022年,8月28日第二十六页,共八十八页,2022年,8月28日第二十七页,共八十八页,2022年,8月28日第二十八页,共八十八页,2022年,8月28日第二十九页,共八十八页,2022年,8月28日第三十页,共八十八页,2022年,8月28日BlastP第三十一页,共八十八页,2022年,8月28日打分矩阵:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45PAM模型可用于寻找蛋白质的进化起源,而BLOSUM模型则用于发现蛋白质的保守域。第三十二页,共八十八页,2022年,8月28日进行比对的数据库图形化结果第三十三页,共八十八页,2022年,8月28日E值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。第三十四页,共八十八页,2022年,8月28日基因开放读码框的识别第三十五页,共八十八页,2022年,8月28日第三十六页,共八十八页,2022年,8月28日第三十七页,共八十八页,2022年,8月28日第三十八页,共八十八页,2022年,8月28日第三十九页,共八十八页,2022年,8月28日预测单位编号类型正负链起始终止位点长度分值及概率第四十页,共八十八页,2022年,8月28日第四十一页,共八十八页,2022年,8月28日CpG岛定义:位于多种脊椎动物已知基因转录起始位点周围、由胞嘧啶(C)和鸟嘧啶(G)组成的串联重复序列。CpG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛,在哺乳动物基因组中的1~2kb的DNA片段,它富含非甲基化的CpG双倍体。CpG岛主要位于基因的启动子(promotor)和第一外显子区域,约有60%以上基因的启动子含有CpG岛。GC含量大于50%,长度超过200bp。
第四十二页,共八十八页,2022年,8月28日CpG岛区域预测第四十三页,共八十八页,2022年,8月28日第四十四页,共八十八页,2022年,8月28日转录终止信号预测在mRNA终止密码子的下游位置上一般有加尾信号,其主要标志位AATAAA序列,称为多聚腺苷酸信号,简称PolyA信号,据此可以预测基因终止位点。第四十五页,共八十八页,2022年,8月28日第四十六页,共八十八页,2022年,8月28日启动子区域的预测第四十七页,共八十八页,2022年,8月28日第四十八页,共八十八页,2022年,8月28日可变剪切和转录多样性数据库ASTD该数据库是有EBI开发的可变剪切和转录多样性数据库(alternativesplicingandtranscriptdiversity,ASTD),能提供可变剪切时间(alternativesplicingevent),转录产物(transcriptproduct),选择性转录起始位点(TSS)及polyA位点等详细信息。第四十九页,共八十八页,2022年,8月28日电子克隆该方法基于EST和基因组数据库,运用生物信息学知识和计算机技术对EST或基因组数据库进行同源比对,然后拼接出基因的编码序列。首先,我们要有某个基因的一段EST序列作为种子序列,通过它来电子克隆该基因。我们选用拟南芥中的AMP1基因作为起始序列,克隆油菜(Brassicanapa)的AMP1基因。第五十页,共八十八页,2022年,8月28日第五十一页,共八十八页,2022年,8月28日比对获得13条同源序列第五十二页,共八十八页,2022年,8月28日油菜的这些EST序列与拟南芥AMP1基因序列高度同源。第五十三页,共八十八页,2022年,8月28日第五十四页,共八十八页,2022年,8月28日将序列存储为FASTA个格式的文件,下载下来。第五十五页,共八十八页,2022年,8月28日第五十六页,共八十八页,2022年,8月28日EST序列拼接对得到的13个EST按照它们的重叠区域进行序列拼接,合为一条长的序列。该过程被称为Contig,可以使用的软件是CAP3,网址为第五十七页,共八十八页,2022年,8月28日第五十八页,共八十八页,2022年,8月28日得到Contig1序列以后,重复进行Blastn比对油菜的EST序列,再次进行序列延长,直到序列不能再延长为止。第五十九页,共八十八页,2022年,8月28日以上做的是亲缘关系较近的电子克隆,应用Blastn比对程序较容易获得比对结果,但如果对于物种亲缘关系较远的物种则上述方法就不容易找到匹配序列。我们可以尝试使用tblastn和tblastx程序进行比对。下面我们应用拟南芥的AMP1基因对水稻EST做电子克隆。第六十页,共八十八页,2022年,8月28日第六十一页,共八十八页,2022年,8月28日第六十二页,共八十八页,2022年,8月28日第六十三页,共八十八页,2022年,8月28日第六十四页,共八十八页,2022年,8月28日碱基总数大于50000的序列的拼接应用online的CAP3程序允许的最大碱基总数为50000,对于碱基总数大于50000的可选择其它软件进行拼接。这里我们用VectorNTI软件进行拼接。第六十五页,共八十八页,2022年,8月28日打开ContigExpressProject程序,导入FASTA格式的文件第六十六页,共八十八页,2022年,8月28日第六十七页,共八十八页,2022年,8月28日第六十八页,共八十八页,2022年,8月28日第六十九页,共八十八页,2022年,8月28日第七十页,共八十八页,2022年,8月28日......第七十一页,共八十八页,2022年,8月28日关于电子克隆的一些问题对于亲缘关系较远的物种宜选择tblastx序列比对EST,这样能获得较多的同源EST。但如果EST数量太多,则需要设定一定条件筛选掉一部分匹配较差的EST。EST中经常混有载体序列,应注意在拼接前去除载体部分。第七十二页,共八十八页,2022年,8月28日克隆载体的去除载体的去除可以使用NCBI提供的网上工具VecScreen,网址为第七十三页,共八十八页,2022年,8月28日第七十四页,共八十
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年县联社稽核例会和督导检查工作制度范例(三篇)
- 2024年幼儿园大班下学期班级工作计划(二篇)
- 2024年学生会外联部工作职责样本(二篇)
- 2024年学校创卫工作计划范例(二篇)
- 2024年委托管理合同参考范本(五篇)
- 2024年学校总务后勤工作计划模版(二篇)
- 【《关于追星情况的问卷调研报告》1600字(论文)】
- 2024年幼儿园保健医师工作计划范文(二篇)
- 2024年工程设计合同例文(二篇)
- 2024年大学教研室工作计划范文(三篇)
- 双提升教案--第二节:《祖国和家乡》
- 锅炉使用单位每日锅炉安全检查记录、每周锅炉安全排查治理报告、每月锅炉安全月调度会议纪要
- 中医急救车定置图
- 机械装配技术规范标准详
- 商业地产运营管理岗位职责
- 仓库管理员岗位职责(保健品)
- 商业伦理与社会责任智慧树知到答案章节测试2023年重庆大学
- 微训练 一文多考 备考高效(文学类文本散文《水银花开的夜晚》多角度命题)练习版
- 创新高质量发展理念 打造“一院多区”集团化财务管理体系
- (5.3.1)-5.3奥斯本检核表法
- GB/T 11638-2020乙炔气瓶
评论
0/150
提交评论