版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学,第三讲:序列的采集、存储和查询,本章内容提要,1. DNA测序 2. 序列数据的存储 3. 序列数据的文件格式 4. 序列数据的查询,1. DNA测序,1. DNA一次测序的长度为500bp。 2.基因组的测序方案:将大的染色体打断成100kbp的片断,插入到BAC (Bacterial Artificial Chromosome)中。再随机打断,克隆,然后再组装成长的序列(contig)。 3. EST (Expressed sequence tag) 测序:细胞中mRNA反转录成cDNA,方向不定,测序。 4. UniGene: 为每一个基因创造一个唯一的条目,收集这个基因所有
2、的ESTs. 5. GSS (基因组测序序列):类似于ESTs,来源基因组。 6. HTG (高通量基因组序列):高通量、尚未完工的DNA序列,基因组测序:两种方案,1. DNA片段在染色体上的位置、方向已知。首先染色体被打断成150kbp左右的片段,然后克隆到BACs中,再进一步打碎,克隆,测序,组装。 2. “鸟枪法”,shotgun,随机将DNA片段打碎,克隆,测序,组装。DNA片段在染色体上的位置和方向未知,2. 序列数据的存储,1. 核酸三大数据库:GenBank, EBI, DDBJ. 2. Ensembl数据库:基因组注释。 3. ESTs数据库; 4. UniGene数据库 5
3、. Refseq数据库; 6. NCBI的Gene信息数据库; 7. 蛋白质序列:Swissprot/TrEMBL/UniProt数据库,三大数据库之间的联系,GenBank中测序最多的20个物种,161.0版,2007.08,dbEST: 表达序列标签数据库,2007.08,总序列45,660,524条,最多的20个物种如下,UniGene: An Organized View of the Transcriptom,Refseq数据库,1. 提供高质量的,无冗余的,完整的序列信息; 2. 包括基因组的DNA,转录成的RNA以及蛋白质序列信息。 3. 序列文件的标识符: DNA/RNA序列,
4、NM_XXXXXX; 蛋白质序列:NP_XXXXXX,NCBI Gene,1. /sites/entrez?db=gene 2. 序列从Refseq数据库中得到; 3. 详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构,等等,UniProt,1. 专家审核的蛋白质序列数据与知识库; 2. UniProt Knowledgebase:Release 12.1,2007.08 3. 包括: Swiss-Prot Release 54.1 of 21-Aug-2007: 277883 entries; TrEMBL Relea
5、se 37.1 of 21-Aug-2007: 4754787 entries,Swiss-Prot Release 54.1,TrEMBL Release 37.1,3. 序列数据的文件格式,1. DNA/RNA/氨基酸代码的标识 2. GenBank数据格式 3. UniProt 4. FASTA,GenBank数据格式,Definition: 标题,序列长度,数据类型,Accession number,版本号,GI number,GenBank的数据类型,UniProt数据格式,Accession number,FASTA格式,4. 序列数据的查询,某天,Prof. Gene发现人的He
6、la细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡(表型,phenotype),通过实验的方法(例如,酵母双杂交),发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下(genotype,CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGAC
7、GACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,问题,1. 这是哪个基因? 2. 编码的蛋白质序列是怎样的? 3. 有没有保守的功能结构域 (domain)? 4. 它的功能是怎样的? 5. 它
8、在真核生物中保守吗? 6. 有没有三级结构信息,NCBI: BLAST,,nucleotide blast,Megablast: 找基因序列,输入序列,提交序列,NM_001168.2:Survivin,UniGene,Geo: 基因表达信息,Gene info:基因信息,Survivin,Gene info: 17号染色体,功能注释:Gene Ontology,结论1,1. 该基因为人的Survivin基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2; 2. 初步的功能分析:细胞周期,c
9、aspase酶的抑制因子,等等,NM_001168.2:Survivin,Human Survivin,获取蛋白质的序列信息,Survivin:142aa,结论2,人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2,获取FASTA序列,FASTA格式的序列,PHI-BLAST: find domain,填入蛋白质的FASTA序列,BIR domain,结论3,Survivin具有保守的功能结构域BIR,UniProt: 蛋白质数据库,在人中做BLAST搜索,Survivin:O15392,Survivin的蛋白质信息,功能注释,结论4:功能分析,1. 在瘤形成过
10、程中可能起一定作用; 2. 阻碍G2/M期的细胞编程性凋亡; 3. Chromosomal passenger complex (CPC)的成员之一。 细胞亚定位:胞质,核,人的Survivin在酵母中有同源物吗,提交序列,在酵母中进行序列比对,酵母BIR1: P47134,酵母BIR1的信息,结论5,人的Survivin在酵母中的同源物可能是BIR1,PDB:三级结构数据库,Survivin的三级结构信息,Raswin: 三级结构显示,总结,现在,Prof. Gene知道了: 1. 该基因为人的Survivin基因,染色体定位:17号染色体,73721872-73733311;基因标识符:N
11、M_001168.2; 2. 人的Survivin蛋白质包含142个氨基酸,序列标识符为:NP_001159.2 3. Survivin具有保守的功能结构域BIR 4. Survivin的细胞亚定位:胞质,核,其功能有: (1) 在瘤形成过程中可能起一定作用; (2) 阻碍G2/M期的细胞编程性凋亡; (3) Chromosomal passenger complex (CPC)的成员之一。等等。 5. 人的Survivin在酵母中的同源物可能是BIR1。 6. Survivin的三级结构已知,在PDB中的标识符为1E31,作业,某天,Prof. Gene在小鼠(Mus musculus)中又
12、发现了一个与有丝分裂相关的基因,通过DNA测序,得到部分序列,GATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCT,问题,1. 这个基因在小鼠中是哪个基因?基因的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度特许经营合同:某知名品牌与加盟商之间的经营权、商标使用等规定3篇
- 二零二五年度海洋运输货物保险代理服务协议
- 二零二五年度智慧社区建设项目可研咨询服务合同6篇
- 2024年试桩作业施工协议参考样本版B版
- 2025年度医院与医药研发企业合作开发协议书
- 二零二五年度商务营销推广合作协议书
- 2025年度年度互联网企业实习生劳动合同
- 二零二五年度企业合同管理岗位职责与流程再造合同
- 二零二五年度高新技术企业研发人员派遣协议
- 2025至2030年中国散曲酒数据监测研究报告
- DB11T 880-2020 电动汽车充电站运营管理规范
- 人工智能视域下数字媒体技术类课程学生创造力培养研究
- 工业机器人论文3000字(合集4篇)
- 第三章《地球的面貌》-2024-2025学年七年级上册地理单元测试卷(湘教版2024)
- 2024年四川省成都市青羊区数学六上期末考试试题含解析
- 十七个岗位安全操作规程手册
- 就业招聘服务行业经营模式分析
- 2024 ESC心房颤动管理指南解读-第二部分
- 港口液体危化品装卸管理人员理论考试题库-下(判断题)
- 2024关于家长会家长代表发言稿(30篇)
- 中医内科学:中医内科学肢体经络病证考试题(题库版)
评论
0/150
提交评论