




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因组学复习纪要 第一讲 绪论 1 基因组学(Genomics):以生物信息学分析为手段研究基因组的组成、结构、 表达调控机制和进化规律的一门学科。 生物信息学是应用计算模型、算法和数据库等手段来研究蛋白、基因和基因组 的学科。 2 人类基因组计划(HGP) 于 20 世纪 80 年代提出的,由国际合作组织包括有美、英、日、中、德、法等 国参加进行了人体基因作图,测定人体 23 对染色体由 3109 核苷酸组成的全部 DNA 序列,于 2000 年完成了人类基因组“工作框架图”。2001 年公布了人类基 因组图谱及初步分析结果。 HGP 的目标: (1) 人类 DNA 测序(2) 发展测序技术(3) 鉴定人类基因组 变异(4)发展有效的基因组学技术(5)比较基因组学 (6)ELSI: ethical, legal, and social issues(7) 生物信息学和计算生物学(8) Training and manpower 在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线 虫、果蝇和小鼠,称之为人类的五种“模式生物” 。 模式生物( model organism):作为实验模型以研究特定生物学现象的动物、 植物和微生物。从研究模式生物得到的结论,通常可适用于其他生物。 比如, 在揭示生物界遗传规律时,孟德尔选用豌豆作为模式生物,而摩根选用果蝇作 为模式生物。 选择用于测序的基因组的标准: 基因组大小;花费;与人类疾病的关系;与生物学基本问题的关系;与农业的 关系等 基因组的大小 病毒: 1 kb to 360 kb Note: Mimivirus: 1.2 Mb 细菌: 0.5 Mb to 13 Mb; 真核生物: 8 Mb to 670 Gb; 3 基因组学的类型: 环境基因组学;药物基因组学; 进化基因组学;结构基因组学;法医基因组学; 营养基因组学等 4 研究基因组学的五种途径: Approach I: cataloguing genomic information Approach II: cataloguing comparative genomic information Approach III: function; biological principles; evolution Approach IV: Human disease relevance Approach V: Bioinformatics aspects 5 基因组学一些特点 : (1)基因组学依赖于测序; (2)基因组学是数据引导的学科,而不是假说驱动的; (3)Genome sciences is asystematic approach 第 2 章 基因组研究主要网站介绍 1.基因组学数据类型 DNA 序列 (全基因组,染色体,基因) 转录组(蛋白编码转录组;非编码转录组;全长或部分序列 (表达序列标签 ESTs)) 蛋白质序列(已知的和预测的) 重复序列 变异 2.三大核酸数据库 GenBank; EMBL ;DDBJ 3.基因组学中一些常用的网络资源 UCSC Genome Browser and Table Browser Ensembl and EnsMart/BioMart NCBI for Blast server, PubMed, Gene Expression Omnibus, dbSNP, etc. HapMap for haplotype and variation TIGR Comprehensive Microbial Resource 4.数据库类型 Primary Databases Original submissions by experimentalists Content controlled by the submitter Examples: GenBank, SNP, GEO Derivative Databases Built from primary data Content controlled by third party (NCBI) 5 .Access to sequences: Entrez Gene at NCBI Entrez Gene 收集主要数据库中基因/蛋白的关键信息. 6.RefSeq 去冗余数据库 ,为每一种 DNA/蛋白提供一个 AccessNumber 7 HomologoGene:NCBI 整理真核生物同源序列的资源 8 表达序列数据库 UniGene, GEO 9 Blat 快速找到与长度大于 40 个碱基的序列的相似性大于等于 95%的序列,是 BLAST-Like Alignment Tool, 但不是 BLAST,可用于找到序列在基因组中的位 置,可处理少于 1 GB 的数据 10. Table Browser To get the data associated with a track in text format, to calculate intersections between tracks, and to retrieve DNA sequence covered by a track. 11. Gene Sorter Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 3 Displays a sorted table of genes that are related to one another Correlation is color-coded a highly expressed gene is colored red a less expressed gene is shown in green 12 .Ensembl 数据库 第 3 章 测序原理与进展 1 双脱氧链末端终止法原理 分别设计四个反应体系,每一反应体系中存在相同的 DNA 模板、引物、四种 dNTP 和一种 ddNTP(如 ddATP),则新合成的 DNA 链在可能掺入正常 dNTP 的 位置都有可能掺入 ddNTP,从而导致新合成链在不同的位置终止。由于存在 ddNTP 与 dNTP 的竞争,生成的反应产物是一系列长度不同的多核苷酸片段。 2 多色荧光标记法- 荧光标记引物法 定义 :将荧光染料预先标记在测序反应所用引物的 5端 一组 (4 种)荧光标记引物,其序列相同,但标记的荧光染料颜色不同。 测序反应中,模板、反应底物、DNA 聚合酶及标记引物等按 A、T、C、G 编 号被置于 4 支微量离心管中,A、T、C、G 四个测序反应分管进行,上样时合 并在一个泳道内电泳。特定颜色荧光标记的引物则与特定的双脱氧核苷酸底物 保持对应关系。 3 多色荧光标记法- 荧光标记终止底物法 定义 :将荧光染料标记在作为终止底物的双脱氧单核苷酸上 反应中将 4 种 ddNTP 分别用 4 种不同的荧光染料标记,带有荧光基团的 ddNTP 在掺入 DNA 片段导致链延伸终止的同时,也使该片段端标上了一种特定的荧 光染料。 经电泳后将各个荧光谱带分开,根据荧光颜色的不同来判断所代表的不同碱基 信息。 4 荧光标记引物法和荧光标记终止底物法的异同点: 相同点:都确定了 4 种荧光染料与 4 种 ddNTP 所终止的 DNA 片段之间的专一 对应关系; 不同点:荧光标记终止底物法使标记和终止过程合二为一,两者在同一时间完 成;在具体操作中,前者要求 A、C、G、T 四个反应分别进行, 而后者的四 种反应可以在同一管中完成。 5 全自动 DNA 测序仪的结构与功能 全自动 DNA 测序仪采用平板型电泳或毛细管电泳。 平板型电泳的凝胶灌制在两块玻璃板中间,聚合后厚度一般小于 0.4mm 或更少, 因此又称为超薄片层凝胶电泳。 毛细管电泳技术将凝胶高分子聚合物灌制于毛细管中(内径 50m100m ) , 在高压及较低浓度胶的条件下实现 DNA 片段的快速分离。 6 第二代测序 第二代测序平台主要有两类: 一种基于边合成边测序(SBS)的思想设计,主要机型有 454/Pyrosequencing ;Illumina/Solexa ;Helicos ;Pacbio;(Charge-based detection system, Now-sequencing) 另一类基于杂交的方法进行测序,代表是 SOLiD 454 测序系统测序简介 其工作流程如下: A、 ssDNA 库制备:首先采用喷雾的方法将基因组打断为小的双链 DNA 片段; 随后在得到的 DNA 片段两侧分别连接上 adapter A/B(是人工合成的小的核酸 片段) B、 乳胶 PCR(Emulsion PCR):将 DNA 连接到珠子上,随后加入 PCR 试 剂和乳胶,在由乳胶包裹形成的油包水微反应环境内进行 PCR 反应,反应结束 后富集携带扩增的 DNA 的珠子。 C、 将珠子分散到平板上,平板上有大量的微孔,每一个孔仅可容纳一个珠子; D、 合成,测序:按照一定的顺序依次加入四种碱基,只有在碱基用于合成 DNA 时才会释放荧光,并被 CCD 检测到。 (如此每一个循环之后 DNA 链便延 长一个碱基,反复进行循环,便可以边合成边测序) IIumina sequencing technology 测序: 步骤如下: 准备基因组 DNA,片段化,连接 adapters;将 DNA 连接到平板表面(平板上 有与 adapter 配对的 DNA 片段,用以固定 DNA) ; 桥联扩增;片段成为双链,使双链 DNA 分子变性; 完成扩增,这时每一个 DNA 片段都在平板上扩增为了一簇;判断第一个碱基 (每一轮合成都加入四种不同荧光素标记的 dNTP,末端带 有可被除去的阻断剂,当核苷酸用于合成 DNA 后,可释 放相应的荧光,信号读取后,采用化学方法除去阻断集团, 便可进行下一轮测序) ;边合成边测序 SOLiD 测序(杂交的方法)本版本重点介绍杂交过程 步骤如下: 样品制备,连接 adapter P1/P2; 乳胶 PCR 和珠子富集; 珠子分散到玻璃板上;通过杂交的方法进行测序,过程如 下: 首先连接通用引物,与样品制备时的 adapter 配对; 随后加入用四种荧光染料标记的引物(引物的第一二个碱 基是确定的,而后面的几个碱基是随即合成的,引物长 8nt,每一种引物最后一个碱基上都连有荧光染料,对应 的颜色见右图) ,并用 ligase 连接通用引物和配对上去的荧光标记引物; 去磷酸化,并使连接上去的引物的荧光团发出荧光;将该配对引物切去三个碱 基;再开始第二个循环,连接新的引物;如此,每五个碱基我们便确定了 其中的前两个(1,2,6,7,11,12) 随后 reset,将所有配对的引物都去掉,仅剩下模板链,通用引物链长度比上一 次短一个碱基若第一次使用的通用引物含 N 个碱基,则这次使用的通用引物碱 Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 5 基数为 N-1,重复上面的操作 测序过程中,共 reset 四次,即共使用五种长度依次递减的通用引物,如此便实 现了 DNA 片段测序的全部覆盖。 附注:细心的同学可能会有这样的疑问:每一种颜色的荧光都对应四种碱基对 (见上图) ,在确定序列时怎样确定第一个碱基呢?老师上课时也没有讲清楚, 实际上,问题很简单,我们在制备样品时连接的 adapter 序列实际上是已知的, 否则通用引物也无法合成,这样,我们实际上本来就知道第一个碱基是什么! 二代测序平台的优缺点 454 测序读长长,400bp,可以对基因组从头测序,但当遇到 polymer 时,判断 碱基数有困难; Solexa sequencing,高度自动化,读取片段多,适合进行大量小的片段的测量, 但随着反应论述的增加,效率降低,即读长较短,不利于拼接; SOLiD sequencing 准确性高,系统灵活,但读长 受反应轮数 的限制,拼接困难 7 第三代测序 单分子测序 测序仪器 PacBioRS 单分子测序无需扩增,避免了扩增过程中可能引入的误差,并且读长较长;该 方法利用 DNA 聚合酶来进行 DNA 的合成 流程如下: 将基因组 DNA 剪切成大约 100bp 的片段,将 DNA 分子变性后在其末端连接 polyA 片段,并随后在其末端连接荧光染料标记,随后通过 poly T 序列碱基互 补配对将片段固定; 加入一种 dNTP(末端连有阻断集团) 如 G,只有能通过配对参与 DNA 合成 的 G 被固定在模板链上,其他的 G 都被洗掉,荧光检测成像; 剪切掉碱基上的阻断集团,在加入其他种类的 dNTP,同样的步骤进行合成测 序 第四讲 遗传图谱与物理图谱 1 遗传图谱 genetic map 遗传图谱定义(连锁图谱 linkage map/遗传连锁图谱 genetic linkage map): 基因组内基因以专一的多态性 DNA 标记相对位置的图谱。 构建遗传图谱的原理: 真核生物在减数分裂过程中染色体进行重组和交换,染色体上任意两点之间 发生重组和交换的概率随着两点之间相对距离的远近而发生变化。 构建遗传图谱的意义: 通过连锁分析,可以找到某一致病基因或表型的基因与某一标记邻近(紧密 连锁)的证据,从而可把这一基因定位与染色体的特定区域,再对基因进行 分析和研究。 2 物理图谱 physical map 物理图谱定义: 用物理学方法构建的由不同的 DNA 结构按其在染色体上的原始顺序和实际 距离排列的图谱。 (1)序列标签位点(sequence-tagged site, STS)图谱 (2)DNA 重叠群(DNA contig)图谱: 把基因组文库中含有相同 STS 序列的 DNA 克隆按照其在原始基因组上线 形顺序进行排列,连接成相互重叠的片段重叠群。 【构建物理图谱的主要 任务】 3 遗传作图的标记 特征: (1) 可识别性:亲本间存在多态性(即差异) (2) 可遗传性:亲本间存在的多态性在后代中可以重演 类型: (1) 基因标记(性状标记) -有 2 种: a.形态学性状标记,个体上可以看见的遗传标记基因(如花色株高 体 色 翅形) b.生化性状基因(如血型系列血清蛋白免疫蛋白同工酶) -存在问题: a.标记数量有限 b.操作麻烦,难以大规模研究 c.高等生物基因组中基因间隔区的存在,在遗传图中会留下大片无标 记区段 d.部分基因无法通过实验区分 (2) DNA 标记(DNA markers):以 DNA 片段为标记,通过 DNA 片段的电 泳使 DNA 产生多态性,如 RFLP(Restriction fragment length polymorphism 限制性片段长度多态性) 。 -优势: a.数量巨大 b.操作简单,适合大规模开展工作 c.标记明显易识别 d.受环境影响少,因标记本身是遗传物质 -有 2 种:(还是 3 种?ppt 的 SNP 之前没写“(3 ) ”但个人觉得 SNP 要 算一种) a. RFLP b. SSLP c.SNP 4 RFLP -由 Botstein 首次发现,最早的 DNA 标记,人类基因组中有 105 个第一篇有 关 RFLP 的论文:A Highly Polymorphic Locus in Human DNA, Arlene R. Wyman and Ray White, MIT -RFLP 多态性产生与检测 Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 7 -RFLP 操作流程: DNA 提取限制酶处理电泳转膜探针制备与杂交 放射自显影 -RFLP 特点: a.处于染色体上的位置相对固定 b.同一亲本及其子代相同位点上的多态性片段特征不变 c.同一凝胶电泳可显示不同多态性片段,共显性 d.只有两种等位形式 -如何寻找 RFLP 标记 a.随机克隆筛选 b.用其它方法获得的 DNA 标记转换 eg. RAPD(random amplified polymorphism DNA) c.从 cDNA 中寻找 d.计算机筛选 筛选 RFLP 的方法:AFLP (amplified fragment lenth polymorphism 放大的片段 长度多态性) -步骤:限制酶消化接头引物设计扩放样品 DNA,电泳分离标记的 PCR 产 物 5 SSLP -定义:简单序列长度多态性(simple sequence length polymorphism),是由于简 单序列的重复次数不同,导致扩增片段长度不同而产生的多态性。 -两种类型: (1)小卫星序列 or 可变数目串联重复(minisatellite/variable number of tandem repeat,VNTR)重复单位长度为几十个核苷酸 (2)微卫星序列 or 简单序列重复 or 短串联重复(microsatellite/simple sequence repeat SSR/short tandem repeat STR)重复单位长度几个,序列长度几十个,微卫 星在不同生物体中存在不同类型,如人类(AC)n (AAN)n 植物(AT)n 水稻(GA)n (GT)n -检测 STR:不同样本重复区域有差异(重复次数不同)但 PCR 引物结合区域 相同 -STR 应用:微卫星具有很大变异性(基因组复制的“滑移” 现象)因此用来建 立个人遗传档案、法医鉴定、亲缘鉴定等 -STR 特点: 6 SNP 单核苷酸多态性 single nucleotide polymorphism -SNP 特点: (1)理论上等位型最多为 4,实际多为 2 (2)从 STS(sequence-tagged site)测序中可以找到 SNP (3)数量极大 (4)SNP 与人类易感性疾病有关,涉及药物基因组学 (5)编码区 SNP 主要分布于密码子的第 3 个碱基 -如何检测 SNP (1)DNA 芯片技术(详见下图) (2)液相杂交技术(详见下图) Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 9 7 遗传作图 -定义:Genetic mapping 即利用遗传学的原理和方法,构建能反映基因组中遗 传标记之间遗传关系的图谱。 -一些概念介绍:孟德尔遗传定律(分离、自由组合) 。连锁与部分连锁。重组 率。大家都懂的,就不列了。 -遗传作图的理论基础(也学过 瞄一眼就行) NoncodingRNA 在不同染色体 上的分布(Hela 第 19 条染色体表达活化) ;rmRNA-seq,mRNA-seq 可 以对一些转录本进行有效的检测 重复序列表达分析 内含子表达分析 Junction 表达分析 Exon skip 现象很普遍。可变剪切 反转录本分析:(antisense transcript: 调控正转录本稳定性和表达效率 ) |(TSS:转录起始点)| 总结: rmRNA-seq 从基因间区域、内含子区域和重复序列鉴定出更多新转录 本。(如候选 polyA 转录本,候选-表达情况尚不明确) 相对 mRNA-seq, rmRNA-seq 的 reads 在基因间的分布更均一,提高了检 测敏感性、准确性和 splice and exon maps 的完整性 基因功能分类 手工分类 计算机批量处理 标准基因词汇体系 Gene Ontology 分子功能 生物学过程 分子组分 GO 组织结构:定向无环图(DAGs) 基因产物直系同源簇的分析(COG) EST(表达序列标签)的代谢途径分析 -KEGG RNA-seq 的优势与挑战 优势: 未知基因组序列的物种的高通量转录组研究 (相对于芯片技术)-对于基因表达谱有非常宽的检测范围。在有内 参的情况下,在定量方面显示出了较高的准确度和可重复性。 不需要克隆,样本少,可以在单细胞水平进行表达谱分析 通量高,成本低 挑战 文库构建过程中大片段的 RNA 必须经过片段化处理会引入一定 芯片-相对表达 (去背景过程中可能去掉了 低丰度表达,而低丰度表达区很 多与调控相关) RNA-seq: 绝对表达 Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 39 的偏倚。 PCR 会造成表达量的变化。 海量短序列数据的比对或拼接情况复杂,对重复序列和多匹配序列 的精确定位存在明显问题。 高等真核生物可变剪接和反式剪接的鉴定仍有相当的误差。 测序深度的确定因物种、器官、组织、时期而变,很难有统一公式 直接计算。 第 14 讲 后生生物基因组 1 后生动物: 线虫纲 ; 昆虫:果蝇、按蚊 ; 海胆 750 MYA(million years ago?):玻璃海鞘 450 MYA: 鱼 310 MYA: 恐龙、鸡 180 MYA: 负鼠 100 MYA: 哺乳动物 80 MYA: 啮齿类动物 5-50MYA: 灵长目动物 2 线虫纲- C.elegans 秀丽线虫 第一个基因组被测出的多细胞生物 基因组大小:97Mb 染色体数:6 基因个数:19,000 B. malayi(马来丝虫 ) 基因比 C.elegans 少( 由于 lineage-specific expansions ) |如,马来丝虫缺少嘌呤从头合成、亚铁血红素合成、核黄素从头合成相关的酶, 而是从宿主或它的内共生体- Wolbachia(沃尔巴克氏体)中获得| 3 果蝇(Drosophila) 特点:每代时间段;易养;只有 4 条染色体;易认的 markers 染色体结构: (四条染色体分别为 X/Y, 2,3,4) 果蝇基因组特点 大小:170Mb XX-雌, XY-雄 性别由 X:A 比决定 估测异染色质长度 :通过直接在减数分 裂的染色体测量 X 上异染色质 block 有多态性 (1/31/2) Y 几乎全部异染色质化 重复序列: 21%高重复卫星 DNA 异染色质和 Y 染色体 3% 编码 rRNA,5s RNA,组蛋白 9% 转座子 (长度 2-9kb) 端粒 没有简单重复;有转座序列 67% 单一序列 常染色质中,约 13,600 genes 13,600 已知基因: 9 kb/每个 同源性: 一般蛋白与哺乳动物同源 61%已知的人类疾病基因在蝇中有同源物 30%基因与其他生物无关 重要性: 4000 个生存必须的基因 基因边界:常染色质与异染色质之间没有明显边界有 1Mb 的区域,重 复序列密度逐渐上升 几乎全部序列是重复性的 已测了 12 个果蝇物种的基因组 进化树 4 蚊(Mosquito ) 特征: 可以探测到: CO2, 温度,湿度,气味,颜色,运动 传播疾病: 疟疾,West Nile virus, 丝虫病,登革热,脑炎,黄热病 【疟疾】载体:冈比亚按蚊;寄生物:疟原虫 冈比亚按蚊基因组 染色体:X,2,3 大小:273 Mb 蛋白质相似性: 1:1 匹配种间同源基因最多(6089pairs) ,平均 56%。分歧速度提高 (酵母|人 61%) 埃及伊蚊基因组 基因组大小:1300Mb 与按蚊进化距离: 2762 million years 注释 高含量的重复序列(68%): 需要改进基因预测软件;包括长基因,套 叠基因 与其他生物进化关系: 5 紫海胆(Strongylocentrotus purpuratus ) 原口动物 两侧对称动物 蜕皮动物 冠轮动物 半索动物 海胆 脊索动物 全索动物 Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 41 非脊索后口动物中唯一被测序的,帮助我们了解生物过程(如气味感知和免疫 过程)的进化 特征:棘皮动物门,放射对称的壳,移动缓慢,食藻类,体外受精 基因组 814Mb,36.9%GC, 23,300,40 条染色体 高杂合性 带来的问题:无法区分由单模标本变体还是重复区片段产生的测序错误 解决方法:不同的 BAC(各自对应一个单模标本),BAC clones 扫描 基因组,补充全基因组鸟枪法测序组装 6 玻璃海鞘(Ciona intestinalis) 基因组:160Mb(人类 1/20),14 条染色体与线粒体染色体;16,000 蛋 白编码基因 Lineage-specific innovations ,如纤维素代谢中的基因 高等位基因多态性 一个家族或亚家族的脊椎动物基因在海鞘中有 single representative 这些 家族中的海鞘基因内容与脊索动物祖先对应 海鞘、脊椎动物中大量基因家族彼此不能简单对应脊索动物基因独立进 化出两个世系,脊索动物门的分支间有巨大进化差异 7 鱼类 1. 红鳍河豚(Fugu rubripes or Takifugu) 特征:就基因个数来说,基因组相对 compact 基因组: 365MB(人类 1/9);30,000 个基因 散在重复序列少(2.7%-人类 45%) RepeatMasker 结果,最常见的是 Maui(LINE-like element);内含子相对较短 2. Tetraodon nigroviridis (teleost fish) 一种硬骨鱼 基因组: 已知最小的脊椎动物基因组-342MB;21 染色体 在 Takifugu 之后 18-30MYA 分歧出来 转座序列少但是多样性高 27,918 个基因模型(建立在 cDNAs 基础上;与人类、鼠、 Takifugu 相似) 有全基因组复制(WGD):辅鳍鱼世系中的 WGD 有争议-WGD 产 生的四倍体通过基因删除回到二倍体状态,只有少量复制拷贝白痴。 两个证据:(1)基因复制发生在种内同源染色体(通过 Ks-同义突变 率) (2)与没有发生 WGC 的物种的比较结果 紧跟着 WGD,染色体重排 发生(分裂,融合,易位),减少到 21 条染色体 8 鸡(Gallus gallus) 基因组: 1.2Gb, 38+1 对性染色体(ZW-雌 ZZ-雄);571 ncRNA genes 20,00023,000 个蛋白编码基因 与人类基因组大小差异体现出 大量散在重复序列、假基因、基因片段 重复的减少 Chicken-human aligned segments 反应出保守的同线性。两个世系从最近 一个祖先开始的染色体易位都很少,而染色体内部重排(如倒位)更常 见 ncRNA 和蛋白编码基因的同线性关系有所不同ncRNA 的新进化模型 ncRNA 离基因远,且 cluster。可能由于某种选择压力 和人的比对结果显示至少有 70 MB 序列在两者中有功能 多基因家族的扩展和收缩是哺乳类和鸟类各自独立进化的主要因素 鸡染色体大小差异大。大小与重复密度正相关,与重组率、G+C 含量、 CpG 含量、基因密度负相关。 小染色体和大染色体 subtelomeic 区的同义替换率都升高 相对于哺乳动物,缺乏反转录的假基因。因为鸡基因组中普遍的散在重 复序列中反转录酶具有高特异性(CR1 LINE) 与其他脊椎动物不同,鸡基因组在过去的 50MYR 中没有有活性的 SINEs Sequence identity of orthologues 氨基酸相同百分数的分布;Sequence identity 按功能分类;Sequence identity 按组织分类 Loss, innovation, expansions and contractions of protein families: domain counts and orthologous relations 染色体长度与染色体特性的关系:a.重组率-负相关 b. G+C 负相关 c. 每 MB 的基因数和岛数 -负相关 d. 平均基因长度(内含子正相关,外显 子负相关) e. 平均 gap 长度 -正相关 f. 染色体覆盖率正相关? 9 有袋目负鼠(Opposum) 基因组 3.6GB;9 染色体,常染色体非常长,X 染色体非常短 相对与其他羊膜动物,GC 含量低,重组率低 真哺乳亚纲中雌性有 X 染色体的剂量补偿(胚胎中随机使一条失活);而 后兽亚纲的负鼠只失活父方 X 10(100MYA) Canis lupus familiaris 犬属、狼属 哺乳动物基因组差异:狗-最低转座子插入率 鼠-最高删除率 人-最低核苷 四足动物祖先 羊膜动物祖先 Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 43 酸替换率 哺乳动物中有一套常用的功能序列 50%高保守 nc 序列 cluster 在200 基因缺乏区域。大部分含有在识别中起 重要作用的基因(如转录因子,轴突指导受体) 11 鼠(Mus musculus) 2.6GB;20 条染色体;基因 23,000-大约 1 gene/100kb 只有 300 of 30,000 注释过的基因在人类中没有同源物 鼠特异基因扩展:嗅觉受体基因家族 替换率和插入/缺失率都比人高 中性突变率:从重复的 DNA 序列与相关的祖先中的一致序列比较来估算 不同 mouse strains 的遗传差异 研究:测序不同亚系基因组,确立了 8.3 million SNPs;生成单模标本, genomewide SNP map 12 灵长动物基因组 系统发育数表明 chimpanzee 黑猩猩(Pan troglodytes) and bonobo 倭黑猩猩(pygmy chimpanzee, Panpaniscus) 最接近人类。其他灵长类基因组:rhesus macaque monkey 恒河猴(Macaca mulatta) olive baboon 狒狒(Papio hamadryas anubis) gorilla 大猩猩(Gorilla gorilla)white-tufted-ear marmoset 小绒猴(Callithrix jacchus)ring- tailed lemur 狐猴(Lemur catta) 黑猩猩基因组: 3.35GB;24 染色体;20,00025,000 基因;GC:41% 人类与其他灵长动物的差异:两组动物,扩大的脑,使用复杂工具,复杂 的语言 猩猩-人比较:几乎所有核苷酸可以 align 核苷酸替换率的区域性差异在原始人类和鼠类中保守,但是 subtelomeric 区 域在原始人类中大量提高 CpG 替换率在雄性与雌性精子中比非 CpG 区域更接近 插入删除比单碱基替换少 转座序列插入差异很大:SINEs 在人类中十分活跃;黑猩猩中有两个新家族 (逆转录病毒序列) 人类和黑猩猩的同源蛋白十分相似 原始人类进化中的正选择更小的蛋白质歧化率 外显子沉默位点的替换比相邻的内含子位点低更弱的清洁选择 黑猩猩-人歧化率与染色体关系:Y 显著高,X 显著低 黑猩猩-人歧化率与 G+C 比例关系: 低重组区域: G+C 低高分歧;反之 高重组区域:G+C 和分歧率都高 插入序列数量与大小的关系:小-高插入率,基本呈递减图像,SINEs 是一 个 spike 第 15 讲 人类基因组与疾病 1 1 HGP 的结论: (1) 98%的基因组是基因编码序列。超过 50%的是重复 DNA 序列。 (2)雄性减数分裂的突变率是雌性的两倍,大多数突变发生在雄性当中。 (3)超过 1.4 百万个单核苷酸突变多态性被确定。 2 人体染色体的特点: 染色体分为 q 长臂和 p 短臂。突出特点有: (1)4 号染色体 GC 含量很低。 (2)X 染色体在 C 组,来自父母双方的两条染色体有一条选择性失活。 (3)D 组中心粒在染色体的一端。 (4)18 号染色体具有最低的基因密度。 (5)19 号染色体具有最高的基因密度。 (6)Y 染色体包括中心粒(1M) ,长臂(40M) , island(400kb) 3 基因组变异与疾病 疾病分类: (1)单基因疾病(常显常隐) , (2)复杂基因疾病(中枢神经疾病) (3)基因 组疾病(染色体数目变化) (4)感染疾病(5)环境疾病 疾病如此多种多样的原因: (1) 基因组太大。(2)突变机制较多。 研究思路: (1)比较正常和患者基因(2)基因定位(3)突变效果(4)功能基因组(5) 同源物进行突变 疾病基因鉴定: (1)连接分析(家系) (2)GWAS(全基因组关联分析) (3)染色体异常鉴定 (4)DNA 测序 讲座 1:基因组进化与进化基因组学 (理论部分;要看讲义里的研究) 以往常常把在分子水平的进化研究称为 “分子进化 ”( molecular evolution) 分子进化: 基因或蛋白的进化模式和机制,有时涵盖序列基础上的系统发生学。 进化遗传学 : 群体遗传学和近缘物种中的物种形成。 进化发育生物学 (Evo Devo): 主要生物(门)的发育和它们的进化结果的基因 模式/机制 进化基因组学的初步定义 研究基因组进化的机制以及在基因组水平研究物种及其特征进化的遗传机制 (也称 比较基因组学)的一门生物学学科。 进化基因组学的研究方法 1. 计算生物学手段:数据分析、挖掘算法、软件开发 2. 进化遗传学手段 检测基因组中受选择的基因。 自然选择的分类(净化选择;正选择) 正选择 受选择位点遗传多态性的降低;有利变异的积累选择搭载效应 (hitchhiking effort)、选择扫荡 (selective sweep) Xiaobin Xue Wenchang Qian Jiuchao Yin Xiaoyang Jin Xiaojing Ji JDY 45 受选择分析基于中性假说 进化基因组学的研究内容 一、 基因组自身进化研究 1. 基因组大小的进化 C 值悖论( C value paradox) : C 值的大小并不能完全说明生物进 化的程度和遗传复杂度的高低。 基因组大小改变机制:内含子扩增;“自私 DNA”与转座元件的 扩张;假基因积累 2. 基因组中新基因和新结构的产生 G 值悖论 :基因数目并不是与生物复杂度成正比 新基因产生机制:基因复制;逆转座;Exon-shuffling Gene fission; 水平转移、 问题:整个基因组水平新基因起源的一般模式?新基因起源后如 何整合到生物代谢通路中产生适应性性状?从头(de novo)起 源有没有?分量大不大? 二、 用基因组数据解决重要生物学问题 1. 物种之间的比较基因组和系统发育树的构建。 可用基因组信息:SNP;插入缺失多态性;线粒体 DNA、微卫星多 态性;拷贝数目变异 分子钟假说:序列间遗传差异量为时间的函数;如果核苷酸替代速 率恒定,可用于估计分歧时间;每个基因或蛋白质可能具有特定的 进化速率 如用同义突变率 Ks 估算事件发生的时间 2. 群体基因组学手段: 关联分析鉴别与表型关联的基因组差异 重复 小规模:单个基因;重复性转座 大规模:区段;全基因组;染色体加倍 Monkey king gene 机制:逆转座;基因分裂 H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 做门面招牌合同范本
- 公司钢材购销合同范本
- 加装电梯合伙合同范本
- 出租农场果园合同范本
- 与银行签订合同范本
- 分佣合同范例
- 个人软件项目合同范本
- 个人演出雇用合同范本
- 加盟合同范本化妆
- 内墙无机涂料合同范本
- 《自主创新对于钢结构发展的重要性》2400字
- 食品采购与进货台账
- GB/T 24353-2022风险管理指南
- GB/T 6284-2006化工产品中水分测定的通用方法干燥减量法
- GB/T 3003-2017耐火纤维及制品
- GB/T 22080-2016信息技术安全技术信息安全管理体系要求
- GB/T 13915-2013冲压件角度公差
- 制药工程导论课件
- 瑜伽师地论(完美排版全一百卷)
- 桨声灯影里的秦淮河1-课件
- 苏教版五年级下册科学知识点全册
评论
0/150
提交评论