




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基因表达数据的获得与分析一、基因表达的概念基因经过转录、翻译,产生具有特异生物学功能的蛋白质分子的过程。* 基因表达(gene expression)基因表达是受调控的!基因表达是指基因转录及翻译的过程。在该过程中,每一步都被严格的调节和控制,这些调节控制作用包括控制基因表达的开始、行进和终止,也包括调节基因表达的强弱及表达产物即蛋白质合成的多少等,产生具有特异生物学功能的蛋白质分子,从而赋予细胞或个体一定的功能或形态表型。(二)空间特异性在个体生长全过程,某种基因产物在个体按不同组织空间顺序出现,称之为基因表达的空间特异性(spatial specificity),又称细胞或组织特异性(ce
2、ll or tissue specificity) 。二、基因表达具有时间及空间特异性(一)时间特异性按功能需要,某一特定基因的表达严格按特定的时间顺序发生,称之为基因表达的时间特异性(temporal specificity),又称阶段特异性(stage specificity) 。 鼠和人基因组的表达调控80%基因是“完全一样的”共享99%的类似基因脑和肝的表达调控基因完全相同正常肝中心法则基因组 (genome):一个物种整套(单倍体)遗传物质的总和称为该物种的基因组。基因组学 (genomics)结构基因组学:以全基因组测序为目标功能基因组学:以基因功能鉴定为目标,又被称为后基因组转录
3、组 (transcriptome):基因组表达的最初产物,既是某种细胞在特定时间下,基因衍生而来的RNA分子的集合。转录组学(transcriptomics)蛋白质组 (proteome):RNA分子直接合成基因组表达的终产物,即细胞内所有蛋白质的总和。蛋白质组学 (proteomics)转录组学转录组学(transcriptomics),是一门在整体水平上研究细胞中基因转录的情况及转录调控规律的学科。简而言之,转录组学是从RNA层面研究基因表达的情况。 了解转录组是解读基因组功能元件和揭示细胞及组织中分子组成所必需的RNA信使RNA(mRNA) 3%4%核糖体RNA(rRNA) 70%转运R
4、NA(tRNA) 15%microRNA(调控基因表达) DNA(Gene)Protein 数据挖掘的挑战-高维性数据挖掘的挑战-高维性M个geneN1个疾病样本、N2个正常样本内容安排基因表达数据的获得与分析基因表达的检测方法表达数据的获得、预处理基于表达数据发现知识(广义知识、关联知识、分类知识、预测知识、偏差知识)基因表达的检测方法基因芯片二代测序基因芯片的发展历史和趋势基因芯片是上世纪九十年代,随着计算机技术和基因组测序技术的发展而发展起来的一种新型的生物技术,它能够平行、高通量地监测成千上万基因转录本的表达水平,从而为系统地监测细胞内mRNA分子的表达状态进而推测细胞的功能状态提供了
5、可能。1995年Schena (Science, 1995)等人,把拟南芥的45个基因固定在一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。部分基因组被测序的微生物全基因的DNA芯片问世,如:酿酒酵母,大肠杆菌。人类、小鼠和水稻等物种的全基因组芯片。近年Medline收录的发表的“DNA microarray” 相关论文基因芯片技术经过十多年的发展,已经发展成为一种高通量,大规模和微量化的分析手段,成为功能基因组研究中的重要技术方法,得到了较为广泛的
6、应用和推广。DNA芯片技术芯片的制备样品的准备分子杂交DNA芯片技术检测分析DNA芯片技术的主要方法芯片的制备样品的准备分子杂交DNA芯片技术检测分析 什么是微阵列微阵列(microarray): 是一种平面的基质载体,它上面规则的、特异性地吸附着基因或基因产物(探针)。 是一种小型的分析装置,能够快速和精确地研究生物基因组信息。芯片的制作支持物的预处理探针设计与制造芯片的打印打印后处理DNA微阵列1. 1芯片制备-芯片探针DNA探针:DNA探针是最常用的核酸探针,指长度在几百碱基对以上的双链DNA或单链DNA探针。这类探针多为某一基因的全部或部分序列,或某一非编码序列。DNA探针的获得有赖于
7、分子克隆技术的发展和应用。可在质粒载体中克隆,便于无限繁殖,制备简便;不易降解(相对RNA而言)cDNA 探针(complementary DNA)是指互补于mRNA的DNA分子,是由逆转录酶催化而产生的。该酶以RNA为模板,根据碱基配对原则,按照RNA的核苷酸顺序合成DNA(其中U与A配对)。 cDNA 探针是目前应用最为广泛的一种探针。 芯片探针的特点互补性:即针对目的基因的保守区设计互补、完全配对(perfect match,PM)的寡核苷酸探针特异性:即探针与目的基因的结合相对于家族其他成员具有高度特异性探针的丰足:并非把相同的探针片段固化在阵列中多处部位而是指针对靶基因序列设计多个(
8、三个以上)寡核苷酸探针这些寡核苷探针可与该基因的不同部位特异结合、应用多个不同序列探针检测同一个分子可显著提高信噪比,提高RNA定量的准确性原位合成芯片 ( synthetic genechip )芯片的制备方式DNA 微阵列 ( DNA microarray)原位合成芯片采用显微光蚀刻(photolithography)等技术,在芯片的特定部位原位合成寡核苷酸而制成。探针较短采用常规分子生物学技术如PCR、分子克隆、DNA合成技术等,预先合成DNA或基因片段,然后以显微打印的方式,待这些基因片段有序地固化于支持物表面而制成 预先合成基因芯片探针原位合成探针原位合成探针原位合成探针 原位合成(
9、In Situ Synthesis)羟基化特制的光刻掩膜 1.2. 芯片支持物类型实性材料 膜性材料硅片玻片瓷片聚丙烯膜尼龙膜纤维素膜支持物的预处理实性材料 通常在表面衍生出活性基团,如羟基或氨基载体的活化膜性材料使其表面带上正电荷以吸附带负电荷的DNA分子,通常以氨基硅烷或多聚赖氨酸等进行包被需进行预处理,使其表面衍生出羟基、氨基活性基团。1.3. 芯片的打印将预先制备好的DNA探针以液滴的形式有序排列在经特殊处理的支持物上的过程.接触式打印非接触式打印1.4 打印后处理1.一方面需要把探针固定在玻璃表面2. 另一方面也要封闭玻片上未打印的区域,以防止杂交时样品DNA的非特异性结合基因芯片是
10、规则的规则的:微阵列上的单元按照行和列的方式进行排列。基本标准 :成行 、成列、大小均一、点间距相近、位置明确。意义:能使微阵列的制备、检测和定量快速进行。行和列是!否!均一的大小和点间距意义:能使微阵列的制备、检测和定量快速进行。同时均一化的点满足定量简单化、分析精确化的需要。是!否!明确的位置意义:能确保对信号强度的精确定量并能把信号值和对应的基因序列对应起来。A1A2B1B2B3C1C2C3A3A1A2A3B1B2B3C3C2C1是!否!DNA芯片技术的主要方法芯片的制备样品的准备分子杂交DNA芯片技术检测分析样品的准备样品核酸的提取与纯化扩增与标记标记样品的纯化组织、细胞中样品核酸的提
11、取和纯化反转录生成cDNA样品核酸的扩增和荧光标记扩增:PCR, RTPCR,固相PCR常用标记物为 Cy3,Cy5(荧光标记), 生物素标记,放射素末端标记:在引物上标记有荧光素,在DNA扩增过程时,使新形成的DNA链末端带有荧光素。标记样品的纯化样品的准备DNA微阵列技术流程芯片的制作支持物的预处理探针设计与制造芯片的打印打印后处理DNA微阵列样品的准备样品核酸的提取与纯化扩增与标记标记样品的纯化杂交与杂交后清洗检测与分析DNA芯片技术的主要方法芯片的制备样品的准备分子杂交DNA芯片技术检测分析基因芯片基因芯片原理-molecular hybridization 指具有一定同源性的两条核酸
12、单链(DNA或RNA),在一定条件下按碱基互补配对原则经过退火处理,形成异质双链的过程。 利用这一原理,就可以使用已知基因的单链核酸片段作为探针,去查找各种不同来源的基因组DNA分子中的同源基因或同源序列。将一系列的核酸片段固定在芯片载体上作为探针,待测的核酸片段人工标记上不同的荧光、或同位素等作为靶片段( target ),一定条件下两者杂交,根据杂交后不同的信号即可获得靶片段的信息,进行计算机分析。基因芯片原理基因芯片自动杂交仪 分子杂交系统检测与分析1 激光激发使含荧光标记的DNA片段发射荧光2 激光扫描仪或激光共聚焦显微镜采集各杂交点的信号3 软件进行进行图象分析和数据处理DyePho
13、tonsElectronsSignalLaserPMTA/DConvertorexcitationamplificationFilteringTime-spaceaveragingDNA微阵列技术流程芯片的制作支持物的预处理探针设计与制造芯片的打印打印后处理DNA微阵列样品的准备样品核酸的提取与纯化扩增与标记标记样品的纯化杂交与杂交后清洗检测与分析表达谱实验流程Fragment(heat, Mg2+)Hybridize(16 hours)IVTBiotin-rNTPcDNATotal RNACellsScanBBBBBBBBWash & StainAAAAAAAAAAAA生物信息学在基因芯片中
14、的应用体现在四个方面:芯片设计可靠性分析预处理数据分析基因芯片数据的预处理数据的提取对数化探针过滤补缺失值标准化探针注释数据提取表达值获得图象预处理网格定位背景滤除荧光信号提取归一化处理背景区域数据的提取芯片的荧光扫描图像cDNA芯片Affymetrix寡核苷酸芯片数据的提取-cDNA芯片芯片的荧光扫描图像CH1ICH1BCH2ICH2BRatio=(CH1I-CH1B)/(CH2I-CH2B)数据的提取-Affymetrix芯片的荧光扫描图像黑-蓝黑-蓝-高蓝-绿-黄-橙-红-白低高每个基因通常会设计1620个探针对,组成探针集,共同决定某基因的杂交信号PM (perfect match):
15、与目标样本完美匹配的探针MM (mismatch):在完美匹配的探针序列中央发生一个碱基替换杂交信号:定性(P-Present/A-Absent/M-Marginal)定量(real signal)数据的提取数据的提取芯片的数据格式探针数远大于基因数Human Genome U133包含100万不同的寡核苷酸探针,33000个基因“.cel”文件数据的提取芯片的数据格式Matrix file数据的提取?基因芯片数据的预处理数据的提取对数化探针过滤补缺失值标准化探针注释对数化原始数据呈偏态分布对数转化后呈近似正态分布探针过滤去除表达水平是负值或很小的数据或明显的噪音数据过闪耀现象物理因素导致的信
16、号污染(划伤、指纹等)杂交效能低点样问题补缺失值数据缺失类型非随机缺失(表达丰度过低或过高)随机缺失(与表达水平高低无关)杂交效能低物理刮伤指纹灰尘图像污染补缺失值删除相应的行、列简单补缺法无表达或无差异表达0或1均值样本均值基因均值补缺失值回归法补缺失值k近邻法-KNN(K-NearestNeighbor)前提假设:近邻的对象具有类似的预测值。思想:在多维空间Rn 中找到与未知样本最近邻的k 个点,并根据这k个点的类别来判断未知样本的类这k个点就是未知样本的k-最近邻。k近邻法-KNN数学模型:离散目标分类函数为f:Rn-V设未知样本的特征向量X为训练数据集D=(Xi,Vi),1iN,其中X
17、i是第i个训练样本的特征向量,Vi是类别V是有限集合v1,v2,vs ,即各不同分类集计算X和Xi之间的距离d(Xi,X)按距离排序,得到d(X,Xi1)d(X,Xi2)d(X,XiN)选择前K个样本:S=(Xi1,Yi1)(XiK,YiK);统计S中每个类别出现的次数,确定X的类别Y补缺失值k近邻法-KNN(K-NearestNeighbor)基因i在样本j中的表达水平缺失确定距离最近的k个邻居基因欧氏距离相关系数加权平均估计缺失值标准化基因芯片数据中存在的变异感兴趣的变异真正的生物学变异差异表达基因混杂变异实验过程中引入的变异在样本的染色、芯片的制作、芯片的扫描过程中引入的系统误差CDNA
18、芯片数据的标准化系统误差来源染料的物理属性染料的结合效率探针的制备探针和样本的杂交过程数据收集时的扫描过程不同芯片间的差异不同芯片杂交条件的差异CDNA芯片数据的标准化标准化过程的参照物稳定表达的基因持家基因(housekeeping genes)外源性的或人工合成的控制基因(controls)芯片上大部分稳定表达的基因(所有基因)相对稳定基因子集(invariant set)CDNA芯片数据的标准化标准化方法片内标化对数转换 log-Ratios全局标化(global normalization)Cy3和Cy5不同染料的荧光强度不一致纠正了染料偏倚(dye bias)所有基因log-Ratios的中值或均值假设:CDNA芯片数据的标准化标准化方法片内标化荧光强度依赖的标化(intensity dependent normalization)方法: scatter-plot sm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年炼钢电弧炉项目投资价值分析报告
- 2025至2030年激光纹身纸项目投资价值分析报告
- 2025至2030年油泵电机电刷项目投资价值分析报告
- JSA的风险监测与检查
- 职业病危害工程防护知识详解
- 综采采煤工艺技术
- 2025至2030年智能化电脑控制分段高速整经机项目投资价值分析报告
- 2025至2030年无线双功通话站项目投资价值分析报告
- 2025至2030年数控加工拉伸件项目投资价值分析报告
- 广西导游面试题库及答案
- 医务人员的职业暴露与防护完整版
- 石家庄市存量房买卖合同
- 高一离子方程式书写专题训练及答案
- 张元鹏《微观经济学》(中级教程)笔记和课后习题详解
- 如何有效管理90-00后新员工技巧方法-123课件
- 第十三讲 全面贯彻落实总体国家安全观PPT习概论2023优化版教学课件
- 人教版语文能力层级-·-教材-·-中考
- 浙江省公安民警心理测验考试题目
- ds-c10h多屏控制器软件用户手册
- GB/T 41771.1-2022现场设备集成第1部分:概述
- GB/T 4822-2015锯材检验
评论
0/150
提交评论