医学数据挖掘基因表达数据的获得与分析专家讲座_第1页
医学数据挖掘基因表达数据的获得与分析专家讲座_第2页
医学数据挖掘基因表达数据的获得与分析专家讲座_第3页
医学数据挖掘基因表达数据的获得与分析专家讲座_第4页
医学数据挖掘基因表达数据的获得与分析专家讲座_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因表示数据取得与分析徐娟Email:xujuan8475@163.com生物信息教研室分子学馆106办公室医学数据挖掘基因表达数据的获得与分析第1页一、基因表示概念基因经过转录、翻译,产生含有特异生物学功效蛋白质分子过程。*基因表示(geneexpression)基因表示是受调控!基因表示是指基因转录及翻译过程。在该过程中,每一步都被严格调整和控制,这些调整控制作用包含控制基因表示开始、行进和终止,也包含调整基因表示强弱及表示产物即蛋白质合成多少等,产生含有特异生物学功效蛋白质分子,从而赋予细胞或个体一定功效或形态表型。医学数据挖掘基因表达数据的获得与分析第2页(二)空间特异性在个体生长全过程,某种基因产物在个体按不一样组织空间次序出现,称之为基因表示空间特异性(spatialspecificity),又称细胞或组织特异性(cellortissuespecificity)

。二、基因表示含有时间及空间特异性(一)时间特异性按功效需要,某一特定基因表示严格按特定时间次序发生,称之为基因表示时间特异性(temporalspecificity),又称阶段特异性(stagespecificity)

。医学数据挖掘基因表达数据的获得与分析第3页鼠和人基因组表示调控~80%基因是“完全一样”共享~99%类似基因脑和肝表示调控基因完全相同正常肝医学数据挖掘基因表达数据的获得与分析第4页中心法则基因组(genome):一个物种整套(单倍体)遗传物质总和称为该物种基因组。基因组学(genomics)结构基因组学:以全基因组测序为目标功效基因组学:以基因功效判定为目标,又被称为后基因组转录组(transcriptome):基因组表示最初产物,既是某种细胞在特定时间下,基因衍生而来RNA分子集合。转录组学(transcriptomics)蛋白质组(proteome):RNA分子直接合成基因组表示终产物,即细胞内全部蛋白质总和。蛋白质组学(proteomics)医学数据挖掘基因表达数据的获得与分析第5页转录组学转录组学(transcriptomics),是一门在整体水平上研究细胞中基因转录情况及转录调控规律学科。简而言之,转录组学是从RNA层面研究基因表示情况。了解转录组是解读基因组功效元件和揭示细胞及组织中分子组成所必需RNA信使RNA(mRNA)3%~4%核糖体RNA(rRNA)>70%转运RNA(tRNA)>15%microRNA(调控基因表示)………………DNA(Gene)Protein

医学数据挖掘基因表达数据的获得与分析第6页数据挖掘挑战-----高维性医学数据挖掘基因表达数据的获得与分析第7页数据挖掘挑战-----高维性M个geneN1个疾病样本、N2个正常样本医学数据挖掘基因表达数据的获得与分析第8页医学数据挖掘基因表达数据的获得与分析第9页内容安排基因表示数据取得与分析基因表示检测方法表示数据取得、预处理基于表示数据发觉知识(广义知识、关联知识、分类知识、预测知识、偏差知识)医学数据挖掘基因表达数据的获得与分析第10页基因表示检测方法基因芯片二代测序医学数据挖掘基因表达数据的获得与分析第11页基因芯片发展历史和趋势基因芯片是上世纪九十年代,伴随计算机技术和基因组测序技术发展而发展起来一个新型生物技术,它能够平行、高通量地监测成千上万基因转录本表示水平,从而为系统地监测细胞内mRNA分子表示状态进而推测细胞功效状态提供了可能。1995年Schena(Science,1995)等人,把拟南芥45个基因固定在一张玻片上,并行检测拟南芥45个基因表示情况,这是第一次结合了高精度机械手点样系统、荧光标识技术、双通道荧光扫描技术和数据分析软件,是第一次真正意义上用DNA芯片技术进行基因表示分析应用。部分基因组被测序微生物全基因DNA芯片问世,如:酿酒酵母,大肠杆菌。人类、小鼠和水稻等物种全基因组芯片。医学数据挖掘基因表达数据的获得与分析第12页近年Medline收录发表“DNAmicroarray”相关论文基因芯片技术经过十多年发展,已经发展成为一个高通量,大规模和微量化分析伎俩,成为功效基因组研究中主要技术方法,得到了较为广泛应用和推广。医学数据挖掘基因表达数据的获得与分析第13页DNA芯片技术芯片制备样品准备分子杂交DNA芯片技术检测分析医学数据挖掘基因表达数据的获得与分析第14页医学数据挖掘基因表达数据的获得与分析第15页DNA芯片技术主要方法芯片制备样品准备分子杂交DNA芯片技术检测分析医学数据挖掘基因表达数据的获得与分析第16页医学数据挖掘基因表达数据的获得与分析第17页什么是微阵列微阵列(microarray):是一个平面基质载体,它上面规则、特异性地吸附着基因或基因产物(探针)。是一个小型分析装置,能够快速和准确地硕士物基因组信息。医学数据挖掘基因表达数据的获得与分析第18页芯片制作支持物预处理探针设计与制造芯片打印打印后处理DNA微阵列医学数据挖掘基因表达数据的获得与分析第19页1.1芯片制备---芯片探针DNA探针:DNA探针是最惯用核酸探针,指长度在几百碱基对以上双链DNA或单链DNA探针。这类探针多为某一基因全部或部分序列,或某一非编码序列。DNA探针取得有赖于分子克隆技术发展和应用。可在质粒载体中克隆,便于无限繁殖,制备简便;不易降解(相对RNA而言)cDNA探针(complementaryDNA)是指互补于mRNADNA分子,是由逆转录酶催化而产生。该酶以RNA为模板,依据碱基配对标准,按照RNA核苷酸次序合成DNA(其中U与A配对)。cDNA探针是当前应用最为广泛一个探针。

医学数据挖掘基因表达数据的获得与分析第20页芯片探针特点互补性:即针对目标基因保守区设计互补、完全配对(perfectmatch,PM)寡核苷酸探针特异性:即探针与目标基因结合相对于家族其它组员含有高度特异性探针丰足:并非把相同探针片段固化在阵列中多处部位而是指针对靶基因序列设计多个(三个以上)寡核苷酸探针.这些寡核苷探针可与该基因不一样部位特异结合、应用多个不一样序列探针检测同一个分子可显著提升信噪比,提升RNA定量准确性医学数据挖掘基因表达数据的获得与分析第21页原位合成芯片

(syntheticgenechip)芯片制备方式DNA微阵列(DNAmicroarray)原位合成芯片采取显微光蚀刻(photolithography)等技术,在芯片特定部位原位合成寡核苷酸而制成。探针较短采取常规分子生物学技术如PCR、分子克隆、DNA合成技术等,预先合成DNA或基因片段,然后以显微打印方式,待这些基因片段有序地固化于支持物表面而制成

医学数据挖掘基因表达数据的获得与分析第22页预先合成基因芯片探针医学数据挖掘基因表达数据的获得与分析第23页原位合成探针医学数据挖掘基因表达数据的获得与分析第24页原位合成探针医学数据挖掘基因表达数据的获得与分析第25页原位合成探针医学数据挖掘基因表达数据的获得与分析第26页

原位合成(InSituSynthesis)羟基化特制光刻掩膜医学数据挖掘基因表达数据的获得与分析第27页医学数据挖掘基因表达数据的获得与分析第28页1.2.芯片支持物类型实性材料膜性材料硅片玻片瓷片聚丙烯膜尼龙膜纤维素膜医学数据挖掘基因表达数据的获得与分析第29页支持物预处理实性材料

通常在表面衍生出活性基团,如羟基或氨基载体活化膜性材料使其表面带上正电荷以吸附带负电荷DNA分子,通常以氨基硅烷或多聚赖氨酸等进行包被需进行预处理,使其表面衍生出羟基、氨基活性基团。医学数据挖掘基因表达数据的获得与分析第30页1.3.芯片打印将预先制备好DNA探针以液滴形式有序排列在经特殊处理支持物上过程.接触式打印非接触式打印医学数据挖掘基因表达数据的获得与分析第31页医学数据挖掘基因表达数据的获得与分析第32页1.4打印后处理1.首先需要把探针固定在玻璃表面2.另首先也要封闭玻片上未打印区域,以预防杂交时样品DNA非特异性结合医学数据挖掘基因表达数据的获得与分析第33页基因芯片是规则规则:微阵列上单元按照行和列方式进行排列。基本标准:成行、成列、大小均一、点间距相近、位置明确。医学数据挖掘基因表达数据的获得与分析第34页意义:能使微阵列制备、检测和定量快速进行。行和列是!否!医学数据挖掘基因表达数据的获得与分析第35页均一大小和点间距意义:能使微阵列制备、检测和定量快速进行。同时均一化点满足定量简单化、分析准确化需要。是!否!医学数据挖掘基因表达数据的获得与分析第36页明确位置意义:能确保对信号强度准确定量并能把信号值和对应基因序列对应起来。A1A2B1B2B3C1C2C3A3A1A2A3B1B2B3C3C2C1是!否!医学数据挖掘基因表达数据的获得与分析第37页DNA芯片技术主要方法芯片制备样品准备分子杂交DNA芯片技术检测分析医学数据挖掘基因表达数据的获得与分析第38页样品准备样品核酸提取与纯化扩增与标识标识样品纯化医学数据挖掘基因表达数据的获得与分析第39页组织、细胞中样品核酸提取和纯化反转录生成cDNA样品核酸扩增和荧光标识扩增:PCR,RT—PCR,固相PCR惯用标识物为Cy3,Cy5(荧光标识),生物素标识,放射素末端标识:在引物上标识有荧光素,在DNA扩增过程时,使新形成DNA链末端带有荧光素。标识样品纯化样品准备医学数据挖掘基因表达数据的获得与分析第40页DNA微阵列技术流程芯片制作支持物预处理探针设计与制造芯片打印打印后处理DNA微阵列样品准备样品核酸提取与纯化扩增与标识标识样品纯化杂交与杂交后清洗检测与分析医学数据挖掘基因表达数据的获得与分析第41页DNA芯片技术主要方法芯片制备样品准备分子杂交DNA芯片技术检测分析医学数据挖掘基因表达数据的获得与分析第42页基因芯片基因芯片原理-----molecularhybridization

指含有一定同源性两条核酸单链(DNA或RNA),在一定条件下按碱基互补配对标准经过退火处理,形成异质双链过程。利用这一原理,就能够使用已知基因单链核酸片段作为探针,去查找各种不一样起源基因组DNA分子中同源基因或同源序列。将一系列核酸片段固定在芯片载体上作为探针,待测核酸片段人工标识上不一样荧光、或同位素等作为靶片段(target),一定条件下二者杂交,依据杂交后不一样信号即可取得靶片段信息,进行计算机分析。医学数据挖掘基因表达数据的获得与分析第43页基因芯片原理医学数据挖掘基因表达数据的获得与分析第44页基因芯片自动杂交仪分子杂交系统医学数据挖掘基因表达数据的获得与分析第45页检测与分析1激光激发使含荧光标识DNA片段发射荧光2激光扫描仪或激光共聚焦显微镜采集各杂交点信号3软件进行进行图象分析和数据处理DyePhotonsElectronsSignalLaserPMTA/DConvertorexcitationamplificationFilteringTime-spaceaveraging医学数据挖掘基因表达数据的获得与分析第46页医学数据挖掘基因表达数据的获得与分析第47页医学数据挖掘基因表达数据的获得与分析第48页DNA微阵列技术流程芯片制作支持物预处理探针设计与制造芯片打印打印后处理DNA微阵列样品准备样品核酸提取与纯化扩增与标识标识样品纯化杂交与杂交后清洗检测与分析医学数据挖掘基因表达数据的获得与分析第49页医学数据挖掘基因表达数据的获得与分析第50页医学数据挖掘基因表达数据的获得与分析第51页表示谱试验流程Fragment(heat,Mg2+)Hybridize(16hours)IVTBiotin-rNTPcDNATotalRNACellsScanBBBBBBBBWash&StainAAAAAAAAAAAA医学数据挖掘基因表达数据的获得与分析第52页医学数据挖掘基因表达数据的获得与分析第53页生物信息学在基因芯片中应用表达在四个方面:芯片设计可靠性分析预处理数据分析医学数据挖掘基因表达数据的获得与分析第54页基因芯片数据预处理数据提取对数化探针过滤补缺失值标准化探针注释医学数据挖掘基因表达数据的获得与分析第55页数据提取—表示值取得图象预处理网格定位背景滤除荧光信号提取归一化处理背景区域医学数据挖掘基因表达数据的获得与分析第56页数据提取芯片荧光扫描图像cDNA芯片Affymetrix寡核苷酸芯片医学数据挖掘基因表达数据的获得与分析第57页数据提取---cDNA芯片芯片荧光扫描图像CH1ICH1BCH2ICH2BRatio=(CH1I-CH1B)/(CH2I-CH2B)医学数据挖掘基因表达数据的获得与分析第58页数据提取---Affymetrix芯片荧光扫描图像黑-蓝黑-蓝-高蓝-绿-黄-橙-红-白低高医学数据挖掘基因表达数据的获得与分析第59页每个基因通常会设计16~20个探针对,组成探针集,共同决定某基因杂交信号PM(perfectmatch):与目标样本完美匹配探针MM(mismatch):在完美匹配探针序列中央发生一个碱基替换杂交信号:定性(P-Present/A-Absent/M-Marginal)定量(realsignal)数据提取医学数据挖掘基因表达数据的获得与分析第60页数据提取芯片数据格式探针数远大于基因数HumanGenomeU133包含100万不一样寡核苷酸探针,33000个基因“.cel”文件医学数据挖掘基因表达数据的获得与分析第61页数据提取芯片数据格式Matrixfile医学数据挖掘基因表达数据的获得与分析第62页数据提取?医学数据挖掘基因表达数据的获得与分析第63页基因芯片数据预处理数据提取对数化探针过滤补缺失值标准化探针注释医学数据挖掘基因表达数据的获得与分析第64页对数化原始数据呈偏态分布对数转化后呈近似正态分布医学数据挖掘基因表达数据的获得与分析第65页探针过滤去除表示水平是负值或很小数据或显著噪音数据过闪耀现象物理原因造成信号污染(划伤、指纹等)杂交效能低点样问题……医学数据挖掘基因表达数据的获得与分析第66页补缺失值数据缺失类型非随机缺失(表示丰度过低或过高)随机缺失(与表示水平高低无关)杂交效能低物理刮伤指纹灰尘图像污染……医学数据挖掘基因表达数据的获得与分析第67页补缺失值删除对应行、列简单补缺法无表示或无差异表示0或1均值样本均值基因均值医学数据挖掘基因表达数据的获得与分析第68页补缺失值回归法医学数据挖掘基因表达数据的获得与分析第69页补缺失值k近邻法---KNN(K-Nearest

Neighbor)前提假设:近邻对象含有类似预测值。思想:在多维空间Rn中找到与未知样本最近邻k个点,并依据这k个点类别来判断未知样本类这k个点就是未知样本k-最近邻。医学数据挖掘基因表达数据的获得与分析第70页k近邻法---KNN数学模型:离散目标分类函数为f:Rn->V

设未知样本特征向量X为训练数据集D={(Xi,Vi),1≤i≤N},其中Xi是第i个训练样本特征向量,Vi是类别V是有限集合{v1,v2,…vs},即各不一样分类集计算X和Xi之间距离d(Xi,X)按距离排序,得到d(X,Xi1)

≤d(X,Xi2)

≤…

≤d(X,XiN)选择前K个样本:S={(Xi1,Yi1)…(XiK,YiK)};

统计S中每个类别出现次数,确定X类别Y医学数据挖掘基因表达数据的获得与分析第71页补缺失值k近邻法---KNN(K-Nearest

Neighbor)基因i在样本j中表示水平缺失确定距离最近k个邻居基因欧氏距离相关系数加权平均预计缺失值医学数据挖掘基因表达数据的获得与分析第72页标准化基因芯片数据中存在变异感兴趣变异真正生物学变异差异表示基因混杂变异试验过程中引入变异在样本染色、芯片制作、芯片扫描过程中引入系统误差医学数据挖掘基因表达数据的获得与分析第73页CDNA芯片数据标准化系统误差起源染料物理属性染料结合效率探针制备探针和样本杂交过程数据搜集时扫描过程不一样芯片间差异不一样芯片杂交条件差异医学数据挖掘基因表达数据的获得与分析第74页CDNA芯片数据标准化标准化过程参考物稳定表示基因持家基因(housekeepinggenes)外源性或人工合成控制基因(controls)芯片上大部分稳定表示基因(全部基因)相对稳定基因子集(invariantset)医学数据挖掘基因表达数据的获得与分析第75页CDNA芯片数据标准化标准化方法片内标化对数转换log-Ratios全局标化(globalnormalization)Cy3和Cy5不一样染料荧光强度不一致纠正了染料偏倚(dyebias)全部基因log-Ratios中值或均值假设:医学数据挖掘基因表达数据的获得与分析第76页CDNA芯片数据标准化标准化方法片内标化荧光强度依赖标化(intensitydependentnormalization)方法:scatter-plots

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论