版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档-下载后可编辑DC-CLUSTER软件的设计与开发-基础电子摘要:目前,基因芯片的信息挖掘已成为生物信息学研究的热点之一,引起了广泛的重视。特别是高密度的DNA微阵列,由于它荷载了成千上万个DNA片段,可用于高通量的生物学检测,其开发和利用已进入商业化阶段,而其信息处理和信息挖掘更受关注。本文介绍了基因芯片分析中聚类分析软件的设计与实现过程,并对软件系统结构、功能模块、关键技术进行了阐述。该软件能完成基因芯片分析中聚类分析工作。它的开发为从事基因芯片分析的研究人员提供了有效的数据处理和分析工具。
1.引言
基因芯片,又称DNA芯片(DNAchip)或DNA微阵列(DNAmicroarray),是随着“人类基因组计划”(humangenomeproject,HGP)的发展而发展起来的一项新技术,可广泛应用于基因序列分析、基因突变检测和多态性分析,以及疾病的基因诊断等许多领域。目前,基因芯片的信息挖掘已成为生物信息学研究的热点之一,引起了广泛的重视。特别是高密度的DNA微阵列,由于其荷载了成千上万个DNA片段,可用于高通量的生物学检测,其开发和利用已进入商业化阶段,而其信息处理和信息挖掘更受关注。鉴于此,本软件是一个基于C/C++开发的基因芯片聚类分析软件,用户可根据实际的需要采用软件提供的多种不同的聚类技术实现基因芯片的数据挖掘。本文从软件系统结构、数据文件的格式、聚类的方法、差异基因的判断这五个方面对软件的设计和实现功能进行了详细阐述,着重介绍了聚类分析、差异基因判断所应用的相关算法和设计过程。
2.系统构建
2.1软件系统结构
软件从5个方面设计基因芯片分析预测功能模块。图1为该软件设计构架。从图1中可知软件功能模块包括数据的预处理、分类统计量、聚类分析的方法、差异基因的判断、其他统计功能。
图1软件的系统结构与功能模块
2.2功能模块
(1)数据的预处理。聚类分析的基本工作,该模块以txt文件格式完成聚类分析数据的读取,负责在聚类前对数据进行筛选和归一化。
(2)分类统计量。该模块中完成聚类分析前分类统计量的选取,包括相似系数和距离的选取,生成距离矩阵或相似系数矩阵,并保存为txt文件形式。
(3)聚类分析方法。该模块实现各种聚类分析方法,提供了系统聚类分析方法、动态聚类法、自组织图谱分析法和模糊聚类分析方法。生成聚类结果数据、并保存为txt文件,输出聚类层次图。揭示样本间隐含的关系,为进一步确定具有相似表达模式的基因提供了具有相当参考价值的导向。
(4)差异基因的判断。利用该功能来识别出在不同样本中表达有差异的基因。为生物实验寻找治病基因提供方便。
(5)其他统计功能。该模块为分析生物实验数据提供了一些常用的统计方法,如T检验,方差检验等。
2.3实现方法与实验结果
2.3.1数据读取
首先步是读取数据文件。本软件能读取以制表符(tab)为界限的特定格式的文本文件(txt文件)。这种以制表符(tab)为界限的文本文件(txt文件)可以由任意标准的电子制表软件来创建和输出,如MicrosoftExcel。
2.3.2数据的预处理
数据归一化之前,先要对数据进行筛选,由于通过图像扫描软件产生的数据中有负的数据值或者0,这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化,所以过滤掉这些数据是非常必要的。忽略这些点的信息并不会对整体的分析产生影响,因为这些极弱的信号不足以为基因表达的差异提供证据在进行聚类分析前,必须对聚类数据进行归一化处理。对基因芯片数据的归一化处理,主要目的是消除由于实验技术所导致地表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。归一化的方法根据芯片的种类、数据处理的阶段和目的不同而有所差异。
本软件主要采用了针对双荧光染色(RedandGreenChip)的cDNA微列阵(cDNAmicroarray)的归一化化方法。主要采用了以下几种归一化方法:芯片间的数据归一化(Crossslidenormalization),芯片内的数据归一化(withinslidenormalization),对数变换法。本软件还提供了一些较常用的数据变换方法,如标准差标准化、极差标准化、极差正规化、中心化变换等。
2.3.3分类统计量
研究变量或样本的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的基因(样本),它们之间的相似系数接近于1(或-1),而彼此无关的基因(样本),它们之间的相似系数则接近于零,在进行聚类处理时,比较相似的基因(样本)归为一类,不怎么相似的样本归为不同的类;另一种是距离,它是将每一个基因(样本)看成m维空间(m种实验(变量))的一个点,在这m维空间中定义距离,距离接近的点归为同一类,距离较远的归于不同的类。
本软件提供这两种数量指标。在距离尺度中:使用了欧式距离、距离、切比雪夫距离、兰氏距离、马氏距离和斜交空间距离等;在相似统计量中,使用了Pearson系数、相关系数和交角余弦等。
2.3.4聚类方法
基因芯片数据在经过上述方法处理后,接下来进行聚类分析。聚类是指根据基因芯片的基因表达数据,将基因按照不同的功能,或者相同的表达行为进行归类,聚类的基因表达谱为研究人员提供基因表达差异,启动子分析,表达模式研究等等便利的条件。
本软件目前提供了三种聚类方法:系统聚类法,动态聚类法和自组织映射聚类法。本文将主要介绍系统聚类法、动态聚类法和自组织映射聚类法。
⑴系统聚类法
系统聚类法是早也是普遍的应用在基因芯片数据分析研究中的聚类算法。具体步骤如下:
如图2所示的那样。每一列是不同的条件,或者在不同条件下的样本,每一行是基因的编号,每个基因的表达量用标准化后log(R/G)2的表示。
②计算所有基因之间的分类统计量:通过软件提供地分类统计量这一模块来计算所有基因之间的相关系数(correlationcoefficient)或距离系数。
③建立Gene-Gene的距离矩阵。
④建立系统发育树(dendrogram):根据Gene-Gene的距离矩阵的分值,首先找到距
离近的两个基因,然后合并,再找距离相近两组再合并,直到所有的基因合并到一个组中。本软件主要采用了单链法(singlelinkagemethod)、全链法(completelinkagemethod)、组平均法(averagelinkagemethod)、短距离法、长距离法、中间距离法、重心法、类平均法、可变类平均法、离差平方和法。
⑵动态聚类法
本软件采用了K均值聚类法和K中位值聚类法。具体算法步骤如下:
①选择聚点。本软件采取了用任意K个样本或前K个样本作为凝聚点和数值插值寻找凝聚点的方法来选取凝聚点。
②初始分类。本软件采取了下面方法来进行初始分类。选择一批聚点后,每个聚点自成一类,将样本依次归入其距离近的聚点的那一类,并立即重新计算该类的重心,以代替原来的聚点,再计算下一个样本的归类,直至所有样本都归类为止。
⑶自组织映射聚类(SOM)
本软件还提供了自组织映射聚类(Self-OrganizingMap,SOM),是由T.Konohen于1980年提出的模型,属于非监督学习的神经网络聚类,与K-means相似,采用SOM聚类算法之前,也要首先估计出想要得到的类的个数。然后给每个部分建立一个随机向量,再随机挑选一个基因,通过已选定的距离矩形矩阵计算这一向量与表达向量之间的距离,从而确定与该基因近的参考向量;接着调整这一参考向量使其与表达向量更相近,其他的参考向量也随之调整。这一过程不断迭代,参考向量的调整量减少,但相似程度的严格性不断提高。终,参考向量收敛于一个固定值,基因也随之分为几个部分。
2.3.5数据的输出
本软件在聚类完成后,将数据保存在一个文本文件中(.txt),输出格式如图3。本软件提供聚类过程中可生成距离矩阵,也是保存在文本文件中。本软件并能输出聚类树状图(层次图)。下面给出了系统聚类法和K均值聚类法的计算结果:
2.3.6差异基因的判断
在芯片阵列数据分析中另一个常见的问题是如何在不同样本中识别出表达有差异的基因(differentiallyexpressedgenes)。而在判断表达差异的基因前,必须对芯片数据进行预处理。对于单张芯片,本软件运用了Z-score值来进行分析的。利用下式来计算每条基因的Z-score值:Z=(X?u)/σ,其中X表示这条基因的表达比率值,u为所有基因比例值的平均值,σ方差为。若取Z2,表示基因表达比率值在平均比率加两倍方差之外,这样的差异表达就有统计学上的意义了。
3.实验结果分析
实验数据于Eisen博士所在的实验室,是YeaSTSaccharomycescerevisin的基因表达数据。数据集基因数N=6223,观测样本M=40。通过DC-Cluster分析后得到的聚类结果与用Eisen博士所在实验室提供地基因芯片数据分析软件Cluster得到地结果比较,正确率达到90%。
4.结束语
本文介绍了DC-C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024幼儿园新学期教学工作计划参考
- 幼儿小班第一学期游戏教学计划
- 鸟语教学计划方案
- 2024春季幼儿园小班下学期教学工作计划
- 六年级数学教学计划范文集锦
- 《专题报告的写作》课件
- 动物性食物中毒护理
- 金融行业就是在做
- 2024年机关单位文印承包合同3篇
- 框架协议的流程
- 2024年新人教版四年级数学上册《第6单元第1课时 除数是两位数的除法口算除法》教学课件
- 1500吨批制种玉米果穗烘干生产线建设项目可行性研究报告写作模板-申批备案
- 国家经济安全课件
- 教科版小学科学二年级上册全册期末复习知识点总结
- 2024年婴幼儿发展引导员(高级)职业技能鉴定考试题库(含答案)
- 跨学科融合的劳动教育新生态
- 基础模块3 Unit3 Artificial Intelligence单元测试-2025年中职高考英语一轮复习讲练测(高教版2023修订版·全国用)
- 财务主管岗位招聘面试题与参考回答(某大型国企)
- 第12课《实现人生价值》第1框《树立正确的价值观》同步课堂课件-【中职专用】《哲学与人生》
- 2024至2030年中国纯氢燃气轮机市场现状研究分析与发展前景预测报告
- 主题三:红色之美第10课《巾帼英雄-赵一曼》(教学设计)川教版四年级上册综合实践活动
评论
0/150
提交评论