


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、荧光交换标记法基因表达芯片的数据挖掘 作者:廖之君, 马文丽, 梁爽, 刘华, 张海燕, 陈数珍, 郑文岭 【摘要】 目的 探讨荧光染料交换标记设计的基因芯片数据挖掘方法,并对低剂量电离辐射影响人成纤维细胞基因表达谱数据进行分析。 方法 应用GeneSifter在线软件和Panther生物学信息数据库,对下载于NCBI的GEO数据库的8个样品GSM(包含4个时间点),选择正确的参数
2、设置上载数据,运用ANOVA方法进行数据挖掘,并对差异表达基因进行功能归类分析。 结果 获得203条差异表达基因,合并相同基因名后为176条基因。双向聚类和主成分分析发现,样品的24 h时间点基因表达谱与前3个时间点有显著差异,功能归类分析提示,多个生物通路如细胞周期、核酸代谢、DNA代谢等被显著激活。 结论 应用这种方法可以挖掘荧光交换标记的微阵列数据,低剂量电离辐射对人成纤维细胞基因表达有时间累积效应,可能引起DNA损伤、细胞周期阻滞等变化,诱导细胞凋亡。 【关键词】 荧光; 成纤维细胞; 辐射,电离; 芯片分析技术; 自动数据处理ABSTRACT: Objecti
3、ve To explore the methodology in analysis of data from dyeswap labeled microarray, and to profile the gene expression spectrum in human diploid fibroblasts exposed to low dose ionizing radiation. Methods GeneSifter suite and Panther database were used to analyze 8 GSM data (4 time
4、points) downloaded from GEO data repository at NCBI. After parameter optimization, ANOVA was applied to perform data mining. Differentially expressed genes were also classified functionally. Results A total of 203 differentially expressed genes were obtained. The number
5、 was reduced to 176 after pruning away the redundant gene names. Twoway clustering and principal component analysis showed that gene expression profile at 24hour time point differed significantly from 3 other time points. Functional classification of these genes showed that several biolo
6、gical processes such as cell cycle, nucleic acid metabolism and DNA metabolism, were significantly activated by irradiation. Conclusion This method can be applied to mine dyeswaplabeled microarray data. Low dose ionizing radiation might exert timecumulative effects on gene expressi
7、on profiles in human fibroblasts, implicating a mechanism by DNA damage, cell cycle arrest, and eventually apoptosis. KEY WORDS: fluorescence; fibroblasts; radiation, ionizing; gene expression profiling; microchip analytical procedures; automatic data processing上世纪90年代诞生基因芯片这
8、一高新技术发展至今,在生命科学领域中应用越来越广泛,探针密度越来越大,凸显高通量、平行性的优势。芯片数据在数据库(如GEO)中的积累呈指数性倍增,如何从这海量的数据库中挖掘出蕴涵的生物学知识,即数据挖掘,已成为生物信息学的重要研究领域,其实,基因芯片的强大功能依赖于数据挖掘和统计工具的发展与应用1,二者相互促进。微阵列数据库中,有一部分双通道的基因表达谱数据是来自于荧光交换标记RNA的实验,这一设计与基因芯片的高成本、红绿荧光染料存在标记效率、激发效率不同等因素有关。众多研究表明,生物样品重复来源的变异要远远大于基因芯片技术的波动,因此,需要至少3次独立的生物学重复实验,才能下一个重要的生物学
9、结论。而双通道的微阵列芯片实验,为了消除由于荧光偏向性带来的假阳性,减少染色误差的影响,研究者通常采用荧光交换标记RNA。一般认为,有2种荧光交换标记方法,一是荧光染料Cy5和Cy3分别标记处理和非处理对照样品RNA,重复实验时Cy5和Cy3交换标记;二是所有对照来自于通用的公共RNA样品,每一种处理组RNA与相应的公共RNA配对,分别用Cy5和Cy3标记,重复实验时染料交换。很明显,第二种方法更为灵活,便于不同微阵列之间比较,适用于多组样品,并且省钱省时,结果也具有重复性、可靠性。1 资料来源 荧光染料交换标记的cDNA微阵列芯片数据来自于NC
10、BI的GEO数据库,共有8个样品文档,即从GSM159951到GSM159958。这是用1.5 Gy低剂量的离子辐射处理正常人二倍体成纤维细胞NHF1hTERT,照射时间分为4组:sham(即未照射),2,6和24 h,每组用上述第二种荧光交换标记方法重复2次,与Agilent Human 1A(22K)芯片杂交后,用Agilent Feature Extraction v 7.1软件获取芯片扫描的文本文档。2 数据挖掘2.1 数据上载 微阵列芯片扫描数据的文本文档上载到GeneSifter时,由于阳性和阴性控制阵列会干扰后续分析,必需先滤过,并整理数据文件
11、。基因识别符(Gene ID)设置选择“Same Order”,数据分析时用比值(Ratios)而不用荧光强度(Intensities),Cy3和Cy5的质量值设置采用绿(红)色平均信号强度与绿(红)色背景平均信号强度的比值来计算,选择“LOWESS”归一化。由于重复实验的荧光染料已发生交换,计算荧光强度比值(Ratio)时不能统一用Cy5/Cy3,当Cy5标记公共RNA时,比值宜采用Cy3/Cy5,因而,计算比值时选取“Per file basis”(基于每个数据文档),最后根据实验设计不同选取比值(Cy5/Cy3或Cy3/Cy5),上载芯片数据。2.2 芯片数据挖掘
12、 这个数据集包含了一个处理因素离子辐射(1.5 Gy),4个水平即时间点sham(即未照射),2,6和24 h,符合单因素完全随机设计的方差分析(OneWay ANOVA),应用GeneSifter页面控制板(Control Panel)数据分析项目下的“Projects”功能进行数据挖掘。 参数设置如下:数据经对数(log2)转化,滤过比值阈设为1.5(由于经过log2转换,实际差异为21.5倍),质量阈值1.5,P值取0.001,统计方法为ANOVA。结果获得203条差异表达基因,图1为差异表达基因的双向聚类图,上方为样品聚类,从左到右分别表示:0,2,
13、6,24 h 4个时间点,右侧为基因聚类。总的来说,前3个时间点基因表达谱变化幅度不太大,但24 h时间点就有明显变化,由此,大致可分为2大类基因表达模式:一是167条(82.3%)基因明显下调,其中有pcna、cdk2基因,二是36条(17.7%)基因表达上调,其中有cdkn1a基因。但有些基因的名称和调节方向相同,合并这些基因后,得到176条差异表达基因,再对这些基因特征矩阵进行主成分分析(principal component analysis,PCA),可见24 h的特征向量明显远离另3个向量(图2)。2.3 差异表达基因的功能分析 利用Panther生物学信息
14、数据库的实用工具,挖掘这176条差异表达基因的功能类别,其中150条基因可以找到明确的功能类别,26条基因不能归类。表1按P值(表征两组数据无显著差异的几率)取0.05水平列出受改变的生物通路,其中“差异基因中预计该通路基因数”栏是依据参照基因(取人类基因组共25 431条基因)中PANTHER分类相对应于查询基因而计算出来的期望基因数(只列出P值达显著性的相应预计基因数目);而P值为基于二项分布统计方法计算出各类别的随机发生基因数的概率2。结果显示细胞周期、核苷酸代谢、有丝分裂等生物通路受显著影响,提示电离辐射与这些代谢通路紧密关联。图1 差异表达基因的双向聚类图(略)Fig 1 Twoway clustering heat maps of the 203 differentially expressed genesNHF1细胞24 h的特征向量水平向右指向,而另3个向量(0,2,6 h)指向左侧,向量之间的距离较近,区分不明显.24 h向量远离这3个向量.图2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仿古建筑施工合同
- 国际货物运输合同的法律特征
- 房地产买卖预付定金合同
- 以租代购收车合同协议书
- 招投标代理服务合同
- 广告位场地租赁合同
- 学校食堂食品采购合同
- 铝塑板购销合同文库
- 扶贫车间合同协议
- 脑瘫康复协议合同书
- 肝门部胆管癌诊断和治疗指南(2025版)解读
- 2025年广东广州市高三一模英语试卷试题及答案
- 2025陕西金融资产管理股份有限公司员工招聘(26人)笔试参考题库附带答案详解
- 2025年中国经纬仪行业市场调查研究及投资前景展望报告
- 杭州2025年浙江杭州余杭区余杭街道招聘编外劳务派遣人员25人笔试历年参考题库附带答案详解
- 2024-2025学年度四川省达州市达川区铭仁园学校高一第二学期3月月考历史试题(含答案)
- 2025年全球美容与美容个护趋势报告:中国篇
- 农村电工安全培训课件
- 竞彩考试试题及答案
- 2025年山东省济南中考一模英语试题(含答案)
- 2025年江苏金陵科技集团有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论