随机矩阵理论在肝癌基因功能模块识别中的应用_第1页
随机矩阵理论在肝癌基因功能模块识别中的应用_第2页
随机矩阵理论在肝癌基因功能模块识别中的应用_第3页
随机矩阵理论在肝癌基因功能模块识别中的应用_第4页
随机矩阵理论在肝癌基因功能模块识别中的应用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物物理学报第二十五卷第三期二九年六月ACTA BIOPHYSICA SINICA Vol.25 No.3Jun. 2009随机矩阵理论在肝癌基因功能模块识别中的应用颜平兰,李蓉,陈健,李金,张凯旺,钟建新(湘潭大学材料与光电物理学院, 湘潭 410005)摘要: 采用随机矩阵理论方法研究了肝癌的基因表达网络。 通过标准误差分析, 得到了从富含噪声的肝癌基 因网络中分离出真实肝癌基因网络的、 去躁最充分的关联系数, 分析了由此获得的基因表达网络的 13 个基因功 能模块, 发现这些模块与肝癌的产生和发展有密切关系。 基于随机矩阵理论的方法克服了以往模块识别方法带有 主观因素且不能去除噪声因子的

2、缺陷, 是一种有效去除随机噪声、 识别基因模块、 简化基因网络的方法。 由于基 因数目的众多及细胞生物过程的复杂性, 从整体的角度系统研究 HCC 基因表达谱, 对理解 HCC 分子机制和探索 新的治疗方法有重要的现实意义。关键词: 基因功能模块; 肝癌; 随机矩阵理论 中图分类号: G633.7, Q6, R730引言肝癌是世界上最常见的恶性肿瘤之一, 平均每 年大约 1 百万人死于肝癌1。 亚洲和非洲为肝癌的 高发区, 据报道, 在过去 20 年, 许多国家, 例如 美国和英国, 肝癌的发生率一直在逐步增加2。 因 此, 肝癌是严重威胁人们健康的、 急待解决的国际 问题。 大约 90 %的

3、肝癌在慢性炎症 (慢性肝炎或 肝硬化) 的基础上发生。 很多的致肝癌因子已经被 识别, 如 HBV 感染、 HCV 感染、 酒精中毒、 化学 致癌物 (黄曲霉素 B1)、 铁离子过量等3。研究发现, 癌症发生的本质是由各种原因引起 的基因表达的异常, 因此基因研究备受关注 。 起 初, 由于技术的限制, 研究主要集中在单个基因。 人们对肝癌单个基因变化进行了大量的研究, 也获 得了一些成功, 如发现 P53、 beta-catenin、 Axin 基 因突变能导致肝癌 4, 发现转变增长因子 (TGF-)、 转变增长因子 (TGF-) 和细胞周期控 制基因 cylin D1、 cylin A、

4、 P16 等3可能与肝癌的 发生和发展有关。 然而, 这些基因在肝癌中的突变 频率较低, 如 P53 只在 10 %20 %的肝癌中出现 突变, beta-catenin、 Axin 在肝癌中的突变率小于 30 %5。 所以, 这些基因改变没有精确反应癌症细 胞的生物学本性以及单个肝癌病人的临床特性。 与 其他癌症一样, 肝癌具有多种多样的临床病理和生 物表现型, 如分化级别、 增生比率 、 血管扩散能力、 转移潜能、 对化学制剂的敏感性等等。 因此, 分析大量肝癌基因, 对于阐明肝癌疾病机制以及发 现新颖的药物耙标分子是必需的。CDNA微阵列技术的出现, 为同时平行分析成 千上万的基因提供了

5、条件, 开辟了大规模基因网络 研究的新时代, 已被广泛应用于癌症研究, 如前列 腺癌6、 乳腺癌7、 卵巢癌8等。 在肝癌研究方面也 取得了很大的进步, 如用监督和无监督学习的方法 识别在肝癌样本与正常样本中表达特征不同5,9的基 因, 识别在 HBV 及 HCV 有关的肝癌中表达特征 不同6,10的基因, 识别与肝癌生存时间11,12、 发展级 别9、 转移11,13和复发14等有关的基因。 但是传统的 方法对肝癌微阵列数据的分析, 主要集中在与参考 样本表达显著不同的单个基因, 即与参考样本相比 表达显著上调或显著下调的基因, 找出了大量与肝 癌相关的基因, 对这些大量的基因进行相对独立的

6、 分析, 不能揭示肝癌的病理机制, 也没有提出有效 的标靶和治疗手段。由于临床特征的多样性和基因数目的众多, 而 且以前的方法没有整体、 系统地研究肝癌, 忽略了 基因表达网络里面一些重要的生物信息, 例如, 一收稿日期: 2009-01-23基金项目: 国家自然科学基金项目(30570432) 通讯作者: 钟建新, 电话: (0732)8293749, E-mail: jxzhong第 3 期随机矩阵理论在肝癌基因功能模块识别中的应用193个基因改变怎样影响其他基因的变化等。 所以, 肝 癌的分子机制一直没有被很好地理解, 迫切需要早 期精确诊断和有效治疗肝癌的分子标志 。 细胞系 统, 像

7、许多其他工程合成系统一样, 由无数功能多 样的元素组成, 是模块化的。 细胞功能的执行是由 许多模块共同作用的结果, 这些模块由生理或功能 相似的基因组成, 在细胞的特殊的条件和时期表 达。 相同基因功能模块内的基因表达谱相似。 当基 因功能模块受到影响时, 疾病就可能开始。 微阵列 数据是许多基因表达的结果, 包括了基因之间的相 互作用和功能模块的信息。 因此, 分析基因表达网 络中的基因模块将从微阵列实验获取更多的信息, 对理解疾病的机制及发展新的生物学知识很有意 义。 所以, 从大规模的基因表达谱中识别基因功能 模块具有很重要的意义。本文采用随机 矩 阵 理 论 ( random mat

8、rix theory, RMT) 方法, 研究受 HBV 及 HCV 感染的 肝癌基因表达网络, 发现当逐步移除较小的关联系 数 , 关 联矩阵的本征值步长分布由 P (s) Wigner-Dyson 分布逐渐过渡到 Poisson 分布。 根据 P(s)相对于 Wigner-Dyson 分布和 Poisson 分布的标 准偏差, 得出转变点在关联系数为 0.66 处。 在转 变点, 基因功能模块自动呈现, 但是此时的关联网 络不仅包含了真实的生物信息也包含了一些随机因素 。 通 过 做 P (s) 与 Wigner-Dyson 分 布 及 P (s) Poisson 分布的标准误差比值曲线,

9、 得出比值最大 点, 即去躁最充分的关联系数为 0.78。 在点 0.78, 关联矩阵充分地去掉了随机因素, 清晰地反映了体 系最重要的模块信息。 我们分析了由此获得的基因 表达网络的 13 个基因功能模块, 发现与细胞的增 殖和分化、 免疫响应、 细胞转移、 脂类代谢、 酒精 代谢等功能有关的基因模块的生物过程异常与肝癌 的产生和发展有密切的关系。 传统的药物耙标针对 单个突变的基因, 效果不佳, 如果能针对某个基因 功能模块治疗, 方法更简单, 效果更佳。1 方 法由于细胞是由很多不同功能单元相互作用而组 成的复杂体, 而且 cDNA 微阵列数据包含了大量 的、 复杂的生物信息, 所以从基

10、因功能模块来理解 基因表达网络具有重要的意义。 迄今为止, 人们提 出了很多识别基因功能模块的方法, 如布尔网络方 法、 微分方程网络方法、 贝叶斯网络方法和聚类方法等15, 但是这些方法都存在一些缺陷。 如布尔网 络16中每一个基因的状态用 0/1 来表示, 但是真实 的基因表达并不是有或无这两种简单状态, 所以该 方法不能反映各个基因表达的强度差异, 也没有考 虑基因作用大小的区别等; 而且在使用布尔网络模 型的算法中, 每个基因的输入结点数量 k 必须人为 指定, 具有主观性。 微分方程网络方法17是在一组 非线性微分方程的基础上对基因网络建模, 但是该 方法计算量大, 且由于训练数据不

11、足, 目前在微分 方程中只能使用一阶项。 贝叶斯网络18是一种表示 多变量联合概率分布的图模型。 该方法也存在局限 性, 如模型并不能较好地处理基因调控的反馈和时 间延迟问题。 聚类方法是目前采用较为普遍的方 法, 有分层聚类和直接聚类, 分层聚类法19用树状 结构显示基因间功能相似性, 归入某个聚类的基因 由基因之间的距离来决定, 但是无法反映基因网络 的全局结, 且产生的树状结果非常复杂, 目前尚无 普遍接受的裁剪方法来识别基因模块; 用直接聚类 方法来划分基因, 如 k 均值法20、 自组织特征映射 法21等可以克服分层聚类法存在的缺点, 但是这些 算法的聚类数量一般要依赖特定的输入参数

12、, 而这 些参数的选择将会影响聚类的结果。 总的来说上述 各种方法主要存在以下两个缺陷: 第一, 包含了若 干个需要人为干涉的步骤, 其结果在一定程度上依 赖于人们的主观经验和知识, 破坏了结果的客观真 实性。 第二, 包含了一些随机因素, 如基因表达水 平随实验时间和样本条件的变化而变化、 有限的实 验样本导致的测量噪音等。 这些随机因素的引入会 导致一些虚假的信息, 干扰真实的信息, 从而影响 结果的正确性和真实性。 RMT 方法可以自动、 客 观地分析基因表达网络, 消除了人为的不确定因素 和人为的主观因素。 而且, 可以通过设置去噪因子 q 逐步将随机因素消除。 所以 RMT 方法克服

13、了以 前方法的困难, 是一种新的、 有效的研究基因表达 网络的方法。RMT 最早于 1960s 由 Wigner 和 Dyson 提 出 , 用来研究复杂原子核光谱, 已经被成功应用于许多 复杂体系, 如: 大原子的光谱特性、 无序系统的金 属绝缘转变、 准周期体系的光谱特性、 混沌体系、 大脑响应、 股票市场等22, 后来 Luo22等首次应用 RMT 来探索基因功能模块。在随机矩阵中, 非零的非对角元素代表相应的 对角元 (块) 之间的相互作用。 RMT 主要研究连续 本征值步长分布的统计特性。 根据矩阵本征值之间194生 物 物 理 学 报2009年的关联性, 实对称随机矩阵的本征值步长

14、分布遵循 两个普遍的统计规律: 强关联本征值步长统计符合 高斯正交系综 (Gauss Orthogonal Ensemble, GOE) 统计, 此时非零的非对角元素引入了对角元 (块) 之间的相互作用; 弱关联的本征值步长分布遵循 Poisson 统计, 此时只有对角元 (块) 有非零值, 无 非零的非对角元素引入对角元 (块) 之间的相互作PGOE(s) 1 sexp(s2/4)(1)2而 Poisson 统计的 P(s)服从 Poisson 分布PPoisson(s)=exp(s)(2)Wigner-Dyson 分布和 Poisson 分布的区别表现在 s 很小的时候, PGOE(s0)

15、=0, 而 PPoisson(s0)=1。用。 基因表达网络有富关联网络和贫关联网络之 分。 富关联网络, 其基因表达关联矩阵包含强关联2结果与讨论作用和弱关联作用两部分, 强关联为子模块内真实2.1HCC 基因表达模块的获取的基因关联, 弱关联则为噪声引入的子模块之间的 微小关联, 而贫关联网络只存在模块内基因间的强 关联。 在基因关联矩阵中, 非零的非对角元素表示 对应对角基因 (组) 间的关联。 如果基因关联矩阵 只有对角元 (块) 有非零值, 其他的非对角块元素 都为零, 表明基因表达网络只存在对角基因 (组) 内的基因之间的强关联, 而对角基因 (组) 之间没 有关联, 此时基因表达

16、网络是贫关联网络, 关联矩 阵的本征值是弱相关的 , 本 征值步长统计符合 Poisson 统计, 这些对角基因 (组) 形成独立的基因 模块。 如果关联矩阵除了对角块有非零值之外, 其 他的非对角块元素有非零元素, 表明基因表达网络 存在对角基因 (组) 内基因间的强关联, 也存在对 角基因 (组) 之间的弱关联, 此时基因表达网络是 富关联网络, 关联矩阵的本征值是强相关的, 本征 值步长统计符合 GOE 统计。 设置一系列去噪因子 q, 逐步去掉了噪声引入的弱关联作用, 网络由富 关联网络转变为贫关联网络, 去除噪声因子的临界 值即转变点由 RMT 方法自动确定。我们采用 RMT 方法研

17、究了 HCC 的基因表达网络, 其数据来源于斯坦福微阵列数据库 , 数据 下 载 网 址 : /hcc/ supplement.shtml。 该数据由 3180 个基因在 156 个 条件下的表达情况组成。 156 个条件包含肝组织的 82 个 HCC 样本 (68 个 HBV+ 肝癌、 4 个 HCV+ 肝 癌) 和 74 个癌旁肝组织样本 (54 个 HBV+ 感染、 6 个 HCV+ 感染)。 3180 个基因是在肝癌组织和癌旁 组织两组样本中表达变化最大的基因 。 由于大约 90%的肝癌在慢性炎症 (受 HBV 或 HCV 感染

18、) 的 基 础 上 发 生 , 因 此 我 们 所选的数据中受 HBV 或 HCV 感染的样本占主要部分。 为了将我们用随机 矩阵理论方法寻找的功能模块与 Chen X23用等级 聚类方法寻找的功能模块做比较, 我们选择的数据 条件和 Chen X23的样本数量一致。 数据中的空值 用该基因在所有条件下的表达平均值代替。对 空 值 处 理 过的基因表达数据 , 采 用 标 准 Pearson 关联计算其基因关联系数, 基因 gi 和基因 gj 之间的关联系数为在 RMT 中, 我们采用标准谱展开技术研究基因表达矩阵的本征值步长分布的统计特性 。 一般c(g ,g )= 1 ( g M )( g

19、 M )(3)i jNk=1,Nikgigijkgjgj地 , 矩阵的本征值密 度 随 本 征 值 Ei (i=1,2,3,N) (N 是矩阵维数) 变化, 所以本征值步长分布是 Ei 的函数, 并且是由系统决定。 为了研究不同类型矩 阵的本征值的普遍波动, 需要采用标准谱展开技术 获得归一的本征值密度 。 我 们 可 以 用 展 开 谱 ei (ei=Nav(Ei), 其中 Nav 是通过三次样条函数拟合积分 态密度或者局域平均密度得到的本征值光滑积分密度) 代 替 Ei, 再计算本征值最近邻步长分布 P(s) (定义为展开本征值步长 s=ei1ei 分布的概率密度)。 通 过 RMT 可

20、以 知 道 , GOE 统 计 的 P (s) 可 由 Wigner-Dyson 分布描述,其中 gik 是 gi 基因在第 k 个实验条件下的表达值 , Mgi 和 Mgj 分别是基因 gi 和 gj 的平均表达水平, gi 和 gj 分别是基因 gi 和 gj 的标准偏差, N 是总的实 验条件。为了消除随机因素的影响, 我们通过设置去噪 因子 q (0q1) 来去掉关联矩阵中小的关联值, 即将关联矩阵中绝对值小于 q 的关联系数用 0 代 替。 通过逐步去掉小的关联, 关联矩阵的 P(s)由服 从 Wigner-Dyson 分 布 逐 渐 转 变 成 服 从 Poisson 分 布, 这

21、样随机因素的影响也逐渐去掉, 基因功能模 块自动分离开来。 图 1 显示了随着 q 的逐步增加 P(s)的转变情况。第 3 期随机矩阵理论在肝癌基因功能模块识别中的应用1951.00.51.0P(s)GOEPoissonq=0.6q=0.780.50.01.0P(s)0.50.001234012340.0q=0.51.0P(s)0.50.001234q=0.72012341.00.5q=0.1q=0.661.00.50.001234S0.001234SFig.1 Nearest neighbor spacing distributions P(s) of gene coexpression c

22、orrelation matrices constructed from gene coexpression matrix of HCC at different cutoff value q (black lines with squares). The red line with dots is the Wigner-Dyson distribution and the green line with triangles is the Poisson distribution从图 1 可以明显地看到, 随着去噪因子 q 的增加, P(s)由 Wigner-Dyson 分布逐渐转变为 Poi

23、sson 分布。 这样体系必然存在一个固有的转变点, 在此SDPoisson(q)=姨mp(i)PPoisson(i)2i = 1m1(5)转变点之后, 独立的基因功能模块自动呈现。 Luo式中 SDGOE(q)表示 P(s)与 Wigner-Dyson 分布的标准等人22 采用 2 测试来寻找 P(s)由 Wigner-Dyson 分 布逐渐转变为 Poisson 分布的转变点 qc, 但是由于 卡方测试的显著性水平需要人为依据经验设定, 不 同的显著性水平确定的转变点也不同, 因此卡方测 试具有主观经验性。 因为标准偏差不但与一系列测 量值中的每个数据有关, 而且对其中较大的误差或 较小的

24、误差敏感性很强, 能较好地反映实验数据的 精确度, 所以我们采用标准误差分析来寻找转变 点。 标准偏差由下面公式得到:mp(i)PGOE(i)2误差, SDPoisson(q)表示 P(s)与 Poisson 分布的标准误 差, m 表示统计点的个数, p(i)表示第 i 个统计点 对应的 P(s)值, PGOE(i)和 PPoisson(i)分别表示第 i 个统 计 点 对 应 的 Wigner-Dyson 分 布 及 Poisson 分 布 的 值。 通过做 P(s)与 Wigner-Dyson 分布及 Poisson 分 布的标准偏差曲线图 , 把两曲线的交 点 即 P(s) 与 Wig

25、ner-Dyson 分布及 Poisson 分布标准偏差相等的 点确定为转变点 qc1 (如图 2)。 在 qc1 点, 基因功能 模块开始自动呈现, 此时的基因表达网络包含了大量的真实生物信息和一些残余的随机因素。为了观察逐步去躁过程中基因表达网络结构的SDGOE(q)=姨i = 1m1(4)变化, 我们对空值处理过的基因表达数据计算其 Pearson 关联系数 , 构建了一系列基因表达网络 , 使用 Biolayout 软件逐步展示网络结构的变化。 在196生 物 物 理 学 报2009年SDGOESDPoisson0.660.3SD(q)0.00.81

26、.0qFig.2 The standard deviation of P (s) from the Wigner- Dyson distribution and the Poisson distribution at differentq. The red line with dots is the standard deviation of P(s) with Wigner-Dyson distribution and the black line with squares is the standard deviation of P (s) with Poisson distributio

27、n. The intersection of the two curves at q=0.66 corresponds to the transition pointBiolayout展示的网络图里面, 节点代表基因, 节点 之间的连线代表基因之间的关联。 图 3 显示了在不 同去躁程度下的基因网络图。 由图可以看出, 符合 GOE 统计的网络与符合 Poisson 统计的网络结构明 显不同, 在转变点开始出现独立的基因功能模块, 在转变点之后, 网络由独立的基因功能模块构成, 如图 3。(A)(B)(C)(D)EGHLA ICMDBK F J由于富含噪声的基因表达网络, 其表达矩阵的 本征根

28、步长分布 P(s)服从 Wigner-Dyson 分布, 而 真实的基因网络其表达矩阵的本征根步长分布 P(s) 服从 Poisson 分布, 在逐步去除富含噪声基因网络 随机噪声的过程中, P(s)从服从 Wigner-Dyson 分布 逐 步 过 渡 到 服 从 Poisson 分 布 。 所 以 P (s) 与 Wigner-Dyson 分布的标准误差 SDGOE(q)值越小, 说 明网络所含噪声越多, 随着去噪因子 q 的增加, P (s) 与 Wigner-Dyson 分 布 标 准 误 差 SDGOE (q) 值 变 大, 说明随着去掉的随机因素增多, 网络在逐步接 近真实的基因网

29、络。 图 2 中 P(s)与 Poisson 分布的 标准误差 SDPoisson(q)值越大, 说明所研究的基因网 Fig.3 The gene coexpression networks at cutoff value q=0.6(A), 0.66(B), 0.72(C) and 0.78(D) visualized by Biolayout. Nodes represent genes and lines between nodes represent correlations between genes第 3 期随机矩阵理论在肝癌基因功能模块识别中的应用197络与真实的基因网络相差较大

30、, 随着去噪因子 q 的 增加, P(s)与 Poisson 分布的标准误差 SDPoisson(q)值 变小, 也说明随着去掉的随机因素增多, 网络在逐 步接近真实的基因网络。 所以我们做出了 SDGOE(q)/ SDPoisson (q) 的 曲 线 图 ( 图 4) , 并 选 择 SDGOE (q)/ SDPoisson(q)曲线的最大值点 qc2 对应的基因表达网络 来做进一步分析 图 2 和图 4 显示出了这两种临界 值 : qc1 是这两种标准偏差曲 线 的 交 点 ; qc2 是 SDGOE(q)/SDPoisson(q)曲线的最大值点。我 们 用 biolayout 软 件

31、展 示 了 qc2=0.78 的 基 因 表达网络 (图 5), 得到了基 因 数 目 为 5 个 基 因 到0.788SDGOE/SDPoisson64200.00.81.0qEGLHIACMDBKFJFig.4 SDGOE(q)/SDPoisson(q) as a function of q. The maximum value of the ratio occurs at q=0.78Fig.5 Gene coexpression networks at q=0.78. Thirteen functional gene modules are marked by let

32、ters from A to M50 个基因之间的基因功能模块 29 个。 作为初步的 分析, 结合 GO 数据库对基因的注释, 我们重点研 究了其中 13 个基因功能模块。2.2 HCC 基因模块的功能分析模块 A 包含 50 个与细胞增殖有关的基因。 细 胞增殖过程可分为三个部分: 细胞生长、 DNA 复 制、 细胞分裂, 这三部分构成一个完整的细胞周 期。 细胞周期由 4 个连续的时期, 即 DNA 合成前 期 (G1 期)、 DNA 合成期 (S 期)、 DNA 合成后期 ( G2 期 ) 和 分 裂 期 ( M 期 ) 组 成 。 按 照 Whitfield 等24的方法, 我们对基

33、因进行了周期分配, 发现模 块 A 中 在 G1/S 交 界处高表达的基因有 TCFL1、 PCNA 等, 在 DNA 合成期 (S 期) 高表达的基因有 FEN1、 RRM2、 ZWINT、 IFIT1、 USP1 等 , 在DNA 合成后期 (G2 期) 高表达的基因有 KNSL5、 MAD2L1, UBCH10、 CDC2 等, 在 G2/M 交界处高 表 达 的 基 因 有 RDBP、 C200RF1、 FOXM1、 CDC20、 CKS1 等, 在 M/G1 期交界处高表达的基 因 有 CLORF2、 CDKN3、 PTTG1、 TROAP、 ILF2等, 模块 A 中还含有 9 个

34、参与周期不确定的细胞 周期基因 MYBL2、 LAP18、 G9A、 USP21、 SF3B4、 ZNF261、 PEA15、 SCAMP3、 PRCC 及 20 个 人 类CDNA 克隆及表达序列标签 。 模块 A 中 MAD2L1 为细胞周期检验点基因 , CDC2、 CDC20、 PCNA、 MYBL2 等为细胞周期调控基因, CDKN3、 CKS1 等 为细胞周期调控因子。 分析发现, 模块 A 中无参 与 DNA 合成前期 (G1 期) 的基因, 大部分基因参 与 DNA 合成后期 (G2 期) 及有丝分裂期 (M 期)。 研究认为, 细胞周期调控异常而导致的细胞的增值 和分化异常是

35、肿瘤发生及发展的主要原因之一, 而 细胞周期的驱动力失控 (cyclin、 CDK 和 CDI 表达 异常)、 G1/S 和 G2/M 交界处监控 (检查) 机制受 损是细胞周期调控异常的两个主要表现 。 模块 A 中的 CDC2 基因, 是一种重要的调控基因, 其表达 产物 p34cdc2 是一种蛋白激酶, 在 G2/M 交界处起调 节作用。 基因 CDC20 也在 G2/M 交界处起调节作 用 。 MYBL2 基 因 的 表 达 在 G1/S 期 较 强 25, 与 E2F1-3 基因一起调节参与 G2/M 转换时期的基因 cyclin A2、 cyclin B1 等的 表 达26, 其

36、表 达 异 常 与 乳腺癌27、 肝癌27、 卵巢癌27等多种癌症有关。 总 结分析, 我们推测 G2/M 时期基因调控网络异常是 肝癌细胞增殖的主要原因。模 块 B 包 含 TRA、 TRB、 TRD、 LCK、 CD37、 T6419 6 个与具有免疫功能的 T 细胞有关198生 物 物 理 学 报2009年的基因, 与 Chen X23识别的 6 个基因的具有免疫 功能的 T 细胞模块 C 比较, 有一个基因不同, 即 Chen X23识别模块 C 的 GZMA 基因被我们识别的 CD37 基因取代, 由于 CD37 基因低密度地存在于 静止或活化 T 细胞, 研究发现 CD37 的表达

37、可能与 某些肿瘤如 Burkitts 淋巴瘤和肝细胞癌的发生有 关28。 因此模块 B 可能反应了 T 细胞免疫过程的 异常与肝癌的关系。模块 C 包含 PSMF1、 IGKC、 IGHG3、 EPB72、 TNFSF10、 IGL、 NAPA、 CSF2RA、 NCF1、 CSF2、 WNT4、 ID4、 SLU7、 EDR2 等 21 个 基 因 , 与 Chen X23识别的 16 个基因的具有免疫功能的 B 细 胞 模 块 D 比 较 , 我们识别的模块多了 CSF2、 WNT4、 ID4、 SLU7、 EDR2 5 个基因。 CSF2 是一 种粒细胞 - 巨噬细胞集落刺激因子, 由活

38、化的 T 细 胞、 B 细胞、 巨噬细胞、 内皮细胞等多种细胞分泌 和表达, 参与机体的免疫活性29。 WNT4 为 B 细胞 的增长因子30, 在信号转导中起作用。 ID4 为转录 协阻抑因子 , 研究发现急性淋巴细胞白血病人 B 细 胞 内 t(6;140(p22;q32) 染 色 体 易 位 , 会 导 致 ID4 基因表达下调31。 EDR2 基 因 功 能 与 Phc1 基 因 功 能相似, 在 B 细胞的信号转导中起作用32。 基因 SLU7 为 步剪 接 因 子 , 参 与 mRNA 剪 接 位 点 选 择, 是控制信号转导因子表达的一种重要机制。 研 究发现此 5 个基因都与

39、B 细胞免疫过程有关。 综 合以上分析, 说明 B 细胞免疫功能的失常, 与肝 癌有很大关系。模 块 D 包 含 SPARC、 IGFBP7、 YARS、 TAGLN、 MYRL2、 AEBP1、 MMP2、 COL6A2、 ZFP92、 THBS2、 EFEMP1、 COL6A3、 COL3A1、 COL1A2、 SPARC、 THY1、 一 个 CDNA 克 隆 和 3个表达序列标签等 27 个与基质细胞生物学有关的 基因。 与 Chen X23识别的基质细胞模块 E 和 F 比 较 , 我们识别的模块 D 中 , 14 个 基 因 属 于 Chen X23识别的模块 E, 8 个基因属于

40、 Chen X23识别的 模 块 F, 另 外 , SPARC 和 THY1 等 4 个 基 因 在 Chen X23的文献中属于在内皮细胞中典型表达的 基因, 而我们却发现这 4 个基因在基质细胞模块 内。 分析这些基因的功能, 我们发现, 他们都分布 于基质内, 因此和基质细胞属于同一个功能团簇。 细胞外基质具有能使细胞间形成连接、 对坐落在其 上的细胞起支持作用、 保持组织的完整性等结构作 用。 同时胞外基质的密度和成分能影响细胞的形状 和极性、 存活与死亡, 控制细胞的增殖分化和迁 移, 调控基因的表达, 与癌细胞的转移具有密切关 系, 因为癌细胞在转移过程中需多次与细胞外基质 相互作

41、用。 因此模块 D 与肝癌细胞的增殖、 分化 和迁移有关。我们发现的 A、 B、 C、 D 这 4 个基因功能模 块都具有特定的功能, 且与 Chen X23发现的基因 团簇基本一致, 证明随机矩阵理论方法能有效地发 现基因功能模块。模 块 ( E) 包 含 HLA-A、 HLA-C、 HSPF2、MSTP9、 MB 等 7 个 基 因 , 模 块 ( F) 包 含 HLA-DPA1、 HLA-DRA、 HLA-DQB1、 HLA-DRB5、 HLA-DMA、 HLA-DRB1、 ACTA2 和 HLA-DPB1 等12 个基因。 HLA, 人类白细胞抗原系统, 是人类 组织相容性抗原系统的别

42、名。 模块 (E) 和 (F) 分 别对应人类主要组织相容性复合体类及类基 因。 人类主要组织相容性复合体 (MHC)基因是高 多态性基因, 编码把抗原呈递到 T 细胞有关的蛋 白质。 人类主要组织相容性复合体类基因在所有 有核细胞都能表达 , 呈 递 抗 原 到 CD8+ T 细 胞 。 人类主要组织相容性复合体类基因的表达限于在 抗原提呈细胞和活性淋 巴 细 胞 , 类 分 子 (HLA-DR, HLA-DQ and HLA-DP, in humans) 呈 递抗原给 CD4+ T 细胞。 MHC 基因在调节免疫应 答方面有重要作用。 一些研究已经发现, MHC 基 因与乳突淋瘤的感染有关

43、, 如瘤的衰退与对 HPV 抗原决定基的响应33。 此外, 有报导发现主要组织 相容性复合体类基因与子宫癌有关33。 主要组织 相容性复合体类基因在细胞的易感性、 肿瘤发展 等方面显得越来越重要。 受到损害的免疫系统更容 易导致癌症。模 块 G 主 要 包 括 RPS20、 RPL30、 RPL13A、 RPS5、 RPLP0、 RPS16、 NPM1、 EIF3S6、 HBG1、 KLK3、 C14ORF4、 SEMG2、 GNB2L1 等 21 个 基因, 这些基因涉及蛋白质的合成、 运输及水解等各 种生物过程。 其中以核糖体蛋白基因居多, 他们参 与蛋白质的生物合成过程。 核糖体蛋白是编

44、码细胞 结构和功能蛋白的管家基因, 对调控细胞的分化起 着重 要 作 用 。 纪 念 Sloan-Kettering 癌 症 中 心 的 研 究人员通过对一种罕见的遗传综合症先天性角 化 不 良 (dyskeratosis congenita, DC) 的 研 究 , 首 次发现核糖体功能缺陷可能导致癌症。 事实上, 研 究者通过对一些恶性肿瘤 ( 如 结 肠 癌34、 前 列 腺 癌34和食管癌34) 的研究发现, 一些核糖体蛋白基 因的表达上调与癌症有关。 除此之外, 最近在检测第 3 期随机矩阵理论在肝癌基因功能模块识别中的应用199斑马鱼基因时发现, 各种各样核糖体蛋白功能的失 调导致

45、具有不同起源的组织肿瘤形成35。 因此, 核 糖体蛋白功能的失调有可能与肝癌发生有关。模 块 H 有 10 个 基 因 , ARHGDIB、 G18.2、 HSPC022、 DOCK2、 SLA、 AIF1、 CD53、 COPB2等。 G 蛋白是一个很大的家族 , 包 括 Rho、 Rac、Ras 等小家族, 它们在细胞中扮演着信号传导开关 的角色。 当它们与 GDP 结合时, 呈现失活状态 。 在鸟嘌呤交换因子 (guanin exchange factor, GEF) 的作用下, G 蛋白脱离 GDP 并与 GTP 结合, 进入 激 活 状 态 。 G 蛋 白 的 GTP 会 被 GTP

46、 酶 激 活 蛋 白 ( GTPase-activating proteins, GAP) 水 解 , 并 释 放 出其中的能量, 让 G 蛋白行使其功能。 G 蛋白通 过 GTP/GDP 循环实现激活 / 失活状态的转换, 从 而起到传递信号的作用。 当 G 蛋白被激活后, 它 下游的多种分子会被激活。 这些下游分子本身会形 成网络, 相互作用。 它们调控着细胞迁移中的各个 方 面 。 模 块 H 中 的 基 因 ARHGDIB、 HSPC022、 DOCK2、 G18.2、 CD53 (四次跨膜家族的成员, 具 有 和 公认的转移相关基因 KAI1 相 似 的 特 性) 和 AIF1 (炎

47、症响应中的重要基因, 并且 AIF1 是一种 肌动、 Rac1 活性蛋白, 可以促进血管平滑肌细胞 的迁移36) 都在 G 蛋白的信号转导开关中起作用, 调控着细胞迁移。 SLA 基因参与细胞内信号转导和 细胞间通信生物过程 , 和细 胞 迁 移 有 关 。 COPB2 基因参与物质的输运。 结合以上分析可以看出, 模 块 H 和肝癌细胞迁移有很大关系。 阻止细胞迁移 能抑制疾病进展。模块包含 H1F2、 H2BFB、 H2AFL、 H2BFL、 H2BFQ、 CPS1、 H2BFS 等 8 个与组蛋白有关的基 因。 在真核细胞的细胞核中, 核小体是染色体的主 要结构元件 , 由 4 种组 蛋

48、 白 (H2A, H2B, H3 和 H4) 和缠绕于组蛋白的 DNA 共同组成。 组蛋白被 修饰会引起染色质结构的改变, 在基因表达调控中 发挥着重要作用。 组蛋白通过修饰 (包括组蛋白甲 基化、 乙酰化、 磷酸化、 泛素化, ADP- 核糖基化 等) 可以调节各种各样的包括转录和基因沉默的细 胞功能。 当这些调节控制过程出错的时候, 就会增 加癌症发生的危险。 越来越多的证据表明, 组蛋白 修饰的失衡与癌症发生之间存在着密切的联系37。 因此, 肝癌的发生可能和组蛋白模块的表达异常有 着很大的关系。模块 J 有 TUBA1、 TUBA2、 TUBA3 等 5 个 基 因, 分别表达微管蛋白

49、 1、 2、 3。 微管蛋白是一种细胞骨架蛋白, 与染色体的运动和有丝分裂有 密切关系, 细胞病态增殖可能是由于微管蛋白的异 常引起的。 此外, 微管蛋白与肿瘤细胞的生长、 入 侵和转移有密切关系。 而且在乳腺癌、 前列腺癌、 结肠癌等癌症中也发现了微管蛋白基因表达发生变 化。 如, 有研究发现乳腺癌和 - 微管蛋白 mRNA表达水平变化有关38, 而和 - 微管蛋白表达水平 的变化无关39, 说明微管动力学破坏及异常有丝分 裂可能是乳腺癌 进展过程中的重要事件 。 Ranganathan 等40研究发现前列腺癌和 - 微管蛋白 表达水平的显著增高有关。 我们发现的微管蛋白模 块中只包含 -

50、微管蛋白, 因此, 我们推测, - 微 管蛋白基因网络的异常在肝癌的发生和发展中有一 定的作用。模 块 K 有 C1R、 C1S、 FGA、 LOC51279 等 6个与补体有关的基因。 补体是存在于血清、 组织液 和细胞膜表面的、 在宿主细胞防御过程中起主要作 用的一组经活化后具有酶活性的蛋白质。 补体具有 促使细胞溶解的作用。 而且在补体激活过程中产生 一些调理素, 它们可结合中性粒细胞或巨噬细胞表 面相应受体, 发挥调理作用, 使原有的吞噬活性加 强。 补体活化过程中产生多种活性片段, 调节发炎 和免疫响应。 此外补体可以与细胞结合, 使细胞内 某些物质活化促使他们细胞分裂。 血清中大多

51、数补 体成分均以无活性的酶前体形式存在, 只有在某些 活化物作用下才一次性被激活。 补体活化有 3 条途 径: 经典途径、 MBL 途径、 旁路途径。 我们识别 的模块内基因 C1r、 C1s 参与经典途径识别阶段 、 活化阶段、 膜攻击阶段等 3 个阶段的第一阶段。 所 以肝细胞受细菌感染可能和补体成分模块基因的失 调有关。模 块 L 包 含 13 个 基 因 , 其中主要的基因是 ACAA2、 AZGP1、 MMSDH、 FACL2 和 GRHPR。这些基因与脂代谢有密切关系。 在实际的临床表现 中, 有一种病态肝叫脂肪肝, 这个疾病和 HCC 有 相同的病因, 这个模块表明 HCC 与脂

52、肪肝之间可 能存在着某种联系。模块 M 显示了酒精对肝癌产生的影响。 这个 模 块 包 含 6 个 基 因 , 主 要 是 醇 脱 氢 酶 基 因 ADH2 和 ADH4, 脂代谢有关基因 UGT2B10、 APOC4 等。 众所周知, 酒精对肝有很大的危害。 长期饮酒超过 机体的代谢能力, 可引起酒精性肝病, 包括酒精性 脂肪肝、 酒精性肝炎、 肝纤维化和肝硬化。 其中, 酒精性脂肪肝出现最早, 在一定条件下可以进一步200生 物 物 理 学 报2009年发展为酒精性肝炎、 酒精性肝纤维化和酒精性肝硬 化, 甚至最后演变为肝癌。 酒精性肝病的发生主要 是乙醇和乙醛的毒性作用所致。 酒精主要在肝细胞 的乙醇脱氢酶作用下变成高活性的乙醛, 干扰肝细 胞多方面的功能, 如影响线粒体产生 ATP、 蛋白 质的生物合成和排泌、 损害微管, 导致蛋白、 脂肪 的排泌障碍而蓄积在肝细胞内。 同时, 乙醇、 乙醛 被氧化时, 产生大量的还原型辅酶, 一方面促进 脂肪的合成, 另一方面抑制线粒体内脂肪酸的氧 化, 从而导致脂肪肝的形成。 模块 H 中既包含与 乙醇氧化有关的基因, 又包含有与脂类代谢有关的 基 因 , 因 此可能和酒精性脂肪肝的出现有很大 关系。总之, 我们采用 RMT 方法研究了 HCC 的基 因表达网络。 结果表明, 通过逐渐去掉关联矩阵中 较小的关联系数 , 本征值步

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论