主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第1页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第2页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第3页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第4页
主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2008年3月第25卷第2期March2008,Vol125,No12广州中医药大学学报JournalofGuangzhouUniversityofTraditionalChineseMedicine文章编号:1007-3213(2008)02-0153-04主成分分析法结合马氏距离判别法在类风湿性关节炎中医证候诊断中的应用李建婷,邓兆智,郭新峰,余煜棉3.广东工业大学,广东广州510090)23(1.广州中医药大学,广东广州510405;2.广州中医药大学第二附属医院,广东广州510120;摘要:【目的】应用主成分分析法(PCA)结合马氏距离判别法对类风湿性关节炎(RA),最终建立辨证分型“

2、量化指标”的计算机软件,使中医证候具体化。】取广州地区常见的中医证候类型,对入选病例的症状、舌象、性质、程度等项目进行积分法的量化记录。,对其证候进行分类判别。【结果】训练样本200例,1,判别准确率92150%,总242例,判别准确率95187%。【结论】一致。关键词:/;证候;主成分分析法;马氏距离判别法中图分类号:4;R593122文献标识码:A计算机模式识别法是基于多元统计分析基础上的一种方法,它是将难以判别的高维空间的几何特征从空间区域划分和从其属性出发,降维到人们可以识别的一、二维平面上进行识别比较的一种处理1-3多元数据的非函数的图像识别方法。其中主成分分析法(PCA)与马氏距离

3、判别法是模式识别技术中分类判别方法中的两种。PCA研究如何将多个彼此相关、信息重叠的指标变量通过适当的线形组合成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合成分,用以描述观察单位的特征。马氏距离判别法可通过对已知分类样本数据的识别学习,建立相应的判别规则,进而对未知样本进行分类判别。在中医证候研究中,可通过运用PCA法将各种相关但又有可能重叠的症状、体征等变量提取出来并组成综合成分,再结合马氏距离判别法对其进行判别;应用计算机的统计、分析功能及计算机人工智能的理论和技术,结合中医学的理论和中医专家的知识、经验以达到应用计算机来实现辨证论治的目的。中医的“证”是疾病发展过程中某一阶

4、段的本质属性的高度概括,它是独特症状的集合群。用模糊数学语言来讲,“证”可看作是一种由相应的“症”所构成的模糊集合,症的不同的模糊集合,构成了不同的证,通过对收稿日期:2007-09-14作者简介:李建婷(1974-),女,讲师“症”、“证”等模拟量化的方法,可建立起符合中医诊疗思维规律的相应疾病的数学模型,从而进行辨证施治。本研究通过对类风湿性关节炎(RA)患者的临床症状、体征进行定性定量,由医生诊断其证候类型后,将原始数据输入计算机,利用PCA法结合马氏距离判别法对RA患者及其最常见的寒热错杂证、湿热阻络证、寒湿阻络证、气阴两虚证、痰瘀阻络证进行判别,对RA的症状指标由计算机进行筛选,从中

5、选出多个因素作为特征参量,进行分类判别,以期建立RA辨证分型“量化指标”的计算机软件,使中医证候具体化、数据化。31研究对象与方法111诊断标准西医诊断标准按1987年美国风湿病学会制定的RA诊断标准。RA中医证候分类是在中药新药临床研究指导原则、实用中医风湿病学、中医证候诊断治疗学的基础上,结合广东地区患者的常见症状,以关节局部疼痛、肿胀、畸形、挛缩、僵硬及关节被动运动等体征为主证,按症状和体征出现的频数、持续时间、性质程度、与外界刺激的关系等归纳为54个指标,即关节红、肿、触热、酸痛、刺痛、冷痛、活动后45广州中医药大学学报2008年第25卷痛、麻胀、拘急、晨僵、强直变形、结节红斑、重着、

6、怕冷、喜暖、自觉发热、屈伸不利、局部紫黯、功能、X线片、发热、恶风寒、口渴、烦热、遇天冷湿发作、面色白、面色晦暗、眼睑浮肿、五心烦热、咽干、失眠多梦、眩晕、盗汗、午后潮热、倦怠、气短乏力、易汗、眼干、口干不欲饮、手足不温、胸脘满闷、纳差、遗精、月经量少、肌肤无泽、形体消瘦、腰膝酸软、耳鸣、尿黄、尿频、夜尿、大便烂、大便溏、大便干。按症状、体征的有无与轻重程度,分别计为02分、24分、46分、68分。根据计分的多少,将RA患者分为寒热错杂组、湿热阻络组、痰瘀阻络组、气阴两虚组、寒湿阻络组。112研究对象选择1997RA113、主任,由住院医师先进行望、闻、问、切四诊,根据诊断标准判别证型,再由主

7、治医师、主任医师分别进行,最后统一意见。114统计学处理首先根据指标的权重值大小并预报样本,采用马氏距离判别法,对样本进行分类。结果如下:寒热错杂证候训练样本45例,预报样本12例;寒湿阻络证候训练样本41例,预报样本13例;气阴两虚证候训练样本39例,预报样本8例;湿热阻络证候训练样本39例,预报样本5例;痰瘀阻络证候训练样本36例,预报样本4例。211RA的分类特征参量PCA法结果见表13及图1。根据RA的54t检验结果,结果表明以下17,将其筛选出作为征个变量为关节肿(X3)、强直变形(X4)、结(X5)、怕冷(X6)、喜暖(X7)、自觉发热(X8)、屈伸不利(X9)、局部紫黯(X10)

8、、功能(X11)、X线片(X12)、口渴(X13)、遇天冷湿发作(X14)、倦怠(X15)、眼干(X16)、便溏(X17)。由表1结果可以看出关节肿(X1)、晨僵(X3)、屈伸不利(X9)、功能(X11)、X线片(X12)等几项分值较高,说明在RA患者中这几个变量起着重要作用。这与临床以及RA西医诊断标准都是一致的。17个因素之间的相互关系:若两因素之间的相关系数r为正数时为正相关,r为负数时为负相关,但只有r的绝对值大于r0105=01138时才具有统计学意义,可信度为95%。表2表明:(1)显著相关的变量为:肿与触热、晨僵、强直变形、自觉热、屈伸不利、功能、X线片、口渴;强直变形与肿、晨僵

9、;结节红斑与晨僵;喜暖与怕冷;自觉热与肿、触热;屈伸不利与肿、触热、晨僵、强直变形;功能与肿、触热、晨僵、强直变形、自觉热、屈伸不利;X线片与肿;触热、晨僵、强直变形、自觉热、屈伸不利、功能;口渴与肿;遇天冷湿发作与怕冷;倦怠与触热、晨僵、怕冷、功能;眼干与晨僵、结节红斑、倦怠;便溏与眼干。(2)负相关的变量为:眼干与强直变形、怕冷;便溏与触热、遇天冷湿发作;自觉热与怕冷;遇天冷湿发作与触热、结节红斑、自觉热。表3为各主成分对应的信息量占总信息量的百分数。各个主成分并不代表某一证候(变量),在表3中主成分1、2所占信息量为2617%和1817%,其他各主成分均占百分之几的信息,反映了在类风湿的

10、证候分型中,原来的17个变量,没结合t检验从中选取最有效的特征参量,然后用BASIC语言编制PCA及马氏距离判别法,对证候进行分类判别并与临床判断比较。运用PCA可对原始变量进行线性组合,建立m个新的变量,即主成分。这批新变量都是旧变量的线性组合,各新变量间是相互独立的,与线性无关。同时在新变量中,方差最大的为第1主成分,方差次大的为第2主成分方差最小的为第m个主成分,方差最小的贡献最小;原始变量作线性变换、组合之后,构成新的主成分。将有用的信息尽可能集中到前面的若干主成分,再用信息较集中的若干主成分建立数学模型或者作图形输出。马氏距离判别法设有3个母体G1、G2和G3,均有m个特征值,分别有

11、n1、n2、n3个样本,对这些已知分类样本数据进行识别学习,通过计算找出各类样本在高维空间的重心,建立判别函数(或规则),然后计算待判未知类别的样本点到各类“重心”的马氏距离,将待判样本判为距离短的那一类;或者将各已知分类的样本点从高维空间降维到二维平面上形成各类样本的二维区域,待判样本为所落在区域的那一点。2结果对300例RA样本根据正态分布及症状典型情况进行筛选,以200例作为训练样本,42例作为有哪一个变量特别敏感,所以只能用多个变量提供的信息总和进行证候判别。由图1可见,5类样本点大体上都聚集在各自不同的区域,其图界基本上是清楚的,说明分类成功。如果增加或减少变量都可发现判别准确率降低

12、,图界不清晰;如果变量增减变动过大,则可使数据点集混合交错,分类不清。212马氏距离判别法结果从表4可知,寒热错杂证判别准确率为96149%,湿热阻络证为96130%,气阴两虚证为89136%,寒湿阻络证为97173%,痰瘀阻络证为100%。总训练样本200例,96153%;预报样本42,总判别准确率87%。RA。从而证实了中医证,说明本法能使中医的辨证分型诊断在保持中医特色的前提下得以标准化和规范化,并在某种程度上减少了临床医生的主观性,有利于中医辨证分型诊断的标准化、规范化。图中横坐标为PCA1(主成分1),(主成分2);1.寒热错杂证;2.;4.图117PCA法输出图表1总样本17个变量

13、的平均值和标准差X1-X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17xs313221041164114841262126212221091114112421602106113211252115119331502128112811334114115741311172210511832154119831342140019501760191016表2各因素的相关系数(17个变量)X1X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X1711001100110

14、0-0107-010711000122110001171100-0100-0115-0109-0102-0100-0104-0109-0102-0104-0104-0106-0108-0110-0107-0107-0107-0107-0113-0104-0108-0112-0102表3主成分117提取的特征根及所占信息比例121817310114581791153614517626144117241731882214315919173111017142171116122151215122141313142111411181181510171171691911517314015特征根所占信息比例

15、(p/%)广州中医药大学学报2008年第25卷表417个变量的马氏距离判别法结果(准确率)证候寒热错杂湿热阻络气阴两虚寒湿阻络痰瘀阻络合计训练样本Np判别/%预报样本Np判别/%合计Np判别/%454139393620012138544257544744402423讨论计算机模式识别技术是国内外广泛应用的建立在计算机技术和多元统计分析基础上的一种非函数的方法。这种技术避免建立因素(变量)格的数学关系,数据组成的高维空间,别、,多元统计分析技术。计算机模式识别技术就是其中一种十分有效的研究高维空间的手段,它借助于计算机技术将高维空间的样本点分布,利用一定的数学模型降维到人类能判别的一、二、三维空

16、间上,让人们对样本点进行比较、判别及预报等研究,进而探讨变量间的关系。本研究主要采用马氏距离判别法和主成分分析法两种方法进行判别分析。其优点在于因判别函数和判别规则并不牵涉到分布的类型,可以不要求母体为正态分布,具有广泛的实际意义。本文主要利用PCA技术输出降维图形。为获得更多信息量,我们一般选用主成分1、2进行图形输出。因为主成分提供的信息量最多,最能反映原始数据在高维空间的聚集态,能较有效地表现原始数据在空间上的分布情况。从主成分分析法中的相关系数矩阵可看出大部分结果与临床相符,如遇天冷湿发作与怕冷,怕冷与喜暖显著相关,遇天冷湿发作增加,怕冷亦会增加;怕冷增加,喜暖亦会增加,这与临床上是一

17、致的。自觉热与喜暖、怕冷呈负相关,自觉热增加,则喜暖、怕冷减少。证明计算机模式识别法的结果与临床常规诊断的一致性。计算机的判断与临床判断也有不尽一致的地方,从图1可看出不同类的样本虽然基本上聚集在不同区域,但仍有一些样本并非落在本区域内而是混杂在其他区域中,成分1和2,45%左右,所100%清楚。另一方面亦可能与临床存在所致。在临床上可见到一些非典型患者,中医辨证时常可因医师的不同而得到不同的辨证结果。由于中医证型外延的模糊性,我们在图上可发现有些患者的坐标位置处在几个证候的交界区中,有时很难确定属于哪个证候,但是图形的空间位置正好客观、精确地表达了该患者与周围其他证候之间的关系。在疾病病情发展的不同阶段中,可以出现一个特征性明显的证候,也可以同时出现具有几个证候的特征或者说特征性并不明显的情况,对于特征性不明显的的证候,无论是临床医生还是计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论