潜在剖面分析与系统聚类法模拟lpa方法的比较_第1页
潜在剖面分析与系统聚类法模拟lpa方法的比较_第2页
潜在剖面分析与系统聚类法模拟lpa方法的比较_第3页
潜在剖面分析与系统聚类法模拟lpa方法的比较_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

潜在剖面分析与系统聚类法模拟lpa方法的比较

医学和生物学研究中经常存在分类问题。根据一些特征(可测变量或显变量),一个大的异质性群体分为几个小的异质性群体,在类别中相似,在类别之间存在很大的差异。当考察的特征为连续型变量时,常用传统的聚类分析方法,如系统聚类或动态聚类法(即K-means法)。传统聚类分析属于非参数方法,应用时需定义观测间距离和类间距离,而距离的定义有多种,如最长距离法、最短距离法、类平均法等,不同的距离定义,聚类结果有所不同,对应用者造成一定困扰。除传统聚类分析外,近年来潜在类别聚类法用于解决分类问题受到广泛关注。与聚类分析出发点类似,潜在类别聚类法假设异质性群体由多个总体混合而成,即存在一个潜在的类别变量可将人群分类。该法基于模型,在概率基础上对人群进行分类,即个体以一定的概率归属于各个类别,最终个体将被分到最高后验概率的那个类别,因此该法又有聚类最大似然法、基于模型聚类、非监督学习、贝叶斯聚类或潜在判别分析等多个名称。根据可测变量的类型,潜在类别聚类法又可分为潜在类别分析(latentclassanalysis,LCA)和潜在剖面分析(latentprofileanalysis,LPA),前者处理分类显变量,后者则用于连续显变量。实际工作中连续变量极其常见,本文通过模拟研究对潜在剖面分析和系统聚类法的聚类效果进行比较,为分类问题的统计分析方法选择提供依据。1潜在类别预测模型假设P维连续型显变量向量Y和K分类潜变量x,j=1,2,…,K,显变量向量Y的概率密度函数可表示为:f(Y)=k∑j=1ηjfj(Y│μj,Σj)(1)式(1)中,ηj为潜在类别概率(latentclassprobabilities),表示第j个类别的观测占总观测的百分比。对连续变量通常假设在第j类内,Y来自独立的多元正态分布,其均值向量为μj,方差协方差阵为Σj,并假设方差协方差阵中协方差为0,但类间方差可以相等,也可不等。式(1)可称为潜在剖面模型,ηj、μj和Σj为待估参数。可看出模型满足两个基本假设:(1)潜在类别内可测变量来自多元正态分布;(2)在潜变量条件下P个可测变量间相互独立,即满足局部独立性假设。模型(1)可通过最大似然估计法(maximumlikelihoodestimate,MLE)估计参数,估计过程中采用迭代法,如EM(expectation-maximization)和NR(newton-raphson)算法。软件中常将两种算法结合,既兼顾EM算法的稳健性,又兼顾NR算法的快速性。模型评价可用AIC(Akaikeinformationcriteria)和BIC(Bayesianinformationcriteria)等指标,其值越小,意味着模型拟合越好。模型建立后,利用贝叶斯理论,即最大后验概率法,将观测归为后验概率最大的那个类别,并且基于分类的不确定性,还可用错分误差或Entropy等指标评价显变量对潜在类别预测的优劣。后验概率表示为:Ρ(x=k│Y)=ηkfk(Y│μk,Σk)k∑j=1ηjfj(Y│μj,Σj)(2)目前该模型可在Mplus,LatentGold等软件中实现,实现过程中可指定类内方差相等或不等两种情况。2潜在剖面分析和聚类法分类确定本研究主要考虑类别数、类内均数不同或方差不同(即不同的类间距离),及类间方差相等和不等时对潜在剖面分析和系统聚类法分类效果的影响。评价指标采用错分率(%),定义为错误分类的观测占总观测的百分比。错分率越低表明分类效果越好。2.1类内可测变量的总体均数和方差设置分别模拟原始类别数为2类和3类,且潜在类别概率相等(设类内样本量均为250)的情况。模拟数据均包含3个可测连续变量,且类内可测变量来自独立的正态分布总体,总体均数和方差设置见表1。当模拟数据原始类别为2类时,只采用表1中的类别1和类别2中的参数。每种类别数情况下,均模拟6种模型,模型1和4为可测变量均值不同的两个基准模型,模型4类间均值差距更大。在模型1和4的基础上,保持均值不变,增大可测变量的方差,模型2和5设置为类间方差相等的情况,而模型3和6表示类间方差不等的情况。2.2计算混合样本数据集(1)根据表1中模型1-6的参数分别从正态分布总体中随机抽样,得到每个类别的样本;(2)将各类样本合并,得到混合的样本数据集;(3)采用系统聚类法和LPA方法对混合样本数据集进行分析,得到各方法分类结果;(4)与原始分类比较,计算两种方法的错分率(%)。(5)改变种子,重复上述过程20次,即每种模型模拟20个数据集,分别计算两种方法的平均错分率(%)和标准差。2.3统聚类法计算类间距离数据模拟和系统聚类法在SAS软件中完成,系统聚类法采用类平均法计算类间距离。潜在剖面分析在Mplus软件中实现,对每个模拟数据集,分析时均指定类间方差相等和不等两种情况。3类间方差及配比的比较所有模拟数据集采用LPA法结果均显示潜变量类别数和原始类别数相等时模型拟合最优(AIC和BIC最小),预测效果最好(Entropy较大)。原始类别为2类时LPA法和系统聚类法的平均错分率见表2。比较模型1-3和模型4-6,方差相同时,类间均值差距大者(模型4-6),各方法平均错分率均更低。均值相同时,类间方差大者(模型2,3和模型5,6),各方法平均错分率更高。各模型中LPA法平均错分率均明显低于系统聚类法。当类间总体方差相等时(模型1,2和4,5),分析时指定类间方差相等(方法1)和不等(方法2)的错分率接近,但类间总体方差不等时(模型3和6),指定类间方差不等(方法2)的平均错分率较低。表3为原始类别数为3时的各法分类结果。各模型平均错分率均高于表2,但各模型LPA法分类效果仍优于系统聚类法,且类间总体方差不等时,分析时令其自由估计分类效果更好。4分类结果模拟本文通过模拟研究对潜在剖面分析法和传统聚类分析中的系统聚类法在处理分类问题时的效果进行了比较,结果表明在本研究参数设置条件下,潜在剖面分析法的分类效果均优于系统聚类法,是解决分类问题的另一有力工具。传统的聚类分析方法思想朴素,但实际应用中受距离系数算法选择的困扰,多数内容未涉及统计推断,方法较为粗糙。比较而言,潜在剖面分析是一种基于混合模型的分类方法,将群体分布看作多个具有相同分布的同质总体的混合,利用最大似然法估计潜在类别概率和类内总体分布的参数。考虑到分类的不确定性,最后将观测归于最大后验概率的那个类别。MagidsonJ等认为LPA法是传统聚类分析中K-means法的一种概率扩展形式,且可根据AIC和BIC等信息指标或Entropy等分类指标选择最优模型,确定相应的类别数,进而定量化地将观测进行分类。LPA法属于参数方法,分析时可指定不同类型的方差协方差阵,其中最简单的情况就是假定类间方差协方差阵相等,此时模型最为简约。本文考虑了类间方差相等和不等两种情况,模拟结果显示当数据原始类别间方差相等时,两法分类效果相似,但原始类间方差不等时,指定估计不同的方差将得到更优的分类效果。实际应用中,研究者如无类间方差阵相等的先验信息,可以选择自由估计各类的方差协方差矩阵。然而也要防止过度地参数化,如Steinley等将9种方差协方差形式的LPA法和K-means法的分类效果做了模拟比较,显示3种对角方差协方差形式的模型分类效果稍优于K-means法,而两种球对称方差协方差阵形式的分类效果和K-means法几乎相同,然而更为一般形式的LPA模型分类效果比其他形式混合模型和K-means法都差。Magidson等也进行了潜在剖面分析和K-means法比较的模拟研究,认为在聚类数已知时,LPA法分类效果优于传统聚类方法,本文将LPA法与系统聚类法比较,得到类似的研究结果。本文中研究的LPA模型假设在分类潜变量条件下显变量服从多元正态

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论