




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10章
高斯混合模型1学习目标理解高斯混合模型的基本原理。掌握高斯混合模型在数据聚类和图像生成中的具体应用。122目录页310.1基本原理10.2应用实例高斯混合模型高斯混合模型(Gaussianmixturemodel,GMM)是一种无监督学习算法,其通过采用若干具有不同参数的高斯模型以无限小的误差共同描述数据的分布形态或事物的变化规律,不但在理论上具有较高可解释性,而且在实际中往往也表现出较高的性能。此外,GMM作为一种生成式模型,不但可根据已知数据确定其多维高斯模型混合表达的形式以生成新的数据,而且在对已知数据进行聚类中可有效解决K均值聚类算法存在的“数据点硬分配”方式可靠性较低、对非球形分布数据性能较差等缺点。4高斯混合模型10.1基本原理针对无类别标记的已知数据,对其进行可靠聚类在实际中具有较高的应用价值(可靠类别标记的生成通常需要较多的人力资源或较长的时间)。K均值聚类算法虽然原理简单且在理想情况下可获得较好的结果,但在实际中往往也存在以下问题导致其应用较为受限:要求数据分布形态必须为球形。在特征相近原则的基础上采用将数据点“硬分配”相应类别的方式。510.1基本原理针对以上问题,GMM通过融合多个具有不同参数的单高斯模型拟合数据的分布形态,不但可突破数据分布形态为球形的假设,而且可计算出每个数据点属于不同类别的概率,因而在具体问题的求解中表现出更高的可靠性与精度。610.1.1基本概念
710.1.1基本概念
810.1.1基本概念单高斯混合模型相关曲线形如草帽,而均值与标准差则决定其主要形态。(如左图所示)均值决定了其相应曲线的高度与位置,而标准差则决定了其相应曲线沿X轴的跨度或数据的分散程度。均值的绝对值越大,则曲线越高,而标准差越大,则沿X轴的跨度越大(或数据越分散)。9不同均值与标准差相应的高斯模型10.1.2数学模型每个单高斯模型通常称为高斯混合模型的构成成分,高斯混合模型的构成成分越多,则其表达能力越强,但同时需要估计的参数也越多,因而其效率与可靠性则可能较低。从理论上而言,高斯混合模型可描述任何事物状态或拟合任何形态分布的数据。1010.1.2数学模型
1110.1.2数学模型
1210.1.2数学模型在求解GMM中不同单高斯模型的参数时,通常采用E-M(Expecation-Maximization)算法。EM算法是一种针对包含隐含变量的概率模型参数极大似然估计算法,其由以下两个步骤通过轮回迭代的方式完成。1310.1.2数学模型
1410.1.2数学模型
15
10.1.2数学模型16
10.2应用实例GMM模块导入方法fromsklearn.mixtureimportGaussianMixtureasGMM函数原型classsklearn.mixture.GaussianMixture(n_components=1,covariance_type=’full’,tol=0.001,reg_covar=1e-06,max_iter=100,n_init=1,init_params=’kmeans’,weights_init=None,means_init=None,precisions_init=None,random_state=None,warm_start=False,verbose=0,verbose_interval=10)17
10.2应用实例GMM常用参数如下表所示。18名称说明n_components混合高斯模型构成分量的数量,默认为1。covariance_type协方差类型,包括'full'、'tied'、'diag'与'spherical'四种;其中,'full'表示每个分量有各自不同的标准协方差矩阵(元素都不为零),'tied'表示所有分量有相同的标准协方差矩阵,'diag'表示每个分量有各自不同的对角协方差矩阵(非对角元素为零,对角元素不为零),'spherical'表示每个分量有各自不同的球面协方差矩阵(非对角元素为零,对角完全相同),默认为'full'。n_init初始化次数,用于产生最佳初始参数,默认为1。init_params初始化参数方式,包括'kmeans'与'random'两种,默认为'kmeans'。
10.2应用实例GMM常用方法如下表所示。19名称说明aic(self,
X)根据输入X求模型的Akaike信息准则值。bic(self,
X)根据输入X求模型的贝叶斯信息准则值。fit(self,
X[,
y])采用EM算法估计模型参数。fit_predict(self,
X[,
y])训练模型并预测输入X的类别标记。get_params(self[,
deep])获取模型参数。predict(self,
X)预测输入X的类别标记。predict_proba(self,
X)预测输入X的所属类别的概率。sample(self[,
n_samples])根据模型生成随机样本。score(self,
X[,
y])求取模型的精度。set_params(self,
\*\*params)设置模型参数。10.2.1数据聚类根据GMM算法原理,其可有效克服K均值聚类算法存在的数据球形分布假设、数据点“硬分配”等缺点,在实际的数据聚类中往往可获得更可靠的结果。本例通过构造不同分布形态的数据对比两种算法之间的差异。2010.2.1数据聚类案例问题描述构造团状分布数据并采用K均值聚类算法对其进行聚类。构造非团装分布数据并分别采用K均值聚类算法与GMM算法对其进行聚类。利用GMM算法生成新数据。求取GMM算法最优分量数。案例实现10.2.1数据聚类(编程实现).py2110.2.1数据聚类结果分析22对球形分布的数据聚类效果较好;但对非球形分布的数据聚类时产生误差较大。K均值聚类(球形分布数据)K均值聚类(非球形数据)10.2.1数据聚类结果分析23GMM算法对非球形分布的数据聚类效果较好。GMM模型分量越多,其聚类生成的类别越多。在具有复杂分布形态数据的聚类中表现出更好的性能。GMM聚类(非球形分布数据)10.2.1数据聚类结果分析24与K均值聚类算法不同,GMM算法实际上通过求取每个类别数据分布模型而确定每个数据所属类别的概率,此数据点“软分配”方式不但具有更高的可靠性,而且可根据数据分布模型生成新的数据点。GMM生成新数据10.2.1数据聚类结果分析25在确定GMM最优分量时,如左图所示,随着分量数的增加,AIC与BIC值先降低后增加,在分量数为9或10时两者综合值基本达到最小,因而可以此确定最优分量数。AIC与BIC变化曲线
知识拓展在构建机器学习模型时,许多模型参数估计问题采用似然函数作为目标函数,当训练数据足够多时通常可获得较好的结果,但同时也可能模型的复杂度过高可出现过拟合问题。因而,通过特定的标准综合权衡模型表达能力与模型复杂度,有助于确定最优的模型。当前,较为常用的两种便准分别为:赤池信息准则(AIC)贝叶斯信息准则(BIC)2610.2.2图像生成图像生成旨在根据图像特征或图像像素值分布规律生成新的图像,在艺术创作、风险防控等领域有着广泛的应用。GMM作为一种生成式模型,可以对不同类型的数据分布形态进行描述并依此生成新的数据。以图像数据为例介绍GMM在图像生成中的使用方法。2710.2.2图像生成
问题描述:利用手写数字图像数据构建GMM模型并生成新的手写数字图像,具体要求如下:加载MNIST数据并生成GMM构建样本。利用主成分分析方法对GMM构建样本进行降维处理。构建不包含不同分量的GMM模型并对比其生成图像之间的差异。编程实现10.2.2图像生成(编程实现).py2810.2.2图像生成
结果分析29原始图像手写体数字图像数据集包含60000幅分辨率为28×28的训练图像。本例采用GMM算法对16幅图像的特征或像素分布形态进行提取或拟合,进而利用相应的GMM模型生成新的图像。将每幅图像展平为向量时,维度相对较高(28×28=784维),因而采用主成分分析算法将维度降至10维。10.2.2图像生成
结果分析30生成的新图像(分量为5)生成的新图像(分量为10)左图采用较少的单高斯模型提取图像特征,不易损失主要信息,生成的图像较模糊。右图采用相对较多的单高斯模型提取图像特征,可保留更多的细节,生成的图像较清晰。本章小结GMM假设数据由多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年巴音郭楞职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年山西职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年山东水利职业学院高职单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析
- ICU基础知识课件
- HR六大基础知识课件
- 2025年威海海洋职业学院高职单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析
- Flash多媒体课件基础知识
- 美国药学管理及启示
- 8S培训课件教学课件
- 环状混合痔手术护理常规
- 2024年郑州黄河护理职业学院单招职业适应性测试题库及答案解析
- 生产直通率记录表
- 2024年部编版五年级下册语文第七单元综合检测试卷及答案
- 医疗依法执业培训课件
- 施工现场安全围挡
- 拐杖及助行器的使用方法课件
- 中央环保督察迎战培训课件
- 风湿免疫科学教学设计案例
- 妊娠合并梅毒护理查房课件
- 2023小米年度报告
- 修大坝施工方案
评论
0/150
提交评论