统计计算 课件 5.2 EM算法的应用_第1页
统计计算 课件 5.2 EM算法的应用_第2页
统计计算 课件 5.2 EM算法的应用_第3页
统计计算 课件 5.2 EM算法的应用_第4页
统计计算 课件 5.2 EM算法的应用_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.2节EM算法的应用一、使用EM算法估计混合正态分布(GMM)的参数二、使用EM算法进行k-均值聚类一、使用EM算法估计混合正态分布(GMM)的参数考虑m个一维正态分布的线性组合组成的混合正态分布使用观测的数据估计参数引入隐变量Z表示第i个随机变量是否被选中,Z=1表示被选中,Z=0表示未被选中,记它的概率分布为混合正态分布的密度函数为

只要不断最大化的下界,就可以使不断增加已知第j+1轮的输入为求出参数例1随机变量X服从期望为1、标准差为0.1的正态分布,随机变量Y服从期望为5、标准差为6的正态分布,对这两种分布分别生成300个和700个随机数据,将其充分混合,使用EM算法估计权重参数算法:(1)生成服从期望为1、标准差为0.1的正态分布的随机数,在混合正态分布中权重为0.3。再生成期望为5、标准差为6的正态分布的随机数,在混合正态分布中权重为0.7。将这些数据混合,打乱顺序,作为输入数据。(2)已知E步二、使用EM算法进行k-均值聚类先对高斯混合模型使用EM算法求出参数的估计值,再根据给定的数据与均值(均值向量,二维)的距离判断该数据应该属于哪一类。例4已知某个班考试成绩如下:20,88,91,94,86,90,80,98,90,77,85,85,81,66,79,77,88,74,61,88,79,84,76,75,74,77,83,73,76,83,69,88,64,78,73,64,88,88,该数据来自两个分量的高斯混合模型,使用EM算法聚为两类。方法一使用EM算法求出高斯混合模型中的均值参数,再根据数据距离哪个均值近,将其归为哪一类。输出结果:第一类:[88,91,94,86,90,80,98,90,77,85,85,81,66,79,77,88,74,61,88,79,84,76,75,74,77,83,73,76,83,69,88,64,78,73,64,88,88]第二类:[20]方法二:使用sklearn.mixture中的GaussianMixture。reshape(行,列)可以根据指定的数值将数据转换为特定的行数和列数reshape(-1,1)这里的-1被理解为unspecifiedvalue,意思是未指定。只需指定列数,行数多少无所谓,用-1代替,即任意行,一列的数据。从sklearn.mixture中导入GaussianMixture,具体参数如下:GaussianMixture(n_components=1,*,covariance_type='full',tol=0.001,reg_covar=1e-06,max_iter=100,n_init=1,init_params='kmeans',weights_init=None,means_init=None,precisions_init=None,random_state=None,warm_start=False,verbose=0,verbose_interval=10)1)n_components:混合的高斯分布的个数2)ovariance_type:{‘full’,‘tied’,‘diag’,‘spherical’}默认='full',要使用的协方差参数类型。‘full’:每个高斯分量都有自己的协方差矩阵。‘tied’:所有分量共享相同的协方差矩阵。‘diag’:每个分量都有自己的对角型协方差矩阵。‘spherical’:每个分量都有自己的方差。3)tol:浮点数,默认1e-3,收敛阈值。当下限平均增益低于此阈值时,EM迭代将停止。4)reg_covar:浮点数,默认1e-6,添加到协方差对角线上的非负正则化。允许确保协方差矩阵都是正数。5)max_iter:整数,默认100,要执行的EM迭代次数。6)n_init:整数,默认1,要执行的初始化次数,保持最佳结果。7)init_params:{‘kmeans’,‘random’},默认'kmeans',用于初始化权重、均值和精度的方法。使用k均值或者随机。3)tol:浮点数,默认1e-3,收敛阈值。当下限平均增益低于此阈值时,EM迭代将停止。4)reg_covar:浮点数,默认1e-6,添加到协方差对角线上的非负正则化。允许确保协方差矩阵都是正数。5)max_iter:整数,默认100,要执行的EM迭代次数。6)n_init:整数,默认1,要执行的初始化次数,保持最佳结果。7)init_params:{‘kmeans’,‘random’},默认'kmeans',用于初始化权重、均值和精度的方法。使用k均值或者随机。数据的标签为[1000000000000000000000000000000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论