




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高斯云变换《不确定性人工智能》课件之六GaussianCloudTransformation
如何用物化了的机器、系统或网络研究来模拟人类的感知、记忆、情感、推理、识别、理解、沟通、思考、学习、创造等不确定性智能行为,是人工智能研究中的一个重要目标。语言是人类思维的载体,自然语言是人工智能研究的一个很重要的切入点。基于人类知识和自然语言的信息交互、存储和处理方式从内容层面带来了更多的不确定性,自然语言理解、网络化数据挖掘和大数据处理等给传统的数值逻辑计算和关系数据库带来了新的挑战。
不确定性知识表示和处理,包括定性定量转换、软计算、变(跨)粒度计算等,逐渐成为网络计算中亟待解决的热点问题。
粒计算是研究和模拟人类从不同粒度、不同层次对事物进行表示、分析和推理的方法,是人工智能中智能信息处理技术研究的一个重要方向。目前主要模型:模糊集、粗糙集、商空间、区间集等
模糊集是最早提出的一种粒计算方法,其对经典集合论进行了扩展,利用隶属度和隶属函数描述概念外延的亦此亦彼性,但是隶属度的确定,以及通过定义模糊运算形成的模糊逻辑,常常受到质疑。粗糙集、区间集和商空间等粒计算方法的数学基础是经典集合论,基于等价关系或者模糊等价关系进行集合划分、集合运算、集合约简等实现不确定性知识的表示和处理。
在人类认知思维过程中使用的常常是定性的概念知识,并不是一个个精确的数据集合,也没有发生太多、太复杂的逻辑运算和数值运算。
概率论是一个重要的研究随机性的数学分支,基于概率统计的不确定理论与方法已有百余年历史,也是目前应用最广、最被普遍接受的不确定性表示方法。2011年度图灵奖得主JudeaPearl教授的主要贡献之一就是将贝叶斯网络和概率方法引入人工智能。
云模型是基于概率统计研究人类认知中概念内涵的表示、内涵与外延间的定性定量转换。
云模型及算法的理解认知中的概念是?对某一概念,有一个基本的形象——
期望概念外延包含的数据范围——
熵概念外延包含的数据范围是不确定的——超熵粒度?N(En,He2)Eni’N(Ex,En’2)xi计算Eni’2Ex,En,He正向云算法中云滴的生成过程:计算确定度yiEni’(i=1,…,n)构成随机变量En’Eni’2(i=1,…,n)构成随机变量En’2xi(i=1,…,n)构成随机变量Xyi(i=1,…,n)构成随机变量YEn’En’2XYEx,En,He是三个已知确定量En’和En’2是中间量云滴X和确定度Y是输出量正向云算法中的参数分析En’服从高斯分布,期望是En,方差是He2En’2服从什么分布?期望、方差是什么?X服从分布?En’2的分布特征(1)因为En’~N(En,He2),根据方差计算公式所以,(2)因为所以,X服从分布在论域U上定义均值为En、方差为He2的高斯随机变量S,即S的概率密度函数为在S=
的条件下,定义在论域上的随机变量X的条件概率密度函数为X的期望X的一阶绝对中心矩X的方差X的四阶中心矩逆向云算法有确定度的逆向云算法无确定度的逆向云算法基于一阶绝对中心矩和方差(刘常昱)基于方差和四阶中心矩(王立新)分组后基于分组期望和方差(许昌林)一、粒计算中的几个基本术语云模型是一个基于概率统计的定性定量转换认知模型。逆向云算法可以将一组数据样本转换为一个基本概念的三个数字特征,但是该算法默认的前提是,给定的所有数据样本对应于同一个概念在同一个粒度上的外延表征,而不能在整个问题域中解决多粒度、多概念的生成问题,这在一定程度上限制了逆向云算法从数据样本中获得更多概念、更多知识的认知能力。多粒度概念生成、合适粒度和概念层次的选择、不同粒度之间的切换都是粒计算研究中必须解决的问题。尺度是指研究某一物体或现象时所采用的空间或时间单位,又指某一现象或过程在空间和时间上所涉及的范围和发生的频率,还可指人们观察事物对象、模式或过程时所采用的窗口。在测绘学、地图制图学和地理学中通常把尺度表述为比例尺,即地图上的距离与其所表达的实际距离的统一比率。在不同尺度上认识人与自然时,可能在整体上会呈现出自相似性粒度原本是一个物理学的概念,是指物质微粒大小的平均度量。在这里被借用作为对概念中包含信息量的度量,从不同概念层次分析和处理论域空间中的数据,只是从不同粒度理解这些信息量而已,正如大数据中的深度学习。我们把云模型作为表示概念的基本模型,期望等同于模型中的核,而数据相对于核的离散程度通过熵来反映,说明概念粒度的大小,超熵可以作为概念成熟度的度量。人类智能的一个公认特点,就是能够从不同粒度、不同层次上观察和分析同一现象或问题。从较细粒度的概念跃升到较粗粒度的概念,是对信息或知识的抽象,可以使问题简化,通常这一过程称为数据简约或归约。用粗粒度概念观察和分析信息,忽略了细粒度上的细微差别,寻找共性。共性常常比个性更深刻,可以求得宏观的把握。相反,如果用细粒度概念观察和分析信息,则可发现纷繁复杂的个性特征,更准确地区分差别,区分小众。个性要比共性丰富和典型,但是不能完全进入共性之中。通过概念提升,可以发现更普遍的知识。
SlingoJulia,BatesKevin,andNikiforakisNikos.et.al;Developingthenext-generationclimatesystemmodels:challengesandachievementsPHILOSOPHICALTRANSACTIONSOFTHEROYALSOCIETYA-MATHEMATICALPHYSICALANDENGINEERINGSCIENCESvol:367(1890):815-831,MAR,2009.世界卫生组织年龄分段的概念树
不同概念对应的数值区间界限分明,不允许有亦此亦彼的过渡现象存在,缺少了概念固有的模糊性。例如,44岁和45岁属于两个不同的年龄概念过于武断;隶属关系单一,无法反映一个属性值可能同时属于多个上层概念的现象。概念树通常是与特定情境和主题相关的,具有相对性。例如对于科学家而言48岁还是一个非常年轻的年龄。又例如1995年世界卫生组织将“中年”划定为45-65岁,2000年为45-59岁。再例如美国将“中年”划定为40-65岁,葡萄牙为29-51岁,日本和中国为40-60岁。因此,概念树的结构常常和问题域的时间、地区等相关。
传统的概念树存在以下局限性
人们在对概念认知的过程中,很多时候并不存在层次结构分明、边界划分明确的唯一的树形结构,概念之间或许存在交叠,一个低层次的概念也可以隶属于多个高层次的概念,整体呈树状结构、局部呈现出网状结构,称之为泛概念树。如何构建泛概念树?二、从高斯变换到高斯云变换空间变换或域变换是科学研究中常用的一种方法。在一个空间中呈现复杂状态的问题转换到另一个空间,可能就会变得简单而容易理解了。例如物理学中的傅里叶变换可以将一个时域的函数变换为频域里多个正弦函数的叠加,反之亦然,这种变换具有唯一性,快速傅里叶变换是现代工程应用中的一个重要工具。如何实现从数据到多粒度概念的转换?高斯混合模型GMM:任意一种概率分布都可以分解为若干个高斯分布之和,可以通过EM算法估计每个高斯分布的参数。将问题域的一个频度分布转化为若干高斯分布叠加的过程称之为高斯变换(GaussianTranformation,GT)。根据中国工程院网站()公布的院士年龄分布数据,至2012年4月中国工程院现有院士776名,年龄分布在43岁至99岁之间,男性院士740名,女性院士36名,超过80岁的资深院士206名。中国工程院院士群体年龄分布图
multiplegranularityconcept?Somuchoverlapped?高斯变换只是一种数学拟合;高斯个数越多,拟合误差越小。高斯变换本身,没有体现概念的形成机理,没有考虑“类内关系强、类间关系弱”的聚类原则。如何确定概念的个数?如何体现类内关系强、类间关系弱?如何体现概念认知中层次和粒度的不确定性?根据数据聚类中类内关系强、类间关系弱的原则,借用高斯云中的熵和超熵,构建概念含混度:3He/En去衡量高斯变换结果中概念的交叠程度。任何一个概念,如果其概念含混度大,则此概念的外延会更加离散,与相邻概念的重叠通常会多,划分混乱;反之,这个概念的含混度小,此概念的外延会比较汇聚,与相邻概念的交叠通常会少,概念共识程度强。高斯云变换的基本思想对于任意两个相交的高斯分布,以它们目前的标准差作为概念的最大粒度参数,保持它们的期望不变,进行等比例缩减,直至它们的弱外围元素不相交,此时可以获得每个概念的最小粒度参数,利用概念粒度变化范围可以求出每个概念的En和He,由于进行等比例缩减,所以它们的He/En相同,称3He/En=(1-a)/(1+a)为概念含混度(ConfusionDegree,CD),a为缩减比例。用概念含混度衡量概念间的交叠程度对于高斯变换中的第k个高斯分布,分别计算其与左右相邻两个高斯分布之间的重叠程度,如果他们的弱外围元素都不重叠,说明这个高斯分布表示的概念划分非常清晰,它的否则,说明此概念与相邻概念之间存在划分不清晰的重叠区域,保持期望值不变,对他们的标准差按等比例进行缩减,计算获得与左侧相邻概念之间弱外围元素不重叠的缩减比例
满足
计算获得与左侧相邻概念之间弱外围元素不重叠的缩减比例满足
第k个高斯分布由于概念划分不清晰引起的标准差变化范围为根据高斯云的定义,熵是标准差的期望,超熵是标准差的标准差,同样符合3sigma原则,因此:不同区域内的云滴群对定性概念的贡献µ(x)1ExEx-0.67EnEx+0.67EnEx-EnEx+EnEx+2EnEx-2EnEx-3EnEx+3En骨干元素基本元素外围元素外围元素弱外围元素弱外围元素骨干区:50%[Ex-0.67En,Ex+0.67En]基本区:68.26%[Ex-En,Ex+En]外围区:27.18%[Ex-2En,Ex-En]和[Ex+En,
Ex+2En]弱外围区:4.3%[Ex-3En,Ex-2En]和[Ex+2En,Ex+3En]与相邻高斯分布元素之间交叠程度标准差缩放比概念含混度定性描述期望相同01雾化骨干区交叠(0,0.223)(0.6354,1)含混骨干区不交叠基本区交叠[0.223,0.333)(0.5004,0.6354]较含混外围区交叠[0.3333,0.667)(0.2,0.5004]较成熟弱外围区交叠[0.667,1)(0,0.2]成熟弱外围区不交叠10非常成熟启发式高斯云变换通过指定生成的概念数量M,调用高斯变换,获得满足迭代终止条件的M个高斯分布的期望、标准差和幅值。对于每个高斯分布分别计算其对应的表征概念的高斯云的期望、熵和超熵,进而将高斯变换的划分结果转换为一个个认知概念,同时可以计算出每个概念的概念含混度,对其进行排序可获得概念划分清晰度的顺序关系。(HeuristicGaussianCloudTransformation,H-GCT)
算法:H-GCT输入:原始数据集X,初始概念数k输出:
m个高斯云
步骤1:利用高斯变换(GT)将数据集合X转换为生成m个高斯分布
步骤2:对k个高斯分布计算其缩减比例则对应的第k个表示概念的高斯云参数利用启发式高斯云变换将院士按年龄聚类成五个概念群概念期望(岁)熵(岁)超熵(岁)含混度占总数比例非常年轻院士53.12.70.420.46810%年轻院士67.05.41.30.72312%中年院士74.22.40.640.831%老年院士77.52.80.750.831%长寿院士83.53.40.890.78515%利用启发式高斯云变换将院士按年龄聚类成3个概念群概念期望(岁)熵(岁)超熵(岁)含混度占总数比例年轻院士55.84.80.390.24416%中年院士74.52.60.580.67547%老年院士80.63.70.840.67537%启发式高斯云变换可以根据预先给定的概念个数对数据进行聚类,概念含混度为高斯变换划分结果的交叠程度提供了一种度量方法,为实现类内关联强、类间关联弱提供了基础。
自适应高斯云变换常识知识告诉我们,相对于低频率出现的数据值,高频率出现的数据值对定性概念的贡献更大,因此可以统计计算数据样本频度分布中的波峰数作为高斯云变换的初始概念数量M,调用启发式高斯云变换生成M个高斯云表征的概念,根据每个概念的含混度,制定高斯云变换策略,例如,保证每个概念的含混度He/En<=0.5004,即它与相邻概念之间的基本区不交叠,通过不断调用启发式高斯云变换来进行迭代收敛,形成满足迭代终止条件要求的多个不同概念。
(AutonomicGaussianCloudTransformation,A-GCT)
算法:A-GCT输入:原始数据集X,概念含混度上限输出:
m个高斯云步骤1:统计样本集X的频度分布,并对其进行去噪声的预处理,获得波峰数量M
步骤2:利用启发式高斯云变换(H_GCT)将X聚类成M个高斯分布
步骤3:按顺序对每个高斯云的概念含混度进行判断,如果存在一个高斯云的概念含混度超过则M=M-1
步骤4:循环步骤2-3,形成m个概念含混度小于等于,即概念之间的基本元素都不重叠的高斯云自适应高斯云变换将院士按年龄聚类成2个概念群概念期望(岁)熵(岁)超熵(岁)含混度占总数比例年轻院士533.30.160.14514%年老院士76.45.90.290.14586%
ArnetMiner()是清华大学软件与知识工程实验室开发的专门用于研究者社会网络挖掘和学术搜索的网站,从2006年运行以来,至2012年3月26日共有来自196个国家的988645个注册用户。
自适应高斯云变换将学术网用户按年龄聚类成2个概念群概念期望(岁)熵(岁)超熵(岁)含混度比例青年学者30.42.10.290.4080.65中年学者40.93.80.550.4370.301老年学者57.05.70.830.4370.049高斯云变换中的概念之间的粒度和层次关系粗粒度细粒度自适应高斯云变换生成的泛概念树
从细粒度到粗粒度的概念提升过程中,如果原始数据分布中的峰值过多,迭代的次数增加,算法的复杂度也会增加。然而,在人类认知过程中,对于同一个论域上的概念个数常常是有限的,例如“极小”、“超小”、“非常小”、“很小”、“小”、“偏小”、“中”、“偏大”、“大”、“很大”、“非常大”、“超大”、“极大”这13个形容词基本上可以涵盖人类对任意一维属性空间针对数据值的分类。尤其是在图像分割中,最常见的就是差异性目标提取。因此,可以对自适应高斯云变换算法进行调整从而实现从粗粒度到细粒度的概念细化过程。算法:A-GCT-2输入:原始数据集X,概念含混度上限输出:含混度小于的高斯云步骤1:设m=2
步骤2:利用启发式高斯云变换(H_GCT)将X聚类成m个高斯分布
步骤3:最小的概念含混度超过则m=m+1
步骤4:循环步骤2-3,找到含混度小于的概念
以2011年中国各市辖区的职工平均工资分类为例,根据中国城市统计年鉴2011//2-26劳动工资,全国286个市辖区的的职工平均工资的频度分布。全国职工2011年平均工资为31969.23元,其中工资较低的地区为湖北省鄂州市13818.39、广西壮族自治区钦州市14665.42、黑龙江升伊春市16261.46,少数地区的职工平均收入特别少,少数工资较高地区为北京66458.74、上海71923.60等。粗粒度细粒度概念期望(万元)熵(万元)超熵(万元)含混度占总数比例低工资地区2.580.230.0600.750.162普通工资地区2.950.2710.6860.750.513较高工资地区3.690.4180.090.640.276高工资地区5.00.7920.1510.5720.049理论上,高斯云变换算法可以针对一维属性数据,也可以用于对二维或者多维属性数据进行处理。例如,对于二维属性,两个概念的交叠程度是通过两个椭圆的交叠区来计算的。对于三维属性,两个概念的交叠程度是通过两个椭球的交叠区域来计算的,其呈现出的高斯云是一个四维图形。对于四维以上的属性数据,已经无法在坐标空间内直观显示。此时,概念含混度通过几何图形交叠区域的计算已经无法获得,可以通过概念在各维度上的投影分别计算概念含混度,因此得到的概念含混度就是一个多维向量。
为了简化问题,本论文暂设定每个概念在各维属性上的粒度投影相同,即二维属性数据对应的概念外延为一个具有不确定半径的圆形区域,圆心(Ex1,Ex2)就是期望,半径是一个以三倍熵(En)为期望、超熵(He)为标准差的随机数。三维属性数据对应的概念外延为一个具有不确定球径的球形区域,球心(Ex1,Ex2,Ex3)就是期望,球径是一个以三倍熵(En)为期望、超熵(He)为标准差的随机数。此时概念含混度计算方法与一维属性的计算方法相同,即通过两个概念期望之间的距离与半径之间的关系来计算获得两个概念之间的含混度。
基于高斯云和高斯变换提出的高斯云变换方法给出了一个通用的认知工具,不仅将数据集合转换为不同粒度的概念,而且可以实现不同粒度概念之间的柔性切换,构建泛概念树,解决了粒计算中的变粒度问题,有着广阔的应用前景。三、用高斯云变换实现图像分割随着计算机视觉研究的深入,简单的图像分割已经不能满足个性化的需求,有时候人们真正感兴趣的恰恰是图像中亦此亦彼的那些不确定性区域,如何模拟人类自然视觉中的认知能力进行图像分割一直以来都是一个难点问题,而高斯云变换正是一种模拟人类认知中可变粒计算能力的方法,在处理不确定性信息上具有优势。因此,发现图像中存在的不确定性区域是高斯云变换的一个重要能力。一方面是其具有明显统计特征,宏观上导致分割目标数量发生变化,例如,一幅图像中如果颜色混合的过渡区概念已占据相当比例,在频率统计图中明显区别于背景和前景两个概念,则图像分割结果应是背景区、前景区、过渡区三个概念;另一个方面就是宏观统计特征不明显,像素点数量少不足以构成一个新概念,但是在微观上的目标边缘提取中,影响着边缘像素点的归属问题。图像中概念数量的自适应优化和目标边缘不确定性区域的提取,这两方面正是包括高斯变换在内的其他图像分割方法中面临的难题,也是高斯云变换的优势所在。一幅图像中的不确定性区域主要表现在两个方面:图像过渡区提取激光熔覆是指在工业中利用高能激光束将熔覆材料与基材表面薄层一起熔凝形成添料熔覆层。如何从激光熔覆图像获取精确的激光高度是激光熔覆图分割的关键,通常依靠先验知识设定概念数量的算法往往直接指定图像中存在前景和背景两个目标,忽略了过渡区域,而过渡区正是不同分割算法结果差异的关键所在。
(a)Kapur分割的二色图(b)C-means分割的二色图(c)Otsu分割的二色图(d)FCM分割的二色图概念期望熵超熵含混度黑色背景区81.315.31.810.354灰色过渡区172.331.73.740.354白色激光区253.21.30.110.247不确定性边缘提取C1和C2之间的不确定性边缘C2和C3之间的不确定性边缘
概念期望熵超熵含混度黑色背景区87.9712.21.600.393灰色过渡区165.6130.43.980.393白色激光区253.081.50.100.205概念期望熵超熵含混度红绿蓝棕黑色目标区68.8566.0751.5632.7800渐进色过渡区177.41207.66193.643.880.360.28淡蓝色背景区148.66178.65176.2716.581.530.28用简单三维高斯云变换实现彩色图像分割用高斯云变换实现自然视觉认知能的形式化
高斯云变换利用统计拟合中高斯变换和定性概念表示中的高斯云,根据图像统计特征直接生成符合人类认知规律的概念数量、粒度和层次。因此高斯云变换为人类自然认知中的变粒度计算能力模拟研究提供了方法,也为高斯云变换研究自然视觉认知能力中全局优先、前景优先和差异性优先的形式化奠定了基础。
高斯云变换从数据统计分布出发,不依赖于先验知识,但是在初始参数的选择优化时可以借助先验知识。利用高斯云变换策略可以实现不同粒度上的概念抽取,因此可以用来实现全局优先的形式化;概念含混度是一个概念共识程度的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文学作品中性别符号的符号学解读与权力关系研究
- 公司在逃人员管理办法
- 根据银企对账管理办法
- 河源冷库库存管理办法
- 江苏苗木休眠管理办法
- 硬笔书法教学设计与实施指南
- 季节性施工的技术难点及应对策略
- 制定管理办法提升管理
- 生产安全事故报告和调查处理条例规定事故
- 新疆暖气收费管理办法
- 营运车辆入股协议书
- 高中数学专项提升计划
- 2025年国家公务员考录《申论》真题及参考答案(行政执法卷)
- 企业数字化转型与员工绩效的关联性分析报告
- 水工程概论课件
- 小学管理考试题及答案
- 研学活动协议书合同协议
- 2025杭州市富阳区辅警考试试卷真题
- 延长石油招聘笔试题库2025
- 2025年粤东西北教师全员轮训心得体会2篇
- 兽医学基础试题及答案
评论
0/150
提交评论