人工智能和认知物理学课件_第1页
人工智能和认知物理学课件_第2页
人工智能和认知物理学课件_第3页
人工智能和认知物理学课件_第4页
人工智能和认知物理学课件_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1认知科学研究人类如何获取知识和使用知识数据挖掘让机器模拟人的智能从数据中发现知识1认知科学研究人类如何获取知识和使用知识数据挖掘2目录 人工智能50年发展回顾 20世纪物理学的成就 不确定性认知的原子模型 数据场和势函数 认知场中的知识发现2目录3一、人工智能50年发展回顾人工智能的兴起智能的判定标准人工智能研究的不同切入点人工智能研究的目标3一、人工智能50年发展回顾人工智能的兴起4人工智能自诞生之日起就引起人们无限美丽的想象和憧憬;已经成为学科交叉发展中的一盏明灯,光芒四射;但其理论起伏跌宕,也存在争议和误解。4人工智能自诞生之日起就引起人们无限美丽的想象和憧憬;已经成5人工智能的兴起数

2、学家和逻辑学家;认知学家和心理学家;神经生理学家;计算机科学家 1956年著名的“达特茅斯(Dartmouth)会议”标志人工智能学科的诞生,它从一开始就是交叉学科的产物。与会者有: 5人工智能的兴起数学家和逻辑学家; 1956年著名的“6人工智能的兴起 达特茅斯会议上,明斯基(Marvin Minsky)的神经网络模拟器、麦卡锡(John Mccarthy)的搜索法、以及西蒙(Herbert Simon)和纽厄尔(Allen Newell)的“逻辑理论家”是会议的3个亮点。分别讨论如何穿过迷宫,如何搜索推理和如何证明数学定理。这是初期人们期待的人工智能。6人工智能的兴起 达特茅斯会议上,明斯

3、基(7人工智能的经典著作由费根鲍姆主编的Computers and Thought被认为是世界上第一本人工智能的经典专著,含21篇著名论文,1963年出版。80年代出版的1-4卷The Handbook of Artificial Intelligence是人工智能的杠鼎之作。7人工智能的经典著作由费根鲍姆主编的Computers 8人工智能研究的杰出人物 20世纪40位图灵奖获得者中有6名人工智能学者,可见人工智能学科影响之深远。 1969年:马文明斯基 1971年:约翰麦卡锡 1975年:赫伯特西蒙和艾伦纽厄尔 1994年:爱德华费根鲍姆和劳伊雷迪8人工智能研究的杰出人物 20世纪40位图

4、灵奖获得者中有9智能的判定标准图灵(Turing)测试: 如果机器在与人隔离的房间回答人提出的问题,且人无法判断回答问题的是机器还是人时,则应该认为机器已经具备人的智能。9智能的判定标准图灵(Turing)测试:10猴子摘香蕉10猴子摘香蕉11梵塔游戏 初始柱替换柱目的柱11梵塔游戏 初始柱替换柱目的柱12计算机下棋:1997年IBM“深蓝”计算机以2胜3平1负的战绩战胜国际象棋冠军卡斯帕罗夫,“深蓝”计算速度为200万棋步/秒,采用启发式搜索方法;在与下棋领域具有类似性质和类似复杂性问题上,计算机具备有智能。12计算机下棋:1997年IBM“深蓝”计算机以2胜3平1负13计算机下棋:卡斯帕罗

5、夫自1990年称霸国际象棋棋坛,2000年举行的国际世界象棋冠军比赛中,克拉莫尼克以8:6领先卡斯帕罗夫。“深蓝”计算机能否打败克拉莫尼克?也就是说,“深蓝”计算机的智能能否“与时俱进”?13计算机下棋:卡斯帕罗夫自1990年称霸国际象棋棋坛,2014追求智能的三步曲1) 啊!真了不起!2) 啊!是这样的啊!3) 啊!这也算智能吗?4) 又回到第一步。 14追求智能的三步曲1) 啊!真了不起!15人工智能研究的对象不确定非线性不完全变结构多变量分布式15人工智能研究的对象不确定16人工智能的应用人工智能的实际应用越来越普遍。智能机器人、智能控制、智能网络、智能手机、智能数据库、智能管理、智能小

6、区、智能交通、甚至智能经济等等不绝于耳,知识就是力量。16人工智能的应用人工智能的实际应用越来越普遍。智能机器人、17人工智能研究的切入点先后出现了3个主流学派:符号主义方法-逻辑学派联结主义方法-仿生学派行为主义方法-控制论学派17人工智能研究的切入点先后出现了3个主流学派:18符号主义学派(西蒙和纽厄尔为代表)物理符号系统假说(physical symbol system hypothesis)。由一组称为符号的实体组成系统,这些符号可作为组份出现在另一符号实体中。任何时候系统内部均有一组符号结构,以及作用在这些符号结构上生成其他符号结构的一组过程。任一物理符号系统如果是有智能的,则必能执

7、行对符号的输入、输出、存储、复制、条件转移和建立符号结构这样6种操作。反之,能执行这6种操作的任何系统,也就一定能够表现出智能。18符号主义学派(西蒙和纽厄尔为代表)物理符号系统假说(ph19符号主义学派认知基元是符号,智能行为通过符号操作来实现,以美国科学家Robinson提出的归结原理为基础,以Lisp和Prolog语言为代表;着重问题求解中启发式搜索和推理过程,在逻辑思维的模拟方面取得成功,如自动定理证明和专家系统;归结原理不可能成为所有数学分支的证明基础,问题求解和逻辑推理的本质仅仅是演译。19符号主义学派认知基元是符号,智能行为通过符号操作来实现,20联结主义学派(J.J.Hopfi

8、eld为代表)人的思维基元是神经元,把智能理解为相互联结的神经元竞争与协作的结果,以人工神经网络为代表,其中,反向传播网络模型(BP)和Hopfield网络模型更为突出;着重结构模拟,研究神经元特征、神经元网络拓朴、学习规则、网络的非线性动力学性质和自适应的协同行为。20联结主义学派(J.J.Hopfield为代表)人的思维基21遗传算法和进化计算:1975年,John Holland提出遗传算法(Genetic Algorithm),模仿生物染色体中基因的选择(selection)、交叉(crossover)和变异(mutation)的自然进化过程,通过个体结构重组,形成一代代新群体(pop

9、ulations) ,最终收敛于近似优化解。用于处理多变量、非线性、不确定、甚至混沌的大搜索空间的有约束的优化问题;21遗传算法和进化计算:1975年,John Holland22麻将原理:刚发到手的牌就“和”了的概率是非常非常小的。不管开始手中的牌有多坏,通过一次次摸牌、选择、淘汰,可以逐步逼近到最优解。这相当进化中的变异和选择原理。麻将的魅力在于可以在容忍的时间内让牌“和”了。遗传算法和进化计算的收敛性问题。22麻将原理:刚发到手的牌就“和”了的概率是非常非常小的。23行为主义学派(R.A.Brooks为代表)控制论研究导致机器人和智能控制,机器人是“感知-行为”模式,是没有知识的智能(i

10、wk, iwr),强调直觉和反馈的重要性;智能行为体现在系统与环境的交互之中,功能、结构和智能行为不可分割。90年代起智能Agent成为新的热点。它是一种自治的、具有自发行为、体现交互性和环境适应性的新型智能机模型,具有移动性、推理、规划、学习和适应能力。23行为主义学派(R.A.Brooks为代表)控制论研究导致24行为主义学派反馈是控制论的基石,没有反馈就没有智能。根据目标与实际行为之间的误差来消除此误差的控制策略。PID控制是控制论对付不确定性的最基本手段。强调智能系统与环境的交互,从运行的环境中获取信息(感知),通过自己的动作对环境施加影响。24行为主义学派反馈是控制论的基石,没有反馈

11、就没有智能。25当前,以实际问题驱动的人工智能研究成为主流。人工智能不再是阳春白雪,尤其是数据挖掘技术,要以机器再现人类认识过程的方式,为认知科学提供了一个新的实体模型和实在形式。25当前,以实际问题驱动的人工智能研究成为主流。人工智能不再26研 究 热 点模式识别智能检索专家系统自然语言理解知识工程数据挖掘智能控制智能机器人26研 究 热 点模式识别知识工程27人工智能三次大跃进第一次:智能系统代替人完成部分逻辑推理工作,如专家系统。第二次:智能系统能够和环境交互,从运行的环境中获取信息,代替人完成包括不确定性在内的部分思维工作,通过自身的动作,对环境施加影响,并适应环境的变化。如智能机器人

12、。第三次:智能系统具有类人的认知和思维能力,能够发现新的知识,去完成面临的任务,如基于数据挖掘的系统。27人工智能三次大跃进第一次:智能系统代替人完成部分逻辑推理28人工智能的目标: 程序 = 智能 ? 计算 = 思维 ? 计算机 = 电脑 ?目标:以机器方式再现人的智能28人工智能的目标: 程序 = 智能 ?29二、20世纪物理学的成就物质层次结构和原子物理模型场理论和四种相互作用29二、20世纪物理学的成就物质层次结构和原子物理模型30物质层次结构和原子物理模型可以把物质的组成层次看成一个个等级,眼前的物体看成是宏观的,天体看成是宇观的,把分子和原子作为界标,比它们小的物质可以称之为微观的

13、。原子这个层次十分重要。原子模型的提出与演进,从开尔文模型、汤姆孙模型、勒纳德模型、长冈模型、尼克尔森模型直到卢瑟福的原子有核结构模型,以及原子核模型,都表明构思物质组成模型是一种普遍有效的科学方法。原子的物理模型成为人类认识世界的五个里程碑之一。30物质层次结构和原子物理模型可以把物质的组成层次看成一个个31物理学中的势场场可视为一个充满能量的空间。例如,将一个位于无穷远处的电荷移至电场中需要消耗能量。场在某点P(r)处的单位作功能力被称为该点的势,记为(r) 。势函数(r)是一个关于场点位置的标量函数,它在场空间中构成一个标量场,即势场。31物理学中的势场场可视为一个充满能量的空间。例如,

14、将一个位32梯度、散度与旋度梯度是描述标量场变化特性的矢量函数,它可以将一个标量场转换为矢量场,也可以通过引入一个辅助标量函数来分析简化矢量场。散度、旋度是描述矢量场的两个固有特性:源密度和旋涡密度的物理量。在最一般的情况下,一个矢量场总可以被看作由一个有源场和一个旋涡场叠合组成,如电磁场。因此一个含义不明的矢量场只有当弄清它的两个分量各自的贡献和物理本质后,即已知它的散度和旋度后才算明确。32梯度、散度与旋度梯度是描述标量场变化特性的矢量函数,它可33梯度场与旋度场、散度场梯度场=有势场=有源场=保守场=无旋场33梯度场与旋度场、散度场梯度场=有势场=有源场=保守场=无34电场和引力场的势函

15、数电场的势函数引力场的势函数从静电场和引力场的势函数计算中可以发现,两种场的物理机制虽然各不相同,但在数学形态上却非常相似,即空间区域中不同物质粒子相互作用的数学本质是相同或相近的。 34电场和引力场的势函数电场的势函数35物理学中的四种相互作用牛顿万有引力定律(引力反比于距离的平方)认为在多质点系中存在两两相互作用的引力场和引力势能。库伦定律(电力反比于距离的平方)认为电荷之间通过电场相互作用,用电场线和等势线可使电场分布形象化。具有相等电势的点构成等势面。35物理学中的四种相互作用牛顿万有引力定律(引力反比于距离的36物理学中的四种相互作用核物理认为,核子之间、核子与介子之间,通过夸克间交

16、换胶子实现强相互作用。这就是力程甚短的核力。按照普适费米理论,弱相互作用是一种点作用,不涉及到任何场。后来人们发现这一观点有问题。1984年若贝尔奖被授予鲁比亚 (Carlo Rubbia) 和范得米尔(Simon Van der Meer)以表彰他们发现弱作用场量子W+和Z的杰出贡献。36物理学中的四种相互作用核物理认为,核子之间、核子与介子之37物理学的大统一理论如果以强相互作用的强度为1的话,电磁相互作用的强度,其值约为10-2;弱相互作用约为10-13 10-19 ;引力相互作用最弱,约为10-39。 物理学家一直企图将这四种相互作用进行统一。爱因斯坦努力了,没有取得成果。真正取得进展

17、的是量子场论。量子电动力学解释了电磁相互作用;量子色动力学解释了强相互作用,又将弱相互作用与电磁相互作用进行统一,即温伯格-萨拉姆电弱统一理论。大统一理论到现在还缺乏实验验证。37物理学的大统一理论如果以强相互作用的强度为1的话,电磁相38三、不确定性认知的原子模型 人类思维的基本单元 云模型及其数字特征 正向云发生器和逆向云发生器 连续数据离散化(概念化) 概念粒度、概念空间和泛概念树38三、不确定性认知的原子模型 人类思维的基本单元39人类思维活动的层次性 生命科学可还原成不同的层次:如脑的生物化学层次和神经构造层次。认知活动可能对应着一定的生理上的化学、电学的变化。但是,目前生命科学还不

18、能在思维活动与亚细胞的化学、电学层次的活动建立确切的关系。如:一个概念如何以生物学形式存储,它与其它概念发生联系的生物学过程是什么。也不能决定什么样的神经构造可以决定着哪些认知模式的发生。39人类思维活动的层次性 生命科学可还原40人类思维活动的层次性 目前从脑的生物化学层次和神经构造层次研究认知活动尚有困难。再说,如同我们不能从最基础的硅芯片的活动来推测计算机网络上电子邮件的行为一样,我们又怎么能够设想从分析单个离子、神经元、突触的性质就能够推断人脑的认知和思维活动呢?系统论关于系统整体特征不是由低层元素加和而成的原理对还原论提出质疑。因此,人工智能研究目前需要找到一个合适的层次和单元,向上

19、模拟人类的认知和思维活动。40人类思维活动的层次性 目前从脑的生物化41人类思维活动的工具 自然语言使人类获得一个强有力的思维工具,这是不争的事实,起到呈现和保留思维对象及组织思维过程的作用。它是其它各种形式化系统(语言)的基础,派生出像计算机语言这样的特殊语言,也派生出包括各种专业理论的专门化语言,如数学语言。这些符号构成的形式系统, 又成为新一级的形式化。41人类思维活动的工具 自然语言使人类获得42数学汉语外语自然语言符号语言自然语言和符号语言42数学汉语外语自然语言符号语言自然语言和符号语言43人类思维活动的工具 自然语言中的语言值表达概念,最基本的语言值代表最基本的概念,成为思维的原

20、子模型。同时,概念具有层次性。43人类思维活动的工具 自然语言中的语言值44概念人类思维的基本单元客观世界涉及物理对象,主观世界从认知单元和它指向的物理对象开始,反映了主客观内外联系的特性。任何思维活动都是指向一定对象的,通过对象的存在到主观意识自身的存在。概念作为外部事物在主观认知中的对应物成为思维活动的基本单元。但是概念不是孤立的,它同外部背景有着种种联系,是演变和流动的过程。因此,概念必然具有不确定性,甚至包括盲目性和散漫性。44概念人类思维的基本单元客观世界涉及物理对象,主观世界从45概念的形成:学习和记忆标准特征是概念的一个组成部分,是用来确认某一具体样例属于该类别的必要或充分条件。

21、原型在概念中占有特别的地位。模糊的边界和不清楚的样例是概念的普遍情况。在一个概括性更高而具体性更低的组织水平上,下位概念作为一个样例被使用,形成基本水平、下位水平和上位水平的层次结构 (basic lever/ subordinate level/superordinate lever)。概念的形成是多次反复的学习和记忆的过程。45概念的形成:学习和记忆标准特征是概念的一个组成部分,是用46困扰人工智能的认知模型怎样表示用自然语言表述的定性知识?怎样反映自然语言中的不确定性,尤其是模糊性和随机性?怎样实现定性和定量知识之间的相互转换?怎样体现语言思考中的软推理能力?46困扰人工智能的认知模型怎

22、样表示用自然语言表述的定性知识?47知识表示 人工智能要以机器为载体模仿以人脑为载体的人的思维活动智能,必须找到在人脑和机器两种载体之间建立联系的手段,而这个任务正是由形式化来担当的。知识表示的形式化在人工智能中居于方法论的重要地位。47知识表示 人工智能要以机器为载体模仿以48认知模型(Cognitive Modeling) 云由许许多多云滴组成,每一个云滴就是这个定性概念映射到数域空间的一个点,即一次反映量的样例的实现。这种实现带有不确定性,模型同时给出这个点能够代表该定性概念的确定程度。48认知模型(Cognitive Modeling) 49云图的可视化方法一 给出云滴在数域(一维、二

23、维或多维)的位置,用一个点表示一个云滴;同时,用该点的辉度表示出这个云滴能够代表概念的确定度。49云图的可视化方法一 给出云滴在数域(一维、二维或多维)50 “靠近坐标原点左右”的10000个量化云滴。任何一个云滴都可以在一定程度上代表这个概念。50 “靠近坐标原点左右”的10000个量化云滴。任何一个云51云图的可视化方法二用数域里的一个圈或球表示一个云滴,其中心反映云滴在数域的位置;同时,圈或球的大小表示出这个云滴能够代表概念的确定度。51云图的可视化方法二用数域里的一个圈或球表示一个云滴,其中52-3-2-1123-3-2-1123 “靠近坐标点左右”的200个量化云滴。任何一个云滴都可

24、以在一定程度上代表这个概念。52-3-2-1123-3-2-1123 “靠近坐标点左右”53云图的可视化方法三 用N+1维表示, N维空间的点表示云滴在数域的位置,另一维表示这个云滴能够代表概念的确定度。53云图的可视化方法三 用N+1维表示, N维空间的点表示54不同数值代表语言值 “20 km左右”的确定程度54不同数值代表语言值 “20 km左右”的确定程度55不同的数值代表平面上的点 “靠近中心”的确定程度55不同的数值代表平面上的点 “靠近中心”的确定程度56期望值: 在数域空间最能够代表这个定性概念的点,反映了云滴群的重心位置。云数字特征的双重性ExEnHe熵一方面反映了在数域空间

25、可被概念接受的范围,即模糊度,是定性概念亦此亦彼性的度量;另一方面还反映了在数域空间的点能够代表这个概念的概率,表示定性概念的云滴出现的随机性。熵揭示了模糊性和随机性的关联性。超熵是熵的不确定度量,即熵的熵,反映了在数域空间代表该语言值的所有点的不确定度的凝聚性,即云滴的凝聚度。56期望值: 在数域空间最能够代表这个定性概念的点,反映了云57正态云发生器的实现算法1.生成以En为期望值,He为方差的一个正态随机数En;2.生成以Ex为期望值,En为方差的一个正态随机数x;3.计算 4. 使(x , y)成为论域中的一个云滴;5. 重复步骤14直至要求数目的云滴产生。57正态云发生器的实现算法1

26、.生成以En为期望值,He为方差58逆向云发生器算法1 由Ex = 求得Ex;2 对每一对(xi, yi),由 求出Eni ;3 由En = 求得En;4 求Eni的均方差 得到He;58逆向云发生器算法1 由Ex = 59云模型的多种形态正态云 云其它多维云59云模型的多种形态正态云 云其它60例子: 射击评判射手乙射手甲射手丙评判人员:统计学家、模糊学家、 云理论研究者60例子: 射击评判射手乙射手甲射手丙评判人员:统计学家、模61射击评判统计学家用概率值表示射击效果;模糊学家用隶属度表示射击效果;裁判用总环数(模糊+统计)表示射击效果;人们用定性语言评价射击效果,云方法用3个数字特征表示

27、定性概念。61射击评判统计学家用概率值表示射击效果;62云评价方法略偏左上,比较离散,不稳定略偏右下,射点集中,较稳定射点靠近靶心,比较离散,不稳定62云评价方法略偏左上,比较离散,不稳定略偏右下,射点集中,63原始靶标还原10发弹着点还原100发弹着点63原始还原还原64误解:云方法是模糊方法 云方法没有仅仅停留在哲学上的思辩,也不能简单地说是概率方法或模糊方法,通过云模型实现定性概念和定量数据之间的转换是一个十分严格的数学方法,使得定性和定量之间的转换变得十分清晰、具体和可操作,同时又反映了转换过程的不确定性。64误解:云方法是模糊方法 云方法没有仅仅停留在哲学上65连续数据离散化对连续数

28、据,首先求得各数据点的频数,对其分布进行云变换,使之成为若干个大小不同的云的叠加,每个云代表一个离散的、定性的概念。数据转换为概念。65连续数据离散化对连续数据,首先求得各数据点的频数,对其分66原始数据分布拟合结果云变换连续数据离散化:云变换66原始数据分布拟合结果云变换连续数据离散化:云变换67概念的粒度 在人的意识活动中,思维的推进是与概念的转移和提升相联系的。转移和提升的跨度和路径也是多样的,我们可以把在一定层次上的思维模式看作是为原始思维活动拍摄的一张快照。反映概念对应的客观事物的粒度。概念的粒度可以用云模型中的熵度量。67概念的粒度 在人的意识活动中,思维的推68概念空间 概念空间

29、是指同一类概念的数域。例如,当讨论语言变量年龄这个范畴内的不同语言值时,如10岁左右、少年、青少年、中年、晚年等等概念,常常要明确它们在数域上所表现出的内涵和外延,以及相互之间的等价(相似)关系或从属(包含)关系。因此,不同信息粒度之间的概念在概念空间会形成层次的结构。68概念空间 概念空间是指同一类概念的数域69概念的层次结构 当讨论语言变量年龄这个范畴内的不同语言值(概念)时,常常要明确这些概念是大概念还是小概念,粗概念还是细概念,以及相互之间的等价(相似)关系或从属(包含)关系。因此,不同信息粒度之间的概念在概念空间会形成层次的结构,或者说是泛概念树结构。69概念的层次结构 当讨论语言变

30、量年龄这70不同年龄人的泛概念树少年 未成年人幼儿青年中年婴幼儿儿童小学生中青年中学生大学生所有成年人青壮年老年.70不同年龄人的泛概念树少年 未成年人幼儿青年中年婴幼71用云表示的泛概念树微观层中观层宏观层年龄71用云表示的泛概念树微观层中观层宏观层年龄72泛概念树可动态生成不同层次的概念体现了定性概念的随机性和模糊性体现不同层次概念间的多隶属关系反映了数据的实际分布情况泛概念树的爬升和跳跃72泛概念树可动态生成不同层次的概念73四、数据场和势函数 客体间的相互作用和数据场 势函数及其确定准则 用数据场思想进行特征提取和 模式识别73四、数据场和势函数 客体间的相互作用和数据场74数据场的引

31、入 学科的交叉渗透是当前科学发展的总趋势,对客观世界的认识和描述,无论是力学、热物理、电磁学和近代物理,从粒子到宇宙在不同尺度上都有场的作用。那么,人自身的认知和思维过程,从数据到信息到知识,是否也可以用场来描述?74数据场的引入 学科的交叉渗透是当前科学75物理场举例在一个质量为M的质点产生的引力场中,任一场点r处的势可以描述为:如果空间中存在多个质点,则r处的势等于每个质点单独产生的势的叠加,即75物理场举例在一个质量为M的质点产生的引力场中,任一场点r76数据与数据场 受物理场的启发,可将物质粒子间相互作用及其场描述方法扩展至抽象的数据空间。数据空间中的每个对象都相当于一个质点或核子,在

32、其周围产生一个球形对称的作用场,位于场内的所有对象都将受到其他对象的联合作用,从而在整个数据空间上形成一个场,我们称之为数据场。正如引力场、核力场可以用势函数描述,我们也引入势函数来描述数据场的性质。76数据与数据场 受物理场的启发,可将物质粒子间相77确定势函数形态的准则势函数具有各向同性,即对称性;势函数是定义在数域空间上的连续函数;势函数值随离开场源的距离增大而下降;表示势函数的连续函数,应该光滑,即可微。77确定势函数形态的准则势函数具有各向同性,即对称性;78可选的势函数形态拟引力场的势函数:拟核力场的势函数: 其中, 为以场源坐标为原点时场点的径向半径;参数k为一个正整数,用于调节

33、势函数的衰减特性;参数b(0,+),用于控制对象的作用范围,称为影响因子;参数a相当于质点或核子的质量代表数据场的强度。 78可选的势函数形态拟引力场的势函数: 其中, 为以79两种势函数形态比较拟引力场的势函数拟核力场的势函数79两种势函数形态比较拟引力场的势函数拟核力场的势函数80数据场的势函数定义 已知数据空间中的对象集 及其产生的数据场,则任一场点y处的势函数可以定义为所有对象在该点处产生的单位势值的叠加: 其中,为场点y与对象xi间的距离;80数据场的势函数定义 已知数据空间中的对象集 81数据场的可视化二维数据空间中的一个数据集及其产生的数据场等势线图81数据场的可视化二维数据空间

34、中的一个数据集及其产生的数据场82数据场扩展自然语言中的基本语言值是定性概念,由于每个定性概念都可以用一个数值型集合来表示其内涵和外延, 即对应着一个定量的数据子空间,称为概念空间。概念和概念之间也可以通过场相互作用,形成概念间的泛层次树,又称上、下位词表。人类思维过程中的对象,对应着一个定量的数据空间,反映对象的多个属性,称为特征空间。对象和对象之间也通过场相互作用,形成知识。概念空间和特征空间中的场统称为数据场。82数据场扩展自然语言中的基本语言值是定性概念,由于每个定性83我们将云滴的确定度视为场源的质量,显然,确定度高的云滴具有较强的作用场。右图中每个云滴的位置坐标和确定度为: A(1

35、0,12,0.6) B(10,10,1) C(13,11,0.3)8910111213141589101112131415ABC不同确定度的三个云滴形成的数据场等势线图83我们将云滴的确定度视为场源的质量,显然,确定度高的云滴具84用数据场思想进行特征提取和模式识别84用数据场思想进行特征提取和模式识别85ABCDEFGHIJ预处理后的人脸图像每幅图象的原始尺寸为 256 x 256 个像素点,256级灰度85ABCDEFGHIJ预处理后的人脸图像每幅图象的原始尺寸86灰度数据集映射成为数据场及势的局部极值ABCDEFGHIJ86灰度数据集映射成为数据场及势的局部极值ABCDEFGHI878.

36、6917308.41101913.612820J11.80192811.14101913.912718I12.45182911.8391814.082716H11.71182912.66101913.202619G10.96182812.80101913.142619F11.92182912.39101913.052619E11.25183012.05101812.812618D11.10182912.55101912.692619C10.92182911.88101913.292519B11.21193012.13101912.632619AVPYXVPYXVPYXThe third fea

37、tureThe second featureThe first featureNamefeature数据场的极值成为逻辑特征878.6917308.41101913.612820J1188二次生成数据场进行模式识别If we pick up an extreme local maximum potential value and its position as the most important feature for each face image, the facial feature data field for the ten face images may be, once aga

38、in, illustrated by a new isopotential lines.88二次生成数据场进行模式识别If we pick up a89Face identification with the first featureABCDEFGHIJ89Face identification with the90Isopotential lines show the similarities and outliers for the ten imagesACEFGBDIHJABCDEFGHIJ90Isopotential lines show the 91Face Recognition

39、 using Facial Main Feature Data FieldWe may also pick up N local maximum potential values and their positions as the main features for each face picture, the main feature data are calculated byThe main feature data field for the ten face picture is illustrated once again by equal potential lines.and

40、91Face Recognition using Faci92用多个特征值融合后的识别结果ABCDEFGHIJ92用多个特征值融合后的识别结果ABCDEFGHIJ93Face identification: discovering similarities and discriminationBCGEDFAHIJABCDEFGHIJ93Face identification: discove94用数据场方法看IRIS数据分类94用数据场方法看IRIS数据分类95IRIS原始数据集2.15.43.16.9Virginica 1.84.83.06.0Virginica Virginica 2.55

41、.73.36.7Virginica 2.35.93.26.8Virginica Versicolour 1.54.93.1 6.9Versicolour 1.54.53.26.4Versicolour 1.44.73.27.0Versicolour Setosa 0.21.43.65.0Setosa 0.21.33.24.7Setosa 0.21.43.04.9Setosa 0.21.43.55.1Setosa 花片宽度花瓣长度萼片宽度萼片长度类型95IRIS原始数据集2.15.43.16.9Virgini96数据预处理 对iris数据中的萼片属性和花瓣属性分别做降维处理,得到新的属性: 花瓣

42、张角=arctg(花瓣宽度/花瓣长度); 萼片张角=arctg(萼片宽度/萼片长度);96数据预处理 对iris数据中的萼片属性和花瓣属性分别97处理后数据集0.3393 0.4704Virginica0.4027 0.5016VirginicaVirginica0.4133 0.4577Virginica0.3717 0.4398VirginicaVersicolour0.29710.4223Versicolour0.32180.4636Versicolour0.28950.4288VersicolourSetosa0.13260.5930Setosa0.15260.5978Setosa 0

43、.14190.5494Setosa 0.14190.6015Setosa 花瓣张角萼片张角类型97处理后数据集0.3393 0.4704Virginica98预处理后数据分布98预处理后数据分布99从数据场平面分布看分类结果99从数据场平面分布看分类结果100从数据场立体分布看分类结果12.376019.00029.99463.4336100从数据场立体分布看分类结果12.376019.0002101五、认知场中的知识发现 数据挖掘与知识发现 发现状态空间 类谱图101五、认知场中的知识发现 数据挖掘与知识发现102数据挖掘与知识发现Data Mining and Knowledge Disc

44、overy从大量的、不完全的、有噪声的、模糊的、随机的实际应用的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。102数据挖掘与知识发现Data Mining and K103从数据中发现知识的难点大量甚至海量数据中,存在有数据的误差、畸变、丢失或过度重叠,以归纳为主的知识发现过程,实际上是建立在或多或少的病态数据之上;由种种案例数据反推对象的性质可认为是逆向思维,人们在命题、方法或结果三个方面会获得更多的目标选择。103从数据中发现知识的难点大量甚至海量数据中,存在有数据的数据挖掘数据选择预处理挖掘和发现知识解释和验证数据挖掘105SelectionPrepro

45、cessingTransformationData MiningInterpretation/EvaluationTraget DataProcessed DataTransformed DataPatternsKnowledgeDMKD系统的基本构成105SelectionPreprocessingTrans发现什么样的知识?关联知识聚类知识序列知识 分类知识预测知识相似时间序列发现什么样的知识?分类知识预测知识相似时间序列数据挖掘工具归纳演绎联想类比证伪数据挖掘工具归纳108数据挖掘与知识发现Data Mining and Knowledge Discovery 特定问题或特定环境下的数据

46、,是一种原始的、混乱的、不成形的自然状态积累,但又是一种可以从中生长出秩序和规则的源泉。如何透过表观上的千头万绪、混乱无规,去挖掘蕴含其中的规则性、有序性、相关性和离群性,这就是知识发现。108数据挖掘与知识发现Data Mining and K109DMKD的本质什么是数据?什么是信息?什么是知识?本质是归纳,是由微观到中观到宏观的抽象.瓶颈是数据、信息和知识表示的不确定性问题.109DMKD的本质什么是数据?什么是信息?什么是知识?110发现状态空间抽象程度AMTO110发现状态空间抽象程度AMTO111发现状态空间特征空间的对象通过场发生相互作用。如同物理学中粒子之间通过场(场量子)形成

47、强力、电磁力、弱力或引力的相互作用一样。对象在特征空间相互作用形成的场结构反映了对象的普遍知识(广义知识)。随着描述对象粒度(熵)越来越大,形成的普遍知识越来越宏观。发现了的知识上升到抽象级别更高的层次。20世纪的物理学的发展是简化归纳。数据挖掘的本质也是简化归纳。111发现状态空间特征空间的对象通过场发生相互作用。如同物理112人类的认知过程是对复杂对象关系的中观、宏观的知识发现过程,是对象所在的特征空间的微观数据通过用自然语言表述的不同抽象度概念的非线性相互作用下涌现(突现)的自组织特性。112人类的认知过程是对复杂对象关系的中观、宏观的知识发现过113发现状态空间 = (特征空间|概念粒

48、度) 113发现状态空间 =114数据挖掘过程,实际上是从不同的抽象度上认识数据。所谓微观、中观、宏观,就是可视化的称谓。因此,数据挖掘需要各级视图的支持。114数据挖掘过程,实际上是从不同的抽象度上认识数据。所谓微115随着抽象度的提高:描述每个属性中的概念的粒度越来越大;特征空间对象之间的关系越来越普遍;发现的知识逐步由微观走向中观、宏观;整个归纳过程形成发现状态空间的不断转换。115随着抽象度的提高:描述每个属性中的概念的粒度越来越大;116对象属性的选取形成不同视图,好比是从不同角度投射到客体的不同光柱,它们各有所见不及之处,但也各自照亮了不同景象。116对象属性的选取形成不同视图,好

49、比是从不同角度投射到客体117从不同距离观察客体群,各有所见之景象。通过推拉镜头,可以改变观察的距离,形成不同粒度的视图。117从不同距离观察客体群,各有所见之景象。通过推拉镜头,可118特征空间 当我们讨论一个客体(对象、事物、案例、记录等)具有不同属性或特征时,常常用特征空间作为讨论问题的范畴,N个属性或特征,构成N维空间。这时,这个客体成为特征空间的一个点。特征空间任何一点的势可认为是所有客体在这一点的势的叠加。118特征空间 当我们讨论一个客体(对象、119特征空间的聚类和类谱图 当我们进行数据挖掘时,将数据库中的一条记录按照其N个属性,把这条记录映射到特征空间中的一个特定点上,成千上

50、万的记录在特征空间是成千上万个点,整体上呈现出的抱团特性,可以通过嵌套的等势线(面)-自然的拓扑结构,形成自然的聚类和类谱图。119特征空间的聚类和类谱图 当我们进行数120分类和聚类研究的基础性 分类和聚类,乃是人类社会活动、生产活动以及科研活动中最基本、最重要的活动之一。分类和聚类研究的基础性决定了其应用的普遍性。120分类和聚类研究的基础性 分类和聚类,121场方法发现聚类知识姓名工龄(月)工资(千元)A3030B5030C4070D6070E7050121场方法发现聚类知识姓名工龄(月)工资(千元)A3030122304050607080工龄304050607080工资ABCDE特征空

51、间5个对象的自然聚类122304050607080工龄304050607080工1235个对象构成的泛类谱系图ABCDE1235个对象构成的泛类谱系图ABCDE124特征空间的3000个对象的自然聚类ABC304050607080工龄304050607080工资ABCDE124特征空间的3000个对象的自然聚类ABC304050125和传统聚类方法的比较:通常,人们用N个客体中的N1个样本作为训练集去形成聚类结果,用N-N1个样本作为测试集去验证聚类效果。实际上,这就宣布了只有这N1个样本才对聚类有贡献,若N=100,极端地设想N1=2或 N1=98,必然会有不同结果。如何确定N1并选取那些样

52、本为N1,成为一个大问题,也暴露出这种方法的缺陷。125和传统聚类方法的比较:通常,人们用N个客体中的N1个样126和传统聚类方法的比较:从极微观上看,这N个客体各自都有体现自身价值的不同特征,差异是绝对的,最严最细的分法应该是N类。从极宏观上看,这N个客体既然被用若干特征放到一起比较,说明具有可比性,可以统属一类。在发现状态空间不同概念层次上聚类,以及聚类的相对性,就是我们的聚类观。126和传统聚类方法的比较:从极微观上看,这N个客体各自都有127知识就是不同层次上的“规则+例外”127知识就是不同层次上的“规则+例外”128304050607080工龄304050607080工资去除例外后

53、的聚类图AC304050607080工龄304050607080工资128304050607080工龄304050607080工129304050607080工龄304050607080工资304050607080工龄304050607080工资3000个对象中类和离群的相对性129304050607080工龄304050607080工130信息粒度粒度(Granularity)原本是一个物理学的概念,是指“微粒大小的平均度量”,在这里被借用作为对概念的抽象度的度量。把概念可视化。概念的粒度用云的熵来度量。概念在定量空间的位置用云的期望值来标定。130信息粒度粒度(Granularity)原本

54、是一个物理学131信息粒度 人类智能的一个公认特点是人们能够从极不相同的粒度上观察和分析同一问题,各有各的用处。人们不仅能够在同一粒度的世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如;甚至具有同时处理不同粒度世界的能力。这正是人类问题求解的强有力的表现。131信息粒度 人类智能的一个公认特点是人们能够从极不相132观察距离:境界决定了认知的高度从较细的粒度世界跃升到较粗的粒度世界,是对信息或知识的抽象,可以使问题简化,数据处理量大大减少,这一过程称为数据简约或归约。换句话说,用粗粒度观察和分析信息,就是增加观察距离,忽略细微的差别,寻找共性。共性常常比个性更深刻,

55、可以求得宏观的把握。132观察距离:境界决定了认知的高度从较细的粒度世界跃升到较133观察距离:境界决定了认知的高度反过来,缩短观察距离,用细粒度观察和分析信息,发现纷繁复杂的表象,更准确地区分差别,个性要比共性丰富,但是不能完全进入共性之中。通过概念提升, 就是增加观察距离,可以发现更普遍的知识。133观察距离:境界决定了认知的高度反过来,缩短观察距离,用134拉镜头发现特征空间的宏观知识:属性方向和宏元组方向的概括性加大;知识模板的物理尺寸减小。从较细的粒度跃升到较粗的粒度世界,是对数据的抽象,简化问题,减少数据量,这一过程称为数据的归约。忽略细微的差别,寻找共性。共性常常比个性更深刻。1

56、34拉镜头发现特征空间的宏观知识:属性方向和宏元组方向的135推镜头发现特征空间的微观知识:在发现空间的某个抽象层次上,缩短观察距离,用较细粒度观察和分析信息,发现纷繁复杂的表象,更准确地区分差别;个性要比共性丰富,但是不能完全进入共性之中。135推镜头发现特征空间的微观知识:在发现空间的某个抽象层136发现策略和方法发现是微观和宏观之间的跳跃,是信息粒度的变化,或者说是观察距离的不同;综合运用归纳、类比、联想,并结合证伪和演绎,形成五大手段;以云模型作为定性定量转换和知识表示的工具。具体发现方法可以是多种多样的。136发现策略和方法发现是微观和宏观之间的跳跃,是信息粒度的137知识发现机理数

57、据挖掘揭示了人类由个别到一般、从具体到抽象的“数据概念规则”的认知规律。概念是认知的基元;数据是形成概念的要素;规则是在不同概念层次上客体之间的关联;不同抽象度的知识,实际上是不同概念层次上的“规则加例外”而已;境界决定了认知的高度。认知物理学用计算机具体实现了这一规律的发现过程。137知识发现机理数据挖掘揭示了人类由个别到一般、从具体到抽138从数据开采的角度看专家系统:专家系统是正向方式认识世界,以演绎为主;数据开采是逆向方式认识世界,以归纳为主。通过数据开采来发现知识的过程,就是构造专家系统、生成知识库的过程。138从数据开采的角度看专家系统:专家系统是正向方式认识世界139The Ex

58、perimental Database139The Experimental Database140Mining Association RulesApriori algorithmCloud based generalization as preprocessing2D clouds : location1D clouds : elevation, road density, distance to the sea, average incomeMinimum Support : 6% Minimum Confidence : 75%Mining association at multiple concept levels140Mining Association RulesApr141Discovered Association Rules for “average income”Rule 1 : If location is “southeast”, road density is “high”, and distance to the sea is “close”,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论