




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能和认知物理学ArtificialIntelligenceandCognitivePhysics李德毅ziqin@11月25日第1页1认知科学——研究人类怎样获取知识和使用知识
数据挖掘——让机器模拟人智能从数据中发觉知识第2页2目录人工智能50年发展回顾20世纪物理学成就不确定性认知原子模型数据场和势函数认知场中知识发觉第3页3一、人工智能50年发展回顾人工智能兴起智能判定标准人工智能研究不一样切入点人工智能研究目标第4页4人工智能自诞生之日起就引发人们无限漂亮想象和憧憬;已经成为学科交叉发展中一盏明灯,光芒四射;但其理论起伏跌宕,也存在争议和误解。第5页5人工智能兴起数学家和逻辑学家;认知学家和心理学家;神经生理学家;计算机科学家1956年著名“达特茅斯(Dartmouth)会议”标志人工智能学科诞生,它从一开始就是交叉学科产物。与会者有:
第6页6人工智能兴起达特茅斯会议上,明斯基(MarvinMinsky)神经网络模拟器、麦卡锡(JohnMccarthy)搜索法、以及西蒙(HerbertSimon)和纽厄尔(AllenNewell)“逻辑理论家”是会议3个亮点。分别讨论怎样穿过迷宫,怎样搜索推理和怎样证实数学定理。这是早期人们期待人工智能。第7页7人工智能经典著作由费根鲍姆主编《ComputersandThought》被认为是世界上第一本人工智能经典专著,含21篇著名论文,1963年出版。80年代出版1-4卷《TheHandbookofArtificialIntelligence》是人工智能杠鼎之作。第8页8人工智能研究出色人物20世纪40位图灵奖取得者中有6名人工智能学者,可见人工智能学科影响之深远。
1969年:马文·明斯基1971年:约翰·麦卡锡1975年:赫伯特·西蒙和艾伦·纽厄尔1994年:爱德华·费根鲍姆和劳伊·雷迪第9页9智能判定标准图灵(Turing)测试:假如机器在与人隔离房间回答人提出问题,且人无法判断回答下列问题是机器还是人时,则应该认为机器已经具备人智能。第10页10猴子摘香蕉第11页11梵塔游戏
初始柱替换柱目柱第12页12计算机下棋:1997年IBM“深蓝”计算机以2胜3平1负战绩战胜国际象棋冠军卡斯帕罗夫,“深蓝”计算速度为200万棋步/秒,采取启发式搜索方法;在与下棋领域含有类似性质和类似复杂性问题上,计算机具备有智能。第13页13计算机下棋:卡斯帕罗夫自1990年称霸国际象棋棋坛,年举行国际世界象棋冠军比赛中,克拉莫尼克以8:6领先卡斯帕罗夫。“深蓝”计算机能否打败克拉莫尼克?也就是说,“深蓝”计算机智能能否“与时俱进”?第14页14追求智能三步曲1)啊!真了不起!2)啊!是这么啊!3)啊!这也算智能吗?4)又回到第一步。
第15页15人工智能研究对象不确定非线性不完全变结构多变量分布式第16页16人工智能应用人工智能实际应用越来越普遍。智能机器人、智能控制、智能网络、智能手机、智能数据库、智能管理、智能小区、智能交通、甚至智能经济等等不绝于耳,知识就是力量。第17页17人工智能研究切入点先后出现了3个主流学派:符号主义方法--逻辑学派联结主义方法--仿生学派行为主义方法--控制论学派
第18页18符号主义学派(西蒙和纽厄尔为代表)物理符号系统假说(physicalsymbolsystemhypothesis)。由一组称为符号实体组成系统,这些符号可作为组份出现在另一符号实体中。任何时候系统内部都有一组符号结构,以及作用在这些符号结构上生成其它符号结构一组过程。任一物理符号系统假如是有智能,则必能执行对符号输入、输出、存放、复制、条件转移和建立符号结构这么6种操作。反之,能执行这6种操作任何系统,也就一定能够表现出智能。第19页19符号主义学派认知基元是符号,智能行为经过符号操作来实现,以美国科学家Robinson提出归结原理为基础,以Lisp和Prolog语言为代表;着重问题求解中启发式搜索和推理过程,在逻辑思维模拟方面取得成功,如自动定理证实和教授系统;归结原理不可能成为全部数学分支证实基础,问题求解和逻辑推理本质仅仅是演译。第20页20联结主义学派(J.J.Hopfield为代表)人思维基元是神经元,把智能了解为相互联结神经元竞争与协作结果,以人工神经网络为代表,其中,反向传输网络模型(BP)和Hopfield网络模型更为突出;着重结构模拟,研究神经元特征、神经元网络拓朴、学习规则、网络非线性动力学性质和自适应协同行为。第21页21遗传算法和进化计算:1975年,JohnHolland提出遗传算法(GeneticAlgorithm),模仿生物染色体中基因选择(selection)、交叉(crossover)和变异(mutation)自然进化过程,经过个体结构重组,形成一代代新群体(populations),最终收敛于近似优化解。用于处理多变量、非线性、不确定、甚至混沌大搜索空间有约束优化问题;第22页22麻将原理:刚发到手牌就“和”了概率是非常非常小。不论开始手中牌有多坏,经过一次次摸牌、选择、淘汰,能够逐步迫近到最优解。这相当进化中变异和选择原理。麻将魅力在于能够在容忍时间内让牌“和”了。遗传算法和进化计算收敛性问题。第23页23行为主义学派(R.A.Brooks为代表)控制论研究造成机器人和智能控制,机器人是“感知--行为”模式,是没有知识智能(iwk,iwr),强调直觉和反馈主要性;智能行为表达在系统与环境交互之中,功效、结构和智能行为不可分割。90年代起智能Agent成为新热点。它是一个自治、含有自发行为、表达交互性和环境适应性新型智能机模型,含有移动性、推理、规划、学习和适应能力。第24页24行为主义学派反馈是控制论基石,没有反馈就没有智能。依据目标与实际行为之间误差来消除此误差控制策略。PID控制是控制论对付不确定性最基本伎俩。强调智能系统与环境交互,从运行环境中获取信息(感知),经过自己动作对环境施加影响。第25页25当前,以实际问题驱动人工智能研究成为主流。人工智能不再是阳春白雪,尤其是数据挖掘技术,要以机器再现人类认识过程方式,为认知科学提供了一个新实体模型和实在形式。第26页26研究热点模式识别智能检索教授系统自然语言了解知识工程数据挖掘智能控制智能机器人第27页27人工智能三次大跃进第一次:智能系统代替人完成部分逻辑推理工作,如教授系统。
第二次:智能系统能够和环境交互,从运行环境中获取信息,代替人完成包含不确定性在内部分思维工作,经过本身动作,对环境施加影响,并适应环境改变。如智能机器人。
第三次:智能系统含有类人认知和思维能力,能够发觉新知识,去完成面临任务,如基于数据挖掘系统。第28页28人工智能目标:程序==智能?计算==思维?计算机==电脑?目标:以机器方式再现人智能第29页29二、20世纪物理学成就物质层次结构和原子物理模型场理论和四种相互作用第30页30物质层次结构和原子物理模型能够把物质组成层次看成一个个等级,眼前物体看成是宏观,天体看成是宇观,把分子和原子作为界标,比它们小物质能够称之为微观。原子这个层次十分主要。原子模型提出与演进,从开尔文模型、汤姆孙模型、勒纳德模型、长冈模型、尼克尔森模型直到卢瑟福原子有核结构模型,以及原子核模型,都表明构思物质组成模型是一个普遍有效科学方法。原子物理模型成为人类认识世界五个里程碑之一。第31页31物理学中势场场可视为一个充满能量空间。比如,将一个位于无穷远处电荷移至电场中需要消耗能量。场在某点P(r)处单位作功效力被称为该点势,记为(r)。势函数(r)是一个关于场点位置标量函数,它在场空间中组成一个标量场,即势场。第32页32梯度、散度与旋度梯度是描述标量场改变特征矢量函数,它能够将一个标量场转换为矢量场,也能够经过引入一个辅助标量函数来分析简化矢量场。散度、旋度是描述矢量场两个固有特征:源密度和旋涡密度物理量。在最普通情况下,一个矢量场总能够被看作由一个有源场和一个旋涡场叠合组成,如电磁场。所以一个含义不明矢量场只有当搞清它两个分量各自贡献和物理本质后,即已知它散度和旋度后才算明确。第33页33梯度场与旋度场、散度场梯度场=有势场=有源场=保守场=无旋场第34页34电场和引力场势函数电场势函数引力场势函数从静电场和引力场势函数计算中能够发觉,两种场物理机制即使各不相同,但在数学形态上却非常相同,即空间区域中不一样物质粒子相互作用数学本质是相同或相近。第35页35物理学中四种相互作用牛顿万有引力定律(引力反比于距离平方)认为在多质点系中存在两两相互作用引力场和引力势能。库伦定律(电力反比于距离平方)认为电荷之间经过电场相互作用,用电场线和等势线可使电场分布形象化。含有相等电势点组成等势面。第36页36物理学中四种相互作用核物理认为,核子之间、核子与介子之间,经过夸克间交换胶子实现强相互作用。这就是力程甚短核力。按照普适费米理论,弱相互作用是一个点作用,不包括到任何场。以后人们发觉这一观点有问题。1984年若贝尔奖被授予鲁比亚(CarloRubbia)和范得米尔(SimonVanderMeer)以表彰他们发觉弱作用场量子W+¯和Z出色贡献。第37页37物理学大统一理论假如以强相互作用强度为1话,电磁相互作用强度,其值约为10-2;弱相互作用约为10-13∽10-19;引力相互作用最弱,约为10-39。物理学家一直企图将这四种相互作用进行统一。爱因斯坦努力了,没有取得结果。真正取得进展是量子场论。量子电动力学解释了电磁相互作用;量子色动力学解释了强相互作用,又将弱相互作用与电磁相互作用进行统一,即温伯格-萨拉姆电弱统一理论。大统一理论到现在还缺乏试验验证。第38页38三、不确定性认知原子模型
人类思维基本单元云模型及其数字特征正向云发生器和逆向云发生器连续数据离散化(概念化)概念粒度、概念空间和泛概念树第39页39人类思维活动层次性生命科学可还原成不一样层次:如脑生物化学层次和神经结构层次。认知活动可能对应着一定生理上化学、电学改变。不过,当前生命科学还不能在思维活动与亚细胞化学、电学层次活动建立确切关系。如:一个概念怎样以生物学形式存放,它与其它概念发生联络生物学过程是什么。也不能决定什么样神经结构能够决定着哪些认知模式发生。第40页40人类思维活动层次性当前从脑生物化学层次和神经结构层次研究认知活动还有困难。再说,如同我们不能从最基础硅芯片活动来推测计算机网络上电子邮件行为一样,我们又怎么能够构想从分析单个离子、神经元、突触性质就能够推断人脑认知和思维活动呢?系统论关于系统整体特征不是由低层元素加和而成原理对还原论提出质疑。所以,人工智能研究当前需要找到一个适当层次和单元,向上模拟人类认知和思维活动。第41页41人类思维活动工具自然语言使人类取得一个强有力思维工具,这是不争事实,起到展现和保留思维对象及组织思维过程作用。它是其它各种形式化系统(语言)基础,派生出像计算机语言这么特殊语言,也派生出包含各种专业理论专门化语言,如数学语言。这些符号组成形式系统,又成为新一级形式化。第42页42数学汉语
外语
自然语言符号语言自然语言和符号语言第43页43人类思维活动工具自然语言中语言值表示概念,最基本语言值代表最基本概念,成为思维原子模型。同时,概念含有层次性。第44页44概念—人类思维基本单元客观世界包括物理对象,主观世界从认知单元和它指向物理对象开始,反应了主客观内外联络特征。任何思维活动都是指向一定对象,经过对象存在到主观意识本身存在。概念作为外部事物在主观认知中对应物成为思维活动基本单元。不过概念不是孤立,它同外部背景有着种种联络,是演变和流动过程。所以,概念必定含有不确定性,甚至包含盲目性和散漫性。第45页45概念形成:学习和记忆标准特征是概念一个组成部分,是用来确认某一详细样例属于该类别必要或充分条件。原型在概念中占有尤其地位。含糊边界和不清楚样例是概念普遍情况。在一个概括性更高而详细性更低组织水平上,下位概念作为一个样例被使用,形成基本水平、下位水平和上位水平层次结构(basiclever/subordinatelevel/superordinatelever)。概念形成是屡次重复学习和记忆过程。第46页46困扰人工智能认知模型怎样表示用自然语言表述定性知识?怎样反应自然语言中不确定性,尤其是含糊性和随机性?怎样实现定性和定量知识之间相互转换?怎样表达语言思索中软推理能力?第47页47知识表示人工智能要以机器为载体模仿以人脑为载体人思维活动——智能,必须找到在人脑和机器两种载体之间建立联络伎俩,而这个任务正是由形式化来担当。知识表示形式化在人工智能中居于方法论主要地位。第48页48认知模型(CognitiveModeling) 云由许许多多云滴组成,每一个云滴就是这个定性概念映射到数域空间一个点,即一次反应量样例实现。这种实现带有不确定性,模型同时给出这个点能够代表该定性概念确实定程度。第49页49云图可视化方法一给出云滴在数域(一维、二维或多维)位置,用一个点表示一个云滴;同时,用该点辉度表示出这个云滴能够代表概念确实定度。第50页50
“靠近坐标原点左右”10000个量化云滴。任何一个云滴都能够在一定程度上代表这个概念。第51页51云图可视化方法二用数域里一个圈或球表示一个云滴,其中心反应云滴在数域位置;同时,圈或球大小表示出这个云滴能够代表概念确实定度。第52页52-3-2-1123-3-2-1123
“靠近坐标点左右”200个量化云滴。任何一个云滴都能够在一定程度上代表这个概念。第53页53云图可视化方法三用N+1维表示,N维空间点表示云滴在数域位置,另一维表示这个云滴能够代表概念确实定度。第54页54不同数值代表语言值“20km左右”确定程度第55页55不一样数值代表平面上点“靠近中心”确实定程度第56页56期望值:在数域空间最能够代表这个定性概念点,反应了云滴群重心位置。云数字特征双重性ExEnHe熵一方面反映了在数域空间可被概念接收范围,即含糊度,是定性概念亦此亦彼性度量;其次还反映了在数域空间点能够代表这个概念概率,表示定性概念云滴出现随机性。熵揭示了含糊性和随机性关联性。超熵是熵不确定度量,即熵熵,反应了在数域空间代表该语言值全部点不确定度凝聚性,即云滴凝聚度。第57页57正态云发生器实现算法1.生成以En为期望值,He为方差一个正态随机数En’;2.生成以Ex为期望值,En’为方差一个正态随机数x;3.计算4.使(x,y)成为论域中一个云滴;5.重复步骤1~4直至要求数目标云滴产生。第58页58逆向云发生器算法1由Ex=求得Ex;2对每一对(xi,yi),由求出Eni;3由En=求得En;4求Eni均方差得到He;第59页59云模型各种形态正态云云其它多维云第60页60例子:射击评判射手乙射手甲射手丙评判人员:统计学家、含糊学家、云理论研究者第61页61射击评判统计学家用概率值表示射击效果;含糊学家用隶属度表示射击效果;裁判用总环数(含糊+统计)表示射击效果;人们用定性语言评价射击效果,云方法用3个数字特征表示定性概念。第62页62云评价方法略偏左上,比较离散,不稳定略偏右下,射点集中,较稳定射点靠近靶心,比较离散,不稳定第63页63原始靶标还原10发弹着点还原100发弹着点第64页64误解:云方法是含糊方法╳
云方法没有仅仅停留在哲学上思辩,也不能简单地说是概率方法或含糊方法,经过云模型实现定性概念和定量数据之间转换是一个十分严格数学方法,使得定性和定量之间转换变得十分清楚、详细和可操作,同时又反应了转换过程不确定性。第65页65连续数据离散化对连续数据,首先求得各数据点频数,对其分布进行云变换,使之成为若干个大小不一样云叠加,每个云代表一个离散、定性概念。数据转换为概念。第66页66原始数据分布拟合结果云变换连续数据离散化:云变换第67页67概念粒度在人意识活动中,思维推进是与概念转移和提升相联络。转移和提升跨度和路径也是多样,我们能够把在一定层次上思维模式看作是为原始思维活动拍摄一张快照。反应概念对应客观事物粒度。概念粒度能够用云模型中熵度量。第68页68概念空间概念空间是指同一类概念数域。比如,当讨论语言变量—年纪这个范围内不一样语言值时,如10岁左右、少年、青少年、中年、晚年等等概念,经常要明确它们在数域上所表现出内涵和外延,以及相互之间等价(相同)关系或隶属(包含)关系。所以,不一样信息粒度之间概念在概念空间会形成层次结构。第69页69概念层次结构当讨论语言变量—年纪这个范围内不一样语言值(概念)时,经常要明确这些概念是大约念还是小概念,粗概念还是细概念,以及相互之间等价(相同)关系或隶属(包含)关系。所以,不一样信息粒度之间概念在概念空间会形成层次结构,或者说是泛概念树结构。第70页70不一样年纪人泛概念树少年未成年人幼儿青年中年婴幼儿儿童小学生中青年中学生大学生全部成年人青壮年老年…...第71页71用云表示泛概念树微观层中观层宏观层年纪第72页72泛概念树可动态生成不一样层次概念表达了定性概念随机性和含糊性表达不一样层次概念间多隶属关系反应了数据实际分布情况泛概念树爬升和跳跃第73页73四、数据场和势函数
客体间相互作用和数据场势函数及其确定准则用数据场思想进行特征提取和模式识别第74页74数据场引入学科交叉渗透是当前科学发展总趋势,对客观世界认识和描述,不论是力学、热物理、电磁学和近代物理,从粒子到宇宙在不一样尺度上都有场作用。那么,人本身认知和思维过程,从数据到信息到知识,是否也能够用场来描述?第75页75物理场举例在一个质量为M质点产生引力场中,任一场点r处势能够描述为:假如空间中存在多个质点,则r处势等于每个质点单独产生势叠加,即第76页76数据与数据场受物理场启发,可将物质粒子间相互作用及其场描述方法扩展至抽象数据空间。数据空间中每个对象都相当于一个质点或核子,在其周围产生一个球形对称作用场,位于场内全部对象都将受到其它对象联合作用,从而在整个数据空间上形成一个场,我们称之为数据场。正如引力场、核力场能够用势函数描述,我们也引入势函数来描述数据场性质。第77页77确定势函数形态准则势函数含有各向同性,即对称性;势函数是定义在数域空间上连续函数;势函数值随离开场源距离增大而下降;表示势函数连续函数,应该光滑,即可微。第78页78可选势函数形态拟引力场势函数:拟核力场势函数:其中,为以场源坐标为原点时场点径向半径;参数k为一个正整数,用于调整势函数衰减特征;参数b∈(0,+∞),用于控制对象作用范围,称为影响因子;参数a相当于质点或核子质量代表数据场强度。
第79页79两种势函数形态比较拟引力场势函数拟核力场势函数第80页80数据场势函数定义已知数据空间中对象集及其产生数据场,则任一场点y处势函数能够定义为全部对象在该点处产生单位势值叠加:
其中,为场点y与对象xi间距离;第81页81数据场可视化二维数据空间中一个数据集及其产生数据场等势线图第82页82数据场扩展自然语言中基本语言值是定性概念,因为每个定性概念都能够用一个数值型集合来表示其内涵和外延,即对应着一个定量数据子空间,称为概念空间。概念和概念之间也能够经过场相互作用,形成概念间泛层次树,又称上、下位词表。人类思维过程中对象,对应着一个定量数据空间,反应对象多个属性,称为特征空间。对象和对象之间也经过场相互作用,形成知识。概念空间和特征空间中场统称为数据场。第83页83我们将云滴确实定度视为场源质量,显然,确定度高云滴含有较强作用场。右图中每个云滴位置坐标和确定度为:A(10,12,0.6)B(10,10,1)C(13,11,0.3)8910111213141589101112131415ABC不一样确定度三个云滴形成数据场等势线图第84页84用数据场思想进行特征提取和模式识别第85页85ABCDEFGHIJ预处理后人脸图像每幅图象原始尺寸为256x256个像素点,256级灰度第86页86灰度数据集映射成为数据场及势局部极值ABCDEFGHIJ第87页878.6917308.41101913.612820J11.80192811.14101913.912718I12.45182911.8391814.082716H11.71182912.66101913.202619G10.96182812.80101913.142619F11.92182912.39101913.052619E11.25183012.05101812.812618D11.10182912.55101912.692619C10.92182911.88101913.292519B11.21193012.13101912.632619AVPYXVPYXVPYXThethirdfeatureThesecondfeatureThefirstfeatureNamefeature数据场极值成为逻辑特征第88页88二次生成数据场进行模式识别Ifwepickupanextremelocalmaximumpotentialvalueanditspositionasthemostimportantfeatureforeachfaceimage,thefacialfeaturedatafieldforthetenfaceimagesmaybe,onceagain,illustratedbyanewisopotentiallines.第89页89Faceidentificationwiththefirstfeature
ABCDEFGHIJ第90页90IsopotentiallinesshowthesimilaritiesandoutliersforthetenimagesACEFGBDIHJABCDEFGHIJ第91页91FaceRecognitionusingFacialMainFeatureDataFieldWemayalsopickupNlocalmaximumpotentialvaluesandtheirpositionsasthemainfeaturesforeachfacepicture,themainfeaturedataarecalculatedbyThemainfeaturedatafieldforthetenfacepictureisillustratedonceagainbyequalpotentiallines.and第92页92用多个特征值融合后识别结果ABCDEFGHIJ第93页93Faceidentification:discoveringsimilaritiesanddiscriminationBCGEDFAHIJABCDEFGHIJ第94页94用数据场方法看IRIS数据分类第95页95IRIS原始数据集6.9Virginica6.0Virginica…………Virginica6.7Virginica6.8Virginica…………Versicolour6.9Versicolour6.4Versicolour7.0Versicolour…………Setosa
5.0Setosa
4.7Setosa
4.9Setosa
5.1Setosa
花片宽度花瓣长度萼片宽度萼片长度类型第96页96数据预处理对iris数据中萼片属性和花瓣属性分别做降维处理,得到新属性:花瓣张角=arctg(花瓣宽度/花瓣长度);萼片张角=arctg(萼片宽度/萼片长度);第97页97处理后数据集0.33930.4704Virginica0.40270.5016Virginica……Virginica0.41330.4577Virginica0.37170.4398Virginica……Versicolour0.29710.4223Versicolour0.32180.4636Versicolour0.28950.4288Versicolour……Setosa0.13260.5930Setosa0.15260.5978Setosa
0.14190.5494Setosa
0.14190.6015Setosa
花瓣张角萼片张角类型第98页98预处理后数据分布第99页99从数据场平面分布看分类结果第100页100从数据场立体分布看分类结果12.376019.00029.99463.4336第101页101五、认知场中知识发觉
数据挖掘与知识发觉发觉实状况态空间类谱图第102页102数据挖掘与知识发觉
DataMiningandKnowledgeDiscovery从大量、不完全、有噪声、含糊、随机实际应用数据中,提取隐含在其中、人们事先不知道、但又是潜在有用信息和知识过程。第103页103从数据中发觉知识难点大量甚至海量数据中,存在有数据误差、畸变、丢失或过分重合,以归纳为主知识发觉过程,实际上是建立在或多或少病态数据之上;由种种案例数据反推对象性质可认为是逆向思维,人们在命题、方法或结果三个方面会取得更多目标选择。第104页104数据挖掘数据选择预处理挖掘和发觉知识解释和验证第105页SelectionPreprocessingTransformationDataMiningInterpretation/EvaluationTragetDataProcessedDataTransformedDataPatternsKnowledgeDMKD系统基本组成第106页106发觉什么样知识?关联知识聚类知识序列知识
分类知识预测知识相同时间序列第107页数据挖掘工具归纳演绎联想类比证伪第108页数据挖掘与知识发觉
DataMiningandKnowledgeDiscovery特定问题或特定环境下数据,是一个原始、混乱、不成形自然状态积累,但又是一个能够从中生长出秩序和规则源泉。怎样透过表观上千头万绪、混乱无规,去挖掘蕴含其中规则性、有序性、相关性和离群性,这就是知识发觉。第109页109DMKD本质什么是数据?什么是信息?什么是知识?本质是归纳,是由微观到中观到宏观抽象.瓶颈是数据、信息和知识表示不确定性问题.第110页110发觉实状况态空间抽象程度AMTO第111页111发觉实状况态空间特征空间对象经过场发生相互作用。如同物理学中粒子之间经过场(场量子)形成强力、电磁力、弱力或引力相互作用一样。对象在特征空间相互作用形成场结构反应了对象普遍知识(广义知识)。伴随描述对象粒度(熵)越来越大,形成普遍知识越来越宏观。发觉了知识上升到抽象级别更高层次。20世纪物理学发展是简化归纳。数据挖掘本质也是简化归纳。第112页112人类认知过程是对复杂对象关系中观、宏观知识发觉过程,是对象所在特征空间微观数据经过用自然语言表述不一样抽象度概念非线性相互作用下涌现(突现)自组织特征。第113页113发觉实状况态空间==(特征空间|概念粒度)
第114页114数据挖掘过程,实际上是从不一样抽象度上认识数据。所谓微观、中观、宏观,就是可视化称谓。所以,数据挖掘需要各级视图支持。第115页115伴随抽象度提升:描述每个属性中概念粒度越来越大;特征空间对象之间关系越来越普遍;发觉知识逐步由微观走向中观、宏观;整个归纳过程形成发觉实状况态空间不停转换。第116页116对象属性选取形成不一样视图,好比是从不一样角度投射到客体不一样光柱,它们各有所见不及之处,但也各自照亮了不一样景象。第117页117从不一样距离观察客体群,各有所见之景象。经过推拉镜头,能够改变观察距离,形成不一样粒度视图。第118页118特征空间当我们讨论一个客体(对象、事物、案例、记录等)具有不一样属性或特征时,经常用特征空间作为讨论问题范围,N个属性或特征,组成N维空间。这时,这个客体成为特征空间一个点。特征空间任何一点势可认为是全部客体在这一点势叠加。第119页119特征空间聚类和类谱图当我们进行数据挖掘时,将数据库中一条统计按照其N个属性,把这条统计映射到特征空间中一个特定点上,成千上万统计在特征空间是成千上万个点,整体上展现出抱团特征,能够经过嵌套等势线(面)--自然拓扑结构,形成自然聚类和类谱图。第120页120分类和聚类研究基础性分类和聚类,乃是人类社会活动、生产活动以及科研活动中最基本、最主要活动之一。分类和聚类研究基础性决定了其应用普遍性。第121页121场方法发觉聚类知识姓名工龄(月)工资(千元)A3030B5030C4070D6070E7050第122页122304050607080工龄304050607080工资ABCDE特征空间5个对象自然聚类第123页1235个对象组成泛类谱系图ABCDE第124页124特征空间3000个对象自然聚类
ABC304050607080工龄304050607080工资ABCDE第125页125和传统聚类方法比较:通常,人们用N个客体中N1个样本作为训练集去形成聚类结果,用N-N1个样本作为测试集去验证聚类效果。实际上,这就宣告了只有这N1个样本才对聚类有贡献,若N=100,极端地构想N1=2或N1=98,必定会有不一样结果。怎样确定N1并选取那些样本为N1,成为一个大问题,也暴露出这种方法缺点。第126页126和传统聚类方法比较:从极微观上看,这N个客体各自都有表达本身价值不一样特征,差异是绝正确,最严最细分法应该是N类。从极宏观上看,这N个客体既然被用若干特征放到一起比较,说明含有可比性,能够统属一类。在发觉实状况态空间不一样概念层次上聚类,以及聚类相对性,就是我们聚类观。第127页127知识就是不一样层次上“规则+例外”第128页128304050607080工龄304050607080工资去除例外后聚类图AC304050607080工龄304050607080工资第129页129304050607080工龄304050607080工资304050607080工龄304050607080工资3000个对象中类和离群相对性第130页130信息粒度粒度(Granularity)原本是一个物理学概念,是指“微粒大小平均度量”,在这里被借用作为对概念抽象度度量。把概念可视化。概念粒度用云熵来度量。概念在定量空间位置用云期望值来标定。第131页131信息粒度人类智能一个公认特点是人们能够从极不相同粒度上观察和分析同一问题,各有各用处。人们不但能够在同一粒度世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如;甚至含有同时处理不一样粒度世界能力。这正是人类问题求解强有力表现。第132页132观察距离:境界决定了认知高度从较细粒度世界跃升到较粗粒度世界,是对信息或知识抽象,能够使问题简化,数据处理量大大降低,这一过程称为数据简约或归约。换句话说,用粗粒度观察和分析信息,就是增加观察距离,忽略细微差异,寻找共性。共性经常比个性更深刻,能够求得宏观把握。第133页133观察距离:境界决定了认知高度反过来,缩短观察距离,用细粒度观察和分析信息,发觉纷繁复杂表象,更准确地域分差异,个性要比共性丰富,不过不能完全进入共性之中。经过概念提升,就是增加观察距离,能够发觉更普遍知识。第134页134拉镜头—发觉特征空间宏观知识:属性方向和宏元组方向概括性加大;知识模板物理尺寸减小。从较细粒度跃升到较粗粒度世界,是对数据抽象,简化问题,降低数据量,这一过程称为数据归约。忽略细微差异,寻找共性。共性经常比个性更深刻。第135页135推镜头—发觉特征空间微观知识:在发觉空间某个抽象层次上,缩短观察距离,用较细粒度观察和分析信息,发觉纷繁复杂表象,更准确地域分差异;个性要比共性丰富,不过不能完全进入共性之中。第136页136发觉策略和方法发觉是微观和宏观之间跳跃,是信息粒度改变,或者说是观察距离不一样;综合利用归纳、类比、联想,并结合证伪和演绎,形成五大伎俩;以云模型作为定性定量转换和知识表示工具。详细发觉方法能够是各种多样。第137页137知识发觉机理数据挖掘揭示了人类由个别到普通、从详细到抽象“数据—概念—规则”认知规律。概念是认知基元;数据是形成概念要素;规则是在不一样概念层次上客体之间关联;不一样抽象度知识,实际上是不一样概念层次上“规则加例外”而已;境界决定了认知高度。认知物理学用计算机详细实现了这一规律发觉过程。第138页138从数据开采角度看教授系统:教授系统是正向方式认识世界,以演绎为主;数据开采是逆向方式认识世界,以归纳为主。经过数据开采来发觉知识过程,就是结构教授系统、生成知识库过程。第139页139TheExperimentalDatabase第140页140MiningAssociationRulesApriorialgorithmCloudbasedgeneralizationaspreprocessing2Dclouds:location1Dclouds:elevation,roaddensity,distancetothesea,averageincomeMinimumSupport:6%MinimumConfidence:75%Miningassociationatmultipleconceptlevels第141页141DiscoveredAssociationRulesfor“averageincome”Rule1:Iflocationis“southeast”,roaddensityis“high”,anddistancetotheseais“close”,thenaverageincomeis“high”.Rule2:Ifloc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《6 陶罐和铁罐》教学设计-2023-2024学年语文三年级下册统编版
- Unit 8 Our Clothes Topic 1 Section B 教学设计 2024-2025学年仁爱科普版英语八年级下册
- 2024-2025学年九年级物理下册 19.2广播电视与通信教学设计2 (新版)粤教沪版
- Unit 4 Pets Story Time(教学设计)-2024-2025学年人教新起点版英语三年级上册
- Unit 2 More than fun Developing ideas I 教学设计-2024-2025学年外研版(2024)七年级英语上册
- 2024年高中英语 Unit 2 Lesson7 Project教学设计 牛津译林版选择性必修第二册
- 2024秋八年级物理上册 第6章 质量和密度 第2节 密度教学设计(新版)新人教版
- 艺术培训招生方案
- 7《我们的衣食之源》(第一课时)(教学设计)2023-2024学年统编版道德与法治四年级下册
- 一年级道德与法治下册 第四单元 温暖你我他 第十一课 小手拉小手教学设计 苏教版
- 2025年浪潮数字企业技术有限公司招聘笔试参考题库含答案解析
- 《二维纳米材料》课件
- 课时精讲14-物质的聚集状态与晶体的常识(学生版)
- 《疲劳的生理机制》课件
- 2025年江西省建材集团有限公司招聘笔试参考题库含答案解析
- 防溺水安全教育主题班会
- 2025年全国普通话水平测试题标准试卷(共三十五套)
- 医疗手术背景音乐的选用与效果评估研究
- 2024届上海市部分区高三下学期二模英语试题汇编:完形填空
- 中华人民共和国各级人民代表大会常务委员监督法宣贯培训2024
- 2023护理重症培训班结业理论考核试题题库及答案
评论
0/150
提交评论