版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能和认知物理学ArtificialIntelligenceandCognitivePhysics李德毅11月25日1第1页认知科学——研究人类怎样获取知识和使用知识
数据挖掘——让机器模拟人智能从数据中发现知识2第2页目录人工智能50年发展回忆20世纪物理学成就不确定性认知原子模型数据场和势函数认知场中知识发现3第3页一、人工智能50年发展回忆人工智能兴起智能鉴定原则人工智能研究不一样样切入点人工智能研究目旳4第4页人工智能自诞生之日起就引起人们无限漂亮想象和憧憬;已经成为学科交叉发展中一盏明灯,光辉四射;但其理论起伏跌宕,也存在争议和误解。5第5页人工智能兴起数学家和逻辑学家;认知学家和心理学家;神经生理学家;计算机科学家1956年著名“达特茅斯(Dartmouth)会议”标志人工智能学科诞生,它从一开始就是交叉学科产物。与会者有:
6第6页人工智能兴起达特茅斯会议上,明斯基(MarvinMinsky)神经网络模拟器、麦卡锡(JohnMccarthy)搜索法、以及西蒙(HerbertSimon)和纽厄尔(AllenNewell)“逻辑理论家”是会议3个亮点。分别讨论怎样穿过迷宫,怎样搜索推理和怎样证明数学定理。这是初期人们期待人工智能。7第7页人工智能经典著作由费根鲍姆主编《ComputersandThought》被认为是世界上第一本人工智能经典专著,含21篇著名论文,1963年出版。80年代出版1-4卷《TheHandbookofArtificialIntelligence》是人工智能杠鼎之作。8第8页人工智能研究杰出人物20世纪40位图灵奖获得者中有6名人工智能学者,可见人工智能学科影响之深远。1969年:马文·明斯基1971年:约翰·麦卡锡1975年:赫伯特·西蒙和艾伦·纽厄尔1994年:爱德华·费根鲍姆和劳伊·雷迪9第9页智能鉴定原则图灵(Turing)测试:假如机器在与人隔离房间回答人提出问题,且人无法判断回答问题是机器还是人时,则应当认为机器已经具有人智能。10第10页猴子摘香蕉11第11页梵塔游戏
初始柱替代柱目柱12第12页计算机下棋:1997年IBM“深蓝”计算机以2胜3平1负战绩战胜国际象棋冠军卡斯帕罗夫,“深蓝”计算速度为200万棋步/秒,采用启发式搜索措施;在与下棋领域具有类似性质和类似复杂性问题上,计算机具有有智能。13第13页计算机下棋:卡斯帕罗夫自1990年称霸国际象棋棋坛,年举行国际世界象棋冠军比赛中,克拉莫尼克以8:6领先卡斯帕罗夫。“深蓝”计算机能否打败克拉莫尼克?也就是说,“深蓝”计算机智能能否“与时俱进”?14第14页追求智能三步曲1)啊!真了不起!2)啊!是这样啊!3)啊!这也算智能吗?4)又回到第一步。
15第15页人工智能研究对象不确定非线性不完全变构造多变量分布式16第16页人工智能应用人工智能实际应用越来越普遍。智能机器人、智能控制、智能网络、智能、智能数据库、智能管理、智能小区、智能交通、甚至智能经济等等不绝于耳,知识就是力量。17第17页人工智能研究切入点先后出现了3个主流学派:符号主义措施--逻辑学派联结主义措施--仿生学派行为主义措施--控制论学派
18第18页符号主义学派(西蒙和纽厄尔为代表)物理符号系统假说(physicalsymbolsystemhypothesis)。由一组称为符号实体构成系统,这些符号可作为组份出目前另一符号实体中。任何时候系统内部均有一组符号构造,以及作用在这些符号构造上生成其他符号构造一组过程。任一物理符号系统假如是有智能,则必能执行对符号输入、输出、寄存、复制、条件转移和建立符号构造这样6种操作。反之,能执行这6种操作任何系统,也就一定可以体现出智能。19第19页符号主义学派认知基元是符号,智能行为通过符号操作来实现,以美国科学家Robinson提出归结原理为基础,以Lisp和Prolog语言为代表;着重问题求解中启发式搜索和推理过程,在逻辑思维模拟方面获得成功,如自动定理证明和专家系统;归结原理不也许成为所有数学分支证明基础,问题求解和逻辑推理本质仅仅是演译。20第20页联结主义学派(J.J.Hopfield为代表)人思维基元是神经元,把智能理解为互相联结神经元竞争与协作成果,以人工神经网络为代表,其中,反向传播网络模型(BP)和Hopfield网络模型更为突出;着重构造模拟,研究神经元特性、神经元网络拓朴、学习规则、网络非线性动力学性质和自适应协同行为。21第21页遗传算法和进化计算:1975年,JohnHolland提出遗传算法(GeneticAlgorithm),模仿生物染色体中基因选择(selection)、交叉(crossover)和变异(mutation)自然进化过程,通过个体构造重组,形成一代代新群体(populations),最终收敛于近似优化解。用于处理多变量、非线性、不确定、甚至混沌大搜索空间有约束优化问题;22第22页麻将原理:刚发到手牌就“和”了概率是非常非常小。不管开始手中牌有多坏,通过一次次摸牌、选择、淘汰,可以逐渐迫近到最优解。这相称进化中变异和选择原理。麻将魅力在于可以在容忍时间内让牌“和”了。遗传算法和进化计算收敛性问题。23第23页行为主义学派(R.A.Brooks为代表)控制论研究导致机器人和智能控制,机器人是“感知--行为”模式,是没有知识智能(iwk,iwr),强调直觉和反馈重要性;智能行为体现在系统与环境交互之中,功能、构造和智能行为不可分割。90年代起智能Agent成为新热点。它是一种自治、具有自发行为、体现交互性和环境适应性新型智能机模型,具有移动性、推理、规划、学习和适应能力。24第24页行为主义学派反馈是控制论基石,没有反馈就没有智能。根据目旳与实际行为之间误差来消除此误差控制方略。PID控制是控制论对付不确定性最基本手段。强调智能系统与环境交互,从运行环境中获取信息(感知),通过自己动作对环境施加影响。25第25页目前,以实际问题驱感人工智能研究成为主流。人工智能不再是阳春白雪,尤其是数据挖掘技术,要以机器再现人类认识过程方式,为认知科学提供了一种新实体模型和实在形式。26第26页研究热点模式识别智能检索专家系统自然语言理解知识工程数据挖掘智能控制智能机器人27第27页人工智能三次大跃进第一次:智能系统替代人完毕部分逻辑推理工作,如专家系统。
第二次:智能系统可以和环境交互,从运行环境中获取信息,替代人完毕包括不确定性在内部分思维工作,通过自身动作,对环境施加影响,并适应环境变化。如智能机器人。
第三次:智能系统具有类人认知和思维能力,可以发现新知识,去完毕面临任务,如基于数据挖掘系统。28第28页人工智能目旳:程序==智能?计算==思维?计算机==电脑?目旳:以机器方式再现人智能29第29页二、20世纪物理学成就物质层次构造和原子物理模型场理论和四种互相作用30第30页物质层次构造和原子物理模型可以把物质构成层次当作一种个等级,眼前物体当作是宏观,天体当作是宇观,把分子和原子作为界标,比它们小物质可以称之为微观。原子这个层次十分重要。原子模型提出与演进,从开尔文模型、汤姆孙模型、勒纳德模型、长冈模型、尼克尔森模型直到卢瑟福原子有核构造模型,以及原子核模型,都表明构思物质构成模型是一种普遍有效科学措施。原子物理模型成为人类认识世界五个里程碑之一。31第31页物理学中势场场可视为一种充斥能量空间。例如,将一种位于无穷远处电荷移至电场中需要消耗能量。场在某点P(r)处单位作功能力被称为该点势,记为(r)。势函数(r)是一种有关场点位置标量函数,它在场空间中构成一种标量场,即势场。32第32页梯度、散度与旋度梯度是描述标量场变化特性矢量函数,它可以将一种标量场转换为矢量场,也可以通过引入一种辅助标量函数来分析简化矢量场。散度、旋度是描述矢量场两个固有特性:源密度和旋涡密度物理量。在最一般状况下,一种矢量场总可以被看作由一种有源场和一种旋涡场叠合构成,如电磁场。因此一种含义不明矢量场只有当弄清它两个分量各自奉献和物理本质后,即已知它散度和旋度后才算明确。33第33页梯度场与旋度场、散度场梯度场=有势场=有源场=保守场=无旋场34第34页电场和引力场势函数电场势函数引力场势函数从静电场和引力场势函数计算中可以发现,两种场物理机制虽然各不相似,但在数学形态上却非常相似,即空间区域中不一样样物质粒子互相作用数学本质是相似或相近。35第35页物理学中四种互相作用牛顿万有引力定律(引力反比于距离平方)认为在多质点系中存在两两互相作用引力场和引力势能。库伦定律(电力反比于距离平方)认为电荷之间通过电场互相作用,用电场线和等势线可使电场分布形象化。具有相等电势点构成等势面。36第36页物理学中四种互相作用核物理认为,核子之间、核子与介子之间,通过夸克间互换胶子实现强互相作用。这就是力程甚短核力。按照普适费米理论,弱互相作用是一种点作用,不包括到任何场。后来人们发现这一观点有问题。1984年若贝尔奖被授予鲁比亚(CarloRubbia)和范得米尔(SimonVanderMeer)以表扬他们发现弱作用场量子W+¯和Z杰出奉献。37第37页物理学大统一理论假如以强互相作用强度为1话,电磁互相作用强度,其值约为10-2;弱互相作用约为10-13∽10-19;引力互相作用最弱,约为10-39。物理学家一直企图将这四种互相作用进行统一。爱因斯坦努力了,没有获得成果。真正获得进展是量子场论。量子电动力学解释了电磁互相作用;量子色动力学解释了强互相作用,又将弱互相作用与电磁互相作用进行统一,即温伯格-萨拉姆电弱统一理论。大统一理论到目前还缺乏试验验证。38第38页三、不确定性认知原子模型人类思维基本单元云模型及其数字特性正向云发生器和逆向云发生器持续数据离散化(概念化)概念粒度、概念空间和泛概念树39第39页人类思维活动层次性生命科学可还原成不一样样层次:如脑生物化学层次和神经构造层次。认知活动也许对应着一定生理上化学、电学变化。不过,目前生命科学还不能在思维活动与亚细胞化学、电学层次活动建立确切关系。如:一种概念怎样以生物学形式寄存,它与其他概念发生联络生物学过程是什么。也不能决定什么样神经构造可以决定着哪些认知模式发生。40第40页人类思维活动层次性目前从脑生物化学层次和神经构造层次研究认知活动尚有困难。再说,如同我们不能从最基础硅芯片活动来推测计算机网络上电子邮件行为同样,我们又怎么可以设想从分析单个离子、神经元、突触性质就可以推断人脑认知和思维活动呢?系统论有关系统整体特性不是由低层元素加和而成原理对还原论提出质疑。因此,人工智能研究目前需要找到一种合适层次和单元,向上模拟人类认知和思维活动。41第41页人类思维活动工具自然语言使人类获得一种强有力思维工具,这是不争事实,起到展现和保留思维对象及组织思维过程作用。它是其他多种形式化系统(语言)基础,派生出像计算机语言这样特殊语言,也派生出包括多种专业理论专门化语言,如数学语言。这些符号构成形式系统,又成为新一级形式化。42第42页数学汉语
外语
自然语言符号语言自然语言和符号语言43第43页人类思维活动工具自然语言中语言值表达概念,最基本语言值代表最基本概念,成为思维原子模型。同步,概念具有层次性。44第44页概念—人类思维基本单元客观世界包括物理对象,主观世界从认知单元和它指向物理对象开始,反应了主客观内外联络特性。任何思维活动都是指向一定对象,通过对象存在到主观意识自身存在。概念作为外部事物在主观认知中对应物成为思维活动基本单元。不过概念不是孤立,它同外部背景有着种种联络,是演变和流动过程。因此,概念必然具有不确定性,甚至包括盲目性和散漫性。45第45页概念形成:学习和记忆原则特性是概念一种构成部分,是用来确认某一详细样例属于该类别必要或充足条件。原型在概念中占有尤其地位。模糊边界和不清晰样例是概念普遍状况。在一种概括性更高而详细性更低组织水平上,下位概念作为一种样例被使用,形成基本水平、下位水平和上位水平层次构造(basiclever/subordinatelevel/superordinatelever)。概念形成是一再反复学习和记忆过程。46第46页困扰人工智能认知模型怎样表达用自然语言表述定性知识?怎样反应自然语言中不确定性,尤其是模糊性和随机性?怎样实现定性和定量知识之间互相转换?怎样体现语言思索中软推理能力?47第47页知识表达人工智能要以机器为载体模仿以人脑为载体人思维活动——智能,必须找到在人脑和机器两种载体之间建立联络手段,而这个任务正是由形式化来担当。知识表达形式化在人工智能中居于措施论重要地位。48第48页认知模型(CognitiveModeling) 云由许许多多云滴构成,每一种云滴就是这个定性概念映射到数域空间一种点,即一次反应量样例实现。这种实现带有不确定性,模型同步给出这个点可以代表该定性概念确实定程度。49第49页云图可视化措施一给出云滴在数域(一维、二维或多维)位置,用一种点表达一种云滴;同步,用该点辉度表达出这个云滴可以代表概念确实定度。50第50页“靠近坐标原点左右”10000个量化云滴。任何一种云滴都可以在一定程度上代表这个概念。51第51页云图可视化措施二用数域里一种圈或球表达一种云滴,其中心反应云滴在数域位置;同步,圈或球大小表达出这个云滴可以代表概念确实定度。52第52页-3-2-1123-3-2-1123“靠近坐标点左右”200个量化云滴。任何一种云滴都可以在一定程度上代表这个概念。53第53页云图可视化措施三用N+1维表达,N维空间点表达云滴在数域位置,另一维表达这个云滴可以代表概念确实定度。54第54页不一样数值代表语言值“20km左右”确定程度55第55页不一样样数值代表平面上点“靠近中心”确实定程度56第56页期望值:在数域空间最可以代表这个定性概念点,反应了云滴群重心位置。云数字特性双重性ExEnHe熵首先反应了在数域空间可被概念接受范围,即模糊度,是定性概念亦此亦彼性度量;另一方面还反应了在数域空间点可以代表这个概念概率,表达定性概念云滴出现随机性。熵揭示了模糊性和随机性关联性。超熵是熵不确定度量,即熵熵,反应了在数域空间代表该语言值所有点不确定度凝聚性,即云滴凝聚度。57第57页正态云发生器实现算法1.生成以En为期望值,He为方差一种正态随机数En’;2.生成以Ex为期望值,En’为方差一种正态随机数x;3.计算4.使(x,y)成为论域中一种云滴;5.反复环节1~4直至规定数目旳云滴产生。58第58页逆向云发生器算法1由Ex=求得Ex;2对每一对(xi,yi),由求出Eni;3由En=求得En;4求Eni均方差得到He;59第59页云模型多种形态正态云
云其他多维云60第60页例子:射击评判射手乙射手甲射手丙评判人员:记录学家、模糊学家、云理论研究者61第61页射击评判记录学家用概率值表达射击效果;模糊学家用从属度表达射击效果;裁判用总环数(模糊+记录)表达射击效果;人们用定性语言评价射击效果,云措施用3个数字特性表达定性概念。62第62页云评价措施略偏左上,比较离散,不稳定略偏右下,射点集中,较稳定射点靠近靶心,比较离散,不稳定63第63页原始靶标还原10发弹着点还原100发弹着点64第64页误解:云措施是模糊措施╳云措施没有仅仅停留在哲学上思辩,也不能简朴地说是概率措施或模糊措施,通过云模型实现定性概念和定量数据之间转换是一种十分严格数学措施,使得定性和定量之间转换变得十分清晰、详细和可操作,同步又反应了转换过程不确定性。65第65页持续数据离散化对持续数据,首先求得各数据点频数,对其分布进行云变换,使之成为若干个大小不一样样云叠加,每个云代表一种离散、定性概念。数据转换为概念。66第66页原始数据分布拟合成果云变换持续数据离散化:云变换67第67页概念粒度在人意识活动中,思维推进是与概念转移和提高相联络。转移和提高跨度和途径也是多样,我们可以把在一定层次上思维模式看作是为原始思维活动拍摄一张快照。反应概念对应客观事物粒度。概念粒度可以用云模型中熵度量。68第68页概念空间概念空间是指同一类概念数域。例如,当讨论语言变量—年龄这个范围内不一样样语言值时,如10岁左右、少年、青少年、中年、晚年等等概念,常常要明确它们在数域上所体现出内涵和外延,以及互相之间等价(相似)关系或从属(包括)关系。因此,不一样样信息粒度之间概念在概念空间会形成层次构造。69第69页概念层次构造当讨论语言变量—年龄这个范围内不一样样语言值(概念)时,常常要明确这些概念是大概念还是小概念,粗概念还是细概念,以及互相之间等价(相似)关系或从属(包括)关系。因此,不一样样信息粒度之间概念在概念空间会形成层次构造,或者说是泛概念树构造。70第70页不一样样年龄人泛概念树少年未成年人幼儿青年中年婴幼儿儿童小学生中青年中学生大学生全部成年人青壮年老年…...71第71页用云表达泛概念树微观层中观层宏观层年龄72第72页泛概念树可动态生成不一样样层次概念体现了定性概念随机性和模糊性体现不一样样层次概念间多从属关系反应了数据实际分布状况泛概念树爬升和跳跃73第73页四、数据场和势函数客体间互相作用和数据场势函数及其确定准则用数据场思想进行特性提取和模式识别74第74页数据场引入学科交叉渗透是目前科学发展总趋势,对客观世界认识和描述,不管是力学、热物理、电磁学和近代物理,从粒子到宇宙在不一样样尺度上均有场作用。那么,人自身认知和思维过程,从数据到信息到知识,与否也可以用场来描述?75第75页物理场举例在一种质量为M质点产生引力场中,任一场点r处势可以描述为:假如空间中存在多种质点,则r处势等于每个质点单独产生势叠加,即76第76页数据与数据场受物理场启发,可将物质粒子间互相作用及其场描述措施扩展至抽象数据空间。数据空间中每个对象都相称于一种质点或核子,在其周围产生一种球形对称作用场,位于场内所有对象都将受到其他对象联合作用,从而在整个数据空间上形成一种场,我们称之为数据场。正如引力场、核力场可以用势函数描述,我们也引入势函数来描述数据场性质。77第77页确定势函数形态准则势函数具有各向同性,即对称性;势函数是定义在数域空间上持续函数;势函数值随离开场源距离增大而下降;表达势函数持续函数,应当光滑,即可微。78第78页可选势函数形态拟引力场势函数:拟核力场势函数:其中,为以场源坐标为原点时场点径向半径;参数k为一种正整数,用于调整势函数衰减特性;参数b∈(0,+∞),用于控制对象作用范围,称为影响因子;参数a相称于质点或核子质量代表数据场强度。79第79页两种势函数形态比较拟引力场势函数拟核力场势函数80第80页数据场势函数定义已知数据空间中对象集及其产生数据场,则任一场点y处势函数可以定义为所有对象在该点处产生单位势值叠加:其中,为场点y与对象xi间距离;81第81页数据场可视化二维数据空间中一种数据集及其产生数据场等势线图82第82页数据场扩展自然语言中基本语言值是定性概念,由于每个定性概念都可以用一种数值型集合来表达其内涵和外延,即对应着一种定量数据子空间,称为概念空间。概念和概念之间也可以通过场互相作用,形成概念间泛层次树,又称上、下位词表。人类思维过程中对象,对应着一种定量数据空间,反应对象多种属性,称为特性空间。对象和对象之间也通过场互相作用,形成知识。概念空间和特性空间中场统称为数据场。83第83页我们将云滴确实定度视为场源质量,显然,确定度高云滴具有较强作用场。右图中每个云滴位置坐标和确定度为:A(10,12,0.6)B(10,10,1)C(13,11,0.3)8910111213141589101112131415ABC不一样样确定度三个云滴形成数据场等势线图84第84页用数据场思想进行特性提取和模式识别85第85页ABCDEFGHIJ预处理后人脸图像每幅图象原始尺寸为256x256个像素点,256级灰度86第86页灰度数据集映射成为数据场及势局部极值ABCDEFGHIJ87第87页8.6917308.41101913.612820J11.80192811.14101913.912718I12.45182911.8391814.082716H11.71182912.66101913.202619G10.96182812.80101913.142619F11.92182912.39101913.052619E11.25183012.05101812.812618D11.10182912.55101912.692619C10.92182911.88101913.292519B11.21193012.13101912.632619AVPYXVPYXVPYXThethirdfeatureThesecondfeatureThefirstfeatureNamefeature数据场极值成为逻辑特性88第88页二次生成数据场进行模式识别Ifwepickupanextremelocalmaximumpotentialvalueanditspositionasthemostimportantfeatureforeachfaceimage,thefacialfeaturedatafieldforthetenfaceimagesmaybe,onceagain,illustratedbyanewisopotentiallines.89第89页Faceidentificationwiththefirstfeature
ABCDEFGHIJ90第90页IsopotentiallinesshowthesimilaritiesandoutliersforthetenimagesACEFGBDIHJABCDEFGHIJ91第91页FaceRecognitionusingFacialMainFeatureDataFieldWemayalsopickupNlocalmaximumpotentialvaluesandtheirpositionsasthemainfeaturesforeachfacepicture,themainfeaturedataarecalculatedbyThemainfeaturedatafieldforthetenfacepictureisillustratedonceagainbyequalpotentiallines.and92第92页用多种特性值融合后识别成果ABCDEFGHIJ93第93页Faceidentification:discoveringsimilaritiesanddiscriminationBCGEDFAHIJABCDEFGHIJ94第94页用数据场措施看IRIS数据分类95第95页IRIS原始数据集2.15.43.16.9Virginica1.84.83.06.0Virginica…………Virginica2.55.73.36.7Virginica2.35.93.26.8Virginica…………Versicolour1.54.93.16.9Versicolour1.54.53.26.4Versicolour1.44.73.27.0Versicolour…………Setosa
0.21.43.65.0Setosa
0.21.33.24.7Setosa
0.21.43.04.9Setosa
0.21.43.55.1Setosa
花片宽度花瓣长度萼片宽度萼片长度类型96第96页数据预处理对iris数据中萼片属性和花瓣属性分别做降维处理,得到新属性:花瓣张角=arctg(花瓣宽度/花瓣长度);萼片张角=arctg(萼片宽度/萼片长度);97第97页处理后数据集0.33930.4704Virginica0.40270.5016Virginica……Virginica0.41330.4577Virginica0.37170.4398Virginica……Versicolour0.29710.4223Versicolour0.32180.4636Versicolour0.28950.4288Versicolour……Setosa0.13260.5930Setosa0.15260.5978Setosa
0.14190.5494Setosa
0.14190.6015Setosa
花瓣张角萼片张角类型98第98页预处理后数据分布99第99页从数据场平面分布看分类成果100第100页从数据场立体分布看分类成果12.376019.00029.99463.4336101第101页五、认知场中知识发现数据挖掘与知识发现发现实状况态空间类谱图102第102页数据挖掘与知识发现
DataMiningandKnowledgeDiscovery从大量、不完全、有噪声、模糊、随机实际应用数据中,提取隐含在其中、人们事先不懂得、但又是潜在有用信息和知识过程。103第103页从数据中发现知识难点大量甚至海量数据中,存在有数据误差、畸变、丢失或过度重叠,以归纳为主知识发现过程,实际上是建立在或多或少病态数据之上;由种种案例数据反推对象性质可认为是逆向思维,人们在命题、措施或成果三个方面会获得更多目旳选择。104第104页数据挖掘数据选择预处理挖掘和发现知识解释和验证第105页SelectionPreprocessingTransformationDataMiningInterpretation/EvaluationTragetDataProcessedDataTransformedDataPatternsKnowledgeDMKD系统基本构成106第106页发现什么样知识?关联知识聚类知识序列知识
分类知识预测知识相似时间序列第107页数据挖掘工具归纳演绎联想类比证伪第108页数据挖掘与知识发现
DataMiningandKnowledgeDiscovery特定问题或特定环境下数据,是一种原始、混乱、不成形自然状态积累,但又是一种可以从中生长出秩序和规则源泉。怎样透过表观上千头万绪、混乱无规,去挖掘蕴含其中规则性、有序性、有关性和离群性,这就是知识发现。109第109页DMKD本质什么是数据?什么是信息?什么是知识?本质是归纳,是由微观到中观到宏观抽象.瓶颈是数据、信息和知识表达不确定性问题.110第110页发现实状况态空间抽象程度AMTO111第111页发现实状况态空间特性空间对象通过场发生互相作用。如同物理学中粒子之间通过场(场量子)形成强力、电磁力、弱力或引力互相作用同样。对象在特性空间互相作用形成场构造反应了对象普遍知识(广义知识)。伴随描述对象粒度(熵)越来越大,形成普遍知识越来越宏观。发现了知识上升到抽象级别更高层次。20世纪物理学发展是简化归纳。数据挖掘本质也是简化归纳。112第112页人类认知过程是对复杂对象关系中观、宏观知识发现过程,是对象所在特性空间微观数据通过用自然语言表述不一样样抽象度概念非线性互相作用下涌现(突现)自组织特性。113第113页发现实状况态空间==(特性空间|概念粒度)
114第114页数据挖掘过程,实际上是从不一样样抽象度上认识数据。所谓微观、中观、宏观,就是可视化称谓。因此,数据挖掘需要各级视图支持。115第115页伴随抽象度提高:描述每个属性中概念粒度越来越大;特性空间对象之间关系越来越普遍;发现知识逐渐由微观走向中观、宏观;整个归纳过程形成发现实状况态空间不停转换。116第116页对象属性选用形成不一样样视图,好比是从不一样样角度投射到客体不一样样光柱,它们各有所见不及之处,但也各自照亮了不一样样景象。117第117页从不一样样距离观测客体群,各有所见之景象。通过推拉镜头,可以变化观测距离,形成不一样样粒度视图。118第118页特性空间当我们讨论一种客体(对象、事物、案例、记录等)具有不一样样属性或特性时,常常用特性空间作为讨论问题范围,N个属性或特性,构成N维空间。这时,这个客体成为特性空间一种点。特性空间任何一点势可认为是所有客体在这一点势叠加。119第119页特性空间聚类和类谱图当我们进行数据挖掘时,将数据库中一条记录按照其N个属性,把这条记录映射到特性空间中一种特定点上,成千上万记录在特性空间是成千上万个点,整体上展现出抱团特性,可以通过嵌套等势线(面)--自然拓扑构造,形成自然聚类和类谱图。120第120页分类和聚类研究基础性分类和聚类,乃是人类社会活动、生产活动以及科研活动中最基本、最重要活动之一。分类和聚类研究基础性决定了其应用普遍性。121第121页场措施发现聚类知识姓名工龄(月)工资(千元)A3030B5030C4070D6070E7050122第122页304050607080工龄304050607080工资ABCDE特性空间5个对象自然聚类123第123页5个对象构成泛类谱系图ABCDE124第124页特性空间3000个对象自然聚类
ABC304050607080工龄304050607080工资ABCDE125第125页和老式聚类措施比较:一般,人们用N个客体中N1个样本作为训练集去形成聚类成果,用N-N1个样本作为测试集去验证聚类效果。实际上,这就宣布了只有这N1个样本才对聚类有奉献,若N=100,极端地设想N1=2或N1=98,必然会有不一样样成果。怎样确定N1并选用那些样本为N1,成为一种大问题,也暴露出这种措施缺陷。126第126页和老式聚类措施比较:从极微观上看,这N个客体各自均有体现自身价值不一样样特性,差异是绝对旳,最严最细分法应当是N类。从极宏观上看,这N个客体既然被用若干特性放到一起比较,阐明具有可比性,可以统属一类。在发现实状况态空间不一样样概念层次上聚类,以及聚类相对性,就是我们聚类观。127第127页知识就是不一样样层次上“规则+例外”128第128页304050607080工龄304050607080工资清除例外后聚类图AC304050607080工龄304050607080工资129第129页304050607080工龄304050607080工资304050607080工龄304050607080工资3000个对象中类和离群相对性130第130页信息粒度粒度(Granularity)原本是一种物理学概念,是指“微粒大小平均度量”,在这里被借用作为对概念抽象度度量。把概念可视化。概念粒度用云熵来度量。概念在定量空间位置用云期望值来标定。131第131页信息粒度人类智能一种公认特点是人们可以从极不相似粒度上观测和分析同一问题,各有各用处。人们不仅可以在同一粒度世界上进行问题求解,并且可以很快地从一种粒度世界跳到另一种粒度世界,来回自如;甚至具有同步处理不一样样粒度世界能力。这正是人类问题求解强有力体现。132第132页观测距离:境界决定了认知高度从较细粒度世界跃升到较粗粒度世界,是对信息或知识抽象,可以使问题简化,数据处理量大大减少,这一过程称为数据简约或归约。换句话说,用粗粒度观测和分析信息,就是增长观测距离,忽视细微差异,寻找共性。共性常常比个性更深刻,可以求得宏观把握。133第133页观测距离:境界决定了认知高度反过来,缩短观测距离,用细粒度观测和分析信息,发现纷繁复杂表象,更精确地区分差异,个性要比共性丰富,不过不能完全进入共性之中。通过概念提高,就是增长观测距离,可以发现更普遍知识。134第134页拉镜头—发现特性空间宏观知识:属性方向和宏元组方向概括性加大;知识模板物理尺寸减小。从较细粒度跃升到较粗粒度世界,是对数据抽象,简化问题,减少数据量,这一过程称为数据归约。忽视细微差异,寻找共性。共性常常比个性更深刻。135第135页推镜头—发现特性空间微观知识:在发现空间某个抽象层次上,缩短观测距离,用较细粒度观测和分析信息,发现纷繁复杂表象,更精确地区分差异;个性要比共性丰富,不过不能完全进入共性之中。136第136页发现方略和措施发现是微观和宏观之间跳跃,是信息粒度变化,或者说是观测距离不一样样;综合运用归纳、类比、联想,并结合证伪和演绎,形成五大手段;以云模型作为定性定量转换和知识表达工具。详细发现措施可以是多种多样。137第137页知识发现机理数据挖掘揭示了人类由个别到一般、从详细到抽象“数据—概念—规则”认知规律。概念是认知基元;数据是形成概念要素;规则是在不一样样概念层次上客体之间关联;不一样样抽象度知识,实际上是不一样样概念层次上“规则加例外”而已;境界决定了认知高度。认知物理学用计算机详细实现了这一规律发现过程。138第138页从数据开采角度看专家系统:专家系统是正向方式认识世界,以演绎为主;数据开采是逆向方式认识世界,以归纳为主。通过数据开采来发现知识过程,就是构造专家系统、生成知识库过程。139第139页TheExperimentalDatabase140第140页MiningAssociationRulesApriorialgorithmCloudbasedgeneralizationaspreprocessing2Dclouds:location1Dclouds:elevation,roaddensity,distancetothesea,averageineMinimumSupport:6%MinimumConfidence:75%Miningassociationatmultipleconceptlevels141第141页DiscoveredAssociationRulesfor“averageine”Rule1:Iflocationis“southeast”,roaddensityis“high”,anddistancetotheseais“close”,thenaverageineis“high”.Rule2:Iflocationis
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广告行业的技术创新与应用趋势分析考核试卷
- 化工仪器与自动化装置考核试卷
- 电力仪表的智能电网技术演进考核试卷
- 智能厨房课件教学课件
- 服装店新员工培训
- 生命生态课件教学课件
- 淮阴工学院《工程施工1》2023-2024学年第一学期期末试卷
- 致未来课件教学课件
- 光盘盘片相关行业投资规划报告
- 苏教版科学四下《物体形状改变以后》教案
- GB/T 6892-2015一般工业用铝及铝合金挤压型材
- 《全过程工程咨询服务管理标准》TCCIAT0024-2020全文参考
- 沟槽开挖监理实施细则
- 江苏省昆山、太仓、常熟、张家港四市2022-2023学年九年级上学期阶段性学业水平阳光测评物理试卷
- 工艺管道安装规范及验收标准重点课件
- 小学数学西南师大二年级上册六表内除法 除法的初步认识(分一分)
- 100句英文记7000雅思单词带单词解释和音标
- 《商业文化伦理(第二版)》第七讲当代浙商
- 学生资助金学校评审记录表
- 《马克思主义发展史》第五章 马克思列宁主义在苏联的发展及曲折
- 初三家长会物理学科
评论
0/150
提交评论