语义map的数据结构++_第1页
语义map的数据结构++_第2页
语义map的数据结构++_第3页
语义map的数据结构++_第4页
语义map的数据结构++_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PARTB语义map的数据结构_构造拟人AI语义引擎的核心第0章AI的语义第1章围绕概念第2章概念分类表--概念map第3章语义维度和语义向量第4章语义描述与语义串规范序言:自然语言与AI:0.1.1自然语言-思维:自然语言即人们交流使用的日常语言,存在于生活的语境背景之中,丰富生动但不精确。自然语言的底层由字符号构成,因此自然语言理解,即拟人AI的实践仅讨论符号、文字环境;对于图像、声音等外部环境信息,也全部从语言,即文字符号的形式进行理解。自然语言和思维关系极其密切,语言的运用,不仅在社会层面上将交流的效率提升了数量级,同样在个人内部同样程度地提升了认知效率。某种程度上(某个角度看,某些门派观点),思维是无声的语言,语言是有声思维,理解了自然语言即成功模拟人类思维。理解人类的语言,模拟人的思维,是强人工智能支持者的梦想和追求。在以下对拟人AI的研究和实践中,将自然语言和日常思维近似等同。当前实践:图灵测试、聊天-客服机器人、IBM沃森、AI考试研究。0.1.2拟人思维AI,来自孩子的启发 自然语言理解的现有方向:计算语言学、本体网、语义网、专家系统…..HNC概念层次网,谈不上研究,不作介绍讨论。 存在问题:1直接面对人类常识或领域知识,目标过大;2重知识重形式化,忽视思维过程,忽视应用,忽视知识的更新,目前无法面对动态的认知世界。3对人的思维本身理解远远不足。 新思想新思路会引发新的实践:从观察孩子(幼儿)开始的:3岁大约是幼儿的语言思维元年,孩子掌握语言极其贫乏,它可怜的几个概念(也许只能成为词汇)也是错误百出,为什么我们从不怀疑孩子的智能?……忽略多年思考过程.....有一些初步的观点:1、以有限(初始时是及其有限)的知识/结构,映射理解无限未知的世界,这就是智能,这才是智能!(顺便回答中文屋问题:面对包容一切的操作手册,确实毫无智能可言,不过这样的手册仅存在于上帝手中。人类,只有人类,一个个个体组成的人类,由于没有这份万能手册,所以产生了关于智能的讨论和实践)2、孩子无知,却有求知的冲动和欲望。这是智能之源,也是智能之路!观察孩子,让AI面对个体,面对认知,让它从我手写的概念集,从我拿到的简单字典开始,让它错漏百出,让它自相矛盾…..因为个体必有局限,认知必有过程。3、自然语言支持并强化了疑惑、搜索、理解、验证的完整求知过程,模拟这个过程,是拟人AI设计的关键。一个拟人思维的自然语言AI系统,不是知识库,不是专家系统…..,更不为完成特定的功能。与任何有输入-输出的系统不同: 它应该主动提出问题、查找资料,去探索各种文字形式的知识(互联网为它提供无尽的便捷资源);它要区分知识的类型,计入不同的模板;它记录知识的来源和过程,掌握知识的背景;它会记忆、反思也遗忘;它需要对掌握的知识进行演绎和归纳;它必须对自身的改变保持认识,建立一个“我”的架构,从“我”出发掌控全局活动.......在初始阶段,有人对它的幼稚颇有不屑,但更会对它体现孩子一般的思路发出惊叹。这个系统称为主体意识驱动的自然语言引擎。它模拟人类的认知过程,它按照信息的客观规律和自身构造的规则来运行,依靠自身的结构来理解文字符号的世界,它将不断自主学习永无止境。输入与输出,对话聊天的反应,对整个系统而言,只不过是涛涛大河中投入石块泛起的涟漪而已。它可能会被分割成很多个体在普通PC机等小型终端上,类似QQ软件一样驻留运行。每个个体有自己的兴趣,可能积累出专业领域……….建立这样的代码系统,应该包括描述语言思维的基本数据结构、文本描述格式、搜索和写入的基本过程等,就是本篇要讨论的的自然语言的XML数据架构。这个架构中,处于最核心的,则是一个通过概念自上而下分层,对自然语言常识内容进行描述的一个XML文档,文档的适当位置接入其它xml数据库。这个XML体系命名为语义map。围绕语义map建立名为“语义串”的字符文本规则,描述概念、语法(语形)、逻辑、语义本身......等不同层次、领域的语义变量,用于AI代码理解无穷无尽的自然语言字符语义体系,在不同层次采取不同的模拟思维操作。本文讨论是概念map的起源、建立、内容和运用,如何与其它数据结构合作,使描述语言和思维的过程成为可能。 第0章:AI的语义?

0.0指称论及其变形、真值论等;推荐《21世纪的意义理论》,思维物理范式的思考《partA意义是思维的光线》那是讲给人听的,AI呢!0.1给AI的回答: AI用数据结构描述世界,语义是信息的结构化表示。 建立适当的结构表达自然语言语义(后简称语义)及其思维过程,在适当位置读写即实现对自然语言的理解。 Data_Structure=(D,R),其中D是数据元素的集合,R是该集合中所有元素之间的关系的有限集合。 以树形XML为普遍结构,将各领域、各层次的语义关系(语法、概念、经验、思维活动)建立起来。为什么是XML:XML有简单格式和无限扩展的树状结构,可以得到方便的扩展。自然语言语义结构层次的复杂和变化难以准确预估,本身结构可能需要频繁扩展,XML结构能够很好适应。XML可以对自身进行更深刻的描述定义,如同Xsd文档中定义复杂元素,可对自身进行抽象和反思。建立模板自由随意,确定的模板中蕴含了严谨和深刻。XML是独立于编程语言的脚本描述,主流编程语言和数据库均有很好的支持。XML语义体系的基本思路1、以可数、半开放的概念类型(主要模板类型30-50),在各领域(物理、认识、社会、各专业等),按不同抽象程度,生成有限的概念(K级),通过从外界输入或内部思考,记录产生无限可能性的实例和情境数据(记忆有限,通过遗忘机制将本地经验保持10M以内吧)。这样将自然语言和常识世界的复杂性都隐射到有限的XML文本(符号)结构中。以上数量级别均指成熟系统(模拟接近成人的智力)为目标,不需要这么大规模的系统也能体现明显的拟人思维逻辑。2、建立众多XML语义模板之间,统一文本描述格式,渗透到从词语、概念、内涵,到句式、段落篇章主题的诸多方面,暂名为语义串-逻辑句式。3、利用统一格式,建立一系列过程对语言的文本数据进行简单的运算和处理,基本上对模板的搜索读写来对语言和思维进行模拟。即所有方法的大部分操作都是执行XML文档中文字符号的读写和搜索。4、以时间累积获得深度和广度。算法(方法)简单,主动运行,充分利用资源;正如人的思维生生不息,哪怕睡觉时也未必停止。5、不断提升文档和过程的抽象程度,降低算法的迭代层次。简述: 词汇、单个概念、概念体系、语法规则等核心语义领域,都会用不同的1个或数个XML文档描述,以此支持相应的思维过程或函数,不断处理语义信息。 单个XML结构内的元素:节点,节点集合s,节点名,值,表达不同于语义关系: 节点与值可以表达属性和值的关系;同一节点下多个值的关系是直接并列关系,节点与节点直接体现不同层次的关系;同一层次下节点与节点拥有共同的上一级抽象内容.......,用于表达概念的语义结构。 以搜索和匹配为基本操作,建立一系列过程,处理语义数据,模拟从词汇、句式、内涵、概念的回忆、匹配、判断、基本疑问等简单直接的理解过程,支持用简单过程组合更复杂的思维过程。思维过程(函数)中输入参数、控制参数、函数值,及其之间的相互关系,也将对应语义思维中各种元素和关系。 举例:语义map.xml,本系统将这个XML文档专用于自上而下装载最常用概念。文档中每一个值,都代表自然语言中的一个概念。0.2拟人思维引擎的XML语义库预览分类描述: 0.2.1概念库:由独立概念和概念集合(库)组成。 我们对大部分事物处于不完整的理解状态(一知半解)状态,使用独立概念文档模板中规定的格式属性,汇集在同一个文档中描述,比如:甘蔗是一种水果,那么就使用水果概念模板,(甘蔗的形状)长约...直径约...,(营养成分)多汁,甜.......;信息以一些相对固定句式的简化方式在预备概念库中存储。 认识内容深刻全面的概念,按照形成独立概念文档,可以分为事物、运动、理论、领域......等不同模板。通常,长期经历的关键内容,认真学习思考过事物,积累后会形成独立概念:如日常生活中的“物体”及其分类、“利益”、你学习且正在的各种学科,自己的职业领域。 概念存储了大家公认的客观信息,可以按照多种标准划分并存入不同位置:生活常识、各种学科划分、单个概念和词汇相关;可以独立生成XML文档,也可分散到个重要概念中,甚至预备概念库的更低一级标签中。 概念map库 将常见和基础的概念汇集形成概念map库。该xml文档自上而下建立了概念之间相互关联的结构空间,对概念运用画龙点睛的作用,将成为语义分析最频繁使用的数据库。后面将围绕概念map进行最详细的讨论。 0.2.2经验知识库: 经验知识是以个体为基础掌握的信息(不等于仅自己掌握),经验隐含着“特殊的,不确定大家都经历的,也未必是普遍适用的”知识,来源可以是亲历、听说、阅读、自己思考猜测推断等。 知识和经验,都使用语言概念系统描述的“存在”,而存在,则一定与时间、空间、认知主体有关。所以知识经验库中,时间、空间、主体(主要指认知主体)是必要元素,如果缺少则使用隐含参数补足。 经验库将按照不同内容和方式分类,分别存入不同区域: 1、词汇的使用经验,必然在按照核心词分散到很多的概念(预备概念)的同时,也在词组类型的经验库;将词汇按句型顺序排列即形成句子经验库。 2、亲身经历之类的经验,这一类经验内容通常特别丰富详实,因为包含了主体认知方面的内容,包括时间地点、自己心态、连续的思维流程、看到听到周边环境。情境库也是一种经验格式,是以时间、地点为线索,持续地跟踪事物的活动,较详细、完备地容纳各种元素:动作(或运动、关系)-主体-对象-状态(形容词或副词描述)的字符串格式。 3、理论性质的经验库:理论的应用也形成实例,一次实例可以视为以参数或条件为时间或空间的一个对象,如果与“我”关联起来,也形成经验。 如:惯性是物体不受外力时保持运动的性质,所用物体都有惯性。所以(每一辆)汽车高速行驶时,将滑行很长的距离带回停下来。前一句为“惯性”这个概念,同时也是一个普遍性理论描述,后一句为理论的一个使用。与概念-对象的关系类似。 经验库中的数据开放程度高,数量巨大,在理论知识不足的条件下,经验库的知识可以用于推测、联想和演绎,将其中的某个元素推广到更多的元素。达到举一反三的作用。 internet时代,我们可以认为拥有一个无限开放的文本经验库,拥有足够数量的语言常识资料,等待我们分析汲取。0.2.3词汇表: 当我们对“语言”、“词汇”这个领域的知识进行学习,就可以把“词汇(表)”建立为独立的概念(群),它的概念部分(即语法),上级是语言、文字,下级分类是各种类型;它的内涵,可以描述各种词汇的作用和组合方式等;经验,则可以包括一个最常用的词汇表。显然词汇概念的内容中,词汇分类和词组搭配的内容特别庞大,侧重于经验表中使用的具体词语。 句子分析时需要快速搜索各种常用词汇,如数量少又非常常用的虚词、代词、数量词,最常用的语义如时间、形状、部位等。 大型词汇表按照词性、常用语义、近义反义...等多种方式分类,也将不断增加新的词语、用法,甚至新的分类方式。 在编写思维过程,优化搜索处理语义数据的时候,会将某些最常用词汇表或一部分单独提出来,做成静态变量。0.2.5思维代码库: 对自然语言的理解中,分词后从需要词组、句型、语义的各种匹配。期间大量搜索、改写不同的数据库。 人类思维过程中有回忆、联想、疑问、交流、求知、等各种基本过程和组合活动。每一种过程都以不同模式组合以上匹配过程。思维代码库提供搜索之前描述的语言概念和经验的静态信息库的操作。 因此拟人AI引擎需要提供大量基本思维操作的匹配过程,以供自由组合模拟细腻的思维逻辑模式。比如:一个普通而基本的AI阅读过程组合如下: 1、读入一段文档,分词,搜索概念map,获取概念分类; 2、根据词性和概念分类做词组分析,集合词语,简化句子成分 3、语义分析,通过句式库匹配描述句型,转化为逻辑句型。各种逻辑句型能指向句子包含的语义成分。 3.0、在这一步,判别句子是讨论概念的结构,还是描述具体的存在。分别指向概念库或经验库。目前最简单而直接的方法是,如果句子中包含了已知概念模板的结构属性、或者内涵值,还有“是、有”等描述概念本身的动词,认定为概念讨论;如出现、多次数量词、较详细的时间空间、具体动作、“着了过”等时态助词、较多并列的视觉和运动描述,以上情况之一,则都视为具体经验。 3.x、其它各方面的语义匹配(暂不讨论) 4、提取逻辑句式中各元素,与已知的元素比较,判断是否是新知识。 5、对与已掌握知识匹配的句子表示认可接受,对新知识确认可信后收入相关区域。 阅读中发现新词语,可以形成疑问,满足条件时并选择一个“词语学习”的分支过程集合,打开词典条目,重复以上阅读过程,按照概念模板补充概念条目或新的经验;资源不足时保存为“词语的疑问”...... 只要简单改变搜索目标,搜索深度广度,学习条件等,或套用过程,或细细匹配,或持续联想,或本能反应,就能产生类似人类的丰富的思维表现和交流反映... 在AI引擎建立很长一段时期,依靠人工编写并组合使用思维代码建立并使用思维模式。当思维代码完善丰富以后,也会建立并改造脚本,让AI系统能自主选择组建思维活动,进入更高的主动层次。人类思维层次不断提升的关键之一,在于对思维自身的不断认识。描述思维操作、动作,以及各种逻辑过程,也终将通过XML结构和特殊定义的字符串文档,形成概念模板,并和各种抽象的、具体的概念一样,登记在概念map之中,进入语言表达、描述、更新的概念系统之中。 0.3系统目标和规模 拟人AI系统设计目标,不是人类拥有的知识体系。而是人类个体的思维和逻辑。在初始阶段,它只需要以少儿为基础,模拟最基础的知识经验、最原始最幼稚的思维过程。只要它能以已有的数据结构(库)为核心,以已知理解未知,扩大自己的知识和结构,那么它就能展示自己蕴含的无穷潜力。 1、以可数、半开放的概念类型(主要模板类型100以内),生成有限的概念(K级),通过从外界输入或内部思考,记录产生无限可能性的实例和情境数据(记忆有限,通过遗忘机制保持1M以内吧)。这样将自然语言和常识世界的复杂性都隐射到有限的XML文本(符号)结构中。以上数量级别均指成熟系统(模拟接近成人的智力)为目标,不需要这么大规模的系统也能体现明显的拟人思维逻辑。2、所有过程在算法基本以对模板的搜索读写和对比来实现思维方法,即所有方法的操作都是执行XML文档中文字符号的读写和搜索,所有方法均实施时间控制,确保复杂性以线行叠加。3、构建一系列简单的模拟思维过程和函数,留下自由搭配积木的余地;主动运行,充分利用无限的网络资源,记录语义理解过程中新的内容;正如人的思维生生不息,哪怕睡觉时也未必停止,以时间累积获取新的语义知识,并增加语义的深度和广度。 当今自然语言理解的实践中,主流思路是依托海量语料进行统计学的暴力分析,大集团之所长非我辈所能。一个普通人拥有的资源,决定了他只能另辟蹊径,但求享受探索中的乐趣。同时也相信,基于认知内省和语言分析,与主流的数学方法并非背道而驰,是可以互补相容的。也就是说,对语言和认知过程的分析,也能为神经网络、深度学习、自编程等提供更明确的目标。第1章:围绕概念

1.1概念是语义的核心结构1.2名词概念模板1.3动词概念模板1.4开放式的概念模板1.1概念是语义的核心结构先看看概念的原始定义,fr百度百科。概念亦即反映事物的本质属性的思维形式。概念具有两个基本特征,即概念的内涵和外延。概念是抽象的、普遍的想法、观念或充当指明实体、事件或关系的范畴或类的实体。在它们的外延中忽略事物的差异,把这些外延中的实体作为同一体而去处理它们,所以概念是抽象的。它们等同的适用于在它们外延中的所有事物,所以它们是普遍的。概念也是命题的基本元素,如同词是句子的基本语义元素一样。 以上定义大致是对哲学、语言、认知领域的“概念”给予综合理解 中华人民共和国国家标准GB/T15237.1—2000:“概念”是对特征的独特组合而形成的知识单元。 德国工业标准2342的概念定义:通过使用抽象化的方式从一群事物中提取出来的反映其共同特性的思维单位 认知科学和人工智能中概念被用来作为知识的模型。以下更进一步讨论自然语言的“概念”,以数据结构方式理解。1.1.1概念首先是语义知识的集合和包装。 插入文档说明概念本身结构:语法(言)、内涵、经验三部分语法:语言规则,重点在文字组合的规律。对概念而言,包含了词性、上下级概念(分类)、称呼(也叫....,同义词近义词等)内涵:包括各种形象特征等属性;组成部分;名词的相关运动和作用;发展演变等;同类概念相关的知识。经验:意义即使用。在语言上,一次使用就是该概念(或对象)与其它概念的一次组合实例,也就是文字上词汇的排列。经验包括在时间和空间之中,时空将很多活动连成一体。从存在的角度,经验是概念在具体时间空间之中的一个对象,通常为“我”以不同方式(通常是看见、听说、阅读)直接或间接地认识。 1.1.2概念第二层作用是分类和关联1、子概念-上级概念基本上所有概念都能更进一步概括-抽象为上一级的概念,同时又进一步细分为更详细的下一集概念。子概念继承上级概念的内涵,可以认为,这就是演绎逻辑方式的信息存储基础,可以大大精简知识体系。2、主体-运动-目标的关联。 参考主谓宾结构,运动的主体和客体都不是随意的,而是与特定领域的名词概念或对象(概念实例)发生关系,在概念中的经验部分或独立经验库中关联。 举例:“说-歌唱-思考”之类的动词()主体总是人或拟人,进一步延伸也是到信息渠道。 分析、计算、证明之类的动词,主体是人或团队,延伸到计算设备,对象则是综合抽象的事物。 这些动词到名词的概念关系,会在概念领域中体现。3、主体概念-概念属性关联;运动概念-运动属性关联可以简化理解为名词-定语;动词-状语之间的搭配关系例如:属性颜色和形状,基本上可以搭配所有物体 站在阳台上面对大街用粤语高声唱歌,1.1.3概念模板和概念库:1、具体名词模板:苹果概念是开放自由的,但设计者自然要将最基础认知框架和常识直接赋予AI,让它走上拟人思维的轨道。这最基本的知识和框架,一定包括物体这种比较实在而广泛的概念,因此根据常识先写出一个苹果的概念,并对此进行详细讨论:从苹果概念抽象到物体概念:2、具体动作模板:抓用step1...n的方式最简单地分解描述基本动作。动词的内涵可以和具体名词的结构对应,围绕时间、空间;前提、步骤、结果、影响来描述。 从抓的概念抽象到活动的概念。3、抽象名词模板:时间、空间、视觉,用于支持具体名词和动作概念。后面的概念map中,实现插入这几个具备语义维度的概念,在语义串、多级句式格式的支持下,实现大量细致的时-空经验描述。 细节讨论:在空间下实现地理结构,在中国-省-市的基础框架下,实现其他划分方式(如东北-西北-长江以南-沿海等结构),历史变迁的扩展4、集合型抽象概念:我、中国………….. 同时拥有物理-生物-认知-社会等多方面意义,还有漫长历史演变的超级概念。即使描述最基本的常识,也有异常复杂的结构层次、充足的内容、无穷无尽的经验。甚至用于支持、容纳感情的自主思维活动。5、思维动词模板:判断、疑问、证明............思维动词的步骤或对象,是较抽象的认知集合,包括了事情、陈述、概念等......,这些集合可能会包括很多的内容。 在语义领域的思维动词模板,重点在于这些思维活动的分类、属性、抽象过程,也就是这些思维活动的语言意义,每个思维动词可以对应一个思维操作过程。但是,真正用这些模板来进行准确的拟人思维处理问题,需要把这些语义模板中的语义元素和用代码对象变量定义起来,把思维操作和搜索读写其它数据库的代码一一搭配、组合起来,也就是关联到前面提过的思维代码库。这是认知和逻辑领域的更深层次的研究。AI的设计者必须寻求认知和语言的普遍规律,运用高度的抽象能力,对概念的分类-结构-使用进行认识,减少模板和过程的种类,思考AI新建概念模板的过程,甚至新建使用概念模板的过程。也就是说,在拟人语言系统是一个非固定结构、非固定层次的系统,AI不仅仅能按照已有的模板新增知识,同样可能添加新的知识模板,也可能新增使用模板的逻辑方法和线路。 概念库由独立概念和概念集合(库)组成 概念中的内容,侧重于有关事物的内涵,包括结构、分类、属性等抽象、总结方式形成的内容。概念库的内涵结构处于自然语言的核心地位,之中存在着严密而强大的演绎关系,使得子概念和对象的内涵有效继承自概念模板,在语言和思维中使用简单字符(词语)直达概念,进入体系来表达复杂事物,无需再使用大量字符重复描述这些内涵。1.2名词概念研究1.2.0名词概念是对事物认识的汇总。名词概念可通过XML转化为类的形式。概念是开放自由的,但设计者自然要将最基础认知框架和常识直接赋予AI,让它走上拟人思维的轨道。这最基本的知识和框架,一定包括物体这种比较实在而广泛的概念,因此根据常识先写出一个苹果的概念,并对此进行详细讨论: 1.2.1具体概念举例-苹果整体描述1、苹果概念是物体概念的子概念,其分类线索可以为物体-生物体-水果果实,也可以为物体-食物-水果…等各种线索和修订。2、在苹果概念中讨论物体所共有的“结构/形象”属性3、讨论具体名词概念中的<实例与经验>的重要内容4、小结:以苹果概念为例讨论具体名词概念的共性<概念><类型>具体名词</类型><上级概念>水果</上级概念><子概念><分类><品种>国光、花牛、红富士、水晶、蛇果...</品种>...</分类></子概念><同义词>苹果</同义词><!--好像是唯一的词语,没有别名了--><最后修改>20140518</最后修改></概念>经过多次修订,将第一部分标签命名为<概念>,即于概念与外部直接相关的内容。也可以说,是描述这一个名为“苹果”的概念盒子的特性。内容包括:该概念的类型;该概念的上下级,用于查找概念的完整模板;该概念的标识(即同义词近义词俗称)等;这些特性用于从外部直接指向这个概念,或从这个概念联系到更完整或更详细的概念。空间结构空间结构是相当重要的属性-<空间结构>

-<形象>

<部位>果整体</部位>

<形状>圆球,上凹有柄,内有核</形状>

<大小>一般8cm~20cm,典型12cm</大小>-<!--球的大小缺省用直径吧。概念参数都不是确定值,可以给出最小、最大、典型值等,形状和部位结构是相乘关系

-->

<颜色>黄,红,青</颜色>-<!--颜色给出常见可能值,可以用+号表示同时出现的值,顿号表示可能值,“各种”表示颜色域定义的所有取值

-->

<图片/>

-->

根、果、茎、叶、花、皮、核、瓤、肉

</空间结构>经过多次修订,将第一部分标签命名为<概念>,即于概念与外部直接相关的内容。空间结构,是从物体概念中继承而来,也就是说,所有物体都应该有<空间结构>这方面的内容。可参考一下的物体概念。反之,某些概念的认识是从具体而众多的下级概念,上级概念的属性也可能从下级概念中归纳而来。 作为认知方式,<空间结构>也是从基础到深入的过程。作为基础常识,空间可以有xyz轴、上下左右前后内外、整体-部分等几种空间模式。每个模式中物体空间部位与形象、成分等属性相关联。在(果实)这一级别的物体中,上下内外的位置分别为柄、底、皮、肉、核的部位,部位和相对空间结构可近似相等。 <形象>是一种综合属性,包含了形状、颜色等多个子属性。平面形状可以包括圆形、三角形、线状、及其尺寸、角度等说明。前后左右上下的平面形状描可以得到立体形状。苹果的形状,可以简单描述为圆形(前后左右上下都是),也可以近似描述为球形。物体缺省视角,通常是正面,也可能是侧面(如动物,由于正面左右对称隐藏了后部,侧面能展示更多信息) 幼儿对形象的语言理解,从简单的平面概念开始,因此初级的AI语言智能中,形象自然简化为矩形、圆形、三角、线条等平面概念。尽管幼儿的感觉相当丰富,但在词语概念方面,幼儿能掌握的差不多也就这样了。 物体概念中的形象属性,到底取哪些有效值?需要理论概念的支持。对形象的元素组成和取值定义在视觉概念中进行,它属于源理论概念。也就是说,视觉概念属于认知-源-理论概念。对形象的理解,上升到视觉概念之后,就知道它属于认知的源头,在这条意义的线索上已经到达理论抽象的源头,在符号语言方面不能再向上解释了。 关于理论-源理论的数据结构,后续会有详细讨论 视觉属于感觉领域。以PC为躯体,可怜的字符AI没手没脚,没耳朵眼睛(摄像头和mic和PC很割裂,远远达不到无所不在的实时感知,),没有中枢神经….因此,自然语言对感觉的理解,到源理论为止。通过更详细滴扩充定义源理论结构或内容,可以从语言(符号)角度加强对视觉领域的理解。视觉的源理论,也是语言符号AI对图像AI的接口。 物体概念有抽象和具体两重含义。也可是视为具体概念和抽象概念的合二为一。 作为抽象概念时,没有具体的形状取值。之所以制定这个元素结构,是为了下级概念继承,这些元素可以取值为“各种形状"等,与下级概念中的取值区别。在一般情况下,我们不会直接把一个很了解东西A称为一个物体,而直接说它是一个更具体的下级概念,通常不需要从物体直接生成实例。 但是,由于认知局限,当我们不知道A是什么东西的时候,就不得不将其归纳为物体概念。比如,”看见一个东西,一晃就不见了……”。或者引申强调自己不关注,很蔑视,或者玩笑中表示轻视的不具体的对象:这是个什么东西啊,可爱的小东西,你是个什么东西..... 甚至在认识一种新的事物和概念的时候,比如力、能量、场之类,我们也往往这样描述,来表达它们与“物体”概念的区别:场是物质存在的一种基本形式,但并不是物体...;当我们确认这句话中的“物质存在”指向物理这个概念,就能体现(在物理学上)“场”概念处于物质存在之下,又与物体并列的概念地位。 物体作为抽象概念和具体对象,不是孤立的,有一定规律可循:考察与其关联的动词或名词,更进一步从上下文中理解。(具体)名词概念小结: 具体名词概念是可以生成有形(象)实例的事物,在数据结构上进行抽象,内容体现在两方面: 一方面是对事物的分类和分析,描述事物的下级结构;最常见的是空间结构,物理结构、社会结构、下属子概念的分类 xml中的nodelist,就是对结构分析的具体化;概念所属的上级概念,是概念结构的逆过程。 另一方面是每一node上的value,这些value取值的可能性,可以xml模板进行定义。 每一种结构分析取值,是一个认知的方法来决定的,比如空间结构中的长度、角度、维度的那个node取值,都应在空间源理论中予以定义。认知方法也会发现新的结构和新的取值。这个定义是半开放的。而xmlschema,可以由概念自动生成,可以是理论概念的重要参考。具体名词概念模板的应用:概念模板可以表达概念的内涵,包括上下级分类、形象、各种结构、特性、运动,用途(与人主导的运动) 概念模板可以复制为实例对象,即一个或一些具体的事物,或非特性的对象。也可以在其中添加经验(一种情境) 由于效率和管理的需求,对苹果这样的概念,实例和经验在概念内部复制即可,而对于很熟悉的人,工程项目这样的概念,其实例的内涵完全可以超越母概念,尤其是实例的关系和影响,概念内部当然承担不下,实例需要重建新的子概念来装载外接出去) 名词概念模板将被思维动词调用,充实、修订、扩展、深化。1.3动词概念模板1.3.0概述名词是认识描述事物,偏于静态的模板;动词则是认识描述运动过程的模板。动词模板应能从XML生成方法。动词能快捷转化为名词,也能生成一个类或对象。1.3.1运动的信息层次在对运动认知中产生了概念模板,动词是语法上的分类。从语义角度也就是概念内涵角度分析,根据对运动的认知规模,涉及主体对象时间空间运动步骤的复杂程度,动词概念根据可以分为动作、行动、抽象运动等。以下再明确下这几个层次的提法:动作是常识中最熟悉,时间上短暂的,在物理空间中可以直接演示的活动,更狭义点就是肢体或物体的容易被观察到的活动或变化。行动(行为?),则是一系列动作的组合,如移动了一段距离,吃一顿饭。活动,系列行动的组合。组合的标准可以是一个共同目的或一个属性,如经营促销活动、学习活动、交友活动……。运动,以上各层次的统称,可大可小可具体可抽象。即所有动词都是运动的模版。但这些模版有必要明确分为动作、行动、活动的层次,以明确体现、描述运动的架构。以上层次的依据是对于运动认知的深度程度,也即由描述运动的信息量决定。 最简单的运动是动作,一旦掌握了就可以本能地完成,动作的过程只有极其短时的记忆,甚至事后意识不到;人的一天至少要进行成百上千个动作吧,绝大多数都如流水般在记忆消逝了…..这些动作自身在意识中没有预期、过程和结果,或者说它们的预期、过程和结果从属与一个更大的集合,叫做行动(姑且这么叫)。比如说,我要去XX地方,为此我迈开双腿,上下公共汽车,经过了不少道路,最后找到了大楼和房间,这就是行动…;显然还有更抽象的集合,如兴趣爱好、生活习惯、各种长期的学习和奋斗,是大量分布在不同时间空间上的动作和行为,在类似目标、过程和结果上,形成有机的集合,那么叫做活动好了。日常用法中行动和活动之间的词汇相当混乱,甚至很难决定用哪个词来代表更大规模的一层,也许用ABC层来区分好了(很多动词本身,比如我要去XX,不能直接区分几分钟的举手之劳,还是费时N日的长期活动)那么在概念中也只好把动作、行动、活动全部封装在一起了。不少动词词汇直接跨越了三个层次,跨越抽象具体;如生活,玩,干…..既可以弄几秒钟,也可以整半辈子。运动的层次在认知中是相对的,比方说员工们花费几天做出的促销活动,各级老板在不太关注时,仅仅在报告中体现为一个基本动作;体育活动中有很多对常人而言的动作,专业运动员经过长期训练,掌握的理论和经验足以上升一两层次。汉语没有时态,但使用时动词时周边会有一些副词或助词能体现运动的时间,为运动层次的判断提供依据。但是很多情况下也被省掉了。更有效的方法可能是从一个段落中的文字中,搜索与该动词并列的前后句子中的动词的时间依据。信息不全时理解带来更大计算量。但主体知识结构可顺势而为,用个体自身的知识来理解,………,正好体现认知的个体差异。动词概念模板的目标,也需要在一大类别上,很好体现这种集合关系。动作概念模板中,架构重在时间空间运动过程;高级的概念模板中,架构是目标、结果及其实现。动词概念描述运动,最基本的当然要从动作开始。运动的内涵是主体对象在时间和空间上的变化,需要时间、过程、控制等理论概念的支持。抽象活动,其主体或对象是抽象概念,如工作、影响、搞、推进、管理、领导,这样的概念体现的大量活动集合的共性,其过程、结果等某一环节可能性太多,已完全无法描述。但可以在社会领域中定义成一种抽象的稳定结构或关系,用来装载相关所有的具体动作。参考HNC概念的主体基元概念(作用、过程、转移、效应、关系、状态),这似乎是事物运动、作用、关系的分类,语义map准备用于动词的内涵,及分类标准之一,在后期的句子成分(即短语)分析,HNC称为语义块的分析中,会有更具体的方法和思路。1.3.2具体动词:动作概念模板举例 以一个简单动作为例,动词概念的最重要内容包括:动作主体-对象、动作的过程。其它还有动作条件,动作的目标和影响方面内容相对抽象,暂时保留简单结构。动作(动词)概念将全面引入和对时空、运动、过程、主体/对象的认识,并且隐含了控制、目标、影响等更多认知因素,与名词的<形象结构>相似,这些实质上就是动词内涵的认知结构。关于这些结构及结构之下的更多因素,需要一个或更多关于运动的理论概念来描述。 以下是一个具体动作“抓”的例子: 从动词概念不能确定运动层次(持续时间和包含动作的多少),而具体动作的经验与实例中则大致会明白,应标明运动的层次和被认知的程度。 1.4虚词表:动词/名词的伴侣这里的虚词不包括副词,主要是各种助词,助词数量小,意义单一,十分适合用于作为句子结构分析的标志。 虚词(了、的、着、得等,大多数情况下作为单字虚词使用,使用频率高,意义单一明确,适合作为阅读分词的起始标识,确定这些虚词后,往往周边词汇的性质也得到了指示。因此虚词概念的重要性与常见物体、属性等概念一样重要) 虚词的作用是标明、辅助动名词概念, 常识中不称为概念,但在语言的理解中却有至关重要不可替代的作用很大,包括:。以下是虚词概念的一些共性:1、虚词概念难以自主学习,需要设计构建。2、排除了解、了然、的确、目的等数量不大的实词,或在虚词单字周围确定常见动词或名词,能够准确性较高地确定虚词3、虚词本身的内涵不明确,需要与其它概念聚合才能体现。因此概念的模板设计的关键,是确定虚词的各种用法。【的】概念词性:虚词助词!此性质决定了该概念没有形象,没有名词的空间性质结构,没有动词的过程、发起者、对象等概念的使用词性识别:“的”字符,且not“的确、的士、目的

….”意义解释:连接两个概念,前为定语(限定、描述),后为名词。!助词类型“的”概念,推动理解者去打开前后概念,搜索前后概念的上下行即可区分前后概念是以上哪些关系,直接体现了思维中的自然逻辑有以下可能:如我的书,的表示拥有归属关系;我的鼻子,表自然结构;红色的气球,表属性;跑步的人,表动作和主体关系;红彤彤的,表强调…例:【了】字概念词性:虚词-助词识别:正则表达式排除“了结、了解、了断、了然、了了、知了”,习惯用语:“不得了,了不起”等有含义的词主要用法“【动词】+了”,表示动作已完成(动作截至时间<time.now)。了字前面的动词:从了向前识别动词概念异形动词理解,“【动词】+了”如形容词变异为动词,如“桔子红了”与虚词同样常用的,也体现语句和思维结构的,有代词概念 这、那、其他:代词概念意义:寻找前后一定篇幅内的单个人物。特定或非特定的1.4开放的概念模板概念的共性:作为常识的概念至少应包括语法和语义、使用经验等内容:1、概念的(词)语法特征:包含该概念的类型(词性),能代表这个概念的最常见词语 标识。2、概念的内容描述:该概念的领域;该概念的上下级;该概念的属性基本含义-引申含义基本意义,主要说明它是那个领域的事物或运动或属性,从基本意义中可以更准确地将其引入知识的树结构。基本意义的文字往往由辞典引入,相对规范,详细。对于一个刚掌握的概念,基本意义可能会进行二次解析,分解出其它元素。比如说词典中………对于名词概念,从基本含义的内容,可二次解析出结构、特性、用途运动作用等对于动词,解析出动作(运动)的主体、对象、过程;影响(导致的后续活动);运动要素(如快慢、轻重形容词:…..3、概念的使用经验:针对每一种意义(基本、引申),最常用的使用的若干次,我近期使用的若干次;有该概念生成的对象(特例)的主要特性值。可外接每次使用,均可提供一个外部(包含该概念)的典型情境。高级使用经验:给经验添加更多的属性元素,如每次经验过程中的主观感受概念模板中的管理和操作新增的概念和对象 新增对象,是一个基本思维逻辑。在一个名词初次介绍性出现的时候即新建对象,句式也相对简单。如:列那是一只狐狸;xx小学三年级学生小明; 新增一个概念,即使常识性学习交流,也是很寻常的事情。选择概念模板,即可建立或更新一个新的概念。如甘蔗是一种水果,茎长1-2米.....注意作为子概念与对象的区别,需要经验和概念结构才能理解区分。 更新概念模板,将概念更新为更不同的类型。如鲸鱼,以前以为是鱼,学习后更新为生活在海洋的哺乳动物。 开放的概念内涵 概念是开放的,元素可以新增。概念的成长是在XML中为概念不断添加元素来实现: 为概念添加的简单的描述属性的元素,为概念添加使用过程和经验类的元素为动词概念添加新的过程……这些元素,可以通过域的方式进行管理,如在物体的社会属性类元素,我们用一个“社会属性“的文档来汇集描述“所有者、价格、用途、生产者、使用条件…..”等元素,记录其数据类型或性质(可选、依附关系等)。实现这些知识管理的效率(复用)当一个方法上升到理论的时候,就可能为某种类型的概念增加元素。如学习化学后,知道所有物体都由元素构成,有化学成分,那么就可以给物体模板增加“化学元素”和“化学成分”的元素,其赋值只能是化学方面的规定。另一方面,也需要控制概念元素的层数(3-4层),避免概念的无限膨胀。当概念模板的内容超过一定边界时,产生新的对象或类概念。在概念中充实内涵第2章概念汇总-概念map2.1概念map建立2.2概念map的内容2.3概念map的格式2.4概念map的作用2.1概念map的建立自上而下的概念汇总:概念map做一个概念汇总的库,说明概念分类的宏观结构。插入文档说明:概念map, 概念map是一个几种描述顶层、常用的概念分类和关系的数据库,这个库处于语义分析的核心位置,在语义分析中最频繁地使用。包括:确定词组句型的分析;各种语义向量分析;句子有效性分析 建立概念map的根本意义,是在数据库的支持下,通过对字符进一步规范,实现对各种语义层次的描述,消除文字符号在概念上的歧义。这些维度的语义包括:概念分类、语法结构、认知过程。因为我们对语句的理解,也是这样进行的。 概念分类: 语法结构:词汇构成词组再构成句子的规则都属于语法结构(字组词就不讨论了) 认知过程:在句子的内容中,我们还夹杂了褒贬、心态、肯定疑问等意义,对应的内容也需要与相应的词汇-用法库匹配,才能筛选出来。 对语义概念集中到同一Map文档,进行高效管理,并以快捷搜索方式投入运用。如果没有概念map,则概念之间的关系需要打开多个文件和更多的Xelement,才能完成搜索。 对比人的思维,对世界上所有具体和抽象事物进行统一分类和描述,建立过程需要对世界-语言-认知进行思考。 概念map体系主要通过以下方式建立,以下先简要说明,后续还会详细解释:1、概念汇集。从常识场面对高层概念和常用概念集中到同一个Map文档中的有限几个Xelement。实现了集中管理,为模拟思维的编程中的快捷搜索提供依据。2、概念分类概念集中到map文档后,利用该文档的树形结构进行分类,形成上下级关系,为概念内涵的演绎提供了依据。在具体设计中,通过每个节点的名称,可以直接通向顶级的抽象领域。 概念的树形分类,不仅明确了上下层关系,同时也形成了同一层概念的远近关系。向上索引到同一父节点的路径较短的概念,自然位置较近。3、概念名称注册一个词汇(字符)进入map文档成为一个值(或节点名)后,即在语义分类网络这个层面上形成注册登记,它将有资格代表一个概念,得到语义分类的支持,也可以共享上级概念的基本内涵。也即得到了概念分类的基本理解。 同一个概念只有一个词汇(名称)通过注册,起到了筛选的作用。 4、格式规范。在XML结构的支持下,生成一套String格式,通过在Map结构中的位置,描述字符所代表的概念语义。已知概念形成的结构,为未知概念提供语义坐标。2.1.2概念MAP的XML结构: 每一个值(value)都对应一个语义概念的存在,虽然你(个体、AI主题)可能完全不理解这个概念,并不拥有概念的任何内涵和经验;但是这个XML上的节点,就建好了一个概念的空壳子,还贴上名称、类型的标签,放置在适当的位置;当这个值进入一个标签,标签的值就是它的子概念。 子概念可以多重继承。不排除一个概念内容分布在两个领域内,比如<认知.我_我的感觉><物理.生物运动.感觉.我的感觉>,必须有高度相同,可以整合在一起的内容。不同的概念分类串正好准确说明,自然语言中的多重含义,也就是我们对事物的认识可以通过多种思维方式,理论方式来实现,那么也就必然地体现在概念分类的结构之中。 map的开放结构:即使是常识性的知识,也很难定义一个标准的结构,不如保留一个半开放系统,可以复制一个备份区,按照某种规则添加新的节点,得到多次确认后内容,再写入正式的库文件中。xz 2.2概念map的内容 语义区域:概念map是概念map的顶层,目前已通过向下分类或解析,描述上千个具体或抽象的,包含了名词或动词等,每个词汇都代表一个已理解的概念(值)。语法和经验库等,通过接口接入概念map结构。@@file=“路径-文件名”,也可以进一步指向xml文档的某一节点(集合)。理论上,所有掌握的概念都应该在概念map中拥有一个位置。 所有概念通过物理(含生物)、社会、认知3大领域,建立一个常识性的语义数据树形结构。四大领域整体上相对独立,也会少数概念产生相互联系。时空与存在,可以顺序贯穿,也可以同时渗透这几大领域。领域之下还分若干子领域,区分方式包括“具体-抽象”“简单-综合”“基本-复合”等。以下是概念map中的一些实例:<肢体动作>走、跑、跳、爬</肢体动作><手动作>握、摸、抓、指、挥、举、背手、抱、推</手动作><复合过程>洗、去、玩、写、画、安装、修理、种植、饲养、喂养</复合过程> <综合抽象活动>工作、发展、创造、建立、改善、提升、优化;变化、生产、经营、维护、推广、交流、表示;完成、中断、停滞、实现、等待;维护、解决、推动</综合抽象活动 概念在map中也相对明确滴分为事物、运动和属性,隐含对应着名词-动词-形容词或副词(定语或状语)。在每一个节点下的概念值,这个类别是一致的。在原始概念的意义上看,物理域、生物(子)域、认知域、社会域等领域,都有独特的动词和名词概念的,同一域内这三种类别的概念会频繁搭配,更详细表达领域内存在的对象,领域之下的又细分为子领域,关联性也很高; 从词汇上看,跨领域的搭配虽然频繁,但通常都已经超越概念的原始意义,形成引申意义,从逻辑上我们应该将这些引申含义的词汇转回其原始概念后,也大致能在概念map中的领域达成一致。 在编程中概念map作为一个XELEMENT常量,初始化导入,用于频繁的语义搜索。 密切协助概念map工作的数据: 虚词专用表:常用词汇,包括助词、介词等虚词(甚至包括标点)的分层等级虽然比较低,正因为没有实在的概念语义,所以专门用于在语言中对词汇进行标识-组织,类似特殊字符的作用。但是在语法领域它们拥有特殊的含义,特别是非常频繁地和其它词汇序列一起,在对句式、语义的匹配中十分必要,所以有必要专门进行了描述。这些词语意义作用单一,理论上在概念map中,位于语言.词汇的节点之下,但概念map并不准备在value中登记这些词汇,因为这样把它们混在一起,明显降低虚词和实词两方面搜索的效率。因此,有必要从词汇概念中取出这些最常见的助词、介词、连词等虚词,加上代词等作为常量,也符合在语法常识中,它们是虚词,没有“实际意义”的思维习惯。 概念近(同)义词表: 概念map中登记的概念词汇,当然代表概念的唯一名称,否则在逻辑上将带来混乱。而语言文字中大量使用概念的同义词、俗称、别称等众多词汇,因此围绕概念建立近义词表,在每一组近义词的组合中,把作为概念名登记的词汇放在首位,通过1:N的近义词表,扩大了从词汇到概念的识别。同时也可以把有多种含义的俗称、场合叫法等,列在概念名的后边备用。 参考《理论.词汇》中<常用词汇表>标签下各词汇表(常用名词除外)2.3概念map的格式: 2.2.1语义节点,在XML文档中用<map>标签表示,节点中可以包含子节点和值。形如<认知.我.我的感觉>...</认知.我.我的感觉>。每个节点代表一个概念,节点内的值,是节点名的子概念。 概念map下行分类层数无法预料,为了简化XML文档中的分层管理。目前方案是,map子层标签主要使用顶层.子层.子层...方式,,在XML结构中避免XML文档中的过多分层。而每个“.”即代表语义上的一层,首先人阅读起来非常清晰,代码处理起来也可能比XML分层更快。 2.2.2结构和属性 属性与主体之间用下划线“_”连接,如家具.书桌_白(色),表示白色的书桌。 结构视为特殊属性:家具.书桌_抽屉,表示有抽屉的书桌。抽屉_家具.书桌,表示书桌上的抽屉。 在一些抽象条件下,属性和子对象意义差不多,“.”和“_”可以混用:如物理.经典物理还是物理_经典物理:确实搞不清经典物理该看做物理的一部分内容,还是一个子概念。按自然语言的原则从宽为好,不强调._的差异。比方说,上边的书桌_白,即使误为书桌.白,我们在处理时也应该从经验分析中发现白不是书桌的分类,所以给补上缺省部分内容“白(书桌)”。2.2.3描述概念的语义串:语义串即表示语义的字符串,必须在概念map中能搜索到的串,才是有效值。一个词语有多重含义,但在语义结构中重复出现的同一个值(词汇)的可能性已经大大减少。对于多义词汇,在语义结构中,只要进一步搜索预计这个值的上级或同一节点,就可以确定其意义。 一系列同义词中,挑选书面最规范的一个用于概念注册。一个词汇的多个意义中,当然选择其原始意义的概念来注册。 比如“鸡”这个词,常用三种含义,在语义结构中只能找到一个,即家禽或鸟类节点下的一个值。在另外两个含义在概念map上找不到,而只能从其它预备概念或词汇表类型的“俗称”中匹配到概念的正名,才能进入。严格地解释,鸡作为词有三个用法,用语义串表达为<...家禽.鸡><....器官.男性生殖器官.俗称><社会...职业类型.失足妇女.俗称> 有效的语义串能完整表达词语在概念分类中的位置。具有多重意义的词语(真正在两个概念位置上无法取代的词汇不多,多半是跨领域的概念拥有多个语义串),可以在概念map中搜出多个语义串,在通过本句或上下文中其他词汇的语义串所在域,不仅能排计算出该词汇的语义,排除歧义,甚至能帮助计算出整个句子,甚至段落的语义。 表示概念的语义串,基本格式为@@gai=(概念的汉语拼音) 从外界出口(@@file=“路径-文件名”)引向其它xml文档的内容,可以接着概念map的语义串,接着用.节点的方式,延续语义串的描述。2.4概念map作用围绕概念map进行演绎和归纳 结论:通过语义库的xml结构和文本型的语义串,我们要努力实现更全面的,各种语义的描述和搜索,包括并不限于以下内容: 概念分类; 分析概念之间的关系 用概念语义串描述概念域---概念map中一系列节点下概念的集合;多个集合的交集和并集; 概念-子概念和对象,个体、集合、任意、存在某一个,抽象概念或具体时空; 概念/对象-运动-属性的结合; 语法中的词汇和句式; 增加新的逻辑方式 以上推理过程,在代码层面上无一例外需要更详细具体的语义串格式支持。这些语义串格式上也自然以“@@sem=”为基础进行扩展。使用频繁的有...第3章语义维度和语义向量3.0语义向量和语义维度 在对自然语言中语义现象的本质进行思索后,创建了语义向量和语义维度的通用结构,用于形式化描述普遍而广泛的语义构造。 语义向量:由一个较简单的结构形成的语义分量,如同空间中的一个向量,(不限于直线)最典型的就是一个属性,比如物体的颜色。语义维度:一个蕴含很多结构的语义组合,如同空间中一个面(不一定是平的),语义维度之中有多个内容可视为向量。较典型的比如物体的视觉形象,包括了形状、颜色、尺寸等一组属性。 每一个语义向量,通常可以1个属性(或2,3个吧)来描述,建议使用1个枚举类型数据对应一个很短的整数来描述,以模糊程度为主。这些属性可能赋予不同层次的语言活动,如概念、经验、情景、事件、过程....,对应着语言上的词语、句子、段落甚至篇章。比方说,客观性这一种语义向量,能映射赋予的对象是句子描述的事件,通常常用的词汇、概念,在生成对象用于句子之前,就没有客观性这种语义,但描述事件或理论的专有名词或词组例外(如燃素说日心说相对论,92共识);而褒贬的语义向量,则可能会映射到词汇和概念上。 如果一个向量对语言活动可以赋上有效值,那么我们说这个语言活动在这个向量上有意义。例如: 对话态度,可以包含有敬重、礼貌、认真,及其相反的值。“无”(明显态度),可以作为有效值,也可以做一个无效值。当我们认为所有语言都可以有态度时,“无”态度也是一种态度。 下午6点来吃饭。(口头的,态度随意,也可以理解为无态度) 下午6点恭候,敬请光临。(正式、尊重,带上帖子) 每一个语义维度/向量,在理解和思维过程中,都可能指向特定的思维区域,如搜索或修改特定的记忆和搜索区域,使用不同的思维逻辑线路,调出特定的搜索读写参数。在AI系统中使用不同的过程和文本。 语义维度和向量,在概念map中,认知.语言.语义的概念下进行简单注册,以便顶层分类统一管理,并进行抽象的归纳演绎等逻辑。但每一个语义向量下,用于匹配判断的具体词汇、句式,目前的设计将一个最常用而简要的结构置于与map并列的“语义向量”大标签下,以便于过程代码语义分析时的快速导入,作为静态常量频繁使用。由于大量语义甚至需要多个符合句式表达,如重复、排比、设问、反语、三段论、经典归纳法、各种论证,所以更详细的经验句式甚至段落,只能引入专门的语义概念进行描述。 面对一段文字(话语),常规阅读(聆听)时,我会会以N维常识性的语义维度进行分析。在AI语义引擎中,每个向量的分析对应一个进程,每个语义维度的分析对应于一个客户端,拥有专有领域的语义串格式及其支持下的数据库3.1维度一:语言法则 语言法则(语形)的分析,主要在文字阅读中进行,而对话表述中很难保持对语法规范的使用,所以及时对话的形式一般只用于几个句子规模的信息交流,而非用于组织篇章规模的信息。 理解面对的第一步是纯粹的文字组合,因此有必要把纯粹的语言系统与思维观念在形式上分离,单独讨论文字、词汇、句子的意义和组成规律。 语言法则包含抽象的语义结构 词汇和句式属于语言中语法范畴,本质上是语法(语形)这种特殊领域的语义,人类语言;在使用它们的时候,它们是独立于观念世界的描述和隐射;但在实践中我们也要频繁地学习理解它们本身,当语言规则自身也要被描述的时候,就成为概念在语言领域的特殊结构。 我们通过语义串的出发节点,可以象描述其它领域一样,描述语言自身,指向特定概念库、经验库、库内的结构。这种自指能力,也是自然语言中建立语法结构,完善语言系统的关键之一。因此,定义了逻辑句式的数据结构。 语言法则并非完全与客观世界完全独立脱离,它的结构也能反应认知思维方式对认知目标的简单分类,同时也间接地体现了客观世界的某种抽象。这在以下所有环节中都有体现。1、词语。词语是对概念的标识,分为各种词性。 最基本的词语类型应该是名词。名词是独立而稳定的信息集合,可以表达从具体到抽象的事物类型或对象。在句子中,名词的概念或对象作为主语和宾语,表示发起活动的主体或者对象。在本系统中,名词概念的内涵包括了这一类事物的组成部分。 其它词性的概念或对象,如果被置于主题或对象时,就会被固化为名词。例如:游泳(或任意动词)是一种运动;我喜欢漂亮..... 反之,只有部分名词会延伸为其它词性使用。 动词通常视为事物或对象的关系。在动词概念中,内涵的主要内容包括这个动作或活动的前提、过程和结果。动词的过程与名词的结构内涵相似,结构和过程都持续细分下去,深入到好几个层次。 形容词概念来源于简单属性,对名词概念或对象有筛选和限制的作用。 副词概念,可以说是动词的属性,来源于对运动的控制参数。 使用盘古分词软件,对未知词性的词语,用自定的词库再做一次搜索匹配。2、词组到短语,词组把不同概念的认知元素进行叠加,对内涵进行集合。词组也反映了人类认知模式中,对事物概念和属性信息进行并列、选择、的运算关系。构成词组的最重要属性是整个词组的属性,即词组集合等效于一个单一的词性;另一个属性是词组类型,常见的有联合、偏正、动宾、介宾等等。 词性及其组合类型(如联合、偏正)是纯粹语法规则为字符做的属性标识,在句型匹配识别中不得不普遍使用。然而汉语中词语没有词性标注,同一个词在用于不同词性时,基本不加后缀或词根,如我们生活在这片土地上;我们的生活蒸蒸日上;我们要掌握些生活常识。 这样导致分词时对词性判断的正确率很低,也无法正确匹配出词组的类型。所以,在词组理解判断这一层,就有必要引入概念map和经验库的问题。如生活常识,由于生活做动词无法把常识作为对象,那么就得重新考虑“生活”的词性问题。 多个词性的词语组成词组时,由于缺乏更多背景和上下文,更容易产生“歧义”:比如“生产工具”,如果句子中没有其它动词,也不排除有动宾结构的可能,但在大多数情况下,会出现与“工具”相匹配的动词,因此更多还是作为偏正词组,“(用于)生产的工具”。生产在这里的词性更接近形容词。 语义map借鉴HNC的语义块理论和分类。以围绕动词的特征语义块作为语句的核心发起分析,也以此确定单句的类型(一种属性)。 在此提出一个新观点:所有词组或语义块,最终均可以理解为名词。无论是哪种句子成分(语义块),都化简为一个情境和存在动词的关系组合。 例如小明看见狗狗欢快地跳来跳去。简化为:这(情境idXXX,类型实在或虚拟)存在小明,存在小明看见的活动,看见下的次级存在(主体元素小狗、状态元素欢快、运动元素跳跃) 例2女友一生气,小明P都不敢放一个。(情境idaaaa,类型过去发生过&将来大概率)存在小明的女友存在女友生气,接下来存在必然结果(与前面的看见一样,是一个情境套子,装载另一个情境):结果级子情境(存在小明没有吭声非常安静,习语转换) 3、句型句式(单句)词语的排列构成句子。 通过语法的句子成分分析,可以建立由主谓宾、定状补排列构成的句式,句子成分和词性有比较强的关联,把句子成分转换为对应的词性或词组类型,可以和盘古分词后的词汇集合进行一定匹配。这种以纯语法结构属性构成的句式排列,可以称为纯语法句式。双层句型结构 与词组分析的情况类似,纯粹的语法格式组成的句式由于汉语词性的多义性,不能进行准确匹配。同样需要引入概念map和经验库作为第二层:在概念map和经验库的支持下,词语到概念的歧义,能够进行语义上的可行性分析加以排除,在此成为语义句式。概念map支持下的语义句式,对语义的描述和匹配精度有了本质性提升,突破和纯粹语法规则构造的瓶颈。 常用的纯语法句式,估计200左右就已经比较充分;引入概念map和词组搭配的经验库后,即使数量增加2个数量级,但因为两层搜索,速度也仅仅是线性增加。 在掌握一定数量的语义句式后,我们可以构造出对句式本身进行学习的句式,来匹配人类对句式进行学习的句子,在遇到未知句式的时候,实现对句式的自主学习和主动交流。例如,对句子的疑问,通常是这么说的: “什么,(常量词语A),什么,(常量词语B),什么”这句话,是什么意思?(如果只有一个“什么”,问的是词语的用法,多个什么,表示句子中多个变量)如果AI遇到这样的问题... 反之,如果AI被提问句式的问题,AI可以进一步追问第几个什么的含义,转换成一个变量,为一个概念-对象-词组(采用HNC理论中的说法,即语义块。组建成一个新的句式)然后与自己已知的描述句式匹配,换用另一个等效的句式表达:例如“你不得不这么干”就相当于“你必须这么干”的意思。即主语+不得不(双重否定)是一种强调,相当于必须,可插入主语和谓语之中,也就是一个名词性短语+动词短语之中。 某些句型代表了强烈的语义。这样可以把句式加入语义描述之中,把句型作为语义匹配理解的重要通道。 比如说“非A不可”,其中包含着对A强烈的肯定,这在“非”和“不可”这两个概念之中,是完全没有的。 逻辑句式与描述(表达)句式 逻辑句式是表示AI自身数据结构的句式,通过语义串,使用特殊字符描述各语种词汇库、概念库、经验库及其相关节点。同时也需要从自然语言方式输入的文本中获取相应的输入值,完成与原数据库中相关位置数值的对比,形成理解。 描述/表达句式就是自然语言中使用的中文句式。通常一个逻辑句式可以通过多种表达句式实现,其中可以包括逻辑句式本身。 在逻辑句式和描述句式之间,存在一个基础描述句式,这个基础描述句式的格式是与逻辑句式一致的。 比如说,我赞同(上一句话)是一个基础描述句式。它可以和“@@sem.meaning=...我,@@sem.meaning=态度.赞同”(我、态度是已知的语义维度和向量,必须在概念map中注册,即实现理解)这个逻辑句式匹配上。对应的表达/描述句式可以一大堆,如“很好、是这样、说得对....” AI读入自然语言中丰富多彩的描述句式,转换成一个简单清晰的逻辑句式。逻辑句式中特殊字符和英文代表变量属性,指向语义概念数据库的某些区域,等号后边是变量值或集合。如果描述句子分词后的词汇,经过近(同)义词表转换后,再通过概念map和概念模板的分析,可以与逻辑句式匹配上,那么就能体现明确的含义和准确理解。 举例:甘蔗的形状是长条形。小明的爸爸是工程师。这两个句子通过单纯的分词,可能得出同样的纯语法句式:名词,的,名词,是,名词。假有足够知识,从数据库通过搜索,我们可以理解到甘蔗是(水果的子)概念名,从水果(甚至物体)概念模板中可以理解到形状是一个常用属性;长条形也是一个已定义的形状,而且位于同一个概念(预备概念的结构中);那么逻辑句式就是:【gn】的【cons】是【value】。事实上,“形状”这个元素是冗余信息,因为在常识中,长条形这个值,在甘蔗的概念中,只能属于形状这个属性下的一个值,因此“甘蔗是长条形”的逻辑句式【gn=“甘蔗”】【cons.value=“长条形”】就可以等效为:【gn=“甘蔗”】的【cons=“形状”】【value=“长条形”】。 回头再看“小明的爸爸是工程师”,当然必须搜索到小明<<人名,指代一个人。在人的模板中,可以有“爸爸”(父亲)的属性,但这个属性中通常都不会出现“工程师”这个值。这个值多半属于职业这个属性。那么就要将“小明的爸爸”作为概念名来搜索了。 我在商店里看见了很多新奇的玩具。通过地点“在商店里”、视觉领域动词“看见”、助词“了”,较明确地表达这句话描述一个具体场景,而非抽象概念。因此这句话表达的是一个经验。因此可分别搜索以“我、商店、看见、玩具”为key元素的经验库。进行对比、并存储人在思维理解过程中也有类似的过程和步骤。4、句子群组 一个复杂单句包含着嵌套,我想归结到句群中。 多个有关联的句子组成复句,如条件、因果、设问、排比、递进、三段论等句式。复句间也以类似关系组成更大的集合,可称为句群。这些句子间体现了逻辑关系和逻辑线路。可以表达方式为基础,描述句群中句子之间的关系结构,赋予各种陈述、描写和论证方式的属性,作为句子之间关系的理解。 句群已经接近段落的层次。 陈述方式:顺序、倒叙;设问 论证方式:归纳演绎、举例、分析、假设 描写方式:细节、比喻、重复 按照抽象时空关系描述,如顺着一个原理的结构,一个运动的过程。 用句群的这些属性+讨论的领域,可以作为对句群主要内容的归纳描述。 句群之间,也存在类似关系。 段落-篇章一系列的句子构成段落,再构成篇章。通过一群句子讨论的多个主体、客体和关系,搜索map和经验库,理解那些句子和概念能对众多句子的元素进行概括,从而掌握段落的主要含义,然后用很少的几个直到一个句子来总结。总结道最后形成一个主题,这个key甚至可以理解为把整段话,甚至篇章形成一个新的概念。 以此类推,段落语义是句子语义的归纳,把多个句子的语义领域集合,用一个句子描述出来。而篇章的语义,是更进一步要压缩段落章节的主要语义领域,用一两个段落的篇幅,最终形成对篇章的完善理解,通常需要准确地归纳出一个主题,这个主题正好作为一个概念模板进行记忆。不同的文章格式,如记叙文、说明文、分析论述、教科书、故事、寓言、小说、模板结构有所侧重。 比如说《西游记》,最简单的一句话主题是唐僧师傅四人西天取经的故事。扩展开的内容简介,可以说一路斩妖伏魔,历尽磨难,取得真经修成正果。这就可以归纳为一个小说模板的概念,100回的故事作为一个巨大活动的步骤,然后每一回的故事又可以记录为一系列的子过程,描述很简单,也可以比较详细些地以经验格式写入内涵结构。 回头再讨论句子组成的关系,正好可以和概念结构的关系进行对应。《西游记》的小说类概念,活动的步骤和过程之间主要是按顺序记叙的关系。故事细节中也有描写方式,不过正常人对这个小说只是一般性阅读,对这些描写大部分都会遗忘,只有个别特别感兴趣的才会记忆下来。6、语言对向量的映射 所有的语义都需要投射到语言维度。语义的相互映射就像地图,语言维度是地图的基础参照体系,正确切分词汇如同经纬度,读出句子类型和句间关系如同识地形地貌(山、水、道路等),文字和语言中,语言层面的错误基本上会引发其它语义的误解。其它较重要的语义维度,如客观性、语用、态度等,相当于比较重要而常见的内容,如行政区域、边界、城市内的设施,正常阅读或正式交流时或多或少总要给与关注,后面描述的维度属于此类;也有一些零碎的、不常关注的语义向量,如幽默、流畅、是否涉及某方面内容等,好比其后地理、物产分布之类不常见的地图映射。 在具体的细节上,各语义维度和语义分量,都会有一些独一无二独特的词语,代表相应的概念。这些概念通常也更大概率形成一些句式,来描述这个维度或向量的原理和经验。在单个句子的层面上,这些概念和句式,显然就是我们理解识别语义向量、维度的最重要标识。 语法(语形)本身就是一个重要维度:名词、动词、主语谓语宾语......,就是用于语法维度本身的词汇。这些词汇几乎专用于语法维度,对语法维度的匹配准确度很高。也就是说,相邻的句子中频繁出现这个领域在map中定义的相关词汇,可以很准确滴判断在讨论这个语义层面的问题。但其他维度的词汇往往用于多个维度,这就主要依靠更详细的排列方式,即句式来匹配,也可能需要比句子的组合,句子之间的关系,或者还要考察更多的内容。 某个语义向量或者维度,涉及哪些句式或词汇,就我个人掌握情况,一下子很难回忆。现在不如反过来思考,从词汇的角度,或一些经典句式,拥有什么语义,反而要明白得多。 词汇举例:混蛋(厌恶)、SB(蔑视)、CNM滴(单独使用为狠毒的咒骂) 句式举例:xxxxx是绝不可能的;卧槽,这是怎么回事?(习惯性脏话,通常并无愤恨和诅咒,更可能是惊异) 排比句、感叹句强调;设问句,关注、重视、强调 3.3维度二存在的逻辑 向量组一存在的客观性:在认知和信息领域,客观性的本质就是为足够多的观察者形成共识。尽管哲学上曾传说客观存在不依赖于主观意识,但从认识和信息的角度,实在不能确认哪一类事情是绝对真实的存在。客观存在映射到信息世界,就演变为信息来源的可信度。 0、物理规律,人类历史上无数人长期反复验证,未发现反例形成事实。1、你关注的正在发生的,以发生、将要发生的事情。这些事情因为你的多感官持续感知确认,这些信息相互支持,环环紧扣。基本上能确认是真实存在的事实。2、与你关系不大,听说的、间接了解的事情,如新闻、传闻、社会事件、产品质量,由于社会多方认证的权威而建立的客观性。如马航事件、奥运会3、历史事件,写入历史的客观性,大量无可否认的证据,被绝大多数人认可。如一二次世界大战。4、小说、故事、影视等虚拟存在,其中名著代代相传远远超过以上客观存在,命名为虚拟客观性。如孙悟空通常在西游记中存在,我们在街上看到孙猴子的样子就知道在表演;他做的事情(网络上很多段子)超出西游记就有些胡闹,就是作者超越西游记的幻想,这种幻想总需要满足逻辑上的规则;5、可能存在、将来可能发生而需要讨论的事情,可能性有大有小,可参考百分比概率。因为有可能发生,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论