版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、百度文库好好学习.天天向上基于概念知识树知识表达体系的语义理解系统概要设计说明书百度文库-好好学习.天天向上目录1. 引言1编写目的1背景1定义1参考资料22. 概要设计2需求规泄2运行环境2基本设计概念和处理流程2系统体系结构33模块概要设计4知识管理模块CMC-ZSGL4理解工具模块CMC-GJSJ5理解平台模块CMC-UPT6辅助功能模块CMC-FZGN7系统管理模块CMC-XTGL84接口设计9用户界而设计9内部接口10外部接口115系统数据库设计12逻辑结构设计要点12物理结构设计要点15数据库与程序的关系156.程序出错处理15-2百度文库好好学习.天天向上1.引言编写目的编写本文
2、档的目的是说明基于概念知识树知识表达体系的语义理解系统的总体设计思路,包括系 统的组织结构设讣、基本处理流程、模块划分、功能分配、接口设计、运行设计、数据结构设计、界 面组成设计等,并进一步细化程序系统的功能、算法、接口、测试,以及数据库设计,为程序开发和 系统实施提供基础,使系统开发人员和产品管理人员明确产品功能,可以有针对性的进行系统开发、 测试、验收等各方面的工作。本文档面向的是承担系统开发工作的技术人员,包括目前承担本项目的技术人员以及后期上层应 用的开发者。背景系统全称:基于槪念知识树知识表达体系的语义理解系统应用背景:现代服务业关键支撑技术研究示范平台,古代建筑保护技术信息系统研究
3、,词类理解 试验系统定义人类的知识以符号的形式存在和流传,以文字作为主要的传承载体。虽然文字不同但是都反映的 是客观事务在人类大脑中的映像,映像具有普遍性和通用性,即文字的不同可能代表的却是相同的语 义和知识,语言的意义以及其包含的知识是以概念的形式出现在人的头脑中,并通过概念的各种内在 的属性以及概念间的组成、关联关系形成网状结构来表示知识。概念知识树知识表达体系:一种知识表达体系,认为语言本体可以用概念来刻画,通过概念 属性、关系和行为构成网状结构构造基础知识,通过层级知识树来刻画领域应用知识。概念:使用属性、关系和行为来左义概念的内涵。以 属性需,属性值对来描述属性;关系是 描述概念间内
4、部联系,该体系中关系包括描述隶属或者抽象一具体关系的父子关系、描述包含或者部 分一整体关系的成员关系和描述多个概念按照不同属性组成多维关系:行为是由所有与概念本身相关 的规则构成的集合。独立概念通过语义约束、语义状态和语义逻借三种方式复合成复合槪念。知识树:用来描述知识所属领域或者务领域共享知识的树状层次性分类体系,知识树上的一个 节点,代表一个知识主题。参考资料 软件工程术语(GB/T 11457-1995)计算机软件开发规范(GB 8566)计算机软件产品开发文件编制指南(GB 8567)软件包质量要求和测试(GB/T 17544-1998)2.概要设计需求规定系统开发基于概念知识树语义知
5、识表达体系,提供概念库和知识树的维护体制,完成概念库及其复 合模型的增删修改、知识树的建立修改功能:提供自然语言理解相关工具的准入机制,实现语义场的 泄义、系统变量的设置、谓词的注册以及脚本的左义等功能:提供语义信息理解的应用功能,支持以 概念知识树支撑下的句子或短语的理解;系统还提供基本的辅助功能,完成概念、词类的统汁浏览等 功能。最后系统提供理解过程中需要的某些重要功能的接口,以方便在此基础平台上的二次开发实践。运行环境22.1系统结构C/S结构,支持局域网环境操作2.2.2服务器端 设备环境:P4 3.0G处理器,1G内存,200G硬盘,100M网络带宽 操作系统:MS Windows2
6、003 Server数据库:MS SQL Scrvcr20002.2.3客户端 操作系统:MS Windows2000/XP系列其他:使用.Net或以上版本基本设计概念和处理流程系统总体目标是建立基于槪念知识树知识表达体系的语义理解系统,以描述本体知识的概念库和 描述领域关联知识的知识树为支撑,加上谓词和脚本等的使用,提供对自然语言语义内容进行理解的 支撑功能,提供对外接口,公开语义理解过程的某些重要功能,方便二次开发。平台基本设计概念是系统要能完整体现上述知识体系基础上的自然语言理解过程,流程淸晰且相 -3百度文库好好学习.天天向上对独立,完成流程的各个主辅功能模块具有高内聚性和低耦合性,数
7、据结构设计应充分考虑对领域知 识的适用性,提供封装完整的数据库操作接口和部分理解重要功能接口,设汁方便用户使用平台的操 作界而,最后,整个平台应能够作为一个基础平台供自然语言理解二次开发。系统将对语义理解给予支撑作为核心,包括以下几个信息处理流程:1)知识管理:概念库和知识树的新建和修改,以特定形式存储于数据库中,是理解系统的基础支撑:2)初始化设巻:完成系统数据库的选择、概念库初始化,缺省领域的立义以及知识树的装载:英中 数据库是每次系统启动都必须选择的,一般数据库确定,其概念库和缺省领域也左义完成,数据库中 的知识树可以选择性的装载使用,是理解系统的初始环境设置:3)工具准入:完成谓词注册
8、、脚本泄义等,是理解系统的工具准备:4)理解平台:用户读入/输入需理解的文本,分词并初步语义标注,利用工具实现语义复合计算和部 分的推理功能,并对过程监控记录,以便事后分析;5)服务接口:提供重要理解过程接口,便于系统二次开发:提供知识查询接口,便于相关应用调用。系统主要流程图如下:图1系统理解系统主要处理流程系统体系结构系统以语义理解过程为核心,在概念库和知识树的基础上,进一步细化定义理解过程中可能用到 的语义场关联、谓词、脚本并融合进理解过程,完成语义理解过程,同时系统还提供基本的统讣.浏 览和查询等辅助功能。系统总体结构框架如下:3 模块概要设计经过对系统功能需求的转化分析,得到系统结构
9、的程序控制逻辑算法设讣,各部分独立程序模块的 分解设计如下:知识管理模块CMC-ZSGL3.1.1功能完成概念库知识管理和知识树知识组织、管理,负责概念库中概念及其复合模型(包括概念的属性、 关系和行为)的添加、删除、修改,知识树的创建、丰富、修改和删除。3.1.2性能支持概念总数不小于10.000,知识树的容量21000,每棵知识树总节点数21.000.000,知识检索速 度W1秒的操作。3.1.3输入用户对概念库和知识树的操作请求。3丄4输出用户操作结果,最终形成支撑理解系统的概念库和知识树。3丄5模块结构图tri;!濟用伙取用户捲 入如识錐护记攻数血变更国用敬鬆 用孩门程fB亦曲州”讥1
10、州卜纭岀叫类51|W«|节点|节点|节心卽錢床系條曲斤茶陋M图3知识管理结构图表1知识管理功能说明序号功能名称功能标识功能说明1获取用户输入CMC-ZSGL-F1对知识管理功能的操作2概念维护CMC-ZSGL-F2对概念库内容的操作3语义复合模型维护CMC-ZSGL-F3对语义复合模型的操作4知识树维护CMC-ZSGL-F4对知识树内容的操作5记录数据CMC-ZSGL-F5操作后台数据库7检索知识CMC-ZSGL-F6在知识体系中检索知识理解工具模块CMC-GJSJ3.2.1功能理解工具的左义和管理,提供自然语言理解工具的准入机制,实现语义场的泄义、系统变量的设置、 谓词的注册以及脚
11、本的左义等功能。3.2.2输入用户关于语义场的定义(维数及其描述),系统变量的设泄,谓词的定义(需称、解释、变量表及 其类型和内容),脚本的左义(词汇的选择及内容)。百度文库好好学习.天天向上323输出储存于系统,供理解过程调用。32.4模块功能结构图图4理解工具模块结构图表2理解工具功能说明序号功能名称功能标识功能说明1语义场的定义CMC-GJSJ-F1用户泄义语义场的操作2系统变量的设定CMC- GJSJ -F2用户定义系统变疑3谓词注册CMC- GJSJ -F3用户注册谓词4脚本的建义CMC- GJSJ -F4用于定义脚本5工具的调用CMC- GJSJ -F5用户对工具的调用理解平台模块
12、CMC-LJPT33.1功能对输入的文本进行语义结构分析,并通过语义复合和适当推理,获得文本的语义内容和简单的推理 结果。理解过程需要依托概念库和领域知识树,处理的结果是以语义复合结构描述的一个由自然语言 符号组成的二维结构体,或可能的推理执行结果。3.3.2输入文本数据。3.33输岀表达文本短语语义内容的语义复合结构及部分推理结果。-6百度文库好好学习.天天向上33.4模块结构图表3理解平台功能说明序号功能名称功能标识功能说明1获取文本短语CMC-LJPT-F1输入需要处理的文本对象2中文分词CMC-UPT -F2分割得到文本中的词汇3标注CMC-UPT F3计算词汇对映的概念4语义复合CM
13、C-UPT -F4计算短语的语义5推理CMC-LJPT-F5给岀可能推理结果6监控CMC-LJPT-F6监控理解过程并记录辅助功能模块CMC-FZGN3.4.1功能完成统汁浏览搜索等辅助功能,具体为概念统汁、词类统汁、规则浏览、概念浏览、概念搜索。3.4.2输入用户请求操作。3.4.3输出请求操作结果。344模块功能结构图百度文库好好学习.天天向上图6辅助功能结构图表4辅助功能说明序号功能名称功能标识功能说明1概念统计CMC-FZGN-F1已有概念、左义槪念个数统讣,信 息框给出结果2词类统计CMC- FZGN -F2系统已有词类及其对应的数量统 计,给出结果表3综合浏览CMC- FZGN -
14、F3系统综合浏览4规则浏览CMC- FZGN -F4系统规则浏览5概念浏览CMC- FZGN -F5概念库概念浏览6概念搜索CMC- FZGN -F6概念搜索系统管理模块CMC-XTGL3.5.1功能系统管理程序一方而组织和维护本平台的功能结构;另一方而管理系统的环境设置,编借理解系 统的环境设宜,保障平台的结构和内容简便、髙效、可靠。3.5.2输入数据库.概念库、缺省领域设左,知识树装载选择操作,用户操作。3.5.3输出理解初始环境的设置,对数据的操作。3.5.4模块结构图表5系统管理功能说明序号功能名称功能标识功能说明1数据库选择CMC-XTGL-F1选择系统使用的数据库2概念库的加载CM
15、C-XTGL-F2加载概念库3缺省领域CMC -XTGL-F3定义缺省领域4知识树加载CMC-XTGL-F4加载知识树5系统功能结构管理CMC-XTGL-F5管理系统的功能结构4接口设计用户界面设计用户主要界而是理解实验平台界而,采用通用Window界面形式。在此界而中,窗口分为四个部 分:最上理解文本输入部分,左下文本语义复合分析结果部分,右中进一步人工分析或推理部分,右 下理解假设部分。在以上界而中用户可以使用鼠标操作屏幕上的对象,诸如菜单、对话框和按钮,也可以在完 成任务时用亂标单击事务纪录。依据这些菜单选项可以设计出相应的对话过程,菜单的层次体系可以 根据需要灵活地重新排列。界面输出文
16、本或图丿t。系统对用户的每一个动作提供相应的反馈信息,告诉使用者“他的动作是否已被确认”。这些 反馈信息包括:(1)按钮被按下时改变外观,信息条目列表区的信息节点展开或收拢时变换图标;(2)信息条目经选择浏览后,标题改变颜色:(3)岀现误操作时,立即给出错误提示和帮助信息。期理解实莹环呃54 1131馬 JK前币铮-1 Biff 在ft尊 正塩翠 性農的5RJ战 纟的娈S3决商未>8上刚的1当全人圭里还玄更多关于 我这里迂百更另丟于皱里还右更芳关于S»软I 我这里还有 农楚有;-)播作系伽至要陛正左日:按作系紡的.2 SS«J 正在 曰潮 裱少伯赏甘止磁本屋牛乏衣I消
17、曲老疋将 消夷考正珞 消謝者正将/ 誚後者正珞 怡费着正将.2 旳赛者正将 沟贵着正将鼻 消密者J疋将 当你还在为你的产呈滋看 当J你还在.】 3J祢还EJ 当J你还在 当】你L还1亦】& :(刃別IO:豹康IMS念I词性 I细理伽嬪 IK对魏I日蝴B-52 格f&宾左«2W5-1- .2O3S-1-.2035-1-.,分祈®图8理解试验平台界而界而设计遵循原则:(1)界而规范应遵循微软Windows软件界而的规范;(2)系统的每一次对话 都应该有明确的次序,包括开始、中间处理过程和结束;(3)用多种信息提示用户当前软件运行状态, 软件界而元件的功能;(4)
18、操作可逆:界而交互动作可以是单个的操作,或者是一个相对独立的操作 序列:(5)设计良好的联机帮助。内部接口在平台设讣中,主要内部接口是知识库封装接口,其次是理解过程封装接口。其中知识库接口封 装了知识本体表达模型和语义复合模型,屏蔽了对知识实体数据的具体操作(添加、修改、删除、查 询数据记录)过程,以知识的获取、存储、共享和应用这样的模式向上层应用模块提供数据转化及知 识服务。-20上层应用程序1图9内部接口的结构关联表6知识库主要接口函数序号函数名称功能说明1LoadConceptO加载概念库数据2LoadMeaningO加载语义复合模型内容3DBUpdateO数据更新4DBSaveO数据存
19、储5DBDeleteO删除数据6GetConceptO获取指定的概念7GetMeaningO获取语义8GetLogErrO获取数据库操作的错谋信息外部接口系统为了便利平台的二次开发,提供理解过程重要功能接口。表7理解功能接口函数序号函数名称功能说明1Segment ()分词2Token ()语义标注3Understanding ()语义复合Reason ()推理5系统数据库设计逻辑结构设计要点系统数据库分为两大部分,一部分是与理解系统环境设宜相关部分,一部分是与知识内容相关部 分。5.1.1系统环境设置相关部分系统环境设置部分包括谓词表和脚本表,记录用户立义的脚本和注册的谓词。表8谓词表字段名
20、类型精度允许空含义Predicatevarchar50否谓词domainchar20是记录领域commentvarchar1000是命令assemblevarchar256是谓词变量classnamevarchar256是谓词类methodvarchar256是谓词方法vartypevarchar256是变量类型表9脚本表字段名类型精度允许空含义domainchar20是记录领域Namevarchar50是脚本名称Mscriptvarchar4000是Cscriptvarchar4000是5.1.2知识管理部分知识管理部分包含:概念表、概念属性表、领域列表、语义约朿表、语义逻辑表、语义状态表、
21、 知识树表.知识树节点表等。表10领域表字段名类型精度允许空含义domainchar20否领域名称commentvarchar100领域知识描述lgserialsmallint2是领域知识描述的语言domainscriptvarchar8000是领域脚本描述表11概念表字段名类型精度允许空含义domainchar20否所属领域namevarchar50否概念名称wpwordprop (smallint)2是词性defconceptVarchar800是定义deftypesmallint2是类型parentnamevarchar250是父类或上位节点pronouncechar10是读音表12属性
22、表字段名类型精度允许空含义domainchar20所属领域concattrvarchar120否属性所属概念attrnamevarchar50否属性名attrtypesmallint2否属性名称类型attnraluevarchar50是属性值attrvtypesmallint2是属性值类型inheritbit1是是否可继承表13语义约束表字段名类型精度允许空含义bindserialbigint8否约束编号corevarchar50是约朿核coretypesmallint2是约朿核类型bindvaluevarchar50是约束部分bindtypesmallint2是约束部分类型availablebit1r:是否可继承表14语义状态表字段名类型精度允许空含义stateserialbigint8否0语义状态编号actionvarchar50是状态核心动词槪念actiontypcsmallint2是状态列表objectvar
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅游行业景点评级标准
- 手术中的电生理监测
- 自制礼物课件教学课件
- 河南省2024九年级语文上册第二单元8就英法联军远征中国致巴特勒上尉的信课件新人教版
- 慢病调理中心介绍
- 消防演练总结讲评
- 农业物联网导论
- 感恩课件英文教学课件
- 玉米灰斑病病害循环
- 气管切开烧伤病人的护理
- 2024年国家能源集团大渡河公司招聘笔试参考题库含答案解析
- 2024年中能建数字科技有限公司招聘笔试参考题库含答案解析
- 组建二手车市场服务公司方案
- 信访工作课件
- 培养创新思维的临床医学培训方法
- 车辆管理工作汇报
- 物联网政策和法规
- 登金陵凤凰台-李白
- 大学生毕业论文写作教程全套教学课件
- 集装箱式活动板房搭设施工专项方案
- 化学锚栓承载力计算
评论
0/150
提交评论