




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
这段时间主要做的是对知网(Hownet)的全面了解,以及对本体建设工具protg的简单应用。通过对知网和WordNet的了解,我发现知网和WordNet的建设方式是截然不同的。知网对每个概念的定义是通过这个概念使用时的具体的语义环境来加以限制的。通过限制概念使用时所需要的其他语义来定义每个概念。而WordNet则是通过对词语的解释,以及概念的上下位关系,同义反义关系等关系来定义每个词语。学会使用protg,可以用他来建设自己的词汇本体的时候,我觉得可以结合知网和WordNet,对每个概念的定义中,既要体现它的各种关系词,同时还要用每个概念使用时的具体的语义环境对概念加以限定。下一步的任务就是进一步学习protg,掌握它的具体功能,争取尽快建立一种新的结合了知网思想和WordNet思想的词汇本体。主要参考资料是知网中文版官方网站/html/c_index.html,另外还有一些文章包括知网简介 ,知网的理论发现,KDML-知网知识系统描述语言,建设中文词汇语义资源中的一些问题和我们的对策,一个基于概念的中文文本分类模型,基于知网的词汇语义相似度计算,WordNet与hownet之关系比较等。下面是我对知网和protg应用的具体总结。一 对知网的全面了解的总结1. 关于知网的基本介绍 知网是一种词汇本体。知网(英文名称为Hownet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。义原是知网的最基本的构成单位,同时也是知网中不能分割的最小单位。知网知识描述语言(KDML)是用来描述知网系统中所有概念的特定语言。知网中每一个概念都是通过KDML,利用义原进行逐一的、孤立的定义的。例如:以概念“打”的定义为例:W_C=打 /中文词语G_C=V /中文词语词性E_C=酱油,张票,饭,去瓶酒,醋来了 /中文词语例子W_E=buy /英文词语G_E=V / 英文词语词性E_E= /英文词语例子DEF=buy|买 / 概念定义2. 知网义原的选取首先,知网中义原的选择和取舍是基于主观选择的。义原是从4000个汉字的义项(一个词往往具有几个意义,每一个意义就是一个义项)中抽取,经过人工的观察,挑选,合并同类项最终得到的。知网中的义原一共有2199个。选取出来的义原又被分为实体类(如 “human|人”),事件类(如 “lose|失去”),属性类(如 “form|形状”),属性值类(如 “fragrant|香”)。这部分知识可以通过知网简介和知网的理论发现进行进一步了解。3. 知网知识描述语言(KDML)KDML语言规则中详细规定了事件类、实体类、属性类、属性值类概念的描述方法,同时还规定了几种特定的标识符(如“,”“;”“=”)、几种特殊的指示符号(如“”“?”“$”)和各种动态角色(如“agent”“host of”)的使用方法。以概念“被告人”的定义为例:W_C=被告人G_C=NW_E=accusedG_E=NDEF=human|人:accuse|控告:patient=,domain=police|警在这个概念的定义中,human|人、accuse|控告和police|警都是知网系统中的义原。Patient、 domain则是知网系统中的语义关系。第一个“:”后面的内容是对human|人的具体解释。被告人是被控告的人,即accuse|控告的patient(被动者)。同时被告人是由警察押送的,因此他的domain(施动者)是police|警。具体参见KDML-知网知识系统描述语言。4. 知网的最新进展 知网从2000年开始创立到现在,经过了两次大的改版,现在已经作为中文信息处理搭建和研发的基础平台。现在最显著的就是基于知网研发的概念相似度计算软件和概念相关场计算软件。5. 知网的应用方法举例(1) 概念相似度的计算。(2) 中文文本的分类在基于知网的词汇语义相似度计算,一个基于概念的中文文本分类模型这两篇文章中详细的讲述了这两种应用算法。6. 知网的接口 知网发行2000版的时候,接口是开放的。但是现在发展到2008版,知网的接口应用部分需要购买才能使用了,大约要花费几万块。具体参见/html/c_index.html。7. 知网与WordNet的关系总的来说,WordNet在一开始对概念定义的时候就采用了网状结构,对每个概念的定义中都同时标注了他的上下位关系词,同义词,反义词等。而hownet对概念的定义则是完全孤立的,单纯的从概念的应用方法角度进行定义。例如知网中对“Singer|歌手”的定义是:DEF=human|人:domain=entertainment|艺,sing|唱:agent=即歌手是属于艺术界的,唱的施事者。而WordNet中对“Singer”的定义为:(1) singer, vocalist, vocalizer, vocaliser - (a person who sings) 在对Singer的定义中同时说明了他的同义词有vocalist, vocalizer和vocaliser。 另外,WordNet中还可以通过选择查看他的上下位关系词,而hownet则不提供这个功能。WordNet 可以被认为是一种现象,这种现象表现了各个词汇所表达的概念之间的语义关系,而这种语义关系可以通过HowNet 中有关义原的关系得到解释。换一种说法,WordNet中所描写的各种语义关系能够通过HowNet 中的义原得到验证、推导。二 对Protg的初步熟悉和简单使用1. Protg的基本介绍Protg 是由斯坦福大学的Stanford Medical Informatics开发的一个开放源码的本体编辑器, 它是用Java 编写的。Protg 界面风格与普通Windows 应用程序风格一致,用户比较容易学习使用。本体结构以树形的层次目录结构显示,用户可以通过点击相应的项目来增加或编辑类、子类、属性、实例等,使用户在概念层次上设计领域模型,所以本体工程师不需要了解具体的本体表示语言。Protg软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。他也是目前最广泛的本体论编辑器之一。由于它屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。另外,用Protg进行自己的本体建设之后,还可以对文件输出格式进行定制,可以选择将Protg的内部表示转换成XML、RDF(S)、OIL 、DAML 、DAML + OIL 、OWL 等系列语言的文本表示。2. 对Protg的使用举例我主要利用知网中对概念的定义方法,在Protg中得到了一个简单的网状关系图,以后待用。成果图如下:具体绘制步骤如下: 首先要说明一下所以步骤都是在protg3.4.4中得到的。(1) 建立新的项目。打开protg界面如下图所示,选择New Project。(2)出现Create New Project对话框后,选择OWL Flies后,点击Finish,而不选Next。(2) 建立类。protg的主页面中会出现,OWL Classes(OWL类),Properties(属性),Individuals(个体),Forms(表单)这几个标签。我们选择OWL Classes来编辑。在Asserted Hierarchy(添加阶层)中,会有所有类的超类owl:Thing。然后点击Asserted Hierarchy旁边的(Create subclass)按钮,或者在OWL:Thing,点击右键选择Create subclass就会出现protg自动定义名为Class_1的类。然后在右边的CLASS EDITOR(类编辑器)的Name选项中,输入event来替换自动定义的名字。(建议使用英文,因为下面会用到OWLViz来生成关系图,中文的话会容易出现问题。) 然后得到下图:同样的,依次在OWL:Thing下添加subclass(子类)分别命名为:entity,attribute,secondary feature。(3)建立子类。依照(2)的方法,在event类下添加子类,分别命名为sing,teach。在entity类下添加子类human,再在human下添加子类分别命名为:teacher,Singer,engineer。在attribute下添加子类,命名为occupation。在secondary-feature下添加子类field,再在field下添加子类industrial,entertainment,education。得到下图:(4)建立属性。选择Properties标签,新建一个ObjectProperty(注意不是DataProperty),Name改为agent。同理,建立objectproperty分别命名为domain,host of。如下图所示:(5)回到OWL Classes界面为各类添加属性(property)。以sing为例,要为sing类添加属性agent,首先选中sing类,然后在asserted conditions栏中选择(creat restriction)按钮,出现creat restriction对话框,在对话框中选择agent属性,之后点击对话框下方工具栏中的按钮选择所归属的类,此处选择Singer类。点击“OK”之后的界面如下图,此时asserted conditions栏中出现了对sing类的属性说明。同理,分别建立teach的agent为teacher。Engineer,teacher,Singer的host of属性值均为occupation,他们的domain属性值分别为industrial,education和entertainment。(6)建立完成之后,点击工具栏中的project,选择configure出现下图所示的对话框在对话框中选中OWLVizTab,其他不变,点击“OK”。这时页面中便会增加一个OWLViz标签。选择OWLViz标签点击(show all classes)按钮,就会出下如下的关系图。最后需要注意的是,如果建立过程中出现如下两种错误,解决方法如下。(1)OWLViz的DOT error先到到此处下载GraphViz tool,然后安装。在OWLViz设置中指定正确的DOT application路径。默认情况下是(Linux和Unix下的/usr/local/bin , 或者是windows下的C:Program FilesATTGraphVizbinDOT.exe) Max OS X到此处下载graphviz 并指定DOTapplication路径:Graphviz软件的路径+/Graphviz.app/Contents/MacOS/dot (2)The JDBC driver is not on the Classpath或者JDBC driver not found请确认你的protg的安装目录下是否有driver.jar。没有的话请点击这里下载,然后展开将其中的mysql-c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西工业工程职业技术学院《面向生物医学的语言基础2》2023-2024学年第一学期期末试卷
- 湖南信息学院《方剂学》2023-2024学年第二学期期末试卷
- 聊城市重点中学2024-2025学年高三5月质量分析联合考试物理试题含解析
- 华侨大学《高级影视特效合成实践》2023-2024学年第二学期期末试卷
- 重庆文理学院《大学体育(三)》2023-2024学年第二学期期末试卷
- 湛江市赤坎区2025年五年级数学第二学期期末检测模拟试题含答案
- 神木县2025届数学四年级第二学期期末监测试题含解析
- 八年级语文上册《背影》课件
- 焦作市武陟县2025届三年级数学第二学期期末监测模拟试题含解析
- 四川工程职业技术学院《汉字文化学》2023-2024学年第一学期期末试卷
- DB32∕T 3255-2017 液氯汽车罐车、罐式集装箱卸载安全技术要求
- 南阳医专三年制专科卫生信息管理专业人才培养方案
- 基层派出所消防培训
- 中小学生中医药科普知识竞赛
- (正式版)JBT 14694-2024 电气绝缘用合成有机酯与结构材料的相容性试验方法
- 《控制计划培训》课件
- 中学风险辨识评估和应急资源调查报告
- 《他汀不耐受的临床诊断与处理专家共识》解读
- 2024年中考英语复习:补全对话 中考真题练习题汇编(含答案解析)
- 乳猪料生产工艺
- Braden压疮风险评估量表解析
评论
0/150
提交评论