版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于语义的自动文摘介绍计算机 1 介绍 2 两个语义模型 2.1语义知识模型 2.2 统计主题模型 3 总结目录31、介绍基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.4 基于语义的自动文摘方法,采用语义学、哲学、统计学和概率学等多领域知识,通过语义模型对语义空间建模,生成文档在语义空间里的表示,然后通过语义分析手段提取文摘候选片段,根据片段之间的语
2、义关系得到可读性强的文摘结果. 基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.1、介绍52、两个语义模型统计主题模型和语义知识模型.2.1 语义知识模型以语义关系为重点描述对象,以语义知识库为表示形式,为涉及到语言形式的计算机处理操作提供语义知识约束条件.作为一个具有结构性、代表性、可机读性的一定规模的语义知识集合,语义知识库在自然语言处理的各个领域都有广泛的应用.应用较为广泛的语义知识库包括:WordNet和HowNet等本体库.7HowNetHowNet:汉语+英语以揭示概念与概念之间,以及概念所具有的属性之间的关系为基本内容的常识
3、知识库。知识工程师来设计知识库的框架。HowNet认为所有概念都是由基本义元组成.它通过对中文基本义元的分析,用有限的义元集合描述无限的概念集合,然后再将概念与概念之间的关系及概念的属性与属性之间的关系用网状的知识系统表示出来.8Ontology本体本体是关于一些主题的清晰规范的说明。1 术语表2 术语关系集主题图的概念模型10MeSH1. 严格规范的科学语言。不允许一词多义和一义多词。把同义检索词归一检索。严格的同义规范、词义规范、词类规范、词型规范,明确词的含义及所涉及的范围,使得每一个叙词在词语的形式和语义上只能有一个概念,不允许一词多义和一义多词,避免了标引人员和检索人员人为造成的误差
4、。在检索中,最为检索人员熟悉的是Neoplasm这个科学用词,它包含了Tumors,Tumor,Benign Neoplasms,Neoplasms,Benign,Benign Neoplasm,Neoplasm,Benign,Cancer,Cancers这些同义词,这些同义词以入口词的形式出现在MeSH表中,当用MeSH对医学知识进行标引、组织和检索时,表达肿瘤概念的也只能是科学语言Neoplasm,而不是本时常用的Tumor,Cancer等自然语言。11MeSH2、 树状结构表主题词划分15类:1-9级逻辑和隶属关系树状结构表将字顺表中的主题词按照每个词的词义范畴和学科属性,分别归入15个
5、大类之中,多数大类又进一步细分多达9 级。每一级类目用一组号码标明,级与级之间用“.”号隔开。主题词上、下级之间采用逐级缩进格式表现主题之间的隶属关系,每个主题词都有一个或两个以上的树状结构号,该号是联系字顺表和树状结构表的纽带。12MeSH3. 词组性主题词的弥补作用MeSH词组性主题词的两种形式:自然语序:adj+n Hypothalamic Disease倒装语序:n+adj 名词形中心词提前例如:ColonColon,AscendingColon,DescendingColon,SigmoidColon,Transverse142.2 统计主题模型 统计主题模型(Statistical
6、 topic models)通过参数估计寻找一个低维的多项式分布集合,每个多项式分布称为一个主题(Topic),用来捕获词之间的相关信息. 潜在语义分析(LSA)是由Deerwester等人3于1988年提出的最早的统计主题模型.它对语义距离的估计,不是依赖表层的统计数据,而是采用一种具有强大推论能力的数学分析方法奇异值分解(SVD). 1999年Hofmann提出的PLSA模型来模拟文档中词的产生过程.2003年Blei等人基于PLSA提出了LDA模型,对文档的产生过程进行模拟,发现的主题能捕获词之间的相关性.15统计主题模型PLSA PLSA模型将文档的生成这样设计:第一步,我们抛一个有H面的骰子,每个面代表一个主题,各个面概率不一,得到一个主题;第二步,这个主题又对应了一个有T个面的骰子,每个面代表一个词,抛这骰子N次,得到一篇文章。其实我觉得这个模型可以看作是两个词袋模型的组合,第一个做一次,确定主题,第二个重复独立做N词,确定文章。下面是一个直观图(借用LDA数学八卦的图了):17统计主题模型LDA18统计主题模型LDALDA模型中一篇文档生成的方式如下:19隐主题马尔科夫模型基于语义统计主题模型HTMM203、总结 基于语义的自动文摘技术强调语义分析在自动文摘中的作用,但并不代表仅仅使用语义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建师范大学《管理学概论》2021-2022学年第一学期期末试卷
- 福建师范大学《地图学实验》2021-2022学年第一学期期末试卷
- 四川省成都市2020年中考英语真题(含答案)
- 2024秋国家开放大学《思想道德与法制》专题测验1-7答案
- 油田制度流程类 油田动火作业安全管理实施细则(陆上石油天然气开采)
- 班级常规调研活动分析
- 档案行政执法人员统计表
- 感恩教育课件教学课件
- 2024年四川客运从业资格证实操考试需要准备什么
- 2024年合肥客车驾驶员考试试题
- 世纪末世纪初的保守主义
- 人教版初中化学九年级上册5.1 质量守恒定律 (第一课时)教案(表格式)
- 道路施工临时围挡施工方案
- 高边坡施工危险源辨识及分析
- 注册土木工程师专业案例(水利水电)真题冲刺模拟(含标准答案)
- 转体实施专项施工组织设计及对策
- 运动损伤处理与预防PPT通用课件
- 视障信息登记表
- 振动标线设计规范
- 量子管通环原理
- 公务员体检操作手册
评论
0/150
提交评论