版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
句子大全之TFIDF方法在英语句子相似度计算中的应用初探句子大全之TFIDF方法在英语句子相似度计算中的应用初探句子大全之TFIDF方法在英语句子相似度计算中的应用初探资料仅供参考文件编号:2022年4月句子大全之TFIDF方法在英语句子相似度计算中的应用初探版本号:A修改号:1页次:1.0审核:批准:发布日期:TFIDF方法在英语句子相似度计算中的应用初探摘要:介绍了一种中文自然语言处理中句子相似度的计算方法—基于向量空间模型的tfidf方法,并将该方法引入到了英语句子相似度的计算中来。对于含有同义词的句子,在计算句子相似度之前,先使用wordnet2.1查询句子中关键词的同义词集进行消歧,再利用tfidf方法进行相似度的计算。计算结果表明,消歧后再计算能得到更好的效果。关键词:tfidf;相似度计算;wordnet中图分类号:tp18文献标识码:a文章编号:1009-3044(2012)17-4127-02studyofenglishsentencesimilarityconputingintfidfmethodyangqian-qian,xudong(collegeofphysicsandelectronics,shandongnormaluniversity,jinan250000,china)keywords:tfidf;similaritycalculating;wordnet在机器翻译中基于实例的方法非常普遍,翻译结果也相对准确。在基于实例的英-汉机器翻译中,要想找到与目标句相匹配的源语言句子就要用到句子相似度的计算。在基于实例的机器翻译中句子相似度的计算非常关键,直接关系到目标句和语料库中源句子的匹配程度。在汉语句子相似度的计算中经常采用的是基于向量模型的tfidf方法,这是一种基于统计的方法,利用句子的词的词频词性等信息进行相关计算。我们将tfidf方法引入到英语句子相似度的计算中来,但是直接利用tfidf方法计算英语句子的相似度并不理想。这种方法没有对语义进行分析,在计算过程中若有同义不同形的词,相似度的结果就会受到影响,导致翻译匹配结果不准确。该文先采用wordnet2.1查询目标句子和源语言句子中关键词的同义词集,进行简单的同义词消岐后,再利用tfidf方法计算英语句子之间的相似度。1英语句子相似度的计算方法要计算英语句子的相似度,对于含有同义词的句子首先要用wordnet查询句子中关键词的同义词集,进行消歧后,再利用tfidf方法计算英语句子间的相似度。下面分别介绍一下wordnet的特点和基于向量空间模型的tfidf方法。1.1wordnet的特点wordnet是在princeton大学认知科学实验室的ler教授指导下开发的实际工作始于1985年。wordnet是一个在线的词汇参照系统,它的独特之处在于它是依据词义而不是依据词形来组织词汇信息。wordnet使用同义词集合(synset)代表概念(concept),词汇关系在词语之间体现,语义关系在概念之间体现。wordnet构造的核心是如何表示词汇概念节点,及在这些概念节点之间建立起各种语义关系。wordnet将英语词汇组织为一个同义词集合,每个集合表明一个词汇概念,同时力图在概念间建立不同的指针,表达上下位、同义、反义等不同的语义关系。经过这样的过程,原来抽象的概念被形式化了,变得具体且可以通过词汇意义加以操作,概念之间还可以建立多种语义关系的联系和推理。wordnet中词汇概念的语义关系主要包括:上下位、同义、反义、整体和部分、蕴含、属性、致使等。该文查询词语用的是wordnet2.1版本。version2.1主要包括名词、动词、形容词和副词四类实词,虚词并不予考察。我们主要利用的wordnet中的同义词集,若句子中的某个关键词属于另一关键词的同义词,我们将其看作相同的词,为下一步tfidf方法计算句子相似度做准备。例如“scene”与“scenery”两个词,通过wordnet2.1查询知“scenery”位于“scene”的同义词集中,我们就将其看作相同词;类似地,“potato”与“loveapple”也是同义词,也作为相同的词。1.2基于向量空间模型的tfidf方法在信息检索领域中,基于向量空间模型的tfidf方法被广泛地用来计算汉语文本之间的相似度。这里,我们将tfidf方法引入tfidf方法综合考虑了不同的词在句子中的出现频率(tf值)和这个词在整个语料库中对不同句子的分辨能力(idf值)。这种方法不需要任何对文本内容的深层理解,是信息检索领域常用的方法,当句子中次数较多时能产生较好的效果。但是不管英语句子还是汉语句子,往往需要考虑词本身的语义信息,ifidf在计算汉语句子相似度时没有考虑到语义信息。例如,“西红柿是什幺颜色”和“番茄是什幺颜色”采用tfidf方法计算相似度为0,但这两个句子表达的意思应该是完全相同的,因为“西红柿”和“番茄”在语义上是完全等价即两个词为同义词。
正是tfidf方法中融合进了wordnet的同义词集消岐部分,语义上完全相同但相似度却为0的情况得以改进。下面是通过对一些英语句子进行相似度的计算来对比一下加入wordnet查询后的好处。2试验结果下面的两组数据是英语句子相似度值,一组是直接采用tfidf方法进行计算的结果,一组是采用wordnet进行查询并简单分析后再利用tfidf方法进行计算的结果。1)wordcannotdescribethebeautyofthescence.2)thebeautyofthescenerybeggarsdescription.3)thescenceissobeautifulthatittranscendmypowerofdescription.目标句为:wordcannotdescribethespectacleofthenature.表1相似度计算结果的比较3结束语将tfidf方法用于英语句子之间相似度的计算,不需要对句子进行分词。tfidf方法考虑了词在上下文中的统计特性,不需要任何对文本内容的深层理解,相对来说计算较为简单,对于不需要考虑语义信息且词汇量较大的英语句子来说能获得较准确的结果。先采用wordnet进行简单的关键词语同义消岐,然后利用tfidf方法进行计算可以在一定程度上提高英语句子相似度的准确性。尤其是对于同义词较多的句子中,效果将更为明显。参考文献:[1]张刚,刘挺,郑实福,等.开放域中文问答系统的研究与实现[c].中国中文信息学会二十周年学术会议,2001.[2]burker,hammond,i.questionansweringfromfrequently-askedquestionfiles:experienceswiththefaqfindersystem[r].univ.ofchicago,dept.ofcomputersciencetechnicalreporttr-97-05,1997.[3]李伟.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工安全与环境保护
- 二零二五年度钢结构建筑室内装修材料供应合同3篇
- 人教版三年级上册语文30一次成功实验课件
- 2024年海南卫生健康职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 2024年海南体育职业技术学院高职单招数学历年参考题库含答案解析
- 2024年浙江电力职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 2024年浙江汽车职业技术学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 幼儿园午托服务项目方案
- 2024年浙江农业商贸职业学院高职单招职业适应性测试历年参考题库含答案解析
- 2024年河南艺术职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- 华为管理学习心得体会
- 2025年首都机场地服公司招聘笔试参考题库含答案解析
- 《廉政讲堂格言》课件
- 2021年发电厂(含新能源场站)涉网电力监控系统网络安全检查表
- 审计服务采购招标文件
- 2024年03月中国农业发展银行内蒙古分行校园招考拟招录人员笔试历年参考题库附带答案详解
- 空置房检查培训
- 浙江省绍兴市越城区2023-2024学年四年级上学期数学期末考试试卷
- 广东省广州市海珠区2023-2024学年九年级上学期期末英语试题(答案)
- ISO 56001-2024《创新管理体系-要求》专业解读与应用实践指导材料之8:“5领导作用-5.2创新方针”(雷泽佳编制-2025B0)
- 2023年新疆广播电视台招聘事业单位工作人员笔试真题
评论
0/150
提交评论