问答系统问题分类讲义_第1页
问答系统问题分类讲义_第2页
问答系统问题分类讲义_第3页
问答系统问题分类讲义_第4页
问答系统问题分类讲义_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问答系统问题分类问答系统总体框架问答系统问题分类问答系统总体框架问答系统的简单流程问题分类查询扩展文本检索答案抽取答案排序和选择问答系统问题分类目前问答的小组成员1.张老师总体指导负责2.文勖问题分类3.王丽娟查询扩展4.赵世奇答案抽取5.汤云山答案排序和选择陈儒负责调用googleapi,去掉导航信息,负责几个模块的连接和界面设计,调试等等问答系统问题分类具体例子1.系统输入:用户输入问题“第一个进入太空的中国人是谁”2.问题分类:HUM_PERSON3.查询扩展(王丽娟讲解)4.文本检索:(1)杨利伟是第一个进入太空的中国人,他于2003年10月15日乘神州五号进入太空,开始了21个小时的太空之行……(2)杨利伟是第一个进入太空的

中国人,第431位进入太空的地球人。.当飞船绕地球运行第八圈时……5.答案抽取(世奇讲解)6.答案排序和选择(根据编辑距离进行聚类)7.系统输出:杨利伟问答系统问题分类问题分类我所用的两种算法SVM算法(用的是.tw/~cjlin/libsvm/所提供的libsvm-2.6程序包)简化贝叶斯算法问答系统问题分类利用布尔权值的SVM布尔权重的数学表示:具体操作:类似于文本分类,首先去掉停用词,把同一类型的所有问题实例都作为一个文本问答系统问题分类Libsvm的输入格式<label1><index1>:<value1><index2>:<value2>...……<label2><index1>:<value1><index2>:<value2>...…………<labelX><index1>:<value1><index2>:<value2>...问答系统问题分类输入格式的一个例子HUM_PERSON谁/r发现/v镭/nHUM_PERSON谁/r发现/v美洲/ns谁/r(323)发现/v(4523)镭/n(23355)谁/r(323)发现/v(4523)美洲/ns(132)Libsvm要求的输入格式为:1323:14523:123355:11323:14523:1132:1问答系统问题分类训练和测试假设训练文件为index_file,通过svmtrain.exe进行训练得到训练模型index_file.model假设测试文件为test_file,通过svmpredict.exe进行测试得到测试结果存放到result_file问答系统问题分类简化贝叶斯分类假设词与词之间是相互无关的对一个问句Q,首先进行分次和词性标注,去掉停用词,得到如下形式:Q1Q2……Qn。qc为问题类型的变量我们的目标:问答系统问题分类简化贝叶斯分类(续)因为分母相同,只需处理我们假设有下式成立问答系统问题分类简化贝叶斯分类(续)如何计算权值?N=65类别总数目表示term和qci的共现频率问答系统问题分类Tf-idf权值处理对P(qc,term)进行降低权值的处理,处理理由如下:1.如果一个词在某个问题类型中出现的次数越多,那么它与该问题主体的关联性越强;2.如果一个词在集合中很多问题类型中都出现多次,那么它对分类的贡献就小。基于此,我们采用了tf-idf进行权值处理。问答系统问题分类Tf-idf公式Tf-idf公式参数含义:其中N和上面的一样,N=65,M表示term在M种问题类型中出现。问答系统问题分类Tf-idf二次处理首先看看不太均匀的语料库训练语料中实例最多的几个类别训练库中的实例数HUM_PERSON345OBJ_OTHER235DES_OTHER252LOC_OTHER209DES_REASON164问答系统问题分类Tf-idf二次处理(续)

训练语料中实例最多的几个类别实例总数总的实例数目占的比例345+235+252+209+164=12053300>1/3问答系统问题分类Tf-idf二次处理(续)针对我们语料库分布不太均匀和汉语的特点,对某些特定的词项再次降低了权值,DES_OTHER中的什么/r,LOC_OTHER中的什么/r,哪个/r,DES_REASON中的什么/r,OBJ_OTHER中的什么/r,TIME_OTHER中的什么/r,我们再次运用tf-idf。问答系统问题分类Tf-idf二次处理(续)例如在考虑DES_OTHER类型中的“什么/r”counter(DES_OTHER,什么/r)=counter(DES_OTHER,什么/r)*logX为语料库中DES_OTHER的问题实例数目,Y为“什么/r”在DES_OTHER出现的次数,即通过这样的降低权值以后,性能有了一定的提高。问答系统问题分类确定问题类型找到使取最大值的问题类型qc*问答系统问题分类例子用户输入(系统输入):中国哪个地区的气候最好

预处理后得到:中国/ns哪个/r地区/nz气候/n最好/d假设只有两个问题类型LOC_OTHER(0),DES_OTHER(1)问答系统问题分类进行分类具体为:比较和问答系统问题分类实验结果及分析分类器训练集数目测试集数目分类然而SVM的分类结果却让人非常遗憾,对很多的测试问题都分到训练集中问题实例较多的那5个类。实验结果让人沮丧。以上的测试集是小百科全书的问题集的一部分,问题分布不太均匀。分类器训练集数目测试集数目分类正确数准确率简化贝叶斯329598071072.4%问答系统问题分类实验结果分析产生分类结果不好的原因主要有以下这些:1.

训练集实例分布极其不均匀2.由于文本分类和问题分类存在一些差异,所以单纯的借用文本分类的思想还有一些缺陷,比如单纯的利用布尔权值已经损失了很大一部分信息,这样势必会对分类有很大影响。问答系统问题分类实验结果分析3.分词和词性标注的错误对分类有一些影响,例如对于“他的大作为什么会出名”这个问题,若分词分成了“他的大作为什么会出名”或者“他的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论