




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中文分词实验一、实验目的:目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。实验要求:1、从互联网上查找并构建不低于10万词的词典,构建词典的存储结构;2、选择实现一种机械分词方法双向最大匹配、双向最小匹配、正向减字最大匹配法等。3、在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、分词速度。预期效果:1、 平均准确率到达85%以上二、实验方案:1. 实验平台系统:win10 软件平台:spyder语言:python2. 算法选择选择正向减字最大匹配法,参照搜索引擎-原理、技术与系统教材第62页的描述,使用python语言在s
2、pyder软件环境下完成代码的编辑。算法流程图:Figure Error! No sequence specified. 正向减字最大匹配算法流程Figure Error! No sequence specified. 切词算法流程算法伪代码描述:3. 实验步骤1) 在网上查找语料和词典文本文件;2) 思考并编写代码构建词典存储结构;3) 编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字;4) 编写分词代码; 5) 思考并编写代码将语料标注为可计算准确率的文本;6) 对测试集和分词结果集进行合并;7) 对分词结果进行统计,计算准确率,召回率及F值正确率和召回率的调和平均值;
3、8) 思考总结,分析结论。4. 实验实施我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子提升了很多。实验过程: (1) 语料来源:语料来自SIGHAN的官方主页 ://,SIGHAN是国际计算语言学会ACL中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉
4、“或“SIG漢“。SIGHAN为我们提供了一个非商业使用non-commercial的免费分词语料库获取途径。我下载的是Bakeoff 2005的中文语料。有86925行,2368390个词语。语料形式:“没有孩子的世界是寂寞的,没有老人的世界是寒冷的。”Figure Error! No sequence specified. notepad+对语料文本的统计结果 (2) 词典:词典用的是来自网络的有373万多个词语的词典,采用的数据结构为python的一种数据结构集合。Figure Error! No sequence specified. notepad+对词典文本的统计结果 (3) 分割
5、测试数据集:将原数据分割成1500个文本文件,每个文件的词数大于1000。Figure Error! No sequence specified. 测试数据集分解截图Figure Error! No sequence specified. 其中某文件的形式Figure Error! No sequence specified. notepad+对其中一个测试文本的统计结果 (4) 编写分词代码:采用python语言和教材上介绍的算法思路,进行编程。 (5) 编写代码将语料标注为可计算准确率的文本: 用B代表单词的开始字,E代表结尾的字,BE代表中间的字,如果只有一个字,用E表示。例如:原数据是
6、: “人们常说生活是一部教科书”而我将它转化为了如下格式:人 B们 E常 E说 E生 B活 E是 E一 E部 E教 B科 BE书 E (6) 进行分词:使用之前编写的分词函数,载入文本,进行分词,将每个文本结果输出到txt文本。Figure Error! No sequence specified. 分词结果文件Figure 9. 测试数据的形式文本截图Figure 10. 分词结果文本截图用时17秒左右:Figure 11. 运行时间 (7) 对测试集和分词结果集进行合并:将测试集和分词结果集合并是为了进行准确率,召回率等的计算。测试集和训练集都是下面的格式:人 B们 E常 E说 E生 B活
7、 E是 E一 E部 E教 B科 BE书 E我将他们合并为下面的格式,第二列为测试集的标注,第三列为训练集的结果:人 B B们 E E常 E E说 E E生 B B活 E E是 E E一 E BE部 E E教 B B科 BE BE书 E E (8) 对分词结果进行统计,计算准确率P,召回率R及F值正确率和召回率的调和平均值,设提取出的信息条数为C,提取出的正确信息条数为CR, 样本中的信息条数O:P=CRCR=CROF=2×P×RP+R计算结果如下:召回率R准确率PF值B73.99%76.42%75.18%E92.12%76.41%83.53%BE40.05%74.56%52
8、.11%平均值68.72%75.79%70.27%Table Error! No sequence specified.第一轮分词统计结果 (9) 反思:平均准确率只有75.79%,为何分词效果这么差,没有到达我的预期效果85%,经过思考和多次尝试才发现,原来是因为我的词典太大了,最大匹配分词效果对词典依赖很大,不是词典越大越好,还有就是我的词典和我的测试数据的相关性不大,于是我修改了词典,进行了第二轮测试。 (10) 修改词典:将词典大小裁剪,但是不能只取局部,例如前面10万词或后面10万词,于是我的做法是在373万词的词典中随机取3万词,再用之前没用完的语料制作7万词,组成10万词的词典:
9、Figure 12. notepad+对重新制作的词典文本的统计结果 (11) 再次实验:重新进行前面的步骤得到了下面的结果:召回率R准确率PF值B95.07%95.03%95.05%E93.74%99.07%96.33%BE98.75%67.30%80.05%平均值95.85%87.13%90.48%Table Error! No sequence specified. 第二轮分词测试统计结果此时分词的平均准确率提高到了87.13%,还是很不错的,说明我的反思是有道理的。三、实验结果及分析:实验结果:Figure 13第一轮分词测试统计结果.Figure 14. 第二轮分词测试统计结果第一轮
10、分词结果只有75.79%,而我的预期效果或者说目标是85%以上,我先是思考是不是这个算法只能到达这么多,于是通过网络和询问同学的分词准确率知道,这个结果是可以继续提升的。于是,我仔细思考了每一个环节,发现问题主要出在词典上面,因为词典中的词越多,利用做大匹配分出来的词的平均长度就越长,分得的词数也越少,错误率反而增大,而那些分法可能并不是我们想要的,而且我的词典和我的语料相关性很小,分词效果是依赖于这个词典的相关性的。然后我尝试减少词典的大小,见减小到150万词,发现效果确实好了点,于是干脆只在原词典中取出3万词,自己再用语料库没用过的同类型的语料做一份词典,再把它们合起来,结果分词准确率一下子提高到了87.13%,说明我的想法是有道理。简言之:影响中文分词效果的因素:词典的大小,数据集的标准性,算法的优越程度如何提高中文分词的准确率:标准的数据集,合理大小的词典,好的算法 四、实验总结:本次实验大概总耗时50个小时,代码量为300余行,期间遇到过很多问题,幸好都一一解决了,比方在合并测试集和分词结果集时,合并测试集和分词结果集时中词语的位置有错位,想了好几个方法才解决,其实在实验之前多思考思考是可以防止这种情况的。本次实验中,分词是实验的重点,但难点不在分词上面,而在数据的处理和计算准确率。我们还应多练习,多运用,多思考才能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年宠物营养师课本内容试题及答案
- 美容师考试提升方案及试题答案
- 2024年宠物营养师案例分析试题及答案
- 精神科症状学试题及答案
- 2024年非法改装车评估难点试题及答案
- 汽车美容师行业资讯获取与运用能力考核试题及答案
- 2024年美容师美学设计与市场趋势试题及答案
- 医疗岗模拟面试题及答案
- 古代文学的价值观念与文化传承试题及答案
- 2024年统计学考试兴趣激发试题及答案
- 化疗药物规范配置
- 学校灭火及应急疏散预案
- 江苏省扬州市梅岭集团2024-2025学年九年级下学期3月月考英语试题(原卷版+解析版)
- 2025年义乌工商职业技术学院单招职业适应性测试题库及参考答案1套
- 2025年幼儿教师笔试试题及答案
- 病区8S管理成果汇报
- 2025年华侨港澳台学生联招考试英语试卷试题(含答案详解)
- 2024年安徽省安庆市中考一模数学试题
- 2025年临床医师定期考核必考复习题库及答案(1080题)
- DL-T5706-2014火力发电工程施工组织设计导则
- GA 1800.5-2021电力系统治安反恐防范要求第5部分:太阳能发电企业
评论
0/150
提交评论