版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
/11实验:中文分词实验小组成员:黄婷苏亮肖方定山一、实验目的:实验目的(1)了解并掌握基于匹配的分词方法、改进方法、分词效果的评价方法等实验要求(1)从互联网上查找并构建不低于10万词的词典,构建词典的存储结构;(2)选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等),同时实现至少一种改进算法。(3)在不低于1000个文本文件(可以使用附件提供的语料),每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、召回率、F-值、分词速度。二、实验方案:实验环境系统:win10软件平台:spyder语言:python算法选择(1)选择正向减字最大匹配法图1.正向减字最大匹配算法流程T的句子处理完读取句子调用切词程序初始化读取T中的句子S1将诃典读入内存图2.切词算法流程51是否为空懵切分子串S1带鞘入诩品£加最大词长fcU五1工力输出雄杲S2从si左边开始r取出快电子串肌胃的长度52=S2+Wt*/Sl-tSl-W特R‘最右边一个字去掉对文件进行分词处理的图数循环读入文件中的每一行调用句子分词处理函数将分词结果写入目标文件跳过非汉字部分字符串如果输入不为空取等于最大词长的候选词对文件进行分词处理的图数循环读入文件中的每一行调用句子分词处理函数将分词结果写入目标文件跳过非汉字部分字符串如果输入不为空取等于最大词长的候选词如果不是词并且不是单字将W中最右边一个字去掉将找到的调用分隔符隔开去掉找到的词,继续分析(2)算法伪代码描述:voidSegmentAFile(T)(getASentenceFromFile(T,si))s2=CutWord(si>OutputSentencets2)//stringCutWord(sl)Prrprocess(sl)(si!=w=si-substr(OrMaxLen)whiLc(length(W)>1)if(FindlnRBTree(W)=false)//thenW=W-152=W+51=si-W「旧urS2实验步骤•在网上查找语料和词典文本文件;•思考并编写代码构建词典存储结构;编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字;编写分词代码;思考并编写代码将语料标注为可计算准确率的文本;对测试集和分词结果集进行合并;对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的调和平均值);思考总结,分析结论。4.实验实施实验过程:(1)语料来源:语料来自SIGHAN的官方主页(/),SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“SpecialInterestGroupforChineseLanguageProcessingoftheAssociationforComputationalLinguistics”,又可以理解为“SIG汉“或“SIG漠“。SIGHAN为我们提供了一个非商业使用(non-commercial)的免费分词语料库获取途径。我下载的是Bakeoff2005的中文语料。有86925行,2368390个词语。语料形式:“没有孩子的世界是寂寞的,没有老人的世界是寒冷的。”图3.notepad++对语料文本的统计结果Filelength(inbyte):12,842r947Characters(withoutblanks):8,618,675Words:Lines;86.925Currentdocumentlength:16,S9J,51OQietecceclcharacters(0bytes)in0ranges(2)词典:词典用的是来自网络的有373万多个词语的词典,采用的数据结构为python的一种数据结构集合。图4.notepad++对词典文本的统计结果Filelength(intxyte):52474r475Chaialters(withoutbhnksl:3708*1,094Words:11210.096Lines:3,736.599Currentdocumentlengih:69,474,4752teleeredtharwters(6bytes)in1ranges确定I(3)分割测试数据集:将原数据分割成1500个文本文件,每个文件的词数大于1000。图5.测试数据集分解截图名爵偃战日盟大小绘msrTesti.txt2017/10/110:07T灯文件3KBdrmsr_testZ.txt2017/10/70:35TXT文件3KBmsrtest3.txt2017/10/7035TXT文件3KB--U|色msr隹二14上组2017/10/7035TXT文件3KE上mii_tesl5.txt2D17/10/70:35TXT文件3KB匕m$riest6.txt2017/10/70:^5TXT文件akb2msrtest7rtxt•17/1W763标TXT文件3KfiLmsrtestBrtxt2017/10/7035TKT文件3KB人msrTesTOtxT2017/10/70:35T灯文件3KB;msrtest10,txtZQ17/10/7035TXT文件3K6;msr_tett11.txt2017/10/7035TXT文件3KBEm$r_teu12.txt2017/10/70:35TMT文件3K0m打test13.txt2017/10/7Q35TXT文件3KB二msr^tetti4.txt2017/10/7(X35TXT文件3KB图6.其中某文件的形式IU(■■.JHJII.■口”不用墙.政府有保护府厂也没有打白条。I楙这把汩钮儿不调充邨幺志『.F没问通.国家在这儿摘种苧柞篇试验*翅m沾J光,-4,实践也明.科学性琼是命业在巾埼纤济第件下”存和发联的隼婪总加二,我不量汩如泉涌.一卜声猾理制『浒若,明白「许春.一他由史地哼谢章和人吃蛤『我爸苣达以离的吸降.'1修路在治烈的市场衽争中.tttTtui七国歌,所唱]已蛉到『最危险的时帔-“牛转人史后谈看吃鸣苦,H量地料除自己的意志.TF警是1A点委相称蹙不「■演何革命.yiof"的率很诚力,常于时代法不&书.而是读着社余地部•副国冷圈敢挽的赤几,蛭砧无端侨Lif实施送与眼工摄.襄劭n嗯馅,拿硬指睡.在大力q.卜口功夫,为卜内职工和阳选叫工制“足的,期有什么就胆.就足运打种冷扉.足我们班上敞步长烧的情发.没有用包,慷的也“你可知mg经啜了占少力的衽风与瞒雨.斑熨%电出?14=-^失足成千古恨.同学们.青到今天的我.你但是有菱情到了什幺?,他们得到这汇收据后.可以利用人10任票据如国上的火艇.靖人们造成柯在选史金的印隼...-F客户讲,只蜚开张托收敕据就行了.“哦,是吗.我的客户说,就是退票.现行也无所仟'跟好.很好.相识是种徨好响.“性谟理美丽可动听.然归是传说“好容易躺圈上博若把我演先,我将佛告iMMUft意的心情间观众去则幕*.”党足河孑力心丁队必期看一党的空出颔H之下.逆犹跄率队的竟性和防密件.,图7.notepad++对其中一个测试文本的统计结果Fdelength【inbyte):2J48Characters(withoutblanks)^1,037Word«37Lines:38Currentdocumentlength:3,1B50electedcharacters(0bytes)in0ranges(4)编写分词代码:采用python语言和教材上介绍的算法思路,进行编程。(5)编写代码将语料标注为可计算准确率的文本:用B代表单词的开始字,E代表结尾的字,BE代表中间的字,如果只有一个字,用E表示。例如:原数据是:“人们常说生活是一部教科书”而我将它转化为了如下格式:人们常说生活是部教科书BEEEBEEEEBBEE(6)进行分词:使用之前编写的分词函数,载入文本,进行分词,将每个文本结果输出到txt文本。图8.分词结果文件名称“修改日期第奎大小二msrresultlutxt2017/10/71:45TXT文件4KB日msrresult2.txt2017/10/71:45TXT文件4KBJLmsii_resuft3-.txt2017/10/71:45TXT却4KB4rnsir_resuh4.txt2017/10/71:45TXT文件4KB="msr_resutt5.txtJ017/1Q/71:415TXT女傅4KH匚msr_resuh6.txt2017/10/71:45TXT文件4KB二msir_resuk7.txt2017/10/7丁算T文件4KB1Lmsr_resuh8.txt2017/10/71:45TXT文件4KB工msr^resultS.txt2017/10/71:45TXT文杵4KB匚msr_resuh10.brt2017/10/71:45TXT文件4KB口msrresult11.txt3017/10/71:45TXT文件4K0Hmsr_result12,txt2017/10/7145TXT文样4KB趴rnsr_res.uft1:1.txt2017/10/71:45TX7文件4KB£hm5r_result14.txt2017/10/71:45TXT文件4KH图9.测试数据的形式(文本截图)・rHS-V*i.Mh『£■£-4r*nMn4:-■干■□ApT0i-•堂't■fe»■»*Hi<费V.h也雪融江否括用善的民时博物.妾-力/从闻!奉上做演&F®r切女加理科田/村电叁干龌的反太由a・忤L/卡款加自岫耳国上心0刎14件/朴也.明呜遇1住这之后|我的的文化便爆必解盘雷送审餐E杂■如班I密碑海变相运呵起靠Im股的泛泛而谈」变整量扣当"H生现:阑甲能C1巾.啤机中设加杯”.膛为人H卜忤山尊姓RAtSHf*iaHr—全■大的舞警检打事riJir』电疸机电碌的枪发时的・提・】全峰知女,两入町的摩勒府dJt席大的,野It全野,源堂.遭嘤制守,而通那隆也单时加解*1但不回六七不好.”♦M&KH法叶工皿附F,情M『,帅而葬福孔隙锂的丽普"由礴村中片i相,一m在泡曜中白村许片就用官」■的ft干标也能,If卡不悚上学.恺克清日信地H林;。圣笔修神息押的.睛叫就:・房际1H加肥味可出的慎1*喧・-径E町•"制柏苦,杆"3笔施觇部史.*阍「希陇徨*UH鼻西i*付『电1*用电.■物里陆航二T」抵:M蹲上舱,犯就免酒期号.眄I*烂+恒英m.*唇说「「掘们尖上的惶量是行生热的,维单一只际*,附明・胜住理♦称.〜4闻"他+晡1由!「旧辜以团事场上去船性耳这1,蚂:的-际眶干喑酊帔疆闲下来?瘠式里।恺常推中为力妹寿丈Ik则异病代性编由场的植■:限#-良*1在百R*型也■■t8-hCW-ttW-a黑湿口0力♦蝶、如可只M到◎[天*加毫收寄崂蕾唱I」卓道事工-加种「小与胡波产就需网神诙机门室零注对白"工诈M期福K-情M记商1■心〜日中寸线M蓑觉能.然基一堂士切的庆创原他1的周打《鼻电行电力i#样员修.不•"法前五离办案:.■魔也叩H「・白义大政科恒「以收需以僧事.枚1『"重儿碑史内匿生鼠**让人恭快的・「■不城而大L典的的祸仲载*r重「叫造点几室者■鼻虫存件幺--以小苒0r⑶f肥黄会汴嘴粘鸯制.痴胃口上的长弗+廊觥秋川湖1、曲」L*止入浜Jfe.〜性和!其像*的求职市■行州呼r'你忙1土也无境的老修登出好一?1«业料£*用广.二不丁«帽鳍LHl«军*y7:H!Hi¥|.#j-■ruf^hhhw^v:UiMiwhAu-:b■:,U.[l«Ma»1A1J1GUpJ■jw^atj«h图11.分词结果(文本截图)
小局F”:**./,■.ncr-,**下口三t*r*#一■.*.■小局F”:**./,■.ncr-,**下口三t*r*#一■.*.■»*e国i*r_r«mXti-utjQ|1114If忖民委熄会应皆保证公布内容的及时性和真实性0"为了从根本上孵决这一矛盾,切实加强群众对村委会干部的戛三在这之后,我们的文化赞端必燃会由狭潞变得丰宫起来.由哪里.能像电视机里说的那样,能为人们作出那些页帧啊!这时,一个最大的琳猴桃扪断说,“电视机里说的都是对不完全好,温度、温度和空气流通都需要很好地解决,(1原来在地F还让它在地产,然后在地面再搞一些陈列的东西申请书中写itt:”一…我在电视中看到许安黄阳地区的裱他充湎自信地宣称zf美是多种多样的.送些就算是你们为足球付出的代价吧,”他又叮喝我别怕苦.始死±要豁出命去」*用户帮助我们讦算应该忖费.不应该指责a“如果你的一言一行都配得上她,她就会更明亮,更灿烂,他说,“我1门头上的税徽是有生命的♦她像一只眼睛,老板答非所同:皿这叫'色香味.呀:一个旧军队的连长上去堵他一耳光士'妈的.你鞋子啥时任这里.街道领导为企业办实事、引导居民投身市场的故事我就在自己东里也搞一个,欣常欣凿。*都说百姓有事难办.可只要到培天T却是政府等者咱们我的工作与如识产权密切相关,以案学法对百身工作希勒限i他对记者说:X庭审过程对我来说,就是一堂生动的法制课我们现在只是进行艇审过程直搦t不霰响法官正常办案**现在可好了-自从市政府抓了乱恢野这件事-我们这儿再没可城市大了,我们的活也就举了重了,可这点儿辛苦真算下从小若修广,闲下来就会浑身不舒服口M凭自己的技术,总耗找到活干,而且能让人满空.“她跟等候看的求职者——打招呼:H你们去找旁过的老师登就业的天地很广,不要在一槐树上吊死,至少先解决温饱¥nrr7’3jSt氾由k加g上闲2m«r山川上W中图12.运行时间start-_.createdicticnary--.dictionsry1$don*,starttoteitend总用时17.88107395172119秽(7)对测试集和分词结果集进行合并:将测试集和分词结果集合并是为了进行准确率,召回率等的计算。测试集和训练集都是下面的格式:人们常说生活是部教科书BEEEBEEEEBBEE将它们合并为下面的格式,第二列为测试集的标注,第三列为训练集的结果:人们常说生活是部教科书BEEEBEEEEBBEEBEEEBEEBEEBBEE(8)对分词结果进行统计,计算准确率P,召回率R及F值(正确率和召回率的调和平均值),设提取出的信息条数为C,提取出的正确信息条数为CR,样本中的信息条数O:计算结果如下:表1.第一轮分词统计结果召回率R准确率PF值B73.99%76.42%75.18%E92.12%76.41%83.53%BE40.05%74.56%52.11%平均值68.72%75.79%70.27%(9)反思:平均准确率只有75.79%,为何分词效果这么差,没有达到我们的预期效果85%,经过思考和多次尝试才发现,原来是因为词典太大了,最大匹配分词效果对词典依赖很大,不是词典越大越好,还有就是我们的词典和我们的测试数据的相关性不大,于是我们小组修改了词典,进行了第二轮测试。(10)修改词典:将词典大小裁剪,但是不能只取局部,例如前面10万词或后面10万词,于是我的做法是在373万词的词典中随机取3万词,再用之前没用完的语料制作7万词,组成10万词的词典:图13.notepad++对重新制作的词典文本的统计结果Filelength(inbyte);1,992,727Characters(withoutblanks):1,145图2Words:300,008Lin4100r001Currentdocumentlength:1992,7270selectedcharacters(0bytes)in0ranges确定(11)再次实验:重新进行前面的步骤得到了下面的结果:表2.第二轮分词统计结果召回率R准确率PF值B95.07%95.03%95.05%E93.74%99.07%96.33%BE98.75%67.30%80.05%平均值95.85%87.13%90.48%此时分词的平均准确率提高到了87.13%,还是很不错的,说明我的反思是有道
理的。三、实验结果及分析:1.实验结果:图14.第一轮分词测试统计结果第一轮分洞测试统计结果■B■E鼻8E图15.第二轮分词测试统计结果第二轮分词测试统计结果159585756555453525150
目0,用0./&£(!.与值.40.3&上0.16..0
0000000-0002.结果分析:(1)第一轮分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年低利率借款合同范本大全
- 2024年代理贴牌代加工合同范本
- 2024年冲床来料加工厂合同范本
- 山东省多校2024-2025学年高二上学期期中联考英语试题(含解析无听力音频有听力原文)
- 传染病病禽的治疗和扑杀
- 违规募捐行为分类及法律问题分析报告 2024年11月修订
- 基础护理疼痛护理
- 中医科鼻炎治疗方案
- 三基基础护理基础知识
- 医疗文件的书写要求
- 应急预案讲课
- 2024年安全输液管理:如何确保患者安全
- 企业反恐维稳培训
- 临床提高脓毒性休克患者1h集束化措施落实率PDCA品管圈
- 2024年广东省深圳市中考道德与法治试题卷
- 政府软件开发服务合同模板
- 军事训练模拟系统的效能评估
- 六宫对角线数独题目10已知数
- 语文统编版(2024)一年级上册7.两件宝 课件
- 反假货币知识与技能竞赛参考题库大全-上(单选题)
- 2024年医学高级职称-内科护理(医学高级)考试近5年真题集锦(频考类试题)带答案
评论
0/150
提交评论