版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学本科生毕业设计(论文)苏州大学本科生毕业设计(论文)苏州大学本科生毕业设计(论文)苏州大学本科生毕业设计(论文)AbstractTOC\o"1-5"\h\z前言 3\o"CurrentDocument"第1章绪论 4\o"CurrentDocument"1.1研究背景 4\o"CurrentDocument"1.2分词概述 5\o"CurrentDocument"1.3本文的主要工作 6\o"CurrentDocument"第2章基于词典匹配和动态规划树状解码的多粒度分词算法 8\o"CurrentDocument"2.1算法实现 8\o"CurrentDocument"2.2优化 10\o"CurrentDocument"2.3评价 10\o"CurrentDocument"第3章基于神经网络分类模型和动态规划序列解码的多粒度分词方法 13133.1介绍13\o"CurrentDocument"3.2模型搭建 14\o"CurrentDocument"3.3模型训练 16\o"CurrentDocument"3.4模型结果处理 17\o"CurrentDocument"3.5评价 19\o"CurrentDocument"第4章多粒度分词演示系统构建 22\o"CurrentDocument"4.1后端程序 22\o"CurrentDocument"4.2网页前端 23\o"CurrentDocument"4.3效果展示 24\o"CurrentDocument"第5章总结与展望 27\o"CurrentDocument"5.1本文总结 27\o"CurrentDocument"5.2后续工作展望 27\o"CurrentDocument"致谢 29\o"CurrentDocument"参考文献 30附录 32苏州大学本科生毕业设计(论文)苏州大学本科生毕业设计(论文)#4.2网页前端网页前端采用了HTML5+Ajax+JavaScript来编写。HTML超级文本标记语言是标准通用标记语言下的一个应用, 也是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。简单来讲,我们只需要一个文本框供用户输入文本, 一个按钮点击后产生结果,和一个画布来展示结果。Ajax(AsynchronousJavaScriptandXML)异步的JavaScript和XML,是指一种创建交互式网页应用的网页开发技术。传统的前端与后台的交互方法不得不让整个页面刷新,这样做让用户体验大大下降,而 Ajax是一种用于创建快速动态网页的技术,在无需重新加载整个网页的情况下,它能够更新部分网页,通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。以本文为例,单击按钮后,浏览器就利用Ajax技术异步地把数据传到后台服务器,而本身这个页面不受任何影响,但服务器把数据回发给浏览器时,浏览器就可以完成指定动作,比如在下方画出图像,无需重新加载整个页面。最后我们还要用JavaScript语言来画出树的形状。根据需求,图形中应当只有简单的点、线和圆等形状,所以本文没有采用第三方 js图形库,直接用html提供的canvas元素来动态地绘制。算法4:画出树状图1:确定整个树的根节点位置2:input:tree,根节点位置3:function(tree,root_x,root_y):4:iftreeisnotleaf::5: forsubtreeintree::6 确定subtree的根节点位置7: 画出根节点,并与上一层根节点相连8: subtree递归调用9: endfor要画一棵树必然要遍历该棵树,遍历的顺序决定了画节点的顺序。我们以先序遍历为模板来作图,首先确定整棵树根节点的位置,然后从该位置为起点递归地遍历子树。每次递归时要确定根节点的位置,而根节点的水平位置应该位于该子树所有叶子节点的中间,纵向位置由每层的高度决定。所以先计算该子树的叶子节点的个数, 然后取中间位置,在累加上前面子树所有
叶子数量的间距就是该子树根节点的横坐标。纵坐标就是上一层根节点的纵坐标加上每一层高度。画出根节点后,再递归地画子树。如果是叶子节点(遇到list长度为1),递归结束。上一页算法4列出了画出树状图的伪代码,图4.2展示了画出一棵树的结果。图4.2:树示意图4.3效果展示服务器上运行服务器程序后,在浏览器的地址栏输入:http://localhost:5000/demo,如果远程访问,则把localhost改为对应IP。图4.3是初始界面。多粒度分词Demo图4.3:演示系统初始界面(以谷歌浏览器为例)在文本框内输入想要分词的句子,本文以“我是中国人”和“全国各地医学界专
家走出人民大会堂”为例,点击分析按钮,下方会显示出结果,各个标签的含义见2.1节。结果如图4.4和图4.5所示。图4.4:“我是中国人”的分词结果图4.5:“全国各地医学界专家走出人民大会堂”的分词结果图4.4:“我是中国人”的分词结果图4.5:“全国各地医学界专家走出人民大会堂”的分词结果该演示系统还支持JSON格式的API,只要在网页端输入http://localhost:5000/api?text^是中国人,则会返回分词结果的JSON数据格式,也就是前文写到的嵌套列表。本文在图 4.6中贴出了python语言的调用格式实例fromurllibimp。r七requestfromurllib.parseinpor1:quoteimpcrtstring+ext='我是中国人,url^base='http://localhasT:&OQG/api?text=url=tirl_base十texturl-quoteurljsa_&=string.printableresponse^request.LLrlopen(tirL).read()response-response.decode(Fu_f-8')printresponse图4.6:python3调用API示例第5章总结与展望本章节主要总结并分析了两种多粒度分词方法的优点和缺点,在此基础上,以ANN模型实现的演示系统也存在不足。所以提出了几种方法来进一步提高准确率,优化演示系统的显示结果。5.1本文总结本文先尝试用两种方法实现多粒度分词,并且在同一个测试集上评价。 CKY算法通过查字典给每个句子成分定义一个分值,然后通过动态规划算法找出分值最大的一棵树。另一种方法则是运用了人工神经网络的强大功能, 把多粒度分词看成是一个序列标注任务,直接找到每个字对应的MWS标签来构成一棵树。根据实验结果我们可以得到以下结论:(1) CKY解码方法受词典和自定义的标签分值影响较大,在测试集上效果一般。但结果比较稳定,算法简单。(2) 多粒度分词可以和单粒度分词一样转化为序列标注任务来解决。(3)前馈神经网络模型能够有效地解决多粒度分词问题, 在测试集上的表现远好于CKY解码算法。但该模型对于训练集中未出现的词比如人名,地名较敏感,结果不稳定,同时模型训练耗时间,占用大量资源。最后本文通过调用实现的神经网络模型,实现了一个多粒度分词演示系统,根据用户的输入正确的显示树状结构。5.2后续工作展望该演示系统采用的是前馈神经网络模型。虽然该模型已经达到95%的F值,但是仍存在以下几点问题:它依靠一个固定大小的上下文窗口来获取前后特征,无法获取更长久的记忆信息,而且有时候上下文信息也会成为干扰噪音;分词的结果容易受未出现的词如人名地名的影响而出错;英文等非中文字符结果异常;句子太长导致显示结果难看。因此,后续工作可以分为如下几点:(1)进一步提高准确率,避免使用上下文窗口这样的工具。为此可以尝试选用更复杂的模型,比如循环神经网络RNN(RecurrentNeuralNetwork)。[17]循环神经网络已被用于包括语言模型[18]和语音识别[19]在内的各种任务中,并产生良好的结果。或者可以选择长短时记忆LSTM(Long-ShortTermMemory)模型及双向LSTM模型[20],它可以在特定时间范围内有效利用过去的特征 (通过正向状态)和未来的特征(通过反向状态)。双向LSTM模型已经在单粒度中文分词领域取得卓越的效果 [21]。(2) 尝试对非中文字符及句子进行处理,尽可能不影响中文结果,甚至能正确分出词语。例如可以单独选择英文语料进行模型的训练。(3) 调整演示系统的显示结果,避免一个句子或者文本太长,而使得整棵树太宽。可以根据句子长度动态的拉高每层之间的距离,平衡整棵树的高度和宽度。致谢回顾毕业设计这一段时间,首先要感谢的是李正华老师。在准备阶段,李老师积极地引导我进行相关调研,协助我制定毕业设计的计划。由于我没有任何自然语言处理的基础,李老师由浅入深地指导我编写分词算法,并且提供相关资料,让我在学习过程中体会到了逐渐深入的乐趣。整个毕设过程中,每当我遇到难题时,他总是不遗余力地提出指导性意见;每当我犯错时,他也会严格的指出。非常感谢李老师每周都从百忙之中抽出时间来监督我一周的学习情况,作为我未来研究生阶段的导师,也感谢他带我入门。其次我要感谢人类语言技术实验室的每一位成员,尤其是龚晨师姐。她在我毕业设计阶段也提供了莫大的帮助。第一次写多粒度分词算法时她及时地帮助我分析问题,提供各类数据和资料。结果有问题时,也总是不厌其烦地协助我找错误。在第一次做神经网络模型的时候,没有经验的我多次向龚晨学姐探讨问题,包括模型的训练评价等等各个细节都给我讲解了清楚。也感谢实验室及李老师给我提供合适的编程环境。另外也要感谢我的同班同学,尤其是赵俊杰同学。他在深度学习方面掌握了许多知识,经常不厌其烦地给予我帮助。还有张宇同学,我的舍友钱昊等等,我们在一起互相监督,互相激励,共同前行。有问题一起讨论解决,没有他们我将寸步难行,谢谢他们陪我度过这愉快的四年时光。最后,我要感谢我的父母。除了谢谢他们在经济上支持我完成大学时光甚至未来的研究生阶段,每周父母都会慰问我生活情况和学习情况,鼓励我好好学习,这在精神上给了我非常大的帮助。因此在这里郑重的感谢父母。参考文献张黎,徐蔚然•中文分词研究[J].软件,2012,33(12):103-108.SproatR,GaleW,ShihC,etal.Astochasticfinite-stateword-segmentationalgorithmforChinese[J].ComputationalLinguistics,1996,22(3):377-404.黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.何国斌,赵晶璐.基于最大匹配的中文分词概率算法研究[J].计算机工程,2010,36(5):173-175⑸ZhangHP.ModelofChineseWordsRoughSegmentationBasedonN-Shortest-PathsMethod[J].JournalofChineseInformationProcessing,2002,16(5):1-7.XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-47.张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(02):8-12.ZhengX,ChenH,XuT.DeeplearningforChinesewordsegmentationandPOStagging[C]//ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2013.PeiW,GeT,ChangB.Max-MarginTensorNeuralNetworkforChineseWordSegmentation[C]〃MeetingoftheAssociationforComputationalLinguistics.2014:293-303.MaJ,HinrichsE.AccurateLinear-TimeChineseWordSegmentationviaEmbeddingMatching[C]〃TheMeetingoftheAssociationforComputationalLinguisticsandthe,InternationalJointConferenceonNaturalLanguageProcessing.2015:247-252GongC,LiZ,ZhangM,etal.Multi-GrainedChineseWordSegmentation[C]〃ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2017:692-703.梁喜涛顾磊冲文分词与词性标注研究[J].计算机技术与发展,2015,25(02):175-180.吴建源.基于BP神经网络的中文分词算法研究[J].广东培正学院论丛,2011,30⑷:33-37.Jin,Zhihui,Tanakalshii,etal.UnsupervisedsegmentationofChinesetextbyuseofbranchingentropy[C]〃ACL2006,InternationalConferenceonComputationalLinguisticsand,MeetingoftheAssociationforComputationalLinguistics,ProceedingsoftheConference,Sydney,Australia,17-21July.DBLP,2006:625-638.FengH,ChenK,DengX,etal.AccessorvarietycriteriaforChinesewordextraction[J].ComputationalLinguistics,2004,30(1):75-93.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.MikolovT,KarafiatM,BurgetL,etal.RecurrentneuralnetworkbasedIanguagemodel[C]〃INTERSPEECH2010,ConferenceoftheInternationalSpeechCommunicationAssociation,Makuhari,Chiba,Japan,September.DBLP,2010:10451048.MikolovT,DeorasA,PoveyD,etal.StrategiesfortraininglargescaleneuralnetworkIanguagemodels[C]〃AutomaticSpeechRecognitionandUnderstanding.IEEE,2012:196-201.GravesA.2005SpecialIssue:FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[M].ElsevierScieneeLtd.2005.ChenX,QiuX,ZhuC,etal.LongShort-TermMemoryNeuralNetworksforChineseWordSegmentation[C].
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国流体控制行业运营模式及发展规划分析报告版
- 2024-2030年中国沿海港口大宗货物运输行业前景调研及发展规划分析报告
- 2024-2030年中国油用亚麻产业未来发展趋势及投资策略分析报告
- 2024-2030年中国氧化锆纤维行业生产现状分析及投资规划研究报告
- 2022-2023学年江苏省无锡市积余教育集团数学九年级第一学期期末监测试题含解析
- 2022年大学农业工程专业大学物理下册开学考试试题D卷-附解析
- 2022年大学化工与制药专业大学物理二期中考试试题-附解析
- 2022年大学水产专业大学物理下册月考试题-附解析
- 2022年大学水利专业大学物理下册期末考试试卷A卷-附解析
- 医院停车场管理外包解决方案
- 美容院顾客管理档案表
- 锦鲤的繁殖与选优技术
- 四年级数学家长会课件
- 华北理工《社会医学》讲义11健康危险因素评价
- 透析饮食课件
- 妊娠期高血压护理查房医学课件
- 新部编人教版四年级上册语文课件(第16课 风筝)
- 临床诊断与思维步骤课件
- 放射科危急值制度考试试题与答案
- 通信发展的前世今生儿童科普(课堂PPT)课件(PPT 38页)
- 老年人口腔保健知识PPT课件
评论
0/150
提交评论