计算语言学的论文阅读_第1页
计算语言学的论文阅读_第2页
计算语言学的论文阅读_第3页
计算语言学的论文阅读_第4页
计算语言学的论文阅读_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言理解大作业指南

中文的分词-词性标注系统赵海上海交通大学计算机科学与工程系zhaohai@1目标根据提供的训练语料,训练一个或两个模型在此获得的模型下,依据某个解码算法能对于输入的中文文本进行词切分和词性标注2格式输入的训练文件格式举例,由以下类似格式的各行构成的文本文件:中国/NR进出口/NN银行/NN与/CC中国/NR银行/NN加强/VV合作/NN输入的测试文件格式中国进出口银行与中国银行加强合作要求训练出的模型能够在适当的算法支撑下对以上的测试输入进行切分并且标注词性,输出的各式和训练文件相同所有提交的系统只接受命令行格式的输入和输入,推荐命令行格式:Training:Your_program_train

input.train.file

output.modelTestYour_program_test

output.model

input.test

output.test3评估度量使用比较标准答案和测试输出的f-score判定你的输出成绩

F=2RP/(R+P)R=测试输出中正确的词次数/正确答案中的词次数P=测试输出中正确的词次数/测试输出中的词次数只有切分和词性都对才能算完全正确一次如果切分对,但是词性错,算正确0.5次只要切分错,则完全干不能得分4评估度量假设我们拥有一个标准答案的句子中国/NR进出口/NN银行/NN与/CC中国/NR银行/NN加强/VV合作/NN你的程序对应输出中国/NR进出/NN口/NN银行/NN与/CC中国/NN银行/NN加强/VV合作/NN则测试输出中正确的词个数=6.5(第二个中国切分正确,但是词性错误)测试输出中的词个数=9正确答案中的词个数=8所以R=6.5/8P=6.5/9F=2RP/(R+P)=76.47%5日程表本指南发布的同时,训练集提供下载在本指南发布1个月内,各组完成模型的训练和解码器的编写调试在提交截止时间前3天内提供测试文件6提交至少需要提交如下4部分内容(请压缩打包上传,并命名为提交组编号):你的系统的完整源代码,和至少一个平台的可执行文件文档1:说明你的代码结构、编译选项、环境设置以及运行设置文档2:说明的系统的工作原理,包括分类器或者其他机器学习工具的选择、特征选取,解码算法等等处理好的测试文件,遵循和训练集同样的格式7分组和评分自由分组,每组限1-6人1-2人将获得110%的得分2-5人将获得100%的得分6人将获得90%的得分不能在规定时间前提供分组信息的同学将由助教分配每组的贡献分配由组员协商决定,出现争议的时候由助教裁判。不提供贡献比例的分组视同该组每位成员贡献相同。8分组和评分给出最高f-score得分的组将获得本项作业满分100,最低分的组将获得60分。其它组按照一个线性插值得到相应的分数。可以使用其它的开源工具(但是要在文档中注明!),不影响你的评分编译错误或者不能通过、文档不完整不清晰和格式错误将导致额外的分数损失9注意所提供的输出的测试文件和所提供的程序输出不匹配的小组成绩为0分10提示将训练集拆开少数部分出来作为开发集,评估你自己系统的性能自己写一个打分程序用于当前的开发11技术指南回忆课堂上提到的关于这两个处理任务的解决策略。重新看看相关的课件。你可以采取两个策略完成这个系统层次模型:训练两个模型,第一个模型用来分词,第二个模型用来在第一个模型的输出基础上进行词性标记联合学习模型:在一个模型中一次性完成分词和词性标注考虑这篇论文:/~jiangwenbin/papers/error_correction.pdf12技术指南互联网上有现成的分词和词性标注工具,你可以考虑使用这些工具,在一些开源工具的基础上完成你的系统如果你使用了已有的开源系统,你需要在文档中注明,提供作者和互联网链接地址需要注意的是:要求提供一个可训练的模型,并且严格符合所提供的训练集的语言规范。如果你不加修改地直接使用一个其它切分或者词性标准的工具来进行处理,将很可能导致灾难性的结果13技术指南:分词假定你使用两部模型,第一步完成分词建议的步骤如下参考我的论文/~zhaohai/pubs/CSB-SIGHAN5_20071015-rev.pdf建议的学习模型:CRFs使用来自Taku

Kudo的CRF++问题形式化方法和特征集均可参考上述论文14技术指南:词性标注建议的学习模型HMM或者最大熵Markov模型解码算法Viterbi

算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论