版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章自然语言处理任务标注任务一
命名实体识别标注内容概括命名实体识别标注概念典型应用场景标注方式标注操作1.命名实体识别标注概念“人人心中都有一个衡量语言的天平”--艾青1.命名实体识别标注概念命名实体识别(NamedEntityRecognition,NER)是NLP中一项非常基础的任务。从自然语言处理的流程来看,NER可以看作词法分析中未登录词识别的一种,是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时命名实体识别也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。1.命名实体识别标注概念学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和多个小类。2.典型应用场景中医药数据领域广泛应用深度学习等新技术开展研究,中医古籍文本作为中医药的重要组成部分之一。近年随着古籍数字化研究的不断深入,如何让计算机识别、理解古籍文本内容成为中医药数据处理的难题,这也是古籍数字化下一步深度知识挖掘工作的重点。随着自然语言处理领域的发展,命名实体识别技术被引入中医古籍文本研究中。宋刻《备急千金要方》2.典型应用场景百度2019年基于自己的深度学习框架构造了ERNIE模型,它是在BERT预训练模型的基础上产生的另一个通过多任务学习方式充分捕捉语料信息的优化模型。3.数据标注方式NER是一种序列标注问题,数据标注方式遵照序列标注问题的方式,目前主要分为是BIO和BIOES两种。这里主要介绍BIOES。3.数据标注方式【例1】在下面文本中挑出主要实体小明在北京大学的燕园看了中国男篮的一场比赛“小明”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG[B-PER,E-PER,O,B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]3.数据标注方式【例1】在下面文本中挑出主要实体小明在北京大学的燕园看了中国男篮的一场比赛B-PERE-PEROB-ORGI-ORGI-ORGE-ORGOB-LOCE-LOCOOB-ORGI-ORGI-ORGE-ORGOOOOO4.实践标注操作(1)准备数据demo.txt使用“utf-8withoutBOM”编码录入小明在北京大学的燕园看了中国男篮的一场比赛(2)创建项目label-studiostart4.实践标注操作在弹出页面中的“ProjectName”标签页中,录入项目名称为“命名实体识别Demo”。4.实践标注操作选择“DataImport”标签页,选择“UploadFiles”,在弹出框中选择准备好的数据文件demo.txt,然后进行提交导入。4.实践标注操作在选择导入文件后,在“UploadMoreFiles”按钮旁出现“TreatCSV/TSCas”选框,选中“ListofTask”项。4.实践标注操作切换到“LabelingSetup”标签页,指定项目模板类型为“NamedEntityRecognition”。4.实践标注操作在选择后的配置页面中,维护标签类型。完成标签配置后,单击“Save”按钮保存项目。4.实践标注操作(3)开始标注在标注时,首先选择标签,然后在文本中划词选中相关文本。例如,选择“PER”标签,然后在文本中划词选中“小明”。4.实践标注操作一般每次标注一个词语,需要重新选中标签,才能开始标注。为加快标注速度,可以通过配置选项,使得选中标签固定,这样可以连续多次划词标注,提高标注效率。4.实践标注操作标注完“小明”之后,按照相似描述步骤继续操作直到完成所有实体标记操作4.实践标注操作标注能完成后,单击“Submit”按钮进行提交保存。保存后,按钮文字由“Submit”切换为“Update”4.实践标注操作(4)导出结果单击左侧返回列表页面,标注后的结果在“Completed”列将出现标注时间。4.实践标注操作单击“Export”按钮,在弹出菜单中选择csv格式。4.实践标注操作导出结果为csv文件,具体格式如下:text,id,label,annotator,annotation_id,created_at,updated_at,lead_time小明在北京大学的燕园看了中国男篮的一场比赛,1,"[{""start"":1,""end"":3,""text"":""小明"",""labels"":[""PER""]},{""start"":4,""end"":8,""text"":""北京大学"",""labels"":[""ORG""]},{""start"":13,""end"":17,""text"":""中国男篮"",""labels"":[""ORG""]},{""start"":9,""end"":11,""text"":""燕园"",""labels"":[""LOC""]}]",1,4,2022-04-29T13:15:08.415121Z,2022-04-29T13:15
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英语 漫画 课件
- 《做功了吗》课件
- 手术总结 课件
- 西京学院《英美文学导读》2022-2023学年第一学期期末试卷
- 西京学院《书法》2021-2022学年第一学期期末试卷
- 西京学院《机器学习》2021-2022学年期末试卷
- 西京学院《工程造价软件应用》2022-2023学年第一学期期末试卷
- 2024-2025学年高考语文试题及参考答案
- 西华师范大学《智能计算》2022-2023学年期末试卷
- 西华师范大学《写实油画》2023-2024学年第一学期期末试卷
- DB11∕T 2103.4-2023 社会单位和重点场所消防安全管理规范 第4部分:大型商业综合体
- 常规弱电系统施工单价表纯劳务
- 上海市闵行区2024-2025学年九年级上学期期中语文试题
- 2024年代持法人报酬协议书模板范本
- 2024年贵州贵阳市信访局招聘历年高频难、易错点500题模拟试题附带答案详解
- 2024年人教版六年级数学上册《第5单元第7课时 扇形的认识》单元整体教学课件
- 《算法设计与分析基础》(Python语言描述) 课件 第2章 常用的数据结构及其应用
- 2023湖南文艺出版社五年级音乐下册全册教案
- 创作志愿者文化衫
- 国开2024秋《形势与政策》专题测验1-5参考答案
- 2024秋期国家开放大学本科《国际私法》一平台在线形考(形考任务1至5)试题及答案
评论
0/150
提交评论