汉语分词标注评测大纲_第1页
汉语分词标注评测大纲_第2页
汉语分词标注评测大纲_第3页
汉语分词标注评测大纲_第4页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2004 年度命名实体识别评测大纲一、评测对象本次评测的对象是现代汉语(包含大陆的简体文本和港澳台地区的繁体文本)的命名实体(包含命名实体、时间表达式及数量表达式)识别系统中的核心技术。二、评测内容本次评测主要是对识别的正确率进行评测。1. 命名实体识别评测本次测试命名实体、时间词、数字词的识别。具体词类的判断规则参考附录中的说明。(1) 命名实体( ENAMEX)命名实体是文本中的固有名称、缩写及其他唯一标识。子类包括组织名 (ORGANIZATION) ,人名( PERSON),地名( LOCATION )。例如:“世卫组织”、“张三丰”、“淮海路甲一号”。(2)时间表达式( TIMEX)

2、时间表达式为文本中的相对或绝对时间短语。子类包括日期(DATE) 和时间 (TIME) 。例如:“ 1993 年 3 月”、“早晨5点 30分”。(3)数值表达式( NUMEX)本次评测中的数值表达式特指文本中出现的用于表示数值的数字短语。例如:“ 300”、“ 30”、“五倍”。2. 评测语料的选材原则本次评测将选择近期流通广泛的图书、报纸、期刊和网络等载体作为语料的来源,以期反映当代汉语的最新面貌,涉及到的主题有政治、经济、体育、交通、旅游、教育等。语料的选择考虑到其平衡性、科学性和代表性。三、评测方法1. 评测方式本次评测为现场评测。采用自动评测与人工辅助相结合的方式进行。2. 评测步骤

3、:(1) 预先提供测试样例(2) 在评测单位统一提供的评测环境上安装被测系统(3) 评测单位给出测试数据(4) 运行被测系统,得出测试结果(5) 评测单位运行自动测试程序,统计出评测结果(6) 评测单位事后对自动评测结果进行分析和核对, 对其中难以进行自动评测的内容进行人工分析确定,并公布评测结果3. 评测指标分别对简体和繁体文本的识别进行打分。每种文本又分别对命名实体、组织名、地名、人名、时间表达式、数值表达式进行打分。评测采用三个指标:正确率、召回率、F 值。各指标定义如下:(1) 正确率表示识别出的词语中出现在标准结果中的词语比例,计算公式如下:识别出的词语中出现在标准结果中的词语数正确

4、率100%识别出的词语总数(2) 召回率表示标准结果中被正确识别出的词语比例,计算公式如下:识别出的词语中出现在标准结果中的词语数召回率100%标准结果中的词语总数(3) F1 值是正确率和召回率的调和平均数,计算公式如下:F1值 2正确率召回率正确率召回率4. 输入输出文件格式被测系统读入一个脚本文件,脚本文件含若干行,每行由三个部分组成,分别为繁体简体(S/T)、输入文件名、输出文件名。举例如下:S sourcea1.txt resultr_a1.txtT sourceb1.txt resultr_b1.txt输入文件为一组简体及繁体的标准的纯文本文件,编码方式为Unicode 。输出文件

5、为标准的文本格式,编码方式为 Unicode 。内容是在原文的基础上对识别出的词语进行标注。识别出的词语标记方法如下。利用以下标记括起识别出的命名实体、时间表达式、数值表达式:<大类TYPE= ”子类 ”>字符串 </ 大类 >其中,大类名为ENAMEX 、TIMEX 、 NUMEX 之一。ENAMEX 的子类包括 ORGANIZATION 、PERSON 和 LOCATION 。TIMEX的子类包括 DATE 和 TIME 。 NUMEX 没有子类。以下是输出文件的样例:<ENAMEXTYPE= ”PERSON ”> 格 林 </ENAMEX>

6、最 近 的 状 态 非 常 不 错 , <TIMEXTYPE= ”DATE ”> 两 周 前 </TIMEX>便 曾 在 <ENAMEXTYPE= ”LOCATION ”> 洛 杉 矶</ENAMEX>跑 出 过 <NUMEX>9</NUMEX>秒 <NUMEX>86</NUMEX>的 好 成 绩 , 这<NUMEX> 一 </NUMEX>次 , 借 助 每 秒 <NUMEX>3.7</NUMEX>米 的 风 速 , 他 追 平 了<ENAMEX

7、 TYPE=”PERSON ”>蒙哥马利 </ENAMEX><TIMEX TYPE=”DATE”>2002 年 9 月</TIMEX> 在 <ENAMEXTYPE= ”LOCA TION ”>巴黎 </ENAMEX>创造的男子<NUMEX> 百</NUMEX>米世界纪录。四、评测环境本次评测环境包括: 操作系统为 Windows2000 ,硬件配置不低于: P4 1GHz, 256M 内存, 40G IDE 硬盘。附录命名实体识别规范1 命名实体识别任务命名实体任务由三个子任务组成(命名实体、时间表达式、

8、数字表达式) 。被标注的表达式为命名实体 (组织、人、地点 )、时间(日期、时间)及数量。1.1所有类型通用的规则( 1)带有省略成分的多个实体多个实体连写,有共用成分的时候标记为一个实体,例如“<ENAMEXTYPE= ”LOCATION ”>南北美 </ENAMEX> ”“、 <NUMEX>20到 30 倍</NUMEX> ”“、 <TIMEXTYPE= ”TIME ”> 凌 晨 三 四 点 钟 </TIMEX>”、“ <NUMEX>二 十 七 八 </NUMEX>岁 ”、“<NUMEX&

9、gt;1 2 成 </NUMEX> ”、“ <TIMEX TYPE=”DATE ”>6 月 3、 4 号 </TIMEX> ”。没有共用成分的时候分别标记,例如“<ENAMEXTYPE=”LOCATION”>北京</ENAMEX><ENAMEXTYPE= ”LOCATION ”> 上海 </ENAMEX>”、“ <NUMEX>二十倍</NUMEX> 或 <NUMEX> 三十倍 </NUMEX> ”。( 2)时间或者数值范围利用两个时间或数值表示一个范围的短语分开标

10、记,例如“<TIMEXTYPE= ”TIME ”>八点 </TIMEX> 到 <TIMEX TYPE= ”TIME ”>九点 </TIMEX> ”、“ <NUMEX>30</NUMEX> 元到 <NUMEX>50</NUMEX> 元”。2 命名实体命名实体是对某一特定人、组织、地点、事件等的固有名、缩写或其他特有标识。这次评测中,我们只测试人、组织、地点三类命名实体。2.1适用于所有类型的规则( 1)一个实体嵌套在另一个实体中当一个实体是在另一个实体的一部分时,只标记大的实体,而不标记嵌套的实体。例

11、如:“ <ENAMEX TYPE ”ORGANIZATION ”>华沙条约组织 </ENAMEX> ”。( 2)支配结构当 两个实体通过明确的支 配词呈支配关系的时候 ,两个实体分别标记。 例如,“<ENAMEXTYPE= ”LOCA TION ”>联合国</ENAMEX>的<ENAMEXTYPE= ”LOCATION ”>安理会 </ENAMEX> ”。但是,如果是接续结构则标记为一个。例如,“<ENAMEX TYPE=”LOCATION ”>联合国安理会</ENAMEX> ”。( 3)实体的别名

12、用于表示特定实体的别名、昵称、简称、缩写都是实体名。例如,“ <ENAMEXTYPE= ”ORGANIZATION”> 火 箭 </ENAMEX>” ( 指 休 斯 顿 火 箭 队 ) 、“ <ENAMEXTYPE= ”ORGANIZATION”> 中共 </ENAMEX>”、“ <ENAMEXTYPE= ”ORGANIZATION”>IBM</ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 老 张 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”&

13、gt;王老 </ENAMEX> ”。( 4)非特定的称呼、短语不是实体名。例如, “我公司郑重宣布 ”中的“我公司” 、“我国申报了 ”中的“我国”、“公司决定 ”中的“公司”、“党委批准了 ”中的 “党委”都是特定环境下特指的实体代称,不能认定为实体名。“卖炭翁”不是人名。2.2适用于组织名的规则组织包含机构、企事业、运动队、团体、多国组织、党派、联盟等。( 1)用于指定组织类型的词组织名中用于指定组织类型的“公司”、“队”等词是组织名的一部分。例如,“<ENAMEXTYPE= ”ORGANIZATION”>世界卫生组织</ENAMEX>” 、 “<

14、ENAMEXTYPE= ”ORGANIZATION”>IBM公司</ENAMEX>” 、 “<ENAMEXTYPE= ”ORGANIZATION”>北京队 </ENAMEX> ”。( 2)建筑物和组织仅有当建筑物名用于表示驻在的组织的时候,才会被标记为组织名,否则不标记。 例如“五角大楼”,当用于表示“美国国防部”时才被标记为组织名,如“<ENAMEXTYPE= ”ORGANIZATION”>五角大楼</ENAMEX>声称 ”,而在“飞机撞毁了五角大楼”中的不标记为组织名。( 3)事件和组织事件不作为组织标记,例如“第27 届奥

15、林匹克运动会”不标记,但是和事件相关的组织应该标记,例如“<ENAMEX TYPE=”ORGANIZATION”>北京奥组委 </ENAMEX> ”。2.3适用于人名的规则人名包括现实或者虚构的特定人或拟人的固有名。人名包括汉名、 少数民族人名、 日本人 名 、 译名 、 笔名 等 。例 如 ,“ <ENAMEXTYPE= ”PERSON ”> 张 三 丰 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 帕 巴 拉 · 格 列 朗 杰 </ENAMEX>”、“ <ENAMEXTYP

16、E= ”PERSON ”> 巴 根</ENAMEX>”、“<ENAMEXTYPE= ”PERSON ”> 佐藤</ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 中曾根康弘</ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 卡 尔· 刘易 斯 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON”> 茅盾</ENAMEX> ”、“ <ENAMEX TYPE=”PERSON”>陈方安生 </ENAM

17、EX>”。( 1)昵称和谥号用于表示特定人物的昵称或者称号、谥号、绰号作为人名,例如“ <ENAMEXTYPE= ”PERSON ”> 范 文 正 公 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON”> 清 圣 祖</ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 刘 罗 锅 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 孔 子 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 至 圣 先

18、 师</ENAMEX> ”。( 2)用于表示家族当人名用于表示家族的时候,作为人名标记。 这里用于表示姓氏的“氏” 包含在人名中。例如“ <ENAMEX TYPE=”PERSON”>蒋氏 </ENAMEX> 父子”。( 3)用于表示世代的词名字中用于表示世代、年龄的特定用词作为名字的一部分。例如, “ <ENAMEX TYPE= ”PERSON ”> 伊 丽莎 白二 世 </ENAMEX> ”、“ <ENAMEX TYPE= ”PERSON”> 老张 </ENAMEX> ”。( 4)头衔和称呼名字前或后的职位、

19、角色称呼不作为名字的一部分。例如:“<ENAMEX TYPE= ”PERSON ”>王 </ENAMEX> 局长”、“ <ENAMEX TYPE= ”PERSON ”>李 </ENAMEX>同志”。但是,由姓(可能是单姓、双姓、复姓)及一个字构成的称呼被认为是一个完整的名字。儿化情况按没有“儿”的情况进行处理。例如,“ <ENAMEX TYPE=”PERSON ”>李老</ENAMEX> ”、“ <ENAMEXTYPE= ”PERSON”> 王 局 </ENAMEX>”、“ <ENAMEXTY

20、PE= ”PERSON ”> 张 哥 </ENAMEX> ”、“ <ENAMEXTYPE= ”PERSON ”> 王 婆</ENAMEX> ”、“ <ENAMEXTYPE= ”PERSON ”> 刘 头 儿 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON ”> 老 李 头 儿 </ENAMEX>”、“ <ENAMEXTYPE= ”PERSON”> 高 氏</ENAMEX> ”。( 5)含名字的其他实体当政治名词、定律、疾病、奖励、品牌等其他专有名词中包含人名时,

21、这些人名不作为人名标记。例如, “马克思主义” 、“赫尔姆斯·伯顿法” 、“费马大定理” 、“哥德巴赫猜想” 、“诺贝尔奖” 、“王老吉凉茶” 、“吴冠中画集” 。( 6)用年号指代的帝王名用年号指代的帝王名,例如 “康熙”。当可以明确确定表示的是帝王的时候标记为人名。例如“<ENAMEX TYPE= ”PERSON ”>康熙 </ENAMEX> 大怒 ”,但是“康熙年间” 中的“康熙”不标记为人名。( 7)名字中的讳字特殊的,名字中隐讳的形式,作为名字,例如“张某”、“李某某”、“刘×”、“张某人”,但是用数字、干支等代指的不是名字,例如“某甲”、

22、“老三”。2.4适用于地名的规则地名包含天体、大陆、国家、省、县、城市、地区、区、镇、村、邻居、高速公路、街道、街道地址、洋、海、海峡、海湾、运河、岛、湖、国家公园、山等地理位置、区域,虚构或者神话的地点,或者特指的建筑物。( 1)嵌入在其他实体中的地名嵌入或者限定某一个其他实体的地名不单独标记,例如“<ENAMEX TYPE= ”ORGANIZATION ”> 美 国 福 特 公 司 </ENAMEX> ”、“ <ENAMEX TYPE= ” ORGANIZATION ”>微软中国公司 </ENAMEX> ”。( 2)连续的地名当出现连续的地名

23、的时候,这些地名分别标记,而和它们之间是否存在从属关系无关。例如“ <ENAMEX TYPE=”LOCATION ”>中国 </ENAMEX><ENAMEX TYPE=”LOCATION ”>广 东 </ENAMEX>”、“ <ENAMEXTYPE= ”LOCATION ”> 科 </ENAMEX><ENAMEXTYPE= ”LOCATION ”>伊</ENAMEX>边境”。( 3)用于表明地名类型的固有后缀用于表明地名类型的固有后缀作为地名的一部分。例如“<ENAMEXTYPE= ”LOCA

24、TION ”>长江 </ENAMEX>”、“ <ENAMEXTYPE= ”LOCA TION ”> 乌拉 尔山</ENAMEX>”、“ <ENAMEXTYPE= ”LOCA TION”>巴拿马城</ENAMEX>”、“ <ENAMEXTYPE= ”LOCATION ”>北京市 </ENAMEX> ”。但是非固有的部分不能作为地名的一部分。例如“ <ENAMEX TYPE= ”LOCATION ”>长江 </ENAMEX> 北岸”中的“北岸” 、“ <ENAMEX TYPE=

25、”LOCATION ”>北京 </ENAMEX> 市郊”中的“市郊” 。( 4)特定别名用于表示某一地名实体的特定别名作为地名标记。例如“<ENAMEX TYPE= ”LOCATION ”> 大 陆 </ENAMEX> ”( 特 指 中 国 大 陆 )、“ <ENAMEX TYPE= ”LOCATION ”> 亚 太 </ENAMEX> ”( 亚 洲 、 太 平 洋 )、“ <ENAMEXTYPE= ”LOCATION ”>西半 球 </ENAMEX>”、“ <ENAMEXTYPE= ”LOCATI

26、ON ”> 亚马 逊</NAMEX> ”。但是,非特定的地点或者非地点性质的不能作为地名标记,例如“西部大开发”中的“西部” 、“发展中国家” 。( 5)含时间标记的地名含时间标记的地名中的时间词不包含在地名中,例如“前<ENAMEX=”LOCATION ”>苏联 </ENAMEX> ”中的“前” 。( 6)特定的建筑物具有特指含义的建筑物名作为地名使用时标记为地名,例如“<ENAMEXTYPETYPE=”LOCATION ”>天安门 </ENAMEX> ”、“ <ENAMEX TYPE = ”LOCATION ”>

27、革命军事博物馆 </ENAMEX> ”、“ <ENAMEX TYPE = ”LOCATION ”>卢沟桥 </NAMEX> ”。非特定的建筑物不标记,例如“博物馆”、“城墙”。3 时间表达式时间表达式是用于表达特定时间点或者时间范围的短语。它分为两类: 时间和日期, 其中时间用于表示精确到一天以内的时间,而日期则是精确到某天以上范围的时间。3.1通用的规则( 1)相对时间相对时间需要标记,例如“<TIMEXTYPE= ”DATE ”> 两天前 </TIMEX> ”、“ <TIMEXTYPE= ”TIME ”> 昨 晚 &l

28、t;/TIMEX>”、“ <TIMEXTYPE=DATE>昨 天 </TIMEEX><TIMEXTYPE= ”TIME ”>晚上 </TIMEX ”。( 2)用于修饰时间的词用于修饰时间的词或者短语不作为时间的一部分,例如“大约 <TIMEX TYPE= ”TIME ”>三点半 </TIMEX> ”中的“大约” 。( 3)不能准确表示时间的词以及基于事件的时间某些不能准确表示时间的词以及基于事件的时间不作为时间标记, 例如“刚才”、“一会儿”、“几天来”、“战前”、“解放前”、“成天”。( 4)用于表示时区的短语时间中用于

29、表示时区的短语作为时间的一部分,例如 “<TIMEX TYPE=”TIME ”>芝加哥时间 8 点 </TIMEX> ”、“ <TIMEX TYPE=”TIME ”>美国东部时间5 月 31 日 </TIMEX> ”。( 5)用于表示日历或者时间表的时间短语用于表示特定时间范围的时间短语标记为时间。例如“<TIMEXTYPE= ”TIME ”>1990财政年度 </TIMEX> ”、“ <TIMEX TYPE=”TIME ”>八五 </TIMEX> 计划”。( 6)不是时间的类时间短语不是表示时间长

30、度的短语形式上类似于时间,但是不标记时间,例如“<NUMEX>1</NUMEX>小时 <NUMEX>10</NUMEX>分”、“ <NUMEX>3</NUMEX>天”、“<NUMEX> 三 </NUMEX> 个月”。3.2用于时间的规则( 1)用小时、分钟、秒等时间单位表示的时间准确表示小时或者分钟的时间短语,例如“<TIMEX TYPE= ”TIME ”>10 点 </TIMEX> ”、“ <TIMEXTYPE= ”TIME ”> 五 点 半 </TIME

31、X>”、“ <TIMEXTYPE= ”TIME ”> 下 午 两 点</TIMEX> ”、“ <TIMEX TYPE=”TIME ”>21:30</TIMEX> ”。( 2)用于表达特定时间的词某 些 用于 表 达特 定时 间的 词 ,例 如 “ <TIMEXTYPE= ”TIME ”> 午夜 </TIMEX>”、“<TIMEXTYPE= ”TIME ”>中午 </TIMEX> ”、“ <TIMEXTYPE= ”TIME ”>凌晨 </TIMEX> ”、“<TIM

32、EX TYPE= ”TIME ”>早上 </TIMEX> ”。3.3用于日期的规则( 1)表达到日、星期、旬、月、季度、年、年代、世纪的时间短语表达到日、星期、旬、月、年、年代、世纪的时间短语标记为日期,例如:“ <TIMEXTYPE= ”DATE ”>4 月 5 日 </TIMEX> ”、“ <TIMEXTYPE= ”DATE ”> 星期三 </TIMEX>”、“ <TIMEXTYPE= ”DATE ”> 五 月 上 旬 </TIMEX>”、“ <TIMEX TYPE= ”DA TE”>8月

33、</TIMEX>”、“ <TIMEX TYPE= ”DATE ”>春</TIMEX> ”、“ <TIMEX TYPE= ”DATE ”>1990年</TIMEX>”、“<TIMEXTYPE= ”DATE ”> 上 个 世 纪80年 代 </TIMEX>”、“ <TIMEXTYPE= ”DATE ”>19 世纪 </TIMEX> ”。( 2)节假日节假日被标记为时间,例如“ <TIMEX TYPE=”DATE ”>去年春节 </TIMEX> ”、“ <TIMEXTYPE= ”DATE ”>端午节 </TIMEX> ”。( 3)年号年号作为日期标记。例如“<TIMEXTYPE= ”DAT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论