当代汉语文本语料库分词、词性标注技术报告_第1页
当代汉语文本语料库分词、词性标注技术报告_第2页
当代汉语文本语料库分词、词性标注技术报告_第3页
当代汉语文本语料库分词、词性标注技术报告_第4页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、当代汉语文本语料库分词、词性标注技术报告杨尔弘山西大学计算机与信息技术学院山西 太原 030006yeh1 研究目标和内容本项目的研究目标是:选择500万汉字的国内正在流通的汉语文本,力求表现当代语言的最新面貌,经过自动分词、词性标注和人工校对,建成高质量的带有完整词类标记的当代汉语通用语料库。力争形成具有广泛适用范围的中文信息处理基础资源。具体研究内容包括:1) 语料库的选材范围和分布比例:语料库的选材力求在通用性上达到一个较高的水平,并反映当代汉语的最新面貌。2) 分词与词性标注规范:制定符合汉语特点的,从信息处理的实际要求出发的当代汉语文本加工规范。该加工规范要确立分词标准、词表的选词原

2、则和词性标注体系。该规范的制定要吸收语言学家的研究成果,并兼顾已有的语料库标注的词性分类体系,具有开放性和灵活性,以便适用于不同的中文信息处理系统。3) 自动分词和词性标注的难点问题:歧义切分、专名和新词语的识别、兼类词的标注是切分和标注的难点问题,将这些问题进一步细化,以便获得解决这些问题的颗粒度更加细致的知识,为自动处理提供良好的知识资源。4) 语料库加工的辅助工具:开发对分词和词性标注结果进行人工校对的辅助工具,提高整体处理效率及良好的保持语料加工的一致性。5) 语料库加工质量的评价及评测系统:为保证语料加工的质量,制定分阶段的质量控制指标及评测方法。按照我们确定的研究目标,我们已完成5

3、00万汉字的当代汉语文本语料的切分和标注任务,形成了良好的语言资源。2 相关的研究语料库的分词和词性标注是语料库语言学研究的基础课题,从最早的带有词性标记的英语语料库(如Brown 语料库、LOB语料库)到目前不同语种的各种带有词性标注的语料库已经纷纷涌现出来,如汉语语料库、日语语料库、韩语语料库等。汉语语料库的建设开始于20世纪80年代末期,目前,已经形成了一些不同规模,服务于不同应用的语料库,如清华大学与北京语言大学共同建立的规模为200万汉字的分词标注语料库、国家语言文字工作委员会从1991年开始建立的,目前仍在进行中的规模为7000万汉字的国家级的大型汉语语料库、北京大学与富士通合作开

4、发的2700万汉字的人民日报标注语料库等。这些语料库的建设均根据任务的目标,从选材、分词和标注规范的制定等方面进行了研究。 本次加工完成的500万汉字的语料库,吸收了以往语料库建设的经验,在选材上强调了当代流通性较高的汉语文本,在分词和词性标注上,通过分析现有语料库的情况,对切合不统一的字串以及标注不统一的词语进行了收集,形成了合分字串库、兼类词语实例库。这些对基于语料库的语言研究、统计模型中训练数据的获得、语料库分词和词性标注的评测等奠定了良好的基础。 3 分词词性标注语料库的构建原则根据我们的研究目标,从选材、分词和词性标注等方面制定了构建语料库所遵循的原则:·选材原则1) 力求

5、反映当代汉语的最新面貌。选择2002年以来流通量大、传播率较高、流通时间较长的文本。2) 构建语料库时,文本的分类从主题、体裁、来源三个方面综合考虑,力求在主题和体裁上具有较好的平衡性,所提供的训练数据具有良好的通用性。3) 选取的文本以自然段落为准,而不是以字数为准。避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。这样可以得到较完整的语言信息的内容。·切分原则 在进行切分和标注时,以词类为纲对各类单位作具体切分与标注规定。切分时,制定了基本原则和辅助原则,基本原则具有不变性,辅助原则则视具体的情况具有一定的弹性。 基本原则:1) 词语的切分规范尽可能同中国国家标准GB1

6、3715信息处理用现代汉语分词规范(以下简称为“分词规范”)保持一致。2) “分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。3) 分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。辅助原则:1) 词表原则:使用频率高的字串收入词表,作为一个分词单位,收入词表的词语不再按具体的规定进行切分。2) 语素一般不单独切分,与前后词语形成一个切分单位。·标注原则:

7、1) 词类划分以语法功能为主要依据。词语的意义有时也起着某些参考作用。2) 允许有兼类,但兼类词语的个数要控制。兼类词的标记确定要依据该词语在具体的语境中的语法功能和意义。3) 词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。为满足计算机处理真实文本词类标注的需要,所定义的词类标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。在具体的标注过程中,对于比词大的单位,标注为“语”的同时,进一步指明其词类,如:名词性习用语:“海市蜃楼 in”、动词性习用语:“众口难调 iv”、形容词性习用语:

8、“通情达理ia”、连词性习用语:“总而言之 ic”等;名词性简称和略语:“人大 jn”、动词性简称和略语:“离退休jv”、形容词性简称和略语:“短平快 ja”等简称略语。对于独立性较强的语素字,标注词类,减少语素字标记的比例。4 分词与词性标注规范的制定 词性标注的一个重要目的是为进一步的短语标注、句法分析铺垫基础,因此词性分类的依据确定为以语法功能为主要依据。在制定973当代汉语文本语料库分词、词性标注加工规范时,我们首先对每一个词类,确定其定义、范例,从音节构成和句法角色的角度,逐一描述了每一类词语的构成形式,在此基础上,制定出了本次加工的规范973当代汉语文本语料库分词、词性标注加工规范

9、。 在该规范中,词性标记集共计20个大类,其中名词、动词、形容词、习用语、简称和略语、其他等几个大类下进一步划分为若干小类,共计24个小类,其中人名、地名的小类又进行了进一步的细分,分别包含了6个和2个次小类。在标注的过程中,无法明确划分小类的词语,标注为大类。因此在标注的语料中,大类与小类并存.。在制定分词规范时,鉴于有些词语合与分并没有本质的不同,在现已公布的标注语料中,也存在着合分并存的现象。对于这样的词语,在本次加工中,我们按照规范进行了严格的统一,同时将他们合分均可的形式,分别进行了标注,形成了合分字串库。如:“仍 d 是 vlvl、意味/v 着/uv、易/a 于/pv、角/n 动量

10、/n、有/v 可能/nv、化学/n 反应/vn”等。这些词语的构成形式主要是:1)词缀及与其前后相邻的词语;2)二字的“动+动”、“副+动”构成的动词;3)“动+助”构成的动词;4)名词和方位词构成的词语;5)代词与其后相邻的名词或量词;6)区别词与其后相邻的名词;7)部分四字词语等情况。另外,有些词语在句中所担任的句法角色不同时,也存在着合分不一致的情形,比如“只是”做连词、副词时,不切分,做动词时,被切分为“只 d 是 vl”。这样可以减少兼类词语的个数,但又造成了合分的不一致性。所有这些词语我们都收集形成了合分字串库。合分字串库的建立为语料库加工结果的评测采用兼容性原则奠定了基础。对于兼

11、类词语的处理,由于国家没有公布兼类词语表,分析已有的标注语料,各个兼类词集之间的差别也比较大。为此在进行兼类词的标注时,对一些具体情况作了规定:比如:1)同一意义的“语”和“词”、“词”和“语素”之间不兼类,统一标注为词性;2)当一部分动词、形容词充当名词短语的中心语、或充当句子的主、宾语时,只要意义不变,认为是活用,不做兼类处理;3)专有名词可与任何词类发生兼类,当作临时兼类词语。在本次加工的语料中,从选材上,我们专门选择了一批包含人名、地名、组织机构名的语料,对专名的标注进行了详细的定义,希望对命名实体的识别提供一定的训练数据。对一些地名和组织机构名的标注采用了嵌套结构,如:安德森 nhy

12、 战略 n 空军 n 基地 n nsy;澳大利亚 nsy 科学 n 与 c 工业 n 研究 v 组织 n ni。这样有利于较长的实体名词的标注。5 语料库标注的特点与现有的语料库相比较,本次加工的语料库的特点有:1) 对于短语进一步区分了词性的的标注,使得所有标注都可以从词性的层次上体现出来。2) 对专名的标注进行了较为详细的划分,并利用嵌套结构标注了较长的专名。3) 收集了合分均可的词语,形成了合分字串库。6 语料库的构建过程 本次语料的加工过程包括如下几个步骤:1) 从网站、电子刊物上收集语料,进行文本的属性描述。文本的属性包括:主题、体裁、来源(媒体名称)、标题等。所有属性存放于文本属性

13、数据库中。对每一个文本设计存储文件名称:10位阿拉伯数字,其中13位表示体裁;46位表示主题;710位表示采集文本时的序号。2) 对所采集的文本进行属性的统计,尽量在主题与体裁上有较好的平衡性。3) 按词类确定加工手册,并在此基础上制定本次的加工规范。4) 按照加工规范,审核支持自动分词和标注的词表。5) 均衡地选择50万语料进行自动处理。6) 利用辅助工具进行两遍逐篇、逐词的人工校验。7) 自动进行词语切分和标注的一致性检查,将出现的分歧形成分歧表,按词表进行语境抽取,进行词表驱动、在实例上进行的人工辅助校对,保证词语切分和标注的一致性。8) 将50万语料作为训练数据,修改自动标注模型。9)

14、 对剩余的语料重复执行58步,直到完成所有文本的标注。 按照上述加工步骤,加工的过程是分阶段进行的,每一个阶段都按照规范进行质量检验,并为后一阶段的加工奠定基础,同时良好的辅助工具的利用,提高了加工的效率,在较短的时间内完成了目前的语料库STC973 ver1.0。其基本的统计数据如下:表 1 STC973各主题的分布比例主题分类包含文章数包含的词语数包含的汉字数所占的比例公益185 2103833626495.99%教育1942123964153426.85%习俗/风俗70710731132671.87%生活36741466178900013.02%娱乐1721788412998724.95

15、%工程(土木、修路)661017281998433.30%政治35037308460885010.05%经济517597666104542917.26%法律1081040691978083.27%体育1841591252554114.22%军事83938491458442.41%艺术1402003193970586.55%人文科学(历史地理、哲学、宗教、)2092922835071798.37%基础科学(数、理、化)1421283542070753.42%应用技术2422307284024816.64%交通71716981110071.83%合计310034402486058115100%表

16、2 STC973各体裁的分布比例体裁分类包含文章数包含的词语数包含的汉字数所占的比例新闻报道11761020645163666027.02%小说(故事、传说)25736298077635812.82%散文1151532362330033.85%剧本1419731357360.59%说明文(包括广告、公告、技术手册)512661154129423221.36%信函1126517380.02%议论文(包括评论)786887870146821824.24%传记74934371439652.38%话语记录1382121584201096.93%杂文2727772480960.79%合计31003440

17、2486058115100%表 3 STC973词性分布比例词性词条数比例(%)词次数比例(%)词性词条数比例(%)词次数比例(%)aq3235316128157444nd1890.1855993194as8160803731031nh52.0005284001c20202089959312nhf1800.182391008d1046102183150635nhg2610.261192004e59.0005650002nhh50724.9617396060f6420.6318681065nhr3220.311180004g1830.167912027nhw6120.602902010h14.0

18、001402001nhy45034.4017894062i58875.7622871079ni3040.302831010j16101.5721013073nl5590.5514366050k31.00032902010nn87.0008618002m69086.75149237517ns53995.2867923235n3954338.66687989238nt8600.8465144226nz24582.4014292495v1659516.2635583220o1650.16430001w00p1200.12129182448wpq6210.6186521300ws36803.61198

19、97069r2670.26135045468wu0u83.0008261983908x0表 4 STC973词长分布比例词长数量比例一字词3464361%二字词459094774%三字词269052798%四字词1289613.41%五字词及以上6986726%总计96160100%7 结语建造带有词性标注的语料库是一个浩大的工程,也是自然语言研究的基础工程,其效应可以由对已建成的各种语料库的研究来体现。在标注的过程中,我们对语料库加工中的难点问题进行了收集、分析,还需要进一步研究的内容包括:1)关于歧义的更细致地分类以及解决歧义所需知识的组织与表达;2)词类进一步细化以及词语构成形式与词性的相关关系研究。语料库的一个基本功能便是通过提供大量的真实文本作为研究素材,因此必然也忠实的反映了人们使用语言时不可避免的会有一些错误。因此,对于该语料库的建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论