




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算所汉语词性标记集Version3.0制订人:刘群张华平张浩TOC\o"1-5"\h\z\o"CurrentDocument"计算所汉语词性标记集 1\o"CurrentDocument"0.说明 1\o"CurrentDocument"名词(1个一类,7个二类,5个三类) 2\o"CurrentDocument"时间词(1个一类,1个二类) 2\o"CurrentDocument"处所词(1个一类) 3\o"CurrentDocument"方位词(1个一类) 3\o"CurrentDocument"动词(1个一类,9个二类) 3\o"CurrentDocument"形容词(1个一类,4个二类) 3\o"CurrentDocument"区别词(1个一类,2个二类) 3\o"CurrentDocument"状态词(1个一类) 3\o"CurrentDocument"代词(1个一类,4个二类,6个三类) 3\o"CurrentDocument"数词(1个一类,1个二类) 4\o"CurrentDocument"量词(1个一类,2个二类) 4\o"CurrentDocument"副词(1个一类) 4\o"CurrentDocument"介词(1个一类,2个二类) 4\o"CurrentDocument"连词(1个一类,1个二类) 4\o"CurrentDocument"助词(1个一类,15个二类) 4\o"CurrentDocument"叹词(1个一类) 4\o"CurrentDocument"语气词(1个一类) 5\o"CurrentDocument"拟声词(1个一类) 5\o"CurrentDocument"前缀(1个一类) 5\o"CurrentDocument"后缀(1个一类) 5\o"CurrentDocument"字符串(1个一类,2个二类) 5\o"CurrentDocument"标点符号(1个一类,16个二类) 50.说明计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:北大《人民日报》语料库词性标记集;北大2002新版词性标记集(草稿);清华大学汉语树库词性标记集;教育部语用所词性标记集(国家推荐标准草案2002版);美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。本标记集在制定过程中主要考虑了以下几方面的因素:有助于提高汉语词法分析器的切分和标注正确率;有助于提高汉语句法分析器的正确率;有助于汉英机器翻译系统进行翻译;易于从北大《人民日报》语料库词性标记集进行转换;对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+'年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+'年'”分别标注为“数词”和“量词”这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。名词(1个一类,7个二类,5个三类)名词分为以下子类:n名词nr人名nr1汉语姓氏nr2汉语名字nrj日语人名nrf音译人名ns地名nsf音译地名nt机构团体名nz其它专名nl名词性惯用语ng名词性语素时间词(1个一类,1个二类)t时间词tg时间词性语素3.处所词(1个一类)s处所词方位词(1个一类)f方位词动词(1个一类,9个二类)v动词vd副动词vn名动词vshi动词“是”vyou动词“有”vf趋向动词vx形式动词vi不及物动词(内动词)vl动词性惯用语vg动词性语素形容词(1个一类,4个二类)a形容词ad副形词an名形词ag形容词性语素al形容词性惯用语区别词(1个一类,2个二类)b区别词bi区别词性惯用语状态词(1个一类)z状态词代词(1个一类,4个二类,6个三类)r代词rr人称代词rz指示代词rzt时间指示代词rzs处所指示代词rzv谓词性指示代词ry疑问代词ryt时间疑问代词rys处所疑问代词ryv谓词性疑问代词rg代词性语素数词(1个一类,1个二类)m数词mq数量词量词(1个一类,2个二类)q量词qv动量词qt时量词副词(1个一类)d副词介词(1个一类,2个二类)p介词pba介词“把”pbei介词“被”连词(1个一类,1个二类)c连词cc并列连词助词(1个一类,15个二类)u助词uzhe着ule了喽uguo过udel的底ude2地ude3得usuo所udeng寺寺寺石云uyy一样一般似的般udh的话uls来讲来说而言说来uzhi之ulian连(“连小学生都会”)叹词(1个一类)e叹词语气词(1个一类)y语气词(deleteyg)拟声词(1个一类)o拟声词前缀(1个一类)h前缀后缀(1个一类)k后缀字符串(1个一类,2个二类)x字符串xeEmail字符串xs微博会话分隔符xm表情符合xu网址URL22.标点符号(1个一类,16个二类)w标点符号wkz左括号,全角:(〔[{《【〖〈半角:([{<wky右括号,全角:)〕]}》】〗〉半角:)]{>wyz左引号,全角:“‘『wyy右引号,全角:”’』wj句号,全角:。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机算法与Python结合试题及答案
- MySQL数据类型选用指南试题及答案
- 现代汉语在科技中的应用试题及答案
- 财务行业趋势试题及答案深度解读
- 突破MySQL知识瓶颈的试题及答案
- C++测试与验证编程试题及答案
- 实现数据分析工具试题及答案
- 二级计算机指导性试题及答案
- 计算机二级MySQL考试形成学习共识的试题及答案
- 编程语言基础考题试题及答案
- 2024年银行业全渠道客户旅程分析与精细化线上运营白皮书-火山引擎
- 江苏省盐城市阜宁县多校2024-2025学年九年级上学期12月月考语文试题含答案
- 中国高血压防治指南(2024年修订版)解读课件
- 基于Arduino的智能闹钟设计与制作
- DB36T 477-2019 商品肉鹅规模养殖生产技术规程
- 印章交接表(可编辑)
- 火灾事故应急演练桌面推演
- 图书馆藏书出入库管理制度
- 国家开放大学《统计与数据分析基础》形考任务1-5答案
- 2025年中考历史复习试题分类汇编:中国古代史之大题(学生版)
- 乐山大佛完整版本
评论
0/150
提交评论