




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Li BaoliDepartment of Computer SciencePeking University5/13/2022Li Baoli, ICL, Peking University2lDefinitionlDifficultieslApproacheslSummary 5/13/2022Li Baoli, ICL, Peking University3新词发现:新词发现:找出组成新词的字符串;确定其句找出组成新词的字符串;确定其句法、语义类别;法、语义类别;新词:新词:在某(个、类)语汇中出现的、存在于在某(个、类)语汇中出现的、存在于某个时间段的、未被收录于现有词典的词语;某个时
2、间段的、未被收录于现有词典的词语;l参照物:参照物:某一词典、一些词典或所有现有词典某一词典、一些词典或所有现有词典 ;l语汇:语汇:1991年年2000年十年的人民日报、年十年的人民日报、1998年全年的人年全年的人民日报、一篇文档;专业文献集合(如信息科学技术),专业术语也是一民日报、一篇文档;专业文献集合(如信息科学技术),专业术语也是一种新词种新词; ;l时间段:时间段:出现在某一时间段内或自某一时间点以来所首次出现出现在某一时间段内或自某一时间点以来所首次出现5/13/2022Li Baoli, ICL, Peking University4lSyntactical Function
3、Noun:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、九一一、北航空难、九一一、北航空难、5.7空难空难Verb:打的、埋单打的、埋单/买单买单Adjective:酷、小资、爽酷、小资、爽。lSemantic时间、地名、人名(拉丹)、组织机构名(基地)、时间、地名、人名(拉丹)、组织机构名(基地)、商标、公司名、电话号码、电子邮件地址商标、公司名、电话号码、电子邮件地址等等等等lDomain or Subject信息技术(话题识别与跟踪、信息抽取)信息技术(话题识别与跟踪、信息抽取)政治(三个代表、十六大)政治(三个代表、十六大)经济(牛市、熊市)经济(牛市
4、、熊市)。5/13/2022Li Baoli, ICL, Peking University5lA word is considered as an unknown word, if neither it is in the CKIP lexicon nor it is identified as foreign word (for instance English) or a number. 3lOne question? 外来词(如英文单词、不同編碼的漢語外来词(如英文单词、不同編碼的漢語詞語)是否也是一种新词?詞語)是否也是一种新词?如,如,“让我让我look一一下下”、“我们都应当讲禮
5、貌我们都应当讲禮貌” 5/13/2022Li Baoli, ICL, Peking University6l汉语文本中,词与词之间没有空格符分汉语文本中,词与词之间没有空格符分隔;隔; l某些词语数量巨大,无法枚举,难以全某些词语数量巨大,无法枚举,难以全部收录在词典中;部收录在词典中; l没有简单的规则能够覆盖各种类型的新没有简单的规则能够覆盖各种类型的新词词;l新词首次出现后往往采用缩写形式新词首次出现后往往采用缩写形式;5/13/2022Li Baoli, ICL, Peking University7l目前的自然语言处理技术往往以单句作为一个目前的自然语言处理技术往往以单句作为一个处理
6、单位,不保留篇章信息;处理单位,不保留篇章信息;“而更令现代人自信的是对质量的有效控制,而更令现代人自信的是对质量的有效控制,”l表达形式多样(全称与简称(表达形式多样(全称与简称(IBM与国际商用与国际商用机器公司),译词选择不同);机器公司),译词选择不同);“贝克汉姆贝克汉姆碧咸、拉登碧咸、拉登拉丹拉丹本本 拉登拉登” l在短的文本中进行的联机识别尤其困难,因为在短的文本中进行的联机识别尤其困难,因为简单的统计方法很难识别出低频的新词;简单的统计方法很难识别出低频的新词; 5/13/2022Li Baoli, ICL, Peking University8一个一个11岁学生写的岁学生写的
7、“字母字母+数字数字+汉字汉字”的的大杂烩日记:大杂烩日记:“昨晚,我的昨晚,我的JJ(姐姐姐姐)带着他的青蛙带着他的青蛙(丑陋丑陋的的)BF(男朋友男朋友)到我家来吃饭。在饭桌上,到我家来吃饭。在饭桌上,JJ的的BF一个劲儿地对我妈妈一个劲儿地对我妈妈PMP(拍马屁拍马屁),说她年轻的时候一定是个漂亮说她年轻的时候一定是个漂亮MM(美眉美眉)。那酱紫那酱紫(样子样子)真是好真是好BT(变态变态),7456(气死气死我了我了)” 5/13/2022Li Baoli, ICL, Peking University9l1995年、年、1998年年863项目汉语文本自动切词评项目汉语文本自动切词评测
8、测: :中国人名:召回率中国人名:召回率68%68%、准确率、准确率91%91%(F-1F-1指数指数=78%=78%)中国地名:召回率中国地名:召回率60%60%、准确率、准确率69%69%(F-1F-1指数指数=64%=64%)外国译名:召回率外国译名:召回率78%78%、准确率、准确率82%82%(F-1F-1指数指数=80%=80%)AVERAGE: 74%AVERAGE: 74% lMUCMUC中关于中文命名实体的评测:中关于中文命名实体的评测:MUC6MUC6(19951995年年9 9月)系统的月)系统的F-1F-1指数指数85%85%MUC7MUC7(19981998年年4 4
9、月)系统的月)系统的F-1F-1指数指数91%=2)及数字、西文及数字、西文字符等一切非汉字字符去掉,均以空格代替;字符等一切非汉字字符去掉,均以空格代替;B.B.这样文档被表示成含有许多空格和汉字的字符串,从其首端向这样文档被表示成含有许多空格和汉字的字符串,从其首端向尾部扫描,以连续的尾部扫描,以连续的2 2个汉字作为匹配字串,查找候选词条集,个汉字作为匹配字串,查找候选词条集,若有,则频度加一,否则加入,频度置一;若有,则频度加一,否则加入,频度置一; C.C.重复进行,直至字符串末尾;重复进行,直至字符串末尾; 5/13/2022Li Baoli, ICL, Peking Univer
10、sity14l过滤:过滤:A.A.“功能字功能字”、“功能词功能词”的剔除;的剔除;B.B.频度过滤(频度过滤(1):):“偶然型偶然型”噪声字串的频度大多为噪声字串的频度大多为1或或2;A.A.“N“N元重叠元重叠”过滤:过滤:1 1、“手提电脑手提电脑”覆盖覆盖“手提电手提电”“ ”“ 提电脑提电脑”2 2、频率相减法、频率相减法 5/13/2022Li Baoli, ICL, Peking University15l频率相减法:计算长字串频率相减法:计算长字串N元组元组Y的频率的频率PL(Y) 减去减去 短字串短字串N元组元组X的频率的频率PL(X),建立规则:建立规则: R1:若差值若
11、差值=0,则说明,则说明X每次均出现在每次均出现在Y中,中,则将其去除;则将其去除; R2:若差值若差值0,则说明,则说明X也作为也作为N元组单独出元组单独出现,则将现,则将X保留,且保留,且PL(X)=PL(X)-PL(Y); R3:若差值若差值0且且PL(Y) 给定阈值(给定阈值(40)的汉字串被认为必定是词)的汉字串被认为必定是词, ,存入存入临时词库中临时词库中; ; l每个不被任何其他汉字串完全覆盖且频度大于阈值每个不被任何其他汉字串完全覆盖且频度大于阈值H(2)的汉字串被视为潜在的候选词的汉字串被视为潜在的候选词; ;3LFW5/13/2022Li Baoli, ICL, Peki
12、ng University21l分词:分词:同时借助各短串末尾的候选词集(局部信息)、临时同时借助各短串末尾的候选词集(局部信息)、临时词库中的词条(全局信息)和一部含词库中的词条(全局信息)和一部含5000常用词的词典(背景信常用词的词典(背景信息),对汉字短串进行切分。息),对汉字短串进行切分。l分两步完成:分两步完成: 将临时词库及候选词集中的词语按权值降序排将临时词库及候选词集中的词语按权值降序排列,采用列,采用逐词遍历法逐词遍历法进行切分;进行切分; 利用一部小型常用词词典(信息处理用现代利用一部小型常用词词典(信息处理用现代汉语五千词表汉语五千词表+少量高频单字)对短串中为少量高频
13、单字)对短串中为做标记的子串进行做标记的子串进行正向最大匹配法正向最大匹配法分词;分词; 5/13/2022Li Baoli, ICL, Peking University22lDifficult, Need further studylNo Wait, Try to use this technologylIntegrating it into practical NLP system5/13/2022Li Baoli, ICL, Peking University23l刘开瑛,专有名词与网络词语识别软件技术研究,中国中文信息学会二十周年学刘开瑛,专有名词与网络词语识别软件技术研究,中国中文
14、信息学会二十周年学术会议论文集(辉煌二十年:术会议论文集(辉煌二十年: 曹右琦),北京,曹右琦),北京,20012001年年1111月,月,7-137-13 l刘挺刘挺 吴岩吴岩 王开铸,串频统计和词形匹配相结合的汉语自动分词系统,中文信息王开铸,串频统计和词形匹配相结合的汉语自动分词系统,中文信息学报,第学报,第12卷第卷第1期,期,1998 lKeh-Jiann Chen and Wei-Yun Ma, Unknown Word Extraction for Chinese Documents, In Proceedings of the 19th International Conference on Computational Linguistics (2002) P.169-175 lChen H.H., Ding Y. W., Tsai S. C., and Bian G. W., Description of the NTU System Used for MET2, In Proceedings of the Seventh Message Understanding Conference, 1998 lYu Sh.H., Bai Sh.H., and Wu P., Description of the
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年CPSM考试时间分配技巧试题及答案
- 了解CPSM考试变化趋势的试题与答案
- 黄疸的治疗方法
- 供应链风险管理重点题目试题及答案
- 现代物流中的智能化管理试题与答案
- 触电急救知识培训
- 国际货代业务知识考察试题及答案
- CPSM学习方法的创新试题及答案
- 体外与体内环境的比较试题及答案
- 高危妊娠孕产妇急救流程
- 矿大毕业设计-固定式带式输送机设计
- 【电力服务收费项目及标准】 电力维护收费标准
- 软件工程导论(第六版)电子教案(第1-13章)
- 卵巢癌诊治指南
- 【超星尔雅学习通】《海洋与人类文明(浙江海洋大学)》章节测试题及答案
- 河南省高中毕业生登记表【范本模板】
- TSIOT 315-2021 智慧健康养老 老年人跌倒智能监测系统技术要求
- JJG 52-2013弹性元件式一般压力表、压力真空表和真空表
- GB/T 6289-2013夹扭钳和剪切钳术语
- 不参与电信网络诈骗承诺书
- GA/T 718-2007枪支致伤力的法庭科学鉴定判据
评论
0/150
提交评论