新词发现找出组成新词的字符串_第1页
新词发现找出组成新词的字符串_第2页
新词发现找出组成新词的字符串_第3页
新词发现找出组成新词的字符串_第4页
新词发现找出组成新词的字符串_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NewWordsDetection

inChineseText

2023/4/231编辑pptOutlinesDefinitionDifficultiesApproachesSummary2023/4/232编辑pptDefinition新词发现:找出组成新词的字符串;确定其句法、语义类别;新词:在某(个、类)语汇中出现的、存在于某个时间段的、未被收录于现有词典的词语;参照物:某一词典、一些词典或所有现有词典;语汇:1991年——2000年十年的《人民日报》、1998年全年的《人民日报》、一篇文档;专业文献集合(如信息科学技术),专业术语也是一种新词;时间段:出现在某一时间段内或自某一时间点以来所首次出现2023/4/233编辑pptCategoriesofNewWordsSyntacticalFunctionNoun:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、九一一、北航空难、5.7空难Verb:打的、埋单/买单Adjective:酷、小资、爽。。。。。。Semantic时间、地名、人名(拉丹)、组织机构名(基地)、商标、公司名、电话号码、电子邮件地址等等DomainorSubject信息技术(话题识别与跟踪、信息抽取)政治(三个代表、十六大)经济(牛市、熊市)。。。。。。2023/4/234编辑pptDefinitionGivenbyChenKeh-JiannAwordisconsideredasanunknownword,ifneitheritisintheCKIPlexiconnoritisidentifiedasforeignword(forinstanceEnglish)oranumber.[3]Onequestion?外来词(如英文单词、不同編碼的漢語詞語)是否也是一种新词?如,“让我look一下”、“我们都应当讲禮貌”

2023/4/235编辑pptDifficulties(1/2)汉语文本中,词与词之间没有空格符分隔;

某些词语数量巨大,无法枚举,难以全部收录在词典中;

没有简单的规则能够覆盖各种类型的新词;新词首次出现后往往采用缩写形式;2023/4/236编辑pptDifficulties(2/2)目前的自然语言处理技术往往以单句作为一个处理单位,不保留篇章信息;“而更令现代人自信的是对质量的有效控制,”表达形式多样(全称与简称(IBM与国际商用机器公司),译词选择不同);“贝克汉姆——碧咸、拉登——拉丹——本拉登”

在短的文本中进行的联机识别尤其困难,因为简单的统计方法很难识别出低频的新词;

2023/4/237编辑pptAnSampleText一个11岁学生写的“字母+数字+汉字”的大杂烩日记:“昨晚,我的JJ(姐姐)带着他的青蛙(丑陋的)BF(男朋友)到我家来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈PMP(拍马屁),说她年轻的时候一定是个漂亮MM(美眉)。那酱紫(样子)真是好BT(变态),7456(气死我了)……”

2023/4/238编辑pptEvaluationResults1995年、1998年863项目汉语文本自动切词评测: 中国人名:召回率68%、准确率91%(F-1指数=78%) 中国地名:召回率60%、准确率69%(F-1指数=64%) 外国译名:召回率78%、准确率82%(F-1指数=80%) AVERAGE:74%

MUC中关于中文命名实体的评测: MUC6(1995年9月)系统的F-1指数<85% MUC7(1998年4月)系统的F-1指数<91%

2023/4/239编辑pptApproaches静态识别技术

确定词表、(特定类型的)搭配抽取,标准(),方法(频率、期望方差、假设检验(t-test、chi-squaretest)、互信息等);

动态识别技术

构词规则(关键词、词语构成、语素构词能力)、上下文信息(指界词语——指出、主席等)、局部统计信息(串频);识别不同种类的新词,需要利用不同的知识,采用不同的处理策略; 中国人名、网络新词、串频统计和词形匹配2023/4/2310编辑pptRecognitionofChinesePersonName(LiuKaiYing[1])KnowledgeBase人名用字静态知识人名用字动态知识指界词语规则RecognizingProcess姓氏触发2023/4/2311编辑pptDetectingNewWordsonWWW[1]实验方法 实验语料选自搜狐网站,约10万字。手工抽取新词。

新词分析词长:2(网站、网友)、3(新经济、伊妹儿)、4(上网资费)构造规则:名词与名词、动词、形容词的结合力仍然很强;介词、量词、指示代词、方位词、语气助词等都具备了新的构词能力;实词具有较强的构词能力;N元递增分步算法

2023/4/2312编辑pptN元递增分步算法(1/3)获取候选词库(N=2,3,4;以二元组候选词库为例)先将二字词的候选词条集置空,然后对语料进行初加工(切分),将经过初加工的语料中的N元词(N>=2)及数字、西文字符等一切非汉字字符去掉,均以空格代替;这样文档被表示成含有许多空格和汉字的字符串,从其首端向尾部扫描,以连续的2个汉字作为匹配字串,查找候选词条集,若有,则频度加一,否则加入,频度置一;重复进行,直至字符串末尾;

2023/4/2313编辑pptN元递增分步算法(2/3)过滤:“功能字”、“功能词”的剔除;频度过滤(>1):

“偶然型”噪声字串的频度大多为1或2;“N元重叠”过滤:

1、“手提电脑”覆盖“手提电”“提电脑” 2、频率相减法

2023/4/2314编辑pptN元递增分步算法(2/3)(Cont.)频率相减法:计算长字串N元组Y的频率PL(Y)减去

短字串N元组X的频率PL(X),建立规则:

R1:若差值>=0,则说明X每次均出现在Y中,则将其去除;

R2:若差值<0,则说明X也作为N元组单独出现,则将X保留,且PL(X)=PL(X)-PL(Y);

R3:若差值<0且PL(Y)<=3,则将长字串N元组Y去除;

2023/4/2315编辑pptN元递增分步算法(3/3)使用构词法规则(32),分为三类:“互斥性字串”过滤规则:要求词性组合符合构词规则;常规构词规则:名词+名词;词缀特殊构词规则:“吧”2023/4/2316编辑ppt串频统计和词形匹配相结合的汉语自动分词(刘挺[2])2023/4/2317编辑ppt串频统计和词形匹配相结合的汉语自动分词(Cont.)预处理:利用显式切分标记(标点、数字、西文、其他非汉字符号)和隐式切分标记(出现频率高、构词能力差的单字词)将文本分成汉字短串序列。

串频统计:计算各汉字短串中所有长度大于1的子串在局部上下文(200字,经验值)中的出现次数,并根据串频和串长对每个这样的子串进行加权,加权函数为W=F*L3,权值超过给定阈值(40)的子串作为系统自动识别出来的词条存入临时词库中。

分词:同时借助各短串末尾的候选词集(局部信息)、临时词库中的词条(全局信息)和一部含5000常用词的词典(背景信息),对汉字短串进行切分。

2023/4/2318编辑ppt串频统计和词形匹配相结合的汉语自动分词——基本过程(1/3)预处理:显式切分标记隐式切分标记:

1、单字词,如“的”字,可以将总结出来的切分标记和其构词表组成一个规则知识库(181条),如: 的

LR 有

放矢,无

放矢

L* 别,似,是,有,目,一语破 *R 确,话# 2、单字量词(115个常用量词)

2023/4/2319编辑ppt串频统计和词形匹配相结合的汉语自动分词——基本过程(2/3)串频统计:在局部上下文(200字,经验值)并根据串频和串长对每个这样的子串进行加权,加权函数为词缀:若某个汉字串的串首或者串尾为词缀,则提高该串的权值;同样考虑了覆盖现象。权值>给定阈值(40)的汉字串被认为必定是词,存入临时词库中;

每个不被任何其他汉字串完全覆盖且频度大于阈值H(2)的汉字串被视为潜在的候选词;2023/4/2320编辑ppt串频统计和词形匹配相结合的汉语自动分词——基本过程(3/3)分词:同时借助各短串末尾的候选词集(局部信息)、临时词库中的词条(全局信息)和一部含5000常用词的词典(背景信息),对汉字短串进行切分。分两步完成:

将临时词库及候选词集中的词语按权值降序排列,采用逐词遍历法进行切分;

利用一部小型常用词词典(《信息处理用现代汉语五千词表》+少量高频单字)对短串中为做标记的子串进行正向最大匹配法分词;

2023/4/2321编辑pptSummaryDifficult,NeedfurtherstudyNoWait,TrytousethistechnologyIntegratingitintopracticalNLPsystem2023/4/2322编辑pptReferences刘开瑛,专有名词与网络词语识别软件技术研究,中国中文信息学会二十周年学术会议论文集(辉煌二十年:曹右琦),北京,2001年11月,7-13

刘挺

吴岩

王开铸,串频统计和词形匹配相结合的汉语自动分词系统,中文信息学报,第12卷第1期,1998

Keh-JiannChenandWei-YunMa,UnknownWordExtractionforChineseDocuments,InProceedingsofthe19thInternationalConferenceonComputationalLinguistics(2002)P.169-175

ChenH.H.,DingY.W.,TsaiS.C.,andBianG.W.,DescriptionoftheNTUSystemUsedforMET2,InProceedingsoftheSeventhMessageUnderstandingConference,1998

YuSh.H.,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论