基于语料库的工作.ppt_第1页
基于语料库的工作.ppt_第2页
基于语料库的工作.ppt_第3页
基于语料库的工作.ppt_第4页
基于语料库的工作.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于语料库的工作,张宇,2020/8/13,中文信息处理-基于语料库的工作,2,大纲,什么是语料库开发中的问题数据标注,2020/8/13,中文信息处理-基于语料库的工作,3,什么是语料库,语料库,英语是语料库存储语言材料的仓库。现代语料库是指存储在计算机中的原始语料库文本或经过处理的标注有语言信息的语料库文本。2020年8月13日,中文信息处理基于语料库的工作,第4期。对语料库的三个基本理解:语料库储存了实际使用语言时实际出现的语言材料;语料库是以计算机为载体承载语言知识的基本资源。真实的语料库在成为有用的资源之前需要被处理(分析和处理)。2020年8月13日,中文信息处理基于语料库的工作,

2、第5期。语料库示例,富士通人民日报标注的北京大学计算语言研究所语料库示例:历史/n将/d记住/v此/r坐标/n: /w北纬/b /m度/q/w东经/b /m度/q;/w人民/n将记住/d /v这/r 1 /m时刻/n:/w年/t月/t日/t小时/t分钟/t/w/w中国/ns政府/nnt平稳/ad恢复/v对/p香港/ns行使/v主权/n、w和/c遵循/p/w一国两制/j/w/w/w/w/w/w/w香港人民统治香港/l/w、w/w高度/d自治/v s/u政策/w、2020/8/w标记语料库系统语料库/专用语料库系统语料库是根据预定的原则和材料选择比例选择语料库的语料库专用语料库。它指的是为特定目的

3、服务的语料库单语语料库/多语言语料库,2020年8月13日,中文信息处理-基于语料库的工作,7,语料库发展简史,第一代(1970-80年代),第二代(1980-90年代),第三代(1990年代),2020年8月13日,中文信息处理-基于语料库的工作,8,第一代语料库,布朗语料库LOB语料库LLC语料库,面向百万字级语言研究的语料库,2020年8月13日中文信息处理-基于语料库的工作,10,第三代语料库,ACL/DCI语料库计算语言学数据收集协会倡议提升树库LDC(语言学数据联盟),超大规模(上亿字)标准编码系统深度标注/多语言NLP应用,2020年8月13日,中文信息处理-基于语料库的工作,1

4、1,语料库建设中涉及的问题,文本标注语料库建设中涉及的问题低级格式问题标记:什么是单词? 词汇句,2020年8月13日,中文信息处理-基于语料库的工作,12,低级格式问题,垃圾格式由于语料库的来源复杂,可能有各种格式或内容不能在语料库中处理,它们是无用的,需要过滤掉。文档标题、分隔符、排版代码、表格和图表,如果数据来自光学字符识别,将会引入错误识别的问题,2020/8/13,中文信息处理-基于语料库的工作,13,低级格式问题,case the,the,The,THE Richard Brown brown paint的识别句子中名字的启发式方法将每个句子开头的大写字母转换为小写字母,并将一系列

5、连续的大写单词视为标题和副标题, 以便其余的大写字母可以被视为名称,2020/8/13,中文信息处理-基于语料库的工作,14,标记:什么是单词,什么是由单词前后有空格的连续字母组成的字符串,它可以包含连字符和省略号,Kucera and Francis(1967) $22.50,Micro$oft,C|net,2020/8/13,中文信息处理-基于语料库的工作,15,标记:什么是单词,大多数句号的作用是表示句子的结尾,其他情况表示缩写,如:等。加利福尼亚州.保留句号的含义。当它出现在一个句子的末尾时,只保留一个句号,这意味着同时有两个意思。2020/8/13,中文信息处理-基于语料库的工作,1

6、6,标记性:什么是单词,单个撇号Im代表什么,我不是吗,狗不是吗?狗是,狗有,还是所有格?如何处理单词末尾的单个撇号?通常代表一对引号的结尾,它不是单词的一部分。如果它跟随一个S,男孩玩具,2020/8/13,中文信息处理-基于语料库的工作,17,标记:什么是一个单词,连字符:不同的形式意味着相同的单词形式。一串带连字符的字母应该被认为是一个词还是两个词?(有时是一个,有时是两个)一个,来自排版和印刷。找出一行中的最后一个连字符,去掉它,并将这一行中的单词与下一行中的单词连接起来。电子邮件,合作连字符被用来表示引用的短语或数字,26年的数据库,数据库的比率,数据库破折号和单词之间的空格,202

7、0/8/13,中文信息处理-基于语料库的工作,18,标记:什么是一个单词,相同的形式代表不同的“单词”的过去式锯工具,2020/8/13,中文信息处理-基于语料库的工作,19,标记分区在其他语言中文,日文,泰国严守一关闭电话严守一然而,复合名词被写成单独的词:lebenversicherungsgesellschaftsangesteller,寿险公司员工,数据库数据库硬盘,2020年8月13日,中文信息处理-基于语料库的工作,20,标记:什么是词,非词定界空间数据库,9365 1873 93651873纽约,旧金山如果出现连字符,问题就更复杂了。纽约纽黑文铁路过去常构成一个词“算出,算出,算

8、不出答案。”,2020年8月13日,中文信息处理-基于语料库的工作,21,标记:什么是单词,2020年8月13日,中文信息处理-基于语料库的工作,22,去除词缀的过程和只留下词干的形态学,操作-操作,计算-计算词干干燥的优点分类各种形式的单词,减少单词的数量意味着在一定程度上消除歧义,躺着,躺着,躺着,2020/8/13,中文信息处理-基于语料库的工作,23操作系统操作系统业务繁忙词汇分析将单词分成术语。然而,有时将密切相关的信息结合起来保卫祖国是有意义的。祖国公民有保卫祖国的义务,依法服兵役,保卫社会主义建设。祖国的边疆和每一个岗位都只有几个英语单词,所以没有必要处理它们。在其他语言中,进行

9、模态处理可能具有重要意义。芬兰语有数百万个动词变体,2020/8/13,中文信息处理-基于语料库的工作,24,句子,句子:带“.”、“、”、“!”或者?结尾的内容。在90%的情况下,句子可以用其他分隔符分隔(例如,-)句子的顺序可能会被打乱。“你应该在这里,”她说,“在我知道它之前!”引号可以在最后一个标点符号后识别句子的边界。可以使用一些启发式方法,一些学者尝试自动方法来识别句子的边界。,2020/8/13,中文信息处理-基于语料库的工作,25,启发式方法,在。(可能是:-)在位置后添加一个假设的句子边界。如果假设边界后有引号,请将假设边界转换为引号。如果句号是一个众所周知的缩写,但没有出现

10、在句子的末尾,那么它后面通常会跟一个大写的名字,例如:教授如果句号前面是一个众所周知的缩写,那么句号后面就没有大写的单词。这样,我们可以正确地处理大多数缩写,如等等。通常出现在句子的中间或结尾。如果下列条件成立,是否删除它们?或者!这些符号后面跟着一个小写字母(或者一个已知的名字),其他假设的边界就是句子的边界。2020年8月13日,中文信息处理-基于语料库的工作,26日,自适应句子边界检测,弗里曼和皮肯斯博士,帕尔默,赫斯特,自适应句子边界消歧,技术报告,97/94,加州大学伯克利分校3360 98-99%正确,2020年8月13日,中文信息处理-基于语料库的工作,27日,数据标注方案,我们

11、可以在普通文本的语料库上做大量的工作。除此之外,如果我们添加一些信息,我们会得到更多的东西,比如句子的边界,段落的边界,以及标记方案COCOA格式(文本的标题信息,比如作者,时间,日期,标题等)。)具有不同语义类别的语义表达词汇标记的句法结构:使用尖括号,第一个字母代表一个领域的主要语义广义标记语言(相关的: html,tei,XML),2020年8月13日,中文信息处理-基于语料库的工作,28,sgml的一个例子,这本书没有给sgml留下很深的印象。SGML可能非常有用。2020年8月13日,基于语料库的中文信息处理,29,语法注释,标注对应于指示各种常规词类。标记可以自动完成(我们将在以后

12、的文章中讨论)。各种标签集,例如布朗标签集、兰卡斯特大学标签集、佩恩树库标签集、英国国家语料库(jaws *)、捷克国家语料库注释集的设计注释集的特征目标特征:关于语法类的有用信息预测特征:用于预测是Havi或上下文中的其他单词(例如,区别情态动词和来自常规动词的辅助动词),2020年8月13日,基于语料库的中文信息处理工作,30,笔式树库注释集,形容词: JJS基数: CD状语: RB,RBR,RBS,WRB连接词: CC,IN(从属和那个)限定词: DT,PDT,WDT名词: NN,NNS,NNP,NNPS(状语无区别),pronoun 3360 PRP,PRP$,WP,WP$,EX Verb: VB,VBP,VBZ,VBD,VBG,VBN(有,有,有,没有区别) ;-$ () FW,SYM,LS,2020/8/13,中文信息处理-基于语料库的工作,31,注释集,通用定义:标签可以表示为向量: (C1,C2,中国)思想为平面列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论