面向计算机的语言研究_第1页
面向计算机的语言研究_第2页
面向计算机的语言研究_第3页
面向计算机的语言研究_第4页
面向计算机的语言研究_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、面向计算机的语言研究微软亚洲研究院报告提纲1.自然语言处理(NLP)的目标2.自然语言的歧义性3.概率化参数模型(PPM)4.应用系统举例5.结论(两种语言研究的对比)1. 自然语言处理的目标 让用户能通过自然语言与计算机对话The future of computing is the computer that talks, listens, sees, and learns. That is what is being created at Microsoft Research. - Bill Gates 通过机器翻译跨越语言壁垒,以便让全世界每个用户都能共享因特网的浩瀚信息和无限商机。大

2、规模真实文本处理 NLP 从实验室走向实用化的重要标志 1990年被列为第13届国际计算语言学大会(Coling90)的主题 12年来取得的成果: 搜索引擎: MyNews: 信息抽取(IE): 语料库标注:/方法论的分歧关于经验主义和理性主义方法的论争 自然语言的歧义性和大规模真实文本处理的需求把经验主义方法推向第一线。 十年前第4届机器翻译的理论和方法国际会议(TMI-92) 的主题是:“机器翻译中的经验主义和理性主义方法” 。 面向计算机的语言研究:语言知识表示和知识获取都发生了实质性的转变。报告提纲1.自然语言处理(NLP)的目标2.自然语言的歧义性3.概率化参数模型(PPM)4.应用

3、系统举例5.结论(两种语言研究的对比)同音字汉字拼音输入每个不带调的音节平均对应19个汉字单音节“yi”对应131个汉字:一,以,已,异,亦,伊,意,易,毅,仪,依,宜,议,衣 shishi:实施,事实,实时,实事,适时,时时 一个含10个音节的句子,平均生成 1910 条可能的汉字序列 用词的三元模型(trigram)实现拼音-汉字转换,出错率比市场上原有产品大约减小50%多音字文语转换(TTS) 行(xing):步行,一行,行头,人行道,发行,流行, 进行, 行(hang): 行列,行业,排行,行家, 人行, 工商行, 乐(le): 快乐,欢乐, 娱乐, 乐(yue): 音乐,乐队,乐手,

4、 自动分词 交集型歧义字段(OAS):AB/C 或 A/BC不只是,从今后,法学院,曲剧团,热汤面,大队长 建设/有/效率/的精干的机构 (1694) 他/只得/到/工厂值班室去睡觉(325) 组合型歧义字段(CAS):AB 或 A/B上将,成人,学会,国有,个人,马上,都会,阵风 怎么样/才/能/抓住机遇 (202:24) 未登录词识别(误切) 坎/昆/市/市长/拉/腊/和/夫人 瑞/闽/铝/板/带/有限公司自动分词的评测 对一个句法分析系统的评测 错误的分布: 分词 词性 组块 中心词40% 24% 12% 24% 分词错误的分布:人名 地名 机构名 新词 OAS10% 20% 30% 3

5、0% 10%专名识别的评测 人名(%) 地名(%)机构名(%) P R P R P R系统A 94.5 78.1 85.4 72.0 71.3 13.1 系统B 90.7 74.4 93.5 44.2 64.2 46.9系统C 78.0 78.7 76.7 73.6 81.7 21.6测试集 4,347 5,311 3,850 (1MB)思考问题分词的任务定义清楚了吗?知识从哪里来?词典为什么帮不上忙?靠现有的句法-语义知识能解决分词歧义吗? 一个重要的理念面向计算机的语言知识有什么特性? 语言运用知识的来源:语料库 知识的表示:概率化参数模型 语言知识的获取:统计学习理论多乂词 据同义词词林

6、统计: 最小类总数: 1,428 词形总数: 42,724 多义词占词形总数的 14.8% 据语料库统计: 多义词占总词次数的 42%(句法)结构歧义结构歧义是通过词例动态显现的: V N1 de N2削苹果的/刀NP; 削/苹果的皮VP P N1 de N2对系统的/评测NP; 对/评测的系统PP NumP N1 de N2五个公司的职员; 五个公司的职员 N1 N2 N3现代/汉语词典; 新版汉语/词典(句法)结构歧义(续) NP V N % 打击力度; 委托方式 VP V N % 打击盗版; 委托甲方 短语类型歧义: 该 公司 / 正在 招聘 / 销售 人员NP。 地球 / 在 不断 /

7、 改变 形状VP。(句法)结构歧义(续) NPN V % 市场调查;政治影响 SNP VP % 价格攀升。局势稳定。 短语边界歧义: 中国的铁路 建设NP 发展很快。 中国的铁路NP 建设 得很快。思考问题短语结构规则(PSG)为什么不能消解短语边界和短语类型的歧义?句法规则的确是遣词造句的动态知识,但词类标记是否丢失了太多的词例信息? 复杂特征集和合一语法怎么样? 词汇主义(lexicalism)怎么样? 如何表示和获取颗粒度更细、覆盖面更宽的语言知识?报告提纲1.自然语言处理(NLP)的目标2.自然语言的歧义性3.概率化参数模型(PPM)4.应用系统举例5.结论(两种语言研究的对比)OAS

8、 的语料调查 其中约 94% 是伪歧义,即只有一种切分: 挨/批评; 爱/国家; 爱情/诗; 市/政府 真歧义占 6%,它由两部分组成: 5.3% 通常只有一种切分,如:解除/了; 其/实质; 与/其他; 提/出来 必须依靠上下文才能消歧的只占 0.7%:应用于; 从小学; 前进一步 利用上述知识,OAS 的消歧正确率可达 92%CAS 的语料调查 让/人/生/厌/的/行为 (1:84) 一/种/是/非/和平/方式 (7:14) 拉达乡中心校/是/一/所/有/七/名/教师/的/小学。(4:198) 首先需要有一张 CAS 词表 为每个 CAS 制订一条规则或一对分类器以便根据特定的上下文选择正

9、确切分 概率化参数模型使 CAS 的消歧正确率达96%1Xiao Luo, Maosong Sun, and Benjamin K.Tsou. Covering ambiguity resolution in Chinese word segmentation based on context information. Proceedings of COLING2002, Taiwan.CAS 消歧拉达乡中心校/是/一/所/有/七/名/教师/的/小学 w-3 w-2 w-1 CAS w1 w2 w3 知识表示:向量空间模型(VSM) CAS不切分的向量 v0 = (t01 t02 t0m) C

10、AS切分的向量 v1= (t11 t12 t1m)其中m是向量的维数(即语境词的个数),tij是词wij的权重(由位置和频度来确定)。 输入句子生成向量vinput。分别计算向量vinput和v0 、v1之间的夹角,即可知该CAS要不要切分。介词短语(PP)附加 例句: Pierre Vinken, 61 years old, joined the board as a nonexecutive director. 令A=1表示名词附加,A=0为动词附加,则(A=0, V=joined, N1=board, P=as, N2=director) 参数: Pr (A=1 | V=v, N1=n1

11、, P=p, N2=n2) 算法:若 Pr (1 | v, n1, p, n2) 0.5 则 判定 PP 附加于 n1 否则 附加于 v介词短语附加(续) 语料库: 华尔街日报(WSJ)树库 训练集: 20,801个四元组 测试集: 3,097个四元组 自动判定精度的上下限分析: 一律视为名词附加 (A1) 59.0%只考虑介词p的最常见附加 (unigram)72.2%三位专家只根据四个中心词判断 88.2%三位专家根据全句判断 93.2%介词短语附加(续) 实验结果:四元组总数 3,097正确判断数 2,606平均精度 84.1% 若以上限值88.2%为100计,精度已达95.4%。2 M

12、. Collins and J. Brooks. Preposition phrase attachment through a backed-off model. In Proc of the 3rd WVLC, Cambridge, MA, 1995.统计语言模型(SLM) 令W=w1, ,wn 为任一词序列,则 P(W) = P(w1)P(w2|w1) P(wn|w1, ,wn-1) 若近似认为,任一词的出现只同它前一个词有关,则有二元模型(bigram): P(W) P(w1)i=2,nP(wi|wi-1) 设语料库的总词次数为N,则概率参数估算为: P(wi|wi-1) count(

13、wi-1wi) / count(wi-1) P(wi) count(wi) / N语音识别语音识别可视为求以下条件概率的极大值 W*= argmaxW P(W|speech signal) = argmaxW P(speech signal|W) P(W) /P(speech signal) = argmaxW P(speech signal|W) P(W) 其中,P(W) 为语言模型,通过语料库训练获得;P(speech signal|W) 叫做声学模型。 目前市场上的中外文听写机产品都是用 三元模型实现的, 几乎完全不用句法-语义分析手段。词性标注 词典中约 14% 的词形具有不只一个词性

14、,而在一个语料库中总词次数的约 30% 是兼类词。 系统名 TAGGIT(1971) CLAWS(1987)标记数 86 133 方法 3000条规则 隐马尔科夫模型标注精度 77% 96%测试语料 布朗语料库 LOB语料库 3Garside,R. et al (Eds.). The Computational Analysis of English: A Corpus-Based Approach. London: Longman, 1989 词性标注(续) 令 C 和 W 分别代表词类标记序列和词序列,则词性标注可视为计算如下条件概率的极大值C*= argmaxC P(C|W) = arg

15、maxC P(W|C)P(C) / P(W) argmaxC i=1,nP(wi|ci )P(ci |ci-1 ) P(W|C) i=1,nP(wi|ci ) (独立性假设) 参数 P(wi|ci ) count(wi,ci) / count(ci) P(C) i=1,n P(ci |ci-1 ) ( 二元模型)参数 P(ci |ci-1 ) count(ci-1ci) / count(ci-1)基于SLM的自动分词设S是由汉字串组成的句子,W是所有可能被切分出来的词序列。则分词结果是:W* = argmaxW P(W|S) = argmaxW P(S|W)P(W) 专名PN、LN、ON各为一

16、类,其余每词一类,建立基于类的N-gram模型。设C为类序列:C* = argmaxC P(S|C)P(C)PN模型: P(S|C) P(李际生|PN)语境模型: P(ci|ci-1) P(PN|研究员)词义排歧(WSD) 根据同义词词林统计: Ga15: 醒悟 懂事 (1)醒悟 觉悟 省悟 觉醒 清醒 醒 如梦初醒 大梦初醒 (Ib04) (2)懂事 记事儿 开窍 通窍 每个义类都可以用一个特征向量表示,其中的特征就是语料库中和该义类的词在 d 距离内同现的所有实词。词义排歧(续) 语义空间的两个假设 假设1:如果两个词的词义相同或相似,则它们在文本中对应的上下文相似。 假设2:意义相同或相

17、似的一些词,在语义空间上体现为一个密集的点阵。因此可以用一个义类向量来表示。 义类向量可当作该义类的“分类器” 。它可通过未经义类标注的语料库获取,因此这种方法又叫无指导学习方法。用义类向量方法进行大规模非受限文本词义标注,4 黄昌宁、李涓子:词义排歧的一种语言模型,语言文字应用2000年第3期。报告提纲1.自然语言处理(NLP)的目标2.自然语言的歧义性3.概率化参数模型(PPM)4.应用系统举例5.结论(两种语言研究的对比)信息检索(IR)任务:从一个大型文档库中找出与某一查询相关的那些文档。 怎样表示文档和查询的内容? 索引问题“基于内容” “基于理解” 如何度量文档和查询之间的相关度?

18、检索过程 如何评价一个信息检索系统?精度和召回率精度 = 检索到的相关文档数 / 检索到的文档总数召回率 = 检索到的相关文档数 / 库中相关文档总数信息检索(续)信息检索大会TREC () 1992年起每年举办一届大会。得到美国国防部(DARPA)和国家标准技术局(NIST)的资助。 通过提供大规模测试语料和统一的评测方法来支持IR技术的研发。 1999年 TREC-8宣布,提交给大会的检索系统七年间效率提高了一倍。但迄今没有证据表明NLP技术能显著提高IR系统的性能。 一直到1999年的问答系统(QA)评比,NLP技术才崭露头角。信息检索(续) 测试内容:不同索引单位对中文信息检索的影响 评测指标:11点平均精度 测试预料库:TREC5/6 提供内容:人民日报(1991-1993) 新华社新闻稿(1994-1995)文档数:164,789篇文档平均长度:507字规模:167.4 MB查询数:54个查询平均长度:119字信息检索(续)索引单位平均精度精度相对提高率基线:词(词典含22万词条)0.39070.0%词(全切分)0.40904.6%词 + 汉字(一元组)0.42909.8%(汉字)一元组+ 二元组0.42548.9%信息抽取(IE)MUC 以限定领域的信息抽取为目标 IE可分解为如下子任

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论