版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、内容来自中科院刘群研究员计算语言学PPT的整理笔记一、概述1. 应用机器翻译(MT)信息检索(IR)自动问答(QA)自动文摘(AU,automaticsummary)信息抽取(IE)信息过滤(IF)2. 特点2.1定义:计算语言学是一门以计算为手段对自然语言进行研究和处理的科学。区别:自然语言和形式语言的本质区别在于前者具有歧义性。语言的层次划分:从底层到上层,词法->句法->语义->语用2.2歧义现象词法层歧义:i)词性兼类歧义。例子:工作-ng、vg,高-adj、ng;ii)词语切分歧义。例子:乒乓球/拍卖/完/了/、乒乓/球拍/卖/完/了/,南京/市长/江大桥/、南京市
2、/长江大桥/句法层歧义:结构歧义。例子:张三/和/李四的朋友/、张三和李四/的/朋友/;语义层歧义:i)一词多义。例子:“杜鹃”,可以是一种鸟,也可以是一种花;ii)一义多词。例子:“可能、大概、也许”。语用层歧义:例子:“你很好。”正义,“你很好!”反义。2.3未登陆词:现有知识库,比如WordNet、HowNet、FrameNet等,均无法解决未登录词的问题。2.4中文特点:中文是以字为基本单位,但中文意义是以词语为基本单位;中文词语未被分割,做中文处理的第一步就是分词;中文无词形变化的特点,词语的词性难以区分;中文是词语序列的意义组合,无固定的结构2.5一些语言学特点:Zipf定律:汉字
3、出现的频率与汉字按词频排列的名次大体等于一个定值;常见的汉字定量,大概在四五千个左右;汉字的使用频率符合高斯定律;二、基础知识1. 基于规则的基础知识1.1词典。词典结构1.2形式语言自动机。a)背景。描述一种语言,通常联想到三种方法。i)穷举。缺点:语言变化的多样性导致不能完全穷举,且穷举时间、空间复杂度大;ii)语法总结。缺点:语法不可能总结所有的语言现象,且语法之间会出现冲突。鉴于以上两者的缺陷,采用iii)形式语言自动机。即给出能识别该语言句子的机械方法。b)形式语法。四元组G=v初始符,非终结符,终结符,规贝卜表示。2. 基于统计的基础知识2.1概率论:样本空间、事件随机变量、概率、
4、联合概率、条件概率、贝叶斯分布、概率分布、协方差、相关系数、参数估计、极大似然比、马尔科夫过程。2.2统计学:各种常见分布、三大分布函数、Dirichlet分布、卡方检验、T检验。2.3信息论:熵、联合熵、条件熵、互信息、困惑度。熵:描述事件的不确定性。熵越大,表示事件的不确定性越高。熵等于0,事件确定。熵等于1,表示随机事件为均匀分布。最大熵理论:在无外力作用下,事物总是朝着最混乱的方向发展。即在已知条件下,熵最大的事物,最可能接近它的真实状态。2.4自然语言处理:统计模型,如HMM、CRF、ME、SVM等。3. 文本处理相关知识文本表示:布尔模型、VSM、BM25、倒排索引文本存储:Has
5、h映射、Trie树,B树、红黑树文本特征:词、词性、上下文信息、位置信息、词间信息、词内信息文本相似度计算:cosine、SAO、PCA、LDA三、词法分析1. 分词11基于词典的分词方法正向最大匹配逆向最大匹配双向最大匹配:当正向匹配和逆向匹配出现不一致的情况时,利用一些特征(比如:分词后的个数最少、分词后的单字非连续等)来选择最优的分词结果。1.2基于统计模型的分词方法N元语法模型。理论:任何字的集合都可以构成句子,只是构成句子的概率大小不一样。当字集合达到一定概率,就认为是句子。缺陷:没有考虑语言内部的结构信息。方法:利用训练语料,统计测试语料中N元字之间的概率,将满足最大概率的句子当做
6、正确的结果。N等于1,为1元模型,即假定当前字仅和前一个字有关,N等于2,为2元模型,即假定当前自仅和前两个字有关,N等于3,即假定当前字仅和前三个字有关。数据平滑:在利用训练语料进行统计的时候,会出现训练语料数据稀疏导致概率为0的情况,这时需要做平滑处理。方法:加1法,GoodTuring,绝对减值法,线性减值法,回退法。2. 词性标注(POSTagging)2.1基于转换的错误驱动方法:基于转换规则,先给出初始标记,然后不断修正。通过语料库学习转换规则,是一种有监督的学习方法。2.2基于HMM的词性标注(成果:ICTCLAS利用层叠HMM实现的分词、词性标注、命名实体识别的工具。)3. 命
7、名实体识别3.1i)专有名词:人、地、机构、;ii)专业名词3.2技术路线:基于HMM、ME、CRF等模型,基于角色标注的命名实体识别4. 新词发现5. 基于字标注的句法分析51基于字的分词方法基于HMM的分词方法:将词进行切分标记,切分标记包括:O(单字)、B(词首字)、M(词中字)、E(词尾字),然后利用Viterbi算法求概率最大的切分标记集合。基于ME的分词方法基于互信息的分词方法5.2基于字标注方法的特点模型简单:单一模型解决所有问题,词语切分、未定义词识别,甚至词性标注也可以用这个模型解决。模型功能强大:可以任意选择特征、可以调节特征直接的权重。四、句法分析1句法分析基础知识1.1
8、策略:自顶向下(演绎)分析法;自底向上(规约)分析法;左角分析法:自顶向下和自底向上相结合的方法。1.2上下文无关语法的分析算法a)移进-规约算法。操作:移进、规约、接受、拒绝。冲突:移进-规约冲突;规约-规约冲突;冲突解决方法:回溯特点:是一种自底向上的分析算法。为了得到所有可能的分析结果,可以再每次分析成功时都强制性回溯,知道分析失败。效率低下。b)CYK算法。不需要回溯;建立在Chomsky范式的基础上;数据结构为一个斜角二维矩阵:P(i,j)上。每一个元素P(i,j)对应于输入句子中某一个区间(Span)上所有可能形成的短语的非终结符集合。矩阵中填入该区间对应的词语序列上所有可能的短语
9、标记。c)Earley算法。在CYK的基础上加入了点规则。d)Chart算法(图分析算法、线图分析算法)2. 上下文无关文法2.1概率上下文无关文法(PCFG)在CFG的基础上,加入规则的概率信息。2.2词汇化概率上下文无关文法rot1I人,況MFNN(wwk,NN)IIILastweek|<MVBD(baughlfVBD>NPlLoliisNP)boughLNNP(Lotuii,NNP)IJ-'hlUSluterimlRules:TOPS(bought,VJBD)IlPdBHjNKPjVP(boughthVSD)UP(Lotus,NNP)>S(bought,70Jt
10、NP(wcek,NN)tJJ(Last,JTNNPIBM,NNP)tVBDboughtVBD)NWPLottis,NHP)NPtlBHIJPjVP(bough.t,VBD)NN(week,NNNPCLotus.NHP)TLAAt:!WQakTIBM+bought亠*IrQtU导Lt;Xkrulr(.ii«!M:J(L“t,JJ)NH(weekFNN)NWP(IBM.NNP)VBD(bought.VEDJNHP(Lotus.NN、a)每一个非终结符被关联到一个中心词w和一个中心词形tob)中心成分的生成:词汇中心和结构中心,首先生成词汇中心,其次生成结构中心。词汇中心:中心词和中心词词
11、性标记。结构中心:中心成分的短语标记。3. 组块分析又称为浅层分析(ShallowParsing)。基本思想:由于完全句法分析非常困难。研究者采用分而治之的策略。首先从句子中识别出组块(Chunk),然后由组块结合成句子。3.基于短语的句法分析4. 基于依存的句法分析4.1依存分析与短语结构分析类似,但依存分析丢掉了跨度信息和跨度上的句法标识。任何短语结构树句法分析模型输出的句法树,通过中心词映射规则即可转化为依存结构树。4.2依存分析模型i)生成式依存模型a)词汇依存概率模型(Collinsmodel)Train:通过极大似然估计,在树库中统计出任意两个词之间存在特定依存关系的概率。对于给定
12、的两个词,存在和不存在依存关系的概率之和为1。Decode:寻找使得所有依存词对的依存概率的乘积最大的依存树,采用自底向上分析法,可采用Viterbi算法。b)依存生成概率模型(Eisnermodel)描述:给定一个带词性标记的输入语句,对于一棵可能的依存树,设该树中任一节点P,它的左孩子由近及远分别为LC1,LC2,,LCm;右孩子分别为RC1,RC2,,RCn。</s>定义P生成其所有孩子的概率为:mGen(P)=JPLCwordLCPOS,P.word)Ix口Pr(7?C.H'i9rrf|RCt.POS.P.word)Train:对于每棵候选依存树T,整棵树的生成概率
13、定义为树中所有节点生成概率的乘积,即Gen(T)=nGen(x)。Decode:寻找生成概率最大的依存树,采用方法和词汇依存概率模型的方法一样。ii) 判别式依存模型a) 最大生成树模型:将寻找依存树的任务转化为寻找概率最大的生成树问题。b) 状态转移模型:分析过程的任一时刻称为一个状态,依据该状态下的特征做出某种决策,从而转入新的状态。iii) 依存分析模型比较a) 生成式依存模型通过简单的极大似然估计即可完成训练,且模型较小。缺点是分析准确率较低。b) 最大生成树模型和状态转移模型则需要在训练语料上进行多轮迭代以调节参数,训练耗时长且模型较大。优点是分析准确率高。c) 目前流行的是最大生成
14、树模型和状态转移模型中的移进规约模型。其中,最大生成树模型擅长于确定远距离的依存关系,移进规约模型则对近距离依存关系识别准确率更高。五、未来发展六、额外知识61最大熵理论I)问题定义:用A表示条件集合,B表示结论集合。随机事件X=(a,卩)wg=A*B,agA,卩gB现在有一批X的样本X二a,P,X二a,P,.X二a,p111222nnn假设我们已知a,如何预测Pn+1n+1Ii)用最大熵理论描述为:求解一个X的概率分布,使得:Aa)X的熵最大,可以表示为:P二argmaxH(p)b)X的分布与已知的样本分布一致,可以描述为:Ef二ef,i二I,.,n,其piaiPA中p为样本分布,p为模型分布。其中,对于任何一个特征,模型和样本应该具有相同的均值。为了方便起见,将特征取值定义为bool类型。那么,这个公式可以理解为:模型中任何一个特征为1的概率与样本相同。Iii)最大熵模型的参数估计问题可以表示为一个在约束条件下的极值问题。即:在一下约A束条件下:Ef二ef,i二1,.,n,求解p二argmaxH(p)。经推到,得到最大熵模piai型如下:JIEXP(工入人匕创)P心B)二其中,n是一个归一化参数,是个常量。九是一组参数,其中每个参数对应于一个特征。iIv)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 咨询合同模板
- 校园包餐制营养餐厅策划实施方案
- 福建医卫系统事业单位招聘《护理学专业知识》近年考试真题题库资料及答案
- 道德与法治教研组工作总结
- 项目法律援助合作合同
- 政府采购销售权服务合同
- 同学借贷服务合同
- 2024至2030年中国信号灯开关数据监测研究报告
- 精密设备租赁协议
- 2024年中国装液袋市场调查研究报告
- 山东省德州市2023-2024学年二年级上学期期中数学试卷
- 医院拍摄视频方案
- 小型服装厂应急预案范文
- 消防报警设备合同
- 提升初中英语书面表达能力的教学策略探析
- 第五单元写作《如何突出中心》公开课一等奖创新教学设计-统编版语文七年级上册
- 2023-2024学年北京朝阳区高三(上)期中地理试题及答案
- 江苏省连云港市海州区新海初级中学2023-2024学年七年级上学期期中数学试题
- 完整版八、施工现场总平面布置图
- 分析化学期中考试试题
- 新外研版高二英语选择性必修二Unit3-A-new-chapter课件(精编)
评论
0/150
提交评论