中文信息处理-复习提纲资料

上传人：a*** IP属地：湖北上传时间：2022-07-14 格式：PPTX 页数：80 大小：5.75MB 积分：30 举报 版权申诉

已阅读5页，还剩75页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1复习提纲中文信息处理概论(giln)徐润华，2014年秋季共八十页2语言(yyn)信息处理语言信息处理就是用计算机对自然语言在各个层次（语素、词、短语、句子、段落、篇章）上的各种表现形式（图像(t xin)、声音、文本）的信息进行处理：输入、输出、转换、存储、压缩、检索、抽取和提炼。涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机”。共八十页3语言(yyn)信息的抽取和提炼数据是具体的，知识是概括的。目前是数据太多而知识太少，信息爆炸但又面临知识获取的瓶颈问题。数据挖掘从数据仓库中挖掘(wju)知识，语言信息处理则要从语料库中挖掘语言知识。共八十页4中文信息处理的特殊性汉字的特殊性：

2、字数多，简体、繁体和异体，与外文字符的协调处理。书面汉语的特殊性：需要进行词语切分。汉语语音的特殊性：语音系统简单。汉语语法(yf)的特殊性：形态贫乏。共八十页5中文信息处理的研究(ynji)内容基础研究：包括汉字字符集的编码(bin m)体系，中文信息处理的发展战略和基本方法，汉语计算模型，汉语语料库和语言知识库的建设，系统自动评测，等等。应用研究：面向最终用户的系统软件和应用软件的设计和研制。共八十页6中文信息处理的一些(yxi)基础性技术研究课题自动分词：将口语或书面语中的词切开（词是基本的语言单位，很多应用研究需要先自动分词）。词性标注(bio zh)：标出词在具体上下文中的词类（词

3、性序列目前是大多数句法分析器的输入）。词义标注：标出词在具体上下文中的义项或义类（服务于信息检索、机器翻译等应用研究）。句法分析：分析出句子中每个语法形式的结构关系和所处层次（服务于机器翻译等应用研究）。共八十页7中文信息处理的一些(yxi)应用研究课题汉字识别（印刷体识别，手写识别，图片、视频中的汉字识别）汉语语音识别（自动听写，口语查询，口语命令）汉语语音合成（朗读机，自动查询中的口语反馈）汉语信息检索（搜索引擎，自动文摘，文本分类）汉外机器翻译（例如Google的在线翻译）其他：汉字输入法，自动校对，机器辅助词典编撰，机器辅助汉语、汉字教学，少数民族(shoshmnz)语言信息处理，古代

4、汉语信息处理，等等。共八十页8基于规则(guz)的方法用确定性的规则来做问题求解。理性主义方法。优势：便于利用专家知识，无须先做人工标注。困难：专家知识可能不全面、不充分或不适用。自动分词的最大匹配法是一种基于规则的方法，用待切分汉字串中的子串去查词表，查到了就算是词（优先查找较长子串）。例如：这首诗太平淡了“太平淡(pngdn)”应该切成“太/平淡”还是“太平/淡”？汉语词汇学没有提供这种知识。共八十页9基于统计(tngj)的方法把从语料库中得到的统计数据作为模型参数，用模型来做问题求解。经验主义方法。优势：系统容易构造，效果通常不错(bcu)。困难：数据稀疏，领域转移困难。自动

5、分词的概率方法是一种基于统计的方法，根据词频表将待切分字串中所有可能的词都找出来，然后求出一种概率乘积最大的切分。例如“太平淡”的各种可能切分中第一种概率乘积最大：太平淡太平淡太平淡共八十页10训练(xnlin)集、开发集、测试集通常把经过人工标注或人工校对的实验用语料库划分(hu fn)为训练集、开发集、测试集三个集合，训练集用于提供模型参数，开发集用于实验过程中检验和改进模型性能，测试集用于实验结束后最终评判模型性能。计算机只能从训练集里学习模型参数。开发集和测试集则都是作为评测的标准答案。例如，将实验用语料划分为10份，其中开发集和测试集各1份，其余8份作为训练集。共八十页

6、11常用的性能评价(pngji)指标正确率：又称精确率（Precision），正确处理的实例个数占所处理的实例个数的比率。例如，人名识别的正确率等于(dngy)正确识别的人名个数除以系统认为是人名的个数。召回率：（Recall），正确处理的实例个数占应该处理的实例个数的比率。例如，人名识别的召回率等于正确识别的人名个数除以文本中实有的人名个数。调和平均值：（F-measure），正确率和召回率的综合表示，F(2+1)PR/(2R+P)，通常取1，则F2PR/(R+P).共八十页12测试(csh)封闭测试：运用从训练集里获取的数据（模型参数或规则）来测试训练集本身，目的是对模型的性能有初步了解

7、。但是，封闭测试成绩可能(knng)主要反映模型对训练集的过度学习（学了太多琐碎的、依赖于罕见语境的数据）。开放测试：运用从训练集里获取的数据来对测试集进行测试，目的是检验知识的覆盖能力。开放测试成绩通常低于封闭测试，但能够更真实地反映模型性能。共八十页13字型用同一方法制作的字符造型(zoxng)的集合。根据造型(zoxng)方法可分为三类：点阵字型：用mn像素阵列表示字符造型，占用空间大，缩放质量难以保证。矢量字型：用一组折线表示字符造型，占用空间小，但放大字号时不够美观。轮廓字型：用一组直线或曲线表示字符内外轮廓，字型质量高，占用空间小，可无级变倍，目前视窗平台一般使用轮廓字型

8、。共八十页14字节(z ji)、字符和编码字符集字节是计算机上信息存取的基本单位，一个字节是8个二进制位，可表示28256种状态。字符是文字单位，一个字符可以是一个字节，如ASCII字符，也可以由多个字节表示，如汉字。汉字字符集规模(gum)远大于256，因此不可能只用一个字节来表示。将一批字符统一编码，让字符跟整数一一对应，以便于在计算机上表示，就形成一个编码字符集。共八十页15ASCII字符(z f)在计算机上，西文(x wn)字符的编码一般是由美国的标准信息交换码体系规定的，通称“ASCII码”，该标准已被国际标准化组织接受为国际标准。ASCII码的7位版本，包括10个阿拉伯数字、52个

9、大小写英文字母、32个标点符号和运算符以及34个控制码，共计128个字符（27=128）。一个字节有8位，7位ASCII码只用后边7位，最高位是0 ，可以此区分ASCII字符与双字节字符。编码空间的争夺，“先入为主”：其他文字（包括中文）的编码需避开此一空间。共八十页16中国(zhn u)信息交换用汉字编码字符集基本集（GB2312-80）信息交换用，与国际标准ISO 2022相容。每个字符用两个字节编码，两个字节取值范围都是161254，编码空间为94948836 。按字形编码，多音字一码，同音字多码。6763个通用汉字，加其他字符共7445个。一级汉字3755个，按拼音(pnyn)排序

10、；二级汉字3008个，按部首排序。第一个汉字“啊”，编码为176, 161。最后一个汉字“齄”，编码为247, 254。共八十页17Big5：台湾地区的汉字(Hnz)字符集编码通行于中国台湾地区和港澳地区。可用于信息交换和信息处理。通常叫做“繁体中文”。分为常用字和次常用字两个字面，每个字面都按照笔画数和部首来排序。编码空间为：第一(dy)字节161254，第二字节64126，161254，共有14758个码位。也是94区，但每区有94+63位。共八十页18GB13000(GBK)：汉字内码扩展(kuzhn)规范GB13000（GBK）是一个指导性规范，由电子部科技质量司和国家技术监督局标准化

11、司于1995年12月颁布，可用于信息交换和信息处理。其编码空间为：第一字节为129254，第二字节为64254（缺127），共有23940个码位，其中汉字20907个。GBK兼容GB2312-80的所有汉字（6763个汉字的代码有简单的对应关系），而且在字汇一级支持CJK，涵盖Big5（但代码不一致）。GBK缓解(hun ji)了汉字编码空间窄小的困难，但还不够。共八十页19等长码对字符集中所有字符按固定的码长来编码，叫做等长码。例如ASCII码是每个字符占一个字节、国标码、GBK和UTF-16都是每个字符占两个字节。等长码的缺点是缺乏灵活性：编码空间小，则能够使用(shyng)的字符少；编码

12、空间大，则文本空间浪费大。例如，一个文本主要是英文字符，有少量汉字，用UTF-16则浪费大量空间。又如，一些中文古籍用GBK编码仍然不够，若汉字使用三字节等长码，由于绝大多数汉字只需两字节，因此文本存储空间浪费一半。共八十页20等长码：UTF-16（Unicode）各种字符（包括中英文）都是16位编码。每个字符映射(yngsh)为一个短整数（065535），计算机处理更方便。有Little-endian和Big-endian两种形式。前者低位字节在前，Word软件中简称Unicode；后者高位字节在前。例如“買”字的Unicode编码是36023，前者存储为16进制的B78C，后者存储为16进

13、制的8CB7，即分别为二进制的： B 7 8 C (1116+7)+ (816+12)256 36023 (816+12)256+ (1116+7) 36023 8 C B 7共八十页21变长码若码长不固定，则称为变长码。如UTF-8 和GB18030，其中ASCII字符用一个字节表示，汉字用24个字节表示。变长码的优点：能有效地解决编码空间与文本存储空间的矛盾。变长码的缺点(qudin)：使用变长码时，要有办法识别字符界限。因此编程时比较麻烦。（麻烦留给程序员，方便留给用户。）共八十页22变长码：GB180302000信息交换用汉字编码字符集基本集的扩充，是由信息产业部和国家质量技术监督局在

14、2000年6月17日联合发布的，并作为一项强制性国家标准(u ji bio zhn)在2001年9月1日后正式执行。单字节字符：0127，兼容ASCII字符。双字节字符：第一字节129254，第二字节64254（不包括127），兼容GBK字符。四字节字符：第一字节129254，第二字节4857，第三字节129254 ，第四字节4857，共有1587600个码位。例如“”：151, 50, 217, 51共八十页23GB18030如何(rh)表示字符界限？下面是一个GB18030编码(bin m)的文本（每个字节用十进制整数表示）： 150 55 206 57 185 214 206 70 97

15、 48请问这里面有几个字符？每个字符由哪几个字节组成？共八十页24GB180302000的优点(yudin)这一标准既解决了“汉字稀少文本”的存储问题，又解决了超大汉字字符集文本的存储问题。所有的ASCII文本当然也是GB18030编码的文本。兼容GBK编码，因此原先GB2312或GBK编码的文本当然也是GB18030编码的文本。Windows操作系统(co zu x tn)对GB18030支持不够。共八十页25变长码：UTF8UTF8是Unicode的另一种具体实现，字符长度不限，每个字节都有标志位，便于识别，如：单字节：0*，表示ASCII字符双字节：110* 10*三字节：1110* 1

16、0* 10*四字节：11110* 10* 10* 10*以英文字符为主体的文本，如果用UTF16存储(cn ch)则太浪费空间，变长码UTF-8解决了这一问题。汉字16位编码，用三个字节，将8个标志位去掉便是汉字的UTF-16编码。共八十页26常见(chn jin)编码字符集一览表字符集码长码位数汉字数备注ASCII1128/2560GB2312288366763简体GB1300022394020902兼容GB2312GB1803014161179620902兼容GBKBig5214758繁体UTF-1626553520902Unicode，下同UTF-8146553520902汉字码长3字节

17、共八十页27汉字(Hnz)的输入码汉字输入法也叫汉字编码，所编的是输入码，又叫“外码”，指键位表示（击键序列），不同于字符集编码（“内码”）。外码是为键盘输入服务的，内码是为信息交换和信息处理服务的。输入法的目的就是要将汉字的外码转换为内码。一个(y )汉字字形只有一个内码，但在一种输入法可以有多个外码，例如“我”在基于拼音的输入法中有“w”、“wo”等外码。共八十页28输入码中的“重码(zhn m)”一个内码只表示一个汉字。但在一些输入法中，一个外码可以表示几个汉字，这叫“重码”。重码就是输入码的歧义。例如在基于拼音的输入法中，“wo”可表示“我”、“握”、“窝”等。字符集编码以汉字字形为单

18、位，输入码可以以字、词、字串和句子为单位。因此不仅(bjn)单字有重码，词也有重码，例如“wm”可表示“我们”、“文明”、“外面”等。共八十页29汉字键盘输入(shr)编码码元：用来给汉字编码的汉字特征信息元素（如音素、声韵、笔画、字根、部件等），码元的集合叫做码元集。键元：输入汉字时的击键（如字母键、数字键等），键元的集合叫做键元集编码方案：码元集对键元集的映射，以及一组完整的编码规则。汉字输入编码的主要矛盾(zh yo mo dn)是输入速度与易学性的矛盾：输入快的难学，易学的速度不快。共八十页30衡量(hng ling)汉字识别能力的指标识别率：正确(zhngqu)识别的文字对全部输入文

19、字的比率。拒识率：拒绝识别（无法识别）的文字对全部输入文字的比率。误识率：错误识别的文字对全部输入文字的比率。共八十页31概率(gil)（probability）设样本空间中共有n个样本点，事件A有m个，则事件A的概率为： P(A) m / n例：一个语料库有835万词次，其中单词“为”出现(chxin)3万次。若从该语料库中随机挑选一个词，这个词恰好是“为”的概率是多少？解：语料库规模足够大，可用相对频率来近似概率。此时中共有835万个样本点，事件A（单词是“为”）有3万个样本点，因此P(A)为3/835.共八十页32概率(gil)的性质非负性：P(A) 0规范性：P() = 1 （表示全部

20、(qunb)基本事件）可加性：对于无穷多个事件A1,A2,.，如果事件两两互不相容（相互独立），则 P(Ai)=P(Ai)例：如果“为”字仅有两种读音，读wei4的概率为0.6，那么“为”字读音wei2的概率是多少？解：利用概率的规范性和可加性，“为”字读音wei2的概率是 10.60.4共八十页33联合(linh)概率（Joint Probability）P(AB)是事件A和B都发生的概率，叫联合概率。P(AB) = P(BA).例：求某字写做“为”且读音(dyn)是wei4的概率。解：这里P(A)是“为”字的概率，P(B)是读音wei4的概率。求P(AB)的方法之一是从语料库中统计“为”读

21、wei4的次数，用它除以该语料库所有字符的出现次数。已知P(A)和P(B)，是否可以据此求出P(AB)呢？共八十页34条件(tiojin)概率（conditional probability）已知事件B发生的条件下事件A的概率叫做A的条件概率：，P(B) 0由上式我们得出求联合概率的另一种(y zhn)方法： P(AB) = P(A) P(B|A) = P(B) P(A|B)当且仅当P(B|A)=P(B)，（A的发生对于B的发生毫无影响，既不促发也不抑制），有P(AB)=P(A)P(B)。共八十页35条件(tiojin)概率的计算例：求“为”字读音是wei4的概率。解：已知所考察的字是“为

22、”，在这种情况下求它读音是wei4的概率。因此这是求条件概率。P(Z读音wei4 | Z写做“为”) P(Z写做“为”且Z读音wei4) / P(Z写做“为”) (“为”读wei4的次数 / 所有(suyu)字符的出现次数) (“为”的出现次数/所有字符的出现次数) “为”读wei4的次数 / “为”的出现次数共八十页36转移(zhuny)概率（transitive probability）转移概率是从一个状态转移到另一个状态的概率，亦即事件先后(xinhu)发生的条件概率。P(W2=“的” | W1=“绿油油”)，两事件先后发生，因此既是条件概率，也是转移概率。P(Wi=“编辑” | Ti=

23、名词)，两事件同时发生，因此只是条件概率，不是转移概率。共八十页37自信息(xnx)（Self-Information）随机变量X有若干个取值，它取值为x是一随机事件，该事件的概率的负对数叫做该事件的自信息： I(x) = - log2 P(x)自信息可理解为成功猜测(cic)某事件所需最多次数。（猜测过程中，对方只回答是或否，不提供其他信息。）例：若硬币朝上概率为0.5，则猜测次数为 -log0.5=2例：若骰子点数为3的概率为1/6，则猜测次数为 -log(1/6)=2.585例：若“间”读阴平的概率是0.97，则猜测次数为 -log(0.97)=0.044共八十页38熵（Entropy）

24、熵是随机变量的各相关事件的自信息的概率加权平均值：熵是随机变量的不确定性的度量(dling)，熵越大表明不确定性越大，熵为0时表示完全可以确定。共八十页39熵的计算(j sun)例：掷硬币有两种结果，假定正面朝上和反面(fnmin)朝上的概率都是0.5；掷骰子有6种结果，假定每种结果的概率都是1/6。掷硬币的结果与掷骰子的结果这两个随机变量的熵孰大孰小？解：H(掷硬币)2(0.5log0.5)log21.0 H(掷骰子)6(1/6)log(1/6)log6=2.58 掷骰子的结果这个随机变量的熵较大。由此可见，随机变量的分布同样均匀时，分布越广的，熵越大。共八十页40熵的计算(j sun)例：

25、据统计，“间”读阴平的概率(gil)是0.97，读去声的概率是0.03；“藏”读zang4的概率是0.56，读cang2的概率是0.44。“间”的读音和“藏”的读音这两个随机变量孰大孰小？解：H(“间”的读音)0.97log0.970.03log0.03 0.19 H(“藏”的读音)0.56log0.560.44log0.44 0.99 “藏”的读音这个随机变量的熵较大。由此可见，概率分布广度相同时，分布越均匀的，熵越大。共八十页互信息（Mutual Information）如果X和Y是一对随机变量，其概率分布为p(xy)，则互信息 I(X; Y)定义为知道(zh do)Y值后X的不确定性的减

26、少量：共八十页42点式互信息（pointwise mutual information）点式互信息可用来衡量两事件的相关程度。点式互信息为正值（log底数大于1），表明两事件正相关；点式互信息为0（log底数为1），表明两事件无关，点式互信息为负值（log底数小于1），表明两事件互相排斥(pich)。上式的约束条件：三个概率均不为0。共八十页43点式互信息的计算(j sun)例：某语料库规模(gum) R1606115字次，“昂”出现40次，“扬”出现308次，“昂扬”出现7次，求“昂”和“扬”的互信息。解：I(“昂”；“扬”)log(P(7/R) / P(40/R) / P(308)/R)

27、9.83例：语料库同上，“的”出现55202次，“扬的”出现14次，求“扬”和“的”的互信息。解：I(“扬”；“的”)log(P(14/R) / P(308/R) / P(55202)/R)0.4共八十页44分类(fn li)（Classification）分类是把样本归入已知类别，是有指导的（分类体系就是一种指导），聚类则是自动建立分类体系并将样本归入这些类别，是无指导的。自然语言处理的根本问题是歧义消解(xioji)：分词歧义消解、词汇歧义消解、词性歧义消解、句法歧义消解，等等。歧义消解就是分类。例如，已知某兼类词有哪几个词性，要将它在文本中的每个词例一一归类。语言模型的基本作用就是分类，

28、就是消解歧义。共八十页45中文自动(zdng)分词的必要性文本分析的第一道工序信息检索的预处理：提高查准率语音合成的预处理：降低读音(dyn)复杂性汉字识别的后处理：提高识别正确率语音识别的后处理：提高识别正确率计算机辅助词典编撰：新词、新义项获取共八十页46最大匹配(ppi)法分词思想：长度最小的词串是最佳词串。匹配：将汉字串跟底表中的词进行比较。最大：长词优先，或称“最少分词法”。社会主义/市场/经济/ 而不切分为：社会/主义/市场/经济/长词优先原则(yunz)在绝大多数情况下是对的。共八十页47最大匹配法的几个(j )要点底表：词语的静态查找表，是关于“什么是词”的明确定义，不需要

29、词频数据，也不必将单字词列入。最大词长：底表中最长词的长度，以字符为单位计算。候选词：从某位置开始截取(jiq)的一个字符串，初始长度为最大词长，或者剩余串长（当剩余串长小于最大词长时）。候选词在底表中查找成功，便确定为词，找不到则将候选词末尾减一字，继续查找。候选词长度为1时不必查找，默认为词。共八十页48最大匹配(ppi)法分词示例:共八十页“时间就是(jish)” 查表失败输入(shr)字串：时间就是生命输出词串：底表-时间生命.候选词：时间就是最大词长：4共八十页“时间(shjin)就” 查表失败输入字串：时间(shjin)就是生命输出词串：底表-时间生命.候选词：时间就最大词

30、长：4共八十页“时间(shjin)” 查表成功输入字串：时间(shjin)就是生命输出词串：底表-时间生命.候选词：时间最大词长：4共八十页将“时间(shjin)”添加到输出串输入(shr)字串：就是生命输出词串：时间/底表-时间生命.候选词：最大词长：4共八十页“就是(jish)生命” 查表失败输入字串：就是(jish)生命输出词串：时间/底表-时间生命.候选词：就是生命最大词长：4共八十页“就是(jish)生” 查表失败输入字串：就是(jish)生命输出词串：时间/底表-时间生命.候选词：就是生最大词长：4共八十页“就是(jish)” 查表失败输入(shr)字串：就是生命输出词串：

31、时间/底表-时间生命.候选词：就是最大词长：4共八十页单字不用(byng)查表，默认为词输入(shr)字串：就是生命输出词串：时间/底表-时间生命.候选词：就最大词长：4共八十页将“就”添加(tin ji)到输出串输入(shr)字串：是生命输出词串：时间/就/底表-时间生命.候选词：最大词长：4共八十页“是生命(shngmng)” 查表失败输入(shr)字串：是生命输出词串：时间/就/底表-时间生命.候选词：是生命最大词长：4共八十页“是生” 查表失败(shbi)输入(shr)字串：是生命输出词串：时间/就/底表-时间生命.候选词：是生最大词长：4共八十页单字(dnz)不用查表，默认为

32、词输入(shr)字串：是生命输出词串：时间/就/底表-时间生命.候选词：是最大词长：4共八十页将“是”添加(tin ji)到输出串输入(shr)字串：生命输出词串：时间/就/是/底表-时间生命.候选词：最大词长：4共八十页“生命(shngmng)” 查表成功输入(shr)字串：生命输出词串：时间/就/是/底表-时间生命.候选词：生命最大词长：4共八十页将“生命”添加(tin ji)到输出串输入(shr)字串：输出词串：时间/就/是/生命/底表-时间生命.候选词：最大词长：4共八十页64减字匹配(ppi)和加字匹配(ppi)减字匹配需要预定最大词长（最大匹配法）（查找成功终止）。加字匹配

33、无需预定最大词长（查找失败终止）。基本(jbn)思想是：先设k=1；查词表中有没有与待切分串前k字相同的词，若无，则查找失败。若有，则k=k+1，重复步骤2-3.加字匹配能减少许多无谓的查找。共八十页65正向(zhn xin)匹配与逆向匹配正向匹配：从串首开始做最大匹配，直到串尾。逆向匹配：从串尾开始做最大匹配，直到串首。据报道(bodo)，逆向最大匹配比正向最大匹配的正确率要略高一些。共八十页66中文自动分词(fn c)的三大难题未登录词：自动分词主要是根据底表来进行的，真实文本中存在大量的未见于底表的词语，它对自动分词正确率的影响最大。分词歧义：根据底表，一个串可以切开也可以不切开（组合性

34、歧义），或者可以切在这里也可以切在那里（交集型歧义），但从上下文来看，至少有一种切法是不正确的。分词不一致：上下文相同或相似情况下，一个串在分词语料库中有多种切法，也许几种切法都有道理(do li)，但应该保持一致。共八十页67分词(fn c)歧义组合型歧义，例如(lr)：从马上跳下来他将来我校讲学交集型歧义，例如：使用户满意研究生命的起源组合型歧义出现概率低，消解更为困难。共八十页68交集(jioj)型歧义如果(rgu)一个字串有多种切分位置，并且每个字在不同切法中属于不同的词，那么这个字串称为交集型歧义字串，例如，“这篇文章太平淡了”。链长：交集型歧义字串中相互

35、交叠的词的个数，例如“提高人民生活水平”链长为7歧义切分中，交集型歧义约为90%，其中链长为2和3的占90%.共八十页69交集(jioj)型歧义字串最大交集型歧义字串：句子中不被别的交集型歧义字串所包含的交集型歧义字串，例如“你任何时候都可以来找我” 。真歧义：存在两种以上经常可实现的切分形式我国首次将卫星导航技术应用/于/植物保护按规定，变价(binji)收入应/用于/固定资产的更新改造伪歧义：实际上只有一种可实现的切分形式，如“任何时候”、“充分发挥”准伪歧义：基本上只有一种可实现的切分形式，如“主要是”共八十页70组合型歧义(qy)定义一：如果一个字串是词，并且还可以看作是一个词串

36、（至少包含两个词，每个词互不交叠(jio di)），那么这个字串就称为组合型歧义字串。根据一个8.7万词的词表，组合型歧义字段共73470个，占84%，太多了！定义二：并且在足够大的语料库中同时出现过两种切分形式定义二还不够严密，没跟切分不一致区别开来。共八十页71现有(xin yu)分词歧义消解方法的不足交集型歧义消解基于记忆(jy)的方法简单有效，但这是一种颗粒度极细的语言知识，难以大幅度提高其覆盖度（据报道只能覆盖50%）。基于词频的方法没有考虑单字词词频，有时会导致错误的选择。组合型歧义消解穷尽组合型歧义字串是一个困难的任务。每种组合型字串的歧义消解知识都是个性化的，无法推广到其他

37、字串。共八十页72N元模型(mxng)（Ngram）N元模型认为，状态序列中的某个状态是否出现，只与它前面的N1个状态有关（马尔科夫假设）。N元模型求序列W的概率(gil)时，是在概率(gil)乘法定理基础上的简化。大大减少了计算量，缓解了数据稀疏问题。马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点，但同时也是为了实用而付出的必要代价。共八十页73Ngram举例(j l) 从词串“提高人民生活水平(shupng)”中，可提取：Bigrams：提高人民，人民生活，生活水平Tigrams：提高人民生活，人民生活水平从字串“提高人民生活水平”中，可提取：Bigrams：

38、提高，高人，人民，民生，生活，活水，水平Tigrams：提高人，高人民，人民生，民生活，生活水，活水平共八十页74N元模型可以(ky)做什么？N元模型用于解决序列构成问题。例如：汉字识别后处理，由于(yuy)每个位置上是什么汉字都可能有多种选择，因此可构成多种汉字序列。问题是，哪种汉字序列是正确的？中文自动分词，由哪些候选词构成词序列，虽然有一些限制，但仍然有许多选择。问题是，哪种词序列是正确的？共八十页命名(mng mng)实体（Named Entity）命名实体是一种专指性词项。它有五种特性：指称性：用来指示或称说某些事物，以便将这些事物跟其他事物区分开来。不是所有的词语都有指称性，例如形容词表示事物的性质，动词表示动作或行为。代词、名词通常都有指称性。专门性：专门用来指示或称说某一个事物

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中文信息处理-复习提纲资料

文档简介

温馨提示

最新文档

评论

中文信息处理-复习提纲资料

文档简介

温馨提示

最新文档

评论

相关文档