中文信息处理复习提纲教学课件_第1页
中文信息处理复习提纲教学课件_第2页
中文信息处理复习提纲教学课件_第3页
中文信息处理复习提纲教学课件_第4页
中文信息处理复习提纲教学课件_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复习提纲《中文信息处理概论》徐润华,2014年中文信息处理复习提纲.复习提纲《中文信息处理概论》徐润华,2014年语言信息处理●语言信息处理就是用计算机对自然语言在各个层次(语素、词、短语、句子、段落篇章)上的各种表现形式(图像、声音文本)的信息进行处理:输入、输出转换、存储、压缩、检索、抽取和提炼●涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机语言信息的抽取和提炼数据是具体的,知识是概括的。目前是数据太多而知识太少,信息爆炸但又面临知识获取的瓶颈问题。■数据挖掘从数据仓库中挖掘知识,语言信息处理则要从语料库中挖掘语言知识。语言信息处理●语言信息处理就是用计算机对自然语言在各个层次(语素、词、短语、句子、段落篇章)上的各种表现形式(图像、声音文本)的信息进行处理:输入、输出转换、存储、压缩、检索、抽取和提炼●涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机语言信息的抽取和提炼数据是具体的,知识是概括的。目前是数据太多而知识太少,信息爆炸但又面临知识获取的瓶颈问题。■数据挖掘从数据仓库中挖掘知识,语言信息处理则要从语料库中挖掘语言知识。中文信息处理的特殊性■汉字的特殊性:字数多,简体、繁体和异体,与外文字符的协调处理。书面汉语的特殊性:需要进行词语切分。汉语语音的特殊性:语音系统简单汉语语法的特殊性:形态贫乏。中文信息处理的研究内容基础研究:包括汉字字符集的编码体系,文信息处理的发展战略和基本方法,汉语计算模型,汉语语料库和语言知识库的建设,系统自动评测,等等应用研究:面向最终用户的系统软件和应用软件的设计和研制。中文信息处理的些基础性技术研究课题■自动分词:将口语或书面语中的词切开(词是基本的语言单位,很多应用研究需要先自动分词)■词性标注:标出词在具体上下文中的词类(词性序列目前是大多数句法分析器的输入)。■词义标注:标出词在具体上下文中的义项或义类(服务于信息检索、机器翻译等应用研究)。句法分析:分析出句子中每个语法形式的结构关系和所处层次(服务于机器翻译等应用研究)。中文信息处理的一些应用研究课题■汉字识别(印刷体识别,手写识别,图片、视频中的汉字识别)汉语语音识别(自动听写,口语查询,口语命令)汉语语音合成(朗读机,自动查询中的口语反馈)汉语信息检索(搜索引擎,自动文摘,文本分类)汉外机器翻译(例如Google的在线翻译)其他:汉字输入法,自动校对,机器辅助词典编撰机器辅助汉语、汉字教学,少数民族语言信息处理,古代汉语信息处理,等等。基于规则的方法用确定性的规则来做问题求解。理性主义方法优势:便于利用专家知识,无须先做人工标注困难:专家知识可能不全面、不充分或不适用自动分词的最大匹配法是一种基于规则的方法用待切分汉字串中的子串去查词表,查到了就算是词(优先查找较长子串)。例如:这首诗太平淡了“太平淡”应该切成“太/平淡”还是“太平/淡”?汉语词汇学没有提供这种知识。基于统计的方法提处粉库中到的练计数作为模型参数,用优势:系统容易构造,效果通常不错。困难:数据稀疏,领域转移困难自动分词的概率方法是一种基于统计的方法,根据词频表将待切分字串中所有可能的词都找出来,然后求出一种概率乘积最大的切分。例如“太平淡”的各种可能切分中第一种概率乘积最大:太平淡太平淡太平淡训练集、开发集、测试集■通常把经过人工标注或人工校对的实验用语料库划分为训练集、开发集、测试集三个集合,训练集用于提供模型参数,开发集用于实验过程中检验和改进模型性能,测试集用于实验结束后最终评判模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论