中文信息处理课件_第1页
中文信息处理课件_第2页
中文信息处理课件_第3页
中文信息处理课件_第4页
中文信息处理课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文信息处理

ChineseInformationProcessingxxx哈尔滨工业大学计算机科学与技术学院1谢谢观赏2019-5-21中文信息处理

ChineseInformationPro主要教材朱巧明,李培峰,吴娴,朱晓旭等编著。中文信息处理技术教程,清华大学出版社。2005年9月第一版ChristopherD.Manning,HinrichSchutze。统计自然语言处理基础,电子工业出版社。2005年1月第一次印刷2019-5-21谢谢观赏2主要教材朱巧明,李培峰,吴娴,朱晓旭等编著。中文信息处理技术2019-5-21谢谢观赏32019-5-21谢谢观赏3主要内容信息处理中文信息处理计算机中文信息处理主要研究对象现代汉语的特点中文信息处理的发展中文信息处理技术发展问题的探讨2019-5-21谢谢观赏4主要内容信息处理2019-5-21谢谢观赏4信息控制论创始人(维纳NorbertWiener)信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。信息论奠基者(香农ClauseShannon)信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值RobertM.Losee信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息2019-5-21谢谢观赏5信息控制论创始人(维纳NorbertWiener)201信息的分类按照计算机处理的信息形式文本信息多媒体信息超媒体信息按照信息的结构化程度结构化信息半结构化信息非结构化信息按照信息的保密程度公开信息一般保密信息绝密信息2019-5-21谢谢观赏6信息的分类按照计算机处理的信息形式2019-5-21谢谢观赏信息处理信息处理就是对信息的接收、存储、转化、传送和发布信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地;信息的发布:把信息通过各种表示形式展示出来。2019-5-21谢谢观赏7信息处理信息处理就是对信息的接收、存储、转化、传送和发布20中文信息处理中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。《计算机科学技术百科全书》清华大学出版社,19982019-5-21谢谢观赏8中文信息处理中文信息处理是用计算机对汉语的音、形、义等语言文计算机中文信息处理主要研究对象汉字键盘输入技术汉字输出技术软件汉化技术汉字字形识别技术汉语语音识别技术激光照排技术中文平台文本分类信息检索2019-5-21谢谢观赏9计算机中文信息处理主要研究对象汉字键盘输入技术2019-5-汉字键盘输入技术汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术汉字编码采用四位十进制数把常用的汉字用“0”—”9”十个数字按照次序进行编码四角码(字形码)用“0”—”9”十个数字键对汉字的四个角的形状进行编码机内码用2字节、3字节、4字节来表示一个汉字的机器内部码国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会研究制订的字符编码标准2019-5-21谢谢观赏10汉字键盘输入技术汉字键盘输入技术是一种通过键盘使汉字进入计算汉字输出技术汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出汉字字库点阵字库GB5199.1-2001和GB5007-2001是典型的16点阵和24点阵字库矢量字库采用矢量的方法,对每个汉字信息用一组矢量进行描述2019-5-21谢谢观赏11汉字输出技术汉字输出是指把存储在计算机内的汉字字形信息转换成软件汉化技术软件汉化是把西文软件直接改造成中文软件的一种技术西文操作系统汉化成中文操作系统内核汉化外挂汉化西文应用软件经过汉化后能够具备处理中文的能力界面的汉化应用程序中中文的通行2019-5-21谢谢观赏12软件汉化技术软件汉化是把西文软件直接改造成中文软件的一种技术汉字字形识别技术汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码联机识别脱机识别汉字字形识别过程汉字识别前处理汉字分类和判别汉字识别后处理2019-5-21谢谢观赏13汉字字形识别技术汉字识别技术是利用计算机技术对汉字静态图形和汉语语音识别技术汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等语音识别的过程语音识别单元的选取特征参数提取技术模式匹配及模型训练技术2019-5-21谢谢观赏14汉语语音识别技术汉语语音识别技术是自然语言处理的一个重要组成激光照排技术激光照排,即电子排版系统1946年,美国人发明了手动光学照相排版机20世纪60年代,德国人制造了阴极射线管式照排1975年,英国人开始了激光照排的研究1974年8月,国家设立了748工程2019-5-21谢谢观赏15激光照排技术激光照排,即电子排版系统2019-5-21谢谢观中文平台中文平台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件汉化平台:西文系统上外挂一层软件,使系统可以接收和输出汉字API平台:操作系统提供有关中文信息处理所需要的一套API接口中文平台:在API平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品2019-5-21谢谢观赏16中文平台中文平台是指处理中文信息的软件系统的集合,包括支持中文本分类文本分类是一种确定文章所属类别的情报分析方法基于词的归类技术基于知识的归类技术基于信息的归类技术2019-5-21谢谢观赏17文本分类文本分类是一种确定文章所属类别的情报分析方法2019信息检索文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面索引的建立自动分类自动聚类文摘(单文档文摘、多文档文摘)检索结果的排序(ranking)分布式信息检索…………2019-5-21谢谢观赏18信息检索文本检索包括了文本信息的存储、组织、表现、查询及存取现代汉语的特点语音字形词汇句子字频词频2019-5-21谢谢观赏19现代汉语的特点语音2019-5-21谢谢观赏19语音汉字读音的标记方法直音法用一个汉字给另一个汉字进行注音“厶”→“司”,“翯”→“贺”反切法用两个汉字给另外一个汉字注音“鲁”→“郎古切”,第一个汉字为声母,第二个汉字是韵母和声调注音字符汉语拼音21个声母,35个韵母,4声调2019-5-21谢谢观赏20语音汉字读音的标记方法2019-5-21谢谢观赏20字形汉字结构笔画汉字字形最小连笔单位五种基本笔画:横、竖、撇、点、折部首字形归类的部件,是字典根据汉字形体偏旁所分的门类繁体字和简体字“進”→“进”,“裏”→“里”繁体字和简体字并不是一一对应的关系字序义序、音序、形序2019-5-21谢谢观赏21字形汉字结构2019-5-21谢谢观赏21词汇1词汇是语言中所有的词和短语的总和汉语的词根和词缀词根:意义实在、在合成内位置不固定的粘着语素(不能单独构成词的语素,如伟、丰、型)和自由语素(能独立成词的语素,如金、木、水、火、土)词缀:意义不实在、在合成内位置固定在前或后的粘着语素“筷子”→“筷”是词根语素,“子”是词缀语素2019-5-21谢谢观赏22词汇1词汇是语言中所有的词和短语的总和2019-5-21谢谢词汇2词的种类单纯词由一个语素构成的词,如人、走、天双音节连绵词,如鸳鸯、垃圾、琳琅、葡萄音译词,如沙发(sofa),咖啡(coffee)译自少数民族的地名,如哈尔滨、呼和浩特合成词重叠词:两个相同的词根相叠构成的词,如哥哥、姐姐、星星附加词:由词根和词缀构成,如老虎、石头、刀子、桌子复合词:内部结构基本上是和句法结构一致的,有主谓、偏正、联合等,如质量、体制、开关2019-5-21谢谢观赏23词汇2词的种类2019-5-21谢谢观赏23句子句子:能够表达一个相对完整意思的并且有一个特定语调的语言单位汉语句子是“以意为本”的,生成的第一要素是语义无论是否是主谓结构的,只要完成表意功能,就是一个句子2019-5-21谢谢观赏24句子句子:能够表达一个相对完整意思的并且有一个特定语调的语言字频字频:就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例如果在一篇2000字的文章中,“的”使用了78次,则“的”的频率就是78/2000*100%=3.9%在信息检索中有着重要的应用文本分类信息检索中索引表的建立……2019-5-21谢谢观赏25字频字频:就是一个汉字的相对使用频率,也就是一个汉字使用次数词频词频:就是一个词的相对使用频率对于词典的编撰、中文信息处理有着重要的作用新词的出现:非典、超女、网友信息检索2019-5-21谢谢观赏26词频词频:就是一个词的相对使用频率2019-5-21谢谢观赏中文信息处理的发展学习和理论探索的萌芽阶段这一阶段以介绍国外计算语言学领域的理论方法为主对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的《中文信息学报》、语言学界的《国外语言学》和《语言文字应用》学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有哲学色彩的思考80年代中期宁春岩发表的《自然语言理解中的几个根本问题》,以及他译介的美国哲学家休伯特.德雷福斯(HubertL.Dreyfus)的专著《计算机不能做什么--人工智能的极限》语言学界袁毓林1993年发表了《自然语言理解的语言学假设》这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用,奠定了中文信息处理后期的理论基础

2019-5-21谢谢观赏27中文信息处理的发展学习和理论探索的萌芽阶段2019-5-21中文信息处理的发展汉字信息处理为主的早期阶段1974年周恩来总理亲自批准了“七四八”工程它标志着计算机中文信息处理技术受到了国家高度重视并且进入了他的第一个发展阶段——汉字信息处理时代2019-5-21谢谢观赏28中文信息处理的发展汉字信息处理为主的早期阶段2019-5-2中文信息处理的发展字、词等表层处理为特征的初级阶段北京大学开发的华光排版系统被评为1985年中国十大科技成就之一,并荣获中国发明协会发明奖“六五”期间(1981-1985),北京航空学院主持,中国人民大学等十几个院校,研究机构参加的“现代汉语词频统计”工程是这一阶段代表性的重大科研成果,这是国内首次使用计算机进行大规模语料(2000万字)的词频统计研究的大型语言工程第一个汉语自动分词系统——CDWS,建立了一个有13万余词条的计算机词典,研制了一个有52个属性的汉字信息库1988年初,北京航空航天大学在承担国家“七五”科技攻关项目《信息处理用规范现代汉语词库》的同时,制定了《信息处理用规范现代汉语分词规范》2019-5-21谢谢观赏29中文信息处理的发展字、词等表层处理为特征的初级阶段2019-中文信息处理的发展句法和语义等深层处理为代表的中期阶段“八五”期间,中文信息处理技术的研究开发重点逐步由字,词的表层处理转向了以句法,语义分析为核心的深层处理2019-5-21谢谢观赏30中文信息处理的发展句法和语义等深层处理为代表的中期阶段201中文信息处理的发展语料库统计方法兴起的近期阶段1979年,武汉大学建设的汉语现代文学作品语料库,共计527万字,是我国最早的机器可读语料库《人民日报》收集了48年的全部文字和图像内容,公开发行北京大学计算语言学研究所与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》

语料库1998年,清华大学建立了1亿汉字的语料库,着重研究歧义切分问题,现在生语料库已达7-8亿字香港城市理工大学语言资讯科学研究中心建立了LIVAC(LinguisticvarietyinChinesecommunities)语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。总字数为15,234,551字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论