中文文本信息处理的原理与应用-概论_第1页
中文文本信息处理的原理与应用-概论_第2页
中文文本信息处理的原理与应用-概论_第3页
中文文本信息处理的原理与应用-概论_第4页
中文文本信息处理的原理与应用-概论_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文文本信息处理的原理与应用第一章概论主要内容自然语言处理中文信息处理国内外研究机构及学术会议课程目的和课程安排自然语言处理根本概念开展历程应用领域开展趋势根本概念自然语言指人类语言集团的本族语,如汉语、英语、日语等等。人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。应用问题如何让计算机实现人们希望的语言处理功能?如何让计算机实现海量语言信息的自动处理和有效利用?

自然语言处理学科根本概念〔续1〕自然语言处理(NaturalLanguageProcessing)利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类处理和加工的技术。人工智能研究的重要内容之一。

——摘自冯志伟《自然语言的计算机处理》根本概念〔续2〕自然语言处理组成自然语言理解:计算机能理解自然语言文本的意义;自然语言生成:计算机能以自然语言文本来表达给定的意图、思想等。根本概念〔续3〕“理解”的标准问答〔question-answering〕:机器能正确地答复输入文本中的有关问题;文摘生成〔summarizing〕:机器有能力产生输入文本的摘要;释义〔paraphrase〕:机器能用不同的词语和句型来复述其输入文本;翻译〔translation〕:机器具有把一种语言〔源语〕翻译成为另一种语言〔目标语〕的能力。

图灵(Turing)设计的“模仿游戏”,即图灵测试(Turingtest)根本概念〔续4〕自然语言处理根本概念开展历程应用领域开展趋势自然语言处理的开展历程40年来大体上经历了三个时期

60年代以关键字匹配为主流的早期70年代以语法-语义分析为主流的中期80年代开始走向实用化和工程化的近期自然语言处理的开展历程阶段特点主要工作代表系统60年代关键词匹配针对特定格式系统问答系统,机器翻译等SIRSTUDENTELIZA70年代采用句法,语义分析技术问答系统,自动摘要等LUNARSHRDLUMARGIE80年代后实用化和工程化商业化的人机接口,机器翻译系统……很多很多基于规那么的方法基于统计的方法基于规那么的方法ELIZA

系统1968

年,J.Weizenbaum在美国麻省理工学院设计的ELIZA系统,或许是这些基于“模式匹配”的自然语言系统中最有名的一个。系统模拟一位心理治疗医生〔机器〕同一位患者〔用户〕的谈话。://nlp-addiction/eliza//://www-ELIZA的一段脚本:Menareallalike。〔男人都一样。〕INWHATWAY?〔怎么一样法?〕They’realwaysbuggingusaboutsomethingorother.〔他们总是用这样的或那样的事情来烦扰我们〕CANYOUTHINKOFSPACIFICEXAMPLE?〔你能举一个例子吗?〕ELIZA的理解过程某些词被立即翻译成适合于响应式的新形式。这些直接转换被立即执行,然后再进行其他模式的匹配。ELIZA对话解析:START(ME=YOU)见到“ME”就翻译成“YOU”〔I=YOU〕见到“I”就翻译成“YOU”(REMEMBER5〕“remember”这个词的优先级是5((0YOUREMEMBER0)“0”是个通配符(DOYOUOFTENTHINKOF4)你时常想到4吗?……因此,如果患者说:“Icried”〔我哭了〕。ELIZA答复:“Whydidyoucry?”〔您为什么哭呢?〕ELIZA的理解过程〔续1〕对于不存在匹配模式的情况,ELIZA专门设计了一个〔0〕模式,它可以同任意的输入句子匹配,并产生某些模棱两可的响应。“CANYOUELABORATEONTHAT?”〔您是否能详细谈谈这个问题?〕“THAT’SQUITEINTERSTING”〔这很有趣。〕这种方法的一个主要特点是它有可能遗漏句子中的某些重要信息,从而导致错误的分析和响应。例如对于输入句子:“Myfriend’ssisterlikesme.”〔我朋友的姐姐喜欢我。〕ELIZA可能答复:“TELLMEMOREABOUTYOUFAMLILY”〔多告诉我一些您家里的事情,好吗?〕原因是ELIZA的输入模式完全忽略了输入句子中“my”和“sister”之间的词“friend’s”,而且在这里“my”也不是“sister”的定语,所以系统的答复显得有点牛唇不对马嘴。这说明回避句法和语义分析的“理解”,往往不能真正胜任语言理解的任务。SHRDLU系统SHRDLU系统是1972年T.Winogard设计的,是他在麻省理工学院的博士学位研究工作。SHRDLU是一个在“积木世界”中进行对话的自然语言理解系统。具有智能地理解句子的功能,不仅包括语法,也包括单词的知识、句子的上下文以及他对于主题事务的理解。SHRDLUSHRDLU系统对话脚本用户SHRDLUPICKUPABIGBLOCK.捡起一块大的长方块。OK是。GRASPTHEPYRAMID.抓住那块棱锥。IDON’TUNDERSTANDANDWHICHPYRAMIDYOUMEAN我不懂您指的是哪块棱锥。FINDABLOCKWHICHISTALLERTHANTHEONEYOUAREHOLDINGANDPUTITINTOTHEBOX.找一块比您手里的那一块更高的长方块,并把它放入盒子中。By“IT”,IASSUMEYOUMEANTHEBLOCKWHICHISTALLERTHANTHEONEIAMHOLDING.关于“它”我想您指的是比我手里的这一块更高的长方形。OK是。WHATDOESTHEBOXCONTAIN?盒子里装的是什么?THEBLUEPYRAMIDANDTHEBLUEBLOCK.蓝色棱锥和蓝色长方块。第三阶段—繁荣期机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报效劳为标志的。TAUM-METEO系统是机器翻译开展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。其他系统如:日本日立公司开发的HICATS英日、日英机译系统,美国在乔治敦大学的机器翻译系统SYSTRAN,美国国家航空和航天的NASA系统,我国开发的英汉互译系统“译星”(TRANSTAR)等。SYSTRAN系统天氣預報是使用現代科學技術對未來某一地點地球大氣層的狀態進行預測。從史前人類就已經開始對天氣進行預測來相應地安排其工作與生活〔比方農業生產、軍事行動等等〕。今天的天氣預報主要是使用收集大量的數據〔氣溫、濕度、風向和風速、氣壓等等〕,然後使用目前對大氣過程的認識〔氣象學〕來確定未來空氣變化。维基百科上的中文表述维基百科上的英文表述SYSTRAN的翻译结果自然语言处理根本概念开展历程应用领域开展趋势应用领域

机器翻译(MachineTranslation,MT)实现一种语言到另一种语言的自动翻译。应用:文献翻译、网页翻译和辅助浏览等举例:Systran系统(://)口语翻译STLSTL应用领域〔续1〕自动文摘(AutomaticSummarization/Abstracting)将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。应用:电子图书管理、情报获取等举例:LK自动文摘系统应用领域〔续2〕信息检索(InformationRetrieval)也称情报检索,即利用计算机系统从大量文档中找到符合用户需要的相关信息。面向多语言的信息检索叫做跨语言信息检索(Cross-language/Trans-lingualinformationretrieval)。举例:Google:百度:——目前已有300多亿个网页,每天几百万增加,获得的信息只有1%被有效利用。应用领域〔续3〕文档分类(DocumentCategorization)也叫文本自动分类(TextCategorization/Classification),即利用计算机系统对大量的文档按照一定的分类标准〔如根据主题或内容划分等〕实现自动归类。应用:图书管理、内容管理和信息监控等。举例:复旦文本分类系统SVMCLS应用领域〔续4〕信息过滤(InformationFiltering)利用计算机系统自动识别和过滤那些满足特定条件的文档信息。应用:网络有害信息过滤、信息平安等。应用领域〔续5〕问答系统(Question-answeringSystem)通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的答复。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(Man-computerDialogueSystem)。应用:人机对话系统、信息检索等自然语言处理根本概念开展历程应用领域开展趋势自然语言处理的新趋势在COLING2002会议上,许多专家提出自然语言处理研究的开展方向:基于规那么和基于统计的研究方法的结合自然语言理解在语义网中广泛应用与生物信息学的结合逐渐形成国际标准由搜索文字到搜索图文,甚至多媒体,语义本体是它的一种实现方式自然语言处理的新趋势〔例〕人类基因组和MEDLINE正是全世界数据挖掘的两大焦点。MEDLINE医学文献信息人类基因组互相引用——生物自然语言处理就是一个试图对基因序列和生物医学文献之间的联系进行系统探索的新兴研究领域。主要内容自然语言处理中文信息处理国内外研究机构及学术会议课程目的和课程安排

中文信息处理

中文信息处理的研究起步较晚〔80年代〕中文信息处理研究的主要障碍:汉字输入问题已解决〔仓颉码〕分词问题一定程度上解决句法分析问题仍然很困难中文信息处理的成就1992语料库:第一个效劳于语言学研究的汉语语料库,仅包含生语料,没有切分和标注,但可以检索。1992-分词标准:中国内地公布了第一个分词国家标准《GB13715-信息处理用现代汉语分词标准》。1993-词典:完成并发布了中文知识信息处理(CKIP)词典的第一个版本(带有词性集合和基于信息的格语法词干角色)。1994-语料库:先秦名著汉语料库在台湾“中研院”完成。中文信息处理的成就〔续1〕1995语料库:台湾“中研院”语料库完成(1.0版本,100万词),这是第一个标注的汉语平衡语料库。1996年,第一本论文集《中文自然语言处理》出版,并完成了网上的“中研院”语料库,这是第一个可以用WWW方式检索的汉语语料库。1997年5月,由香港开发的LIVAC中文共时语料库在网上发布。同年,第一本根据语料库编纂的汉语词典出版(TheDictionaryofNominalClassifiersinChinese)。中文信息处理的成就〔续2〕1998年,知网发布,这是第一个完整的汉语和英汉词汇知识库。1999年,第二本论文集《汉语计量与计算研究》(邹嘉彦、黎邦洋、陈伟光、王士元编)计算语言学专集出版.香港城市大学语言资讯科学研究中心。2000年7月,北京大学发布词表,两个汉语树库同时发布:宾州汉语树库和台湾研究院树库。同年,第38届计算语言学协会年会首次在香港召开,含一个中文处理的专题研讨会。中文信息处理的成就〔续3〕2001年,正式批准建设ACLSigHAN,第一个关于中文处理的国际组织。同年,北京大学在网上发布了一年的人民日报标注语料。根据LIVAC中文共时语料库建立了中文报纸名人录,并在网上发布。2002年,第19届COLING会议首次在台北召开。第2届SigHAN中文处理专题研讨会与第41届ACL会议一起在札幌召开。会上报告了第一次汉语分词竞赛的结果。同年,正式发布了谢清俊智能汉字编码系统(解决了遗漏汉字问题),LIVAC中文共时语料库也已到达1亿字。主要内容自然语言处理中文信息处理国内外研究机构及学术会议课程目的和课程安排

国外研究机构StandfordUniversity/MIT/CarnegieMellonUniversityJohnHopkinsUniversityTheUniversityofSouthernCaliforniaTheUniversityofPennsylvania,…IBM/Microsoft/Google/Intel/…AachenUniversity(RWTH),GermanyDFKI/SaarlandUniversity,GermanyUniversityofKarlsruhe,GermanyITC-irst,ItalyUPC,Spanish东京大学/京都大学/早稻田大学/奈良先端/ATR……国内主要研究机构北大、清华、东北大学、哈工大、山西大学、厦门大学、南大、复旦、上海交大、北京语言大学、北京邮电大学等中科院自动化所、计算所、软件所、声学所、社科院语言所、教育部语用所、科技部科学技术信息所等Google、百度、微软亚洲研究院、法国电信台湾中研院、香港中文大学、香港科技大学……NLP领域主要学术会议主要国际会议ACL(AssociationofComputationalLinguistics)Coling(Inter.Conf.onComputationalLinguistics)IJCNLP(Inter.Conf.onNaturalLanguageProcessing)EACL(EuropeanChapterofACL)ANLP(AppliedNLP)SIGIR(SIGInformationRetrieval)TREC(TextREtrievalConference)主要国内会议JSCL(全国计算语言学联合学术会议)主要内容自然语言处理中文信息处理国内外研究机构及学术会议课程目的和课程安排

课程目的中文信息处理的强烈应用需求为计算机根底课程提供较好的应用背景相关课程有数据结构、编译原理、人工智能、概率统计等课外阅读资料专著冯志伟,孙乐(译)(DanielJurafsky,JamesH.Martin著),自然语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论