非结构化数据的处理_第1页
非结构化数据的处理_第2页
非结构化数据的处理_第3页
非结构化数据的处理_第4页
非结构化数据的处理_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 做中国领先的科研资源提供商做中国领先的科研资源提供商总课时:总课时:4 4小时(实验:小时(实验:3 3小时)小时)2提纲提纲 非结构化数据处理概述 自然语言处理技术概述 自然语言处理的基本技术3什么是非结构化数据什么是非结构化数据n相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。4绝大部分数据是非结构化数据绝大部分数据是非结构化数据n世界上85%的数据都是非结构化数据,这些数据每年都按指数增长60%。5非

2、结构化数据处理的技术非结构化数据处理的技术n非结构化数据处理的主要技术是自然语言处理技术。用来对非结构化数据进行各种层次的理解。自然语言处理技术我要去清华大学,从西直门怎么走?学院路堵不堵?为什么我上个月已退了GPRS,这个月还扣我钱?服务:路线查询起点:西直门终点:清华大学服务:路况查询地点:学院路服务:客服投诉业务:GPRS诉求:错误扣费6提纲提纲 非结构化数据处理概述 自然语言处理技术概述 自然语言处理的基本技术7自然语言的概念自然语言的概念 什么是自然语言自然语言 语言是人类交际的工具,是人类思维的载体语言是人类交际的工具,是人类思维的载体 人造语言:编程语言,包括人造语言:编程语言,

3、包括C+, BASIC等等 世界语世界语 自然语言:自然语言: 形式:口语、书面语、手语形式:口语、书面语、手语 语种:汉语、英语、日语、法语语种:汉语、英语、日语、法语 语言学是研究语言规律的科学8网络语言网络语言“昨晚,我的JJ带着他的青蛙BF到我家来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈PMP,说她年轻的时候一定是个漂亮MM,那酱紫真是好BT,7456” JJ : 姐姐姐姐 酱紫酱紫:这样子 BF : boy friend青蛙:长相不好的男朋友青蛙:长相不好的男朋友 PMP:拍马屁拍马屁MM:妹妹:妹妹BT:变态:变态7456:气死我了:气死我了9语言的构成语言的构成语言词汇语法词

4、熟语词法句法词素构形法构词法词组构造法造句法语言词汇语法词熟语词法词素句法构形法构词法词组构造法语言词汇语法词熟语词法词素10自然语言处理的层次自然语言处理的层次 语音分析语音分析:从语音流中区分出一个一个声音单:从语音流中区分出一个一个声音单元元-音素音素 词法分析词法分析:从句子中切分出单词、找出词汇的:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。各个词素,确定单词的词性、词义等。 句法分析句法分析:对句子和短语的结构进行分析,找:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。出词、短语等的相互关系及在句子中的作用等。 语义分析语义分析:识别一

5、句话所表达的实际意义。:识别一句话所表达的实际意义。 语用分析语用分析:研究语言所在的外界环境对语言使:研究语言所在的外界环境对语言使用所产生的影响。用所产生的影响。11语义与语义与语用语用 同一词语在不同的同一词语在不同的“语境语境”中具有不同中具有不同“语义语义” 例如:中国奥运史上十大女杰的精彩例如:中国奥运史上十大女杰的精彩“转身转身” 病毒病毒 计算机领域:计算机病毒计算机领域:计算机病毒 医学领域:生物学病毒医学领域:生物学病毒12自然语言处理的概念自然语言处理的概念 自然语言处理自然语言处理( Natural Language Processing,NLP ) 也称也称自然语言理

6、解自然语言理解或或计算语言学计算语言学; 主要研究如何让机器进行自然语言信息处理,即人主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的类语言活动中,信息成分的发现发现、提取提取、存储存储、加加工工与与传输。传输。 NLP是计算机科学、语言学、人工智能与数学等学是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科。科的交叉学科和边缘学科。 计算语言学是从计算角度处理语言计算语言学是从计算角度处理语言 将人们对语言的结构规律的认识用精确的、形式化将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示。的、可计算的方式(计算模型)加以表示。13

7、自然语言理解的困难自然语言理解的困难 自然语言具有多样性自然语言具有多样性(不同语种、不同地域、不同(不同语种、不同地域、不同人群)人群) 自然语言具有进化性自然语言具有进化性自然语言的模糊性自然语言的模糊性自然语言的歧义性自然语言的歧义性 处理歧义问题是处理歧义问题是NLP的的核心问题核心问题。自然语言处。自然语言处理过程就是各种歧义现象的消解过程。理过程就是各种歧义现象的消解过程。14自然语言理解的困难自然语言理解的困难15机器能够理解人的语言吗机器能够理解人的语言吗? 很难!很难! 什么是理解?什么是理解? 结构主义:机器的理解机制与人相同(白盒)结构主义:机器的理解机制与人相同(白盒)

8、 问题:人类语言理解机理尚未清楚问题:人类语言理解机理尚未清楚 功能主义:机器的表现与人相同即可(黑盒)功能主义:机器的表现与人相同即可(黑盒) 图灵测试图灵测试如果通过自然语言的问答,一个人无法识别如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认和他对话的是人还是机器,那么就应该承认机器具有智能机器具有智能16理解自然语言的理解自然语言的准则准则n给计算机输入一段自然语言文本,如果计算机能给计算机输入一段自然语言文本,如果计算机能n问答问答(question-answering)(question-answering)机器能正确地回答输入机器能正确地回答输入 文本

9、中的有关问题;文本中的有关问题;n文摘生成文摘生成(summarizing)(summarizing)机器有能力产生输入文本机器有能力产生输入文本 的的摘要;摘要;n复述复述(paraphrase)(paraphrase)机器用不同的词语和语句复述输入机器用不同的词语和语句复述输入文本;文本;n翻译翻译(translation)(translation)机器把一种语言机器把一种语言( (源语言源语言) )翻译为翻译为 另一种语言另一种语言( (目标语言目标语言) )17自然语言处理的研究自然语言处理的研究目标目标n弱人工智能目标弱人工智能目标:建立一个足够精确的语言数学:建立一个足够精确的语言

10、数学模型使计算机通过编程来完成自然语言的相关任模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问务。如:听、读、写、说,释义,翻译,回答问题等题等;n强人工智能目标强人工智能目标:让用户能通过自然语言与计算:让用户能通过自然语言与计算机自由对话;机自由对话;18自然语言处理的自然语言处理的研究内容研究内容应用系统数字图书馆、电子商务、电子政务、远程教育、语言学习基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等应用技术研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取资源建设语料库资源建设语言学知识库建设语言学家NLP研究者软件企业1

11、9自然语言处理自然语言处理的应用的应用 NLP应用前景应用前景 据统计,日常工作中据统计,日常工作中80%的信息来源于语言,处的信息来源于语言,处理文本的需求在不断增长理文本的需求在不断增长 文本是人类知识最大的存储源,并且文本的数量文本是人类知识最大的存储源,并且文本的数量在不停地增长在不停地增长 电子邮件、新闻、网页、科技论文、电子邮件、新闻、网页、科技论文、 用户抱怨信用户抱怨信 NLP典型应用典型应用 智能搜索引擎、自动问答、信息获取、语义网智能搜索引擎、自动问答、信息获取、语义网 语音识别,文字识别、输入法语音识别,文字识别、输入法 机器翻译,自动文摘,跨语言检索机器翻译,自动文摘,

12、跨语言检索 文本分类、文本聚类、文本分析(结构、内容、文本分类、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪跟踪)、文本过滤、文本过滤20自然语言处理自然语言处理的应用趋势的应用趋势 智能接口智能接口 功能:功能: 把现实世界中的信息送入电子世界把现实世界中的信息送入电子世界 主要成果主要成果 拼音输入、手写输入、语音合成、语音输入,手机输入拼音输入、手写输入、语音合成、语音输入,手机输入 知识处理知识处理 功能:功能: 对于已进入电子世界中的信息进行加工处理获得知识对于已进入电子世界中的信息进行加工处理获得知识 知识

13、经济的时代已经到来!知识经济的时代已经到来! 知识就是力量知识就是力量知识就是财富知识就是财富 百度爱问、百度文库、新浪爱问、百度爱问、百度文库、新浪爱问、VC知识库知识库21提纲提纲 非结构化数据处理概述 自然语言处理技术概述 自然语言处理的基本技术22自然语言处理自然语言处理的基本技术的基本技术 词法分析词法分析 句法分析句法分析 语义分析语义分析23词法分析概述词法分析概述 词法分析目的是从句子中切分出单词,找出词汇词法分析目的是从句子中切分出单词,找出词汇的各个的各个词素词素,从中获得单词的语言学信息并确定,从中获得单词的语言学信息并确定单词的单词的词性词性词性词性 : 名词、动词、形

14、容词、介词等名词、动词、形容词、介词等词的构成词的构成 : 动宾动宾, 动补动补, 偏正偏正, 主谓主谓如如: 开学开学, 生病生病, 加深加深, 认清认清, 原油原油, 火热火热, 头痛头痛, 人造人造 自动分词自动分词: 汉语处理的难题之一汉语处理的难题之一用程序从句子中切分出单词用程序从句子中切分出单词24词法分析的分词歧义词法分析的分词歧义 例:南京市长江大桥例:南京市长江大桥 南京南京|市长市长|江大桥江大桥 南京市南京市|长江长江|大桥大桥 例:我们研究所有东西例:我们研究所有东西 我们我们-研究所研究所-有有-东西东西(交叉歧义)(交叉歧义) 我们我们-研究研究-所有所有-东西东

15、西把手放在桌上把手放在桌上 把把-手手-放在放在-桌上桌上 (组合歧义)(组合歧义) 把手把手-放在放在-桌上桌上25句法分析概述句法分析概述目的:分析目的:分析句子结构句子结构, , 找出词找出词, ,短语在句中的相互短语在句中的相互关系以及各自的作用关系以及各自的作用, , 并用层次结构来加以表示并用层次结构来加以表示S NP VP V NPPPMiss Smith put two books on this dining table.26句法分析过程句法分析过程 一一个句子是由各种不同的句子个句子是由各种不同的句子成分组成的。这些成分可以是成分组成的。这些成分可以是单词、词组或从句。句子

16、成分单词、词组或从句。句子成分还可以按其作用分为主语、谓还可以按其作用分为主语、谓语、宾语、宾语补语、定语、语、宾语、宾语补语、定语、状语、表语等。这种关系可用状语、表语等。这种关系可用一棵树来表示,如对句子:一棵树来表示,如对句子: He wrote a book. 可用图示的树形结构来表示。可用图示的树形结构来表示。 句子句子主语主语谓语谓语动词动词宾语宾语Hewroteabook27句法分析过程句法分析过程 一一个句子又是由若干个个句子又是由若干个词类构成的,如名词、词类构成的,如名词、动词、代词、形容词等。动词、代词、形容词等。若从句子的词类来考虑,若从句子的词类来考虑,一个句子也可用

17、一棵树一个句子也可用一棵树来表示,这种树称为句来表示,这种树称为句子的分析树,如图所示:子的分析树,如图所示:句子句子代代 词词动词短语动词短语动动 词词名词短语名词短语Hewroteabook28语义分析概述语义分析概述 语义分析就是要识别一句话所表达的实际意义。即弄清楚“干什么了”,“谁干的”,“这个行为的原因和结果是什么”以及“这个行为发生的时间、地点及其所用的工具或方法”等。 语义分析仅是在句法范围内根据词性信息来分析自然语言中句子的文法结构的,由于它没有考虑句子本身的含义,也就不能排除像 The paper received the professor. 这种在语法结构上正确,但实际意义上错误的句子。29语义分析过程语义分析过程John gave the book to SallyGAVE Agent: John Object: the book Source: John Goal: Sally Agent(施事):指行为的施动者; Object(受事):指行为作用的对象; Co-Agent(共施事):指行为施动者的合作者; Instrument(工具):指施事者或共施事者实现行为中所使用的对象;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论