




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 做中国领先的科研资源提供商第四章 非结构化数据的处理大数据处理配套课件总课时:4小时(实验:3小时)提纲非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术什么是非结构化数据相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。绝大部分数据是非结构化数据世界上85%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据处理的技术非结构化数据处理的主要技术是自然语言处理技术。用来对非结构化数据
2、进行各种层次的理解。自然语言处理技术我要去清华大学,从西直门怎么走?学院路堵不堵?为什么我上个月已退了GPRS,这个月还扣我钱?服务:路线查询起点:西直门终点:清华大学服务:路况查询地点:学院路服务:客服投诉业务:GPRS诉求:错误扣费提纲非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术自然语言的概念什么是自然语言语言是人类交际的工具,是人类思维的载体人造语言:编程语言,包括C+, BASIC等 世界语自然语言:形式:口语、书面语、手语语种:汉语、英语、日语、法语语言学是研究语言规律的科学网络语言“昨晚,我的JJ带着他的青蛙BF到我家来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈
3、PMP,说她年轻的时候一定是个漂亮MM,那酱紫真是好BT,7456” JJ : 姐姐 酱紫:这样子 BF : boy friend青蛙:长相不好的男朋友 PMP:拍马屁MM:妹妹BT:变态7456:气死我了语言的构成语言词汇语法词熟语词法句法词素构形法构词法词组构造法造句法语言词汇语法词熟语词法词素句法构形法构词法词组构造法语言词汇语法词熟语词法词素自然语言处理的层次语音分析:从语音流中区分出一个一个声音单元-音素词法分析:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。语义分析:识别一句话所表达
4、的实际意义。语用分析:研究语言所在的外界环境对语言使用所产生的影响。语义与语用同一词语在不同的“语境”中具有不同“语义”例如:中国奥运史上十大女杰的精彩“转身” 病毒 计算机领域:计算机病毒医学领域:生物学病毒自然语言处理的概念自然语言处理( Natural Language Processing,NLP )也称自然语言理解或计算语言学;主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的发现、提取、存储、加工与传输。NLP是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科。计算语言学是从计算角度处理语言将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(
5、计算模型)加以表示。自然语言理解的困难自然语言具有多样性(不同语种、不同地域、不同人群)自然语言具有进化性自然语言的模糊性自然语言的歧义性 处理歧义问题是NLP的核心问题。自然语言处理过程就是各种歧义现象的消解过程。自然语言理解的困难机器能够理解人的语言吗?很难!什么是理解?结构主义:机器的理解机制与人相同(白盒)问题:人类语言理解机理尚未清楚功能主义:机器的表现与人相同即可(黑盒)图灵测试如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能理解自然语言的准则给计算机输入一段自然语言文本,如果计算机能问答(question-answering)机器能正确地回
6、答输入 文本中的有关问题;文摘生成(summarizing)机器有能力产生输入文本 的摘要;复述(paraphrase)机器用不同的词语和语句复述输入文本;翻译(translation)机器把一种语言(源语言)翻译为 另一种语言(目标语言)自然语言处理的研究目标弱人工智能目标:建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等;强人工智能目标:让用户能通过自然语言与计算机自由对话;自然语言处理的研究内容应用系统数字图书馆、电子商务、电子政务、远程教育、语言学习基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等应用技术
7、研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取资源建设语料库资源建设语言学知识库建设语言学家NLP研究者软件企业自然语言处理的应用NLP应用前景据统计,日常工作中80%的信息来源于语言,处理文本的需求在不断增长文本是人类知识最大的存储源,并且文本的数量在不停地增长电子邮件、新闻、网页、科技论文、 用户抱怨信NLP典型应用智能搜索引擎、自动问答、信息获取、语义网语音识别,文字识别、输入法机器翻译,自动文摘,跨语言检索文本分类、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪)、文本过滤自然语言处理的应用趋势智能接口功能:把现实世界中的信息送入电子世界
8、主要成果拼音输入、手写输入、语音合成、语音输入,手机输入知识处理功能:对于已进入电子世界中的信息进行加工处理获得知识知识经济的时代已经到来!知识就是力量知识就是财富百度爱问、百度文库、新浪爱问、VC知识库提纲非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术自然语言处理的基本技术词法分析句法分析语义分析词法分析概述词法分析目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词性词性 : 名词、动词、形容词、介词等词的构成 : 动宾, 动补, 偏正, 主谓如: 开学, 生病, 加深, 认清, 原油, 火热, 头痛, 人造自动分词: 汉语处理的难题之一用程
9、序从句子中切分出单词词法分析的分词歧义例:南京市长江大桥 南京|市长|江大桥 南京市|长江|大桥 例:我们研究所有东西我们-研究所-有-东西(交叉歧义)我们-研究-所有-东西把手放在桌上把-手-放在-桌上(组合歧义)把手-放在-桌上句法分析概述目的:分析句子结构, 找出词,短语在句中的相互关系以及各自的作用, 并用层次结构来加以表示S NP VP V NPPPMiss Smith put two books on this dining table.句法分析过程 一个句子是由各种不同的句子成分组成的。这些成分可以是单词、词组或从句。句子成分还可以按其作用分为主语、谓语、宾语、宾语补语、定语、状
10、语、表语等。这种关系可用一棵树来表示,如对句子: He wrote a book. 可用图示的树形结构来表示。 句子主语谓语动词宾语Hewroteabook句法分析过程 一个句子又是由若干个词类构成的,如名词、动词、代词、形容词等。若从句子的词类来考虑,一个句子也可用一棵树来表示,这种树称为句子的分析树,如图所示:句子代 词动词短语动 词名词短语Hewroteabook语义分析概述语义分析就是要识别一句话所表达的实际意义。即弄清楚“干什么了”,“谁干的”,“这个行为的原因和结果是什么”以及“这个行为发生的时间、地点及其所用的工具或方法”等。语义分析仅是在句法范围内根据词性信息来分析自然语言中句
11、子的文法结构的,由于它没有考虑句子本身的含义,也就不能排除像 The paper received the professor. 这种在语法结构上正确,但实际意义上错误的句子。语义分析过程John gave the book to SallyGAVE Agent: John Object: the book Source: John Goal: SallyAgent(施事):指行为的施动者;Object(受事):指行为作用的对象;Co-Agent(共施事):指行为施动者的合作者;Instrument(工具):指施事者或共施事者实现行为中所使用的对象;Time(时间):指行为发生的时间;Sour
12、ce(来源):指行为作用对象移出的位置;Goal(目标):指行为作用对象到达的位置;Trajectory(轨迹):指从来源到目标所经过的路径。习题非结构化数据和结构化数据有什么区别?什么是自然语言处理?词法分析、句法分析和语义分析的功能及区别?配套实验非结构化数据的处理分词工具使用分词程序编写句法分析实验高效的文本处理工具9、春去春又回,新桃换旧符。在那桃花盛开的地方,在这醉人芬芳的季节,愿你生活像春天一样阳光,心情像桃花一样美丽,日子像桃子一样甜蜜。2022/7/252022/7/25Monday, July 25, 202210、人的志向通常和他们的能力成正比例。2022/7/252022
13、/7/252022/7/257/25/2022 1:17:14 AM11、夫学须志也,才须学也,非学无以广才,非志无以成学。2022/7/252022/7/252022/7/25Jul-2225-Jul-2212、越是无能的人,越喜欢挑剔别人的错儿。2022/7/252022/7/252022/7/25Monday, July 25, 202213、志不立,天下无可成之事。2022/7/252022/7/252022/7/252022/7/257/25/202214、Thank you very much for taking me with you on that splendid outing to London. It was the first time that I had seen the Tower or any of the other famous sights. If Id gone alone, I couldnt have seen nearly as much, because I wouldnt have known my way about.。25 七月 20222022/7/252022
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度个人住房按揭贷款担保协议合同版
- 2025年度公司销售业务员协议书:智能穿戴设备销售代理协议
- 2025年度就业协议违约金赔偿与就业心理调适协议
- 2025年度绿色环保材料研发股东合作协议书
- 2025年度停车场停车费电子支付服务合同
- 2025年度建设银行个人住房贷款合同电子版
- 2025年度不锈钢栏杆项目风险评估与管理合同
- 农资装卸搬运服务协议
- 2025年度农村土地经营权转让与农业扶贫项目合作合同
- 二零二五年度土地承包种植与乡村旅游结合合同
- 山东省2022年高等教育专升本统一考试高等数学III试题及解析
- 现代厨房管理第一章第一节
- GB/T 694-2015化学试剂无水乙酸钠
- GB/T 6728-2017结构用冷弯空心型钢
- GB/T 6539-1997航空燃料与馏分燃料电导率测定法
- GB/T 28253-2012挤压丝锥
- GB/T 27689-2011无动力类游乐设施儿童滑梯
- 普通话教程教学课件第八单元词汇和语法的规范与辨正
- 康复治疗技术概论
- 教学课件:《连锁门店运营管理》(第二版)
- 高速综合检测列车轨道检测系统课件
评论
0/150
提交评论