人工智能应用基础 课件 项目6 自然语言处理_第1页
人工智能应用基础 课件 项目6 自然语言处理_第2页
人工智能应用基础 课件 项目6 自然语言处理_第3页
人工智能应用基础 课件 项目6 自然语言处理_第4页
人工智能应用基础 课件 项目6 自然语言处理_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能应用基础授课人:周老师

技术篇项目5 自然语言处理01项目描述05项目拓展02项目分析06项目小结03相关知识07项目练习04项目实施目录项目描述01文字是我们传递信息的基本媒介,在互联网高度发达的今天,文字形式的信息也以爆炸式的速度增长着。媒体一刻不停地在网络上发布着最新的新闻,人们随时随地通过手机谈论着身边的事情,每时每刻都有大量的文字从各种渠道生产出来。面对海量的文本数据,我们又该用什么样的人工智能技术对其进行分析与理解,从而节省人类有限的阅读时间与精力呢?5.1项目描述02项目分析为了使用人工智能技术理解文本内容以及发掘文本的潜在语义,需要建立庞大的语料库,将文字编码为机器能“阅读”的数据格式。当遇到大量的文本信息,诸如博客,新闻,书籍等大文档,怎么快速的从中理解关键信息就是自然语言处理可以发挥作用的地方。全面了解自然语言处理的关键技术,需要学习以下内容:1.

文本表示方法2.

文档分类3.机器翻译5.2项目分析03相关知识文本表示自然语言处理中的第一个关键步骤是将原始文本转换为计算机可以有效处理的格式。最基本的处理流程包括预处理、分词、编码三个步骤。5.3相关知识编码的过程①预处理:在处理文本之前,文本需要标准化以确保一致性,如删除标点符号。对于英文来说还需要统一字母大小写,或者一些缩写的形式,比如:“I’m”和“Iam”。②分词:预处理后的文本需要拆分为单词,也称为token。例如,句子“我爱北京天安门”,分词结果为:“我/爱/北京/天安门”,而英文句子的分词可以根据单词之间的空格进行拆分。③编码:由于计算机以数字为依据进行操作,每个token都会转换为数字表示。最简单的方法可以为每个token分配一个唯一的数字标识符。“我/正在/学习/人工智能”分配的数字分别为5,22,16,73。除了这个直接转换为数字的方法,也可以将token转换成一个多维向量的形式,叫做独热编码(one-hot)5.3相关知识独热编码基本思想是使用一个跟句子长度一样的向量来表示一个词,向量中只在该词出现的位置设置为1,其余全部为0。比如我们的句子一共有4个词{我,正在,学习,人工智能},那么向量长度则为4,“我”就表示为[1,0,0,0,],“正在”就表示为[0,1,0,0],“学习”就表示为[0,0,1,0],“人工智能”就表示为[0,0,0,1]。5.3相关知识词嵌入词嵌入将文本表示为一个词向量,是一种将词汇表中的每个单词映射到一个高维向量的技术。将独热编码改成词向量后,男人、女人、国王、皇后四个词语,映射到一个7维的空间中,每个词语都对应了一个7维的向量。这样,每个单词在这个空间内都有一个唯一的、稠密的实数向量作为表示,称为词向量。5.3相关知识词嵌入词向量可以发掘出词与词的类比关系,我们可以在词向量上做加法和减法,最后得到一些有趣的结果。比如:国王-男人+女人=皇后,国王-皇后=男人-女人。按照这种方法表示出:中国-北京=法国-巴黎,do-did=go–went等等。5.3相关知识词向量的应用假设小明要做一个性格测试,要从不同维度上给自己在0到100的范围打分。5.3相关知识词向量的应用小明认为自己比较外向,给自己在“外向-内向”的维度上在打了20分。这里0分是极度外向,100分是极度内向。然后标准化一下得分,使其保持在-1和1之间,得到的分数是-0.4,这样小明在“外向-内向”的维度由一个实数-0.4来表示,该维度可看成是描述性格的一个特征。5.3相关知识词向量的应用按照同样的方法在第二个特征上打分,先在0~100之间打分,再标准化后得到0.8。现在小明的性格可以由[-0.4,0.8]的二维向量来表示。5.3相关知识词向量的应用可以根据这个向量在前两个特征上的得分看对方是否和自己性格相似,这时候的性格只考虑了二个特征维度。5.3相关知识词向量的应用对性格特征完整打分后转换成4维向量,每一个维度上的数字就代表性格中某一特征的得分,计算机很容易能计算出这些向量之间的相似程度。如果将它运用到单词中,就是词嵌入。5.3相关知识词向量的应用选择一些英文单语如:cat,kitten,dog,houses,利用词嵌入生成多维的词向量。然后使用降维算法,将词向量降维至2维,从而在平面上将词向量绘制出来。在自然语言处理中,词嵌入把单词(word)转换成实数向量(vector),因此大家都也把词嵌入称为word2vec,用到的技术最多的也是神经网络。5.3相关知识词向量的应用当嵌入“学习”这个词,可以把“我”,“正在”,“学习”,“人工智能”这几个上下文单词一同输入神经网络,这样能够更好的表现“学习”在语句中的含义与位置。当然,输入到神经网络的是这些单词的编码,可以是简单的数字编码,也可以是独热编码,最终输出“学习”这个词的词向量。5.3相关知识文档主题分类对于多个单词组成的句子,我们利用词嵌入技术将句子中的单词生成对应的词向量后,将这些词向量拼接起来形成表示整个句子的向量。这个向量会比较长,可以再通过一个神经网络进行转换,来生成一个维度比较小的句子向量。5.3相关知识文档主题分类同样的原理,我们可以用句向量再组合成文档向量,然后用最终生成的文档向量来代表整个文档的嵌入表达。5.3相关知识情感倾向分析将情感倾向分析看作一个分类任务,将情感分为正面、负面和中性三类。英文句子:“Ilikethisphotoverymuch!”。该句子包含七个“元素”,采用词嵌入的方法将这个七个元素转换成词向量(标点符号也可以看作一个单词),假设每个“词向量”的维度被设定为5,那么整个句子可以表示成一个7行5列矩阵。5.3相关知识情感倾向分析形成的矩阵在计算机看来跟一张分辨率为7×5的图像是差不多的,而卷积神经网络刚好特别擅长图像分类,于是可以搭建一个卷积神经网络模型,并用大量标注过的文本数据将模型训练好,然后对这个矩阵进行分类,分类的结果设置为情感分析的三个类别:正面、负面、中性5.3相关知识机器翻译用于实现不同语言之间的自动转换,常见的模型有循环神经网络(RecurrentNeuralNetwork,RNN)模型和Transformer模型。常见的RNN模型结构,该模型有两个隐藏层。RNN是专门设计用来处理序列数据的深度学习模型,与传统的神经网络不同,RNN具有循环结构5.3相关知识机器翻译在翻译一个句子时,比如“知识就是力量”,这是一个文字序列,用RNN翻译时,会把输出结构又连接回输入,这种结构特别适合用来处理序列。我们把RNN的结构展开,查看它的结构。5.3相关知识机器翻译机器翻译前,要将句子进行编码(one-hot,或者是词向量),可以将编码这一步也用一个RNN实现,并统一到整个翻译架构中,形成RNN翻译框架。5.3相关知识Transformer注意力模型注意力机制的目标是计算当前单词与整个句子中其它单词的相关性,经过计算后,假设“知”与“识”的相关性得分为0.8,但是与“就”的相关性得分只为0.2,说明“知”与“识”更相关,通过这种方式就可以得到整个句子中每两个单词之间的关系。5.3相关知识Transformer注意力模型计算出“知”与其它所有词的相关性得分后,根据分数进行加权求和,生成编码e0,与“知”相关性得分越大的词,如“识”、“力”,“量”,在编码e0中所占的比重就越大。5.3相关知识Transformer注意力模型句子经过多次编码之后,会再通过解码器进行解码。解码器也是基于同样的注意力机制,并且是多层的。编码器负责将输入序列(源语言句子)转换为一个向量表示(上下文向量),这个表示包含了输入序列的所有信息。解码器则根据这个向量逐步生成输出序列(目标语言句子),从而实现翻译。5.3相关知识04项目实施打开EasyDL平台通过网址进入到百度智能云平台的文本情感倾向分析的主页面:/product/nlp_apply/sentiment_classify,里面有一个情感分析的演示功能。——“情感倾向分类”5.4项目实施输入文本在文本框中输入一段带有感情色彩的文字,如“人工智能很难学,但是非常有用,我很想学好”,在你输入文字的过程中,页面会实时的分析内容,我们可以在文本框下面查看情感倾向结果。——“情感倾向分类”5.4项目实施05项目拓展通过网址进入到百度智能云平台的地址信息识别的主页面:/product/nlp_apply/address,里面有一个地址识别的演示功能,可以帮我们抽取文本中的地址信息。输入一段地址信息,如“湖南省长沙市岳麓区含浦路139号张,然后点击“开始分析”按钮,即可在下方结果栏看到抽取的结果5.5项目拓展06项目小结在自然语言处理中,词嵌入表示是关键部分,可用神经网络模型生成词向量。在词向量中,单词每个维度用一个实数向量来表示。因此,通过向量来代表单词,可以将单词置于高维度的空间中,意义相近的单词在空间中倾向于聚集在一起,共同表达相似的意思。注意力机制是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。5.6项目小结07项目练习一、选择题

1. 将原始文本转换为计算机可以有效处理的格式,不包括下列哪个过程?(

A. 预处理B. 采样C. 分词D. 编码

2. 预处理后的文本需要拆分为单词,也称为什么?(

)A. token

B. 样本C. wordD. 分词3. 词嵌入技术的主要作用是什么?(

)A. 将单词转换为高维向量B. 将句子转换为图像C. 统计单词数量D. 将文本转换为二进制代码5.7项目练习一、选择题

4. 句子由多个单词组成,可以将句子中单词的词向量进行拼接,形成什么?(

A. 文档B. 句子C. 主题D. 句向量

5. 在自然语言处理中,情感分析的主要目的是什么?(

)A. 确定单词在句子中的位置B. 提取句子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论