深度学习技术应用课件:使用Keras和Tensorflow Hub对电影评论进行文本分类_第1页
深度学习技术应用课件:使用Keras和Tensorflow Hub对电影评论进行文本分类_第2页
深度学习技术应用课件:使用Keras和Tensorflow Hub对电影评论进行文本分类_第3页
深度学习技术应用课件:使用Keras和Tensorflow Hub对电影评论进行文本分类_第4页
深度学习技术应用课件:使用Keras和Tensorflow Hub对电影评论进行文本分类_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TensorFlow实现文本分类深度学习应用技术使用Keras和TensorflowHub对电影评论进行文本分类职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

使用Keras和TensorflowHub对电影评论进行文本分类了解迁移学习相关知识了解TensorflowHub了解文本嵌入及Embedding能够掌握构建含预训练层的模型的方法;能够使用Keras构建模型进行文本分类;能够掌握TensorFlowHub模型训练过程;能够掌握评估模型准确率的方法并进行预测。职业能力目标01知识目标技能目标职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

使用Keras和TensorflowHub对电影评论进行文本分类

对下载电影评论数据集进行预处理,使用Keras进行预训练模型构建、模型训练以及评估。任务描述任务要求下载IMDB数据集并对其进行预处理;下载预训练模型并进行修改以完成模型训练;完成模型评估,得到80%以上准确率。任务描述与要求02职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

使用Keras和TensorflowHub对电影评论进行文本分类任务分析如何使用TensorflowHub进行模型训练?如何进行文本分类?任务分析与计划03任务计划表通过上面的思考,你是否对本任务要完成的工作有所了解?让我们一起来制订完成本次任务的实施计划吧!任务分析与计划03项目名称TensorFlow实现文本分类任务名称使用Keras和TensorflowHub对电影评论进行文本分类计划方式自主设计计划要求请用8个计划步骤来完整描述出如何完成本次任务序号任务计划1

2

3

4

5

6

7

8职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

使用Keras和TensorflowHub对电影评论进行文本分类TensorflowHub204知识储备迁移学习1文本嵌入3迁移学习概念04

迁移学习是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。人在实际生活中有很多迁移学习,比如学会骑自行车,就比较容易学摩托车,学会了C语言,在学一些其它编程语言会简单很多。那么机器是否能够像人类一样举一反三呢?迁移学习意义04(1)站在巨人的肩膀上:前人花很大精力训练出来的模型在大概率上会比你自己从零开始搭的模型要强悍,没有必要重复造轮子。(2)训练成本可以很低:如果采用导出特征向量的方法进行迁移学习,后期的训练成本非常低,用CPU都完全无压力,没有深度学习机器也可以做。(3)适用于小数据集:数据集本身很小的情况,从头训练具有几千万参数的大型神经网络是不现实的,因为越大的模型对数据量的要求越大,过拟合无法避免。这时候如果还想用上大型神经网络的超强特征提取能力,只能靠迁移学习。04迁移学习方式010203TransferLearning:冻结预训练模型的全部卷积层,只训练自己定制的全连接层。ExtractFeatureVector:先计算出预训练模型的卷积层对所有训练和测试数据的特征向量,然后抛开预训练模型,只训练自己定制的简配版全连接网络。Fine-tune:冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层。04迁移学习的基本方法010203样本迁移特征迁移模型迁移TensorflowHub204知识储备迁移学习1文本嵌入3204TensorflowHub在机器学习中,模型训练需要大量时间与计算资源。为了提升资源利用与效率,优化模型训练表现,创建了TensorFlowHub,促进机器学习中可复用模型的再利用——发布、探索与使用的代码库。这个模型库中包含了独立的TensorFlow计算图、权重及数据,可以将TensorFlow的预训练模型片段重用在新的任务上。只需几行代码即可重复使用经过训练的模型,例如BERT和FasterR-CNN。TensorflowHub204知识储备迁移学习1文本嵌入32

文本嵌入(TextEmbeddings)是字符串的实值向量表示形式。每个单词构建一个稠密的向量,这样做是以便它与出现在相似上下文中的单词向量相似。

对于大多数深度NLP任务而言,词嵌入被认为是一个很好的起点。它们允许深度学习在较小的数据集上有效,通常是深度学习体系结构的第一批输入,也是NLP中最流行的迁移学习方式。

词嵌入中最流行的方法是Google的Word2vec和Stanford的GloVe。文本嵌入04Embedding介绍04

输入模型的分类数是来自有限选择集的一个或多个离散项的输入特征。分类数据通过稀疏张量(sparsetensors)表示最有效,稀疏张量是具有非常少的非零元素的张量。

所以需要将单词表示成向量(张量)。最简单的方法是为词汇表中的每个单词定义一个带有节点的巨型输入层,或者至少为数据中出现的每个单词定义一个节点。

向量可能包含更大块文本中的单词计数。这被称为“词袋(bagofwords)”表示。职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

使用Keras和TensorflowHub对电影评论进行文本分类05任务实施数据集准备21构建模型3模型训练与评估4环境配置05安装所需要的依赖包:tensorflow、tensorflow-hub、tensorflow-datasets、tfds-nightly、matplotlib等。1、安装依赖包环境配置05导入所需要的依赖包2、导入依赖包环境配置05任务实施数据集准备2环境配置1构建模型3模型训练与评估4051、数据集下载下载IMDB数据集并将数据集分成训练集、验证集和测试集。数据集准备05数据集准备tfds.load(name,split=None,data_dir=None,download=True,as_supervised=False):•

name:数据集的名字。•

split:对数据集切分。•

data_dir:数据的位置或者数据下载的位置。•

download:是否下载。•

as_supervised:返回元组(默认返回时字典的形式的)。052、查看数据每个样本都是一个代表电影评论的句子和一个相应的标签。句子未经过任何预处理。标签是一个整数值(0或1),其中0表示负面评价,而1表示正面评价。数据集准备05任务实施数据集准备2环境配置1构建模型3模型训练与评估4051、模型载入神经网络由堆叠的层来构建,这需要从三个主要方面来进行体系结构决策:构建模型如何表示文本?模型里有多少层?每个层里有多少隐层单元?05构建模型本示例中,输入数据由句子组成。预测的标签为0或1。表示文本的一种方式是将句子转换为嵌入向量。使用一个预训练文本嵌入向量作为首层,这将具有三个优点:不必担心文本预处理可以从迁移学习中受益嵌入具有固定长度,更易于处理052、层按顺序堆叠以构建模型第一层是TensorFlowHub层。构建模型此层使用预训练的SaveModel将句子映射到其嵌入向量。使用的预训练文本嵌入向量模型google/nnlm-en-dim50/2可将句子拆分为词例,嵌入每个词例,然后组合嵌入向量。05构建模型生成的维度是:(num_examples,embedding_dimension)。对于此NNLM模型,embedding_dimension是50。该定长输出向量通过一个有16个隐层单元的全连接层(Dense)进行管道传输。最后一层与单个输出结点紧密相连。使用Sigmoid激活函数,其函数值为介于0与1之间的浮点数,表示概率或置信水平。053、编译模型一个模型需要一个损失函数和一个优化器来训练:构建模型

这是二元分类问题,并且模型输出logit(具有线性激活的单一单元层),因此,将使用binary_crossentropy损失函数。05构建模型tf.keras.Mpile(optimizer,loss,metrics)optimizer:模型训练使用的优化器,可以从tf.keras.optimizers中选择。loss:模型优化时使用的损失值类型,可以从tf.keras.losses中选择。metrics:训练过程中返回的矩阵评估指标,可以从tf.keras.metrics中选择。05任务实施数据集准备2环境配置1构建模型3模型训练与评估4051、训练模型一个模型需要一个损失函数和一个优化器来训练:模型训练与评估

这是二元分类问题,并且模型输出logit(具有线性激活的单一单元层),因此,将使用binary_crossentropy损失函数。05构建模型tf.keras.Model.fit(x,y,batch_size,epochs,validation_data)x:训练集数组。y:训练集标签数组。batch_size:批处理数量。epochs:迭代次数。validation_data:验证集数据和标签数组。052、评估模型查看模型的表现如何,将返回两个值。模型训练与评估

损失值(loss)(一个表示误差的数字,值越低越好)与准确率(accuracy)。职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

使用Keras和TensorflowHub对电影评论进行文本分类任务检查与评价061、请参照评价标准完成自评和对其他小组的互评。2、各组请代表分析本组任务实施经验。项目名称100TensorFlow实现文本分类任务名称使用Keras和TensorflowHub对电影评论进行文本分类评价方式可采用自评、互评、老师评价等方式说明主要评价学生在项目学习过程中的操作技能、理论知识、学习态度、课堂表现、学习能力等

评价内容与评价标准序号评价内容评价标准分值得分1理论知识(20%)了解迁移学习的相关知识,包括概念、方法和种类;了解TensorflowHub;了解文本嵌入及Embedding的介绍。(20分)20分

2专业技能(40%)环境配置(5%)正确的安装依赖包(3分)5分

正确导入依赖包(2分)3数据集准备(10%)正确下载IMDB数据集(2分)10分

正确的划分数据集(3分)正确的划分训练集、验证集、测试集(5分)4构建模型(15%)正确载入预训练嵌入层(5分)15分

正确层按顺序堆叠以构建模型(5分)正确编译模型(5分)5模型训练与评估(10分)正确训练模型(5分)10分正确评估模型(5分)6核心素养(20%)具有良好的自主学习能力、分析解决问题的能力、整个任务过程中有指导他人(20分)20分

具有较好的学习能力和分析解决问题的能力,任务过程中无指导他人(15分)能够主动学习并收集信息,有请教他人进行解决问题的能力(10分)不主动学习(0分)7课堂纪律(20%)设备无损坏、设备摆放整齐、工位区域内保持整洁、无干扰课堂秩序(20分)20分

设备无损坏、无干扰课堂秩序(15分)无干扰课堂秩序(10分)干扰课堂秩序(0分)总得分职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论