版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习技术与应用DeepLearningTechnologyandApplicationcontents目录第十三章自然语言处理01.
Keras自然语言处理Kerasnaturallanguageprocessing02.
LSTM方法进行模型建立和预测ModelestablishmentandpredictionbyLSTMmethodPART1Keras自然语言处理01.Keras自然语言处理KerasnaturallanguageprocessingKeras自然语言处理什么是自然语言处理?自然语言处理是人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域,是处理计算机与人类之间的自然语言交互。Keras在自然语言处理的主要过程是:读取数据集建立Token使用Token将影评文字转成数字列表截长补短让所有数字列表长度都为380Embedding层将数字列表换成向量列表将向量列表送入深度学习模型进行训练01.Keras自然语言处理KerasnaturallanguageprocessingKeras自然语言处理建立Token:因为深度学习模型只能接受数字,在使用前必须将文字转成数字列表。如何实现转换数字列表呢?就像要将一种语言翻译成另外一种语言时,必须要有字典。转换
建立token后,会出现一个单词对应一个数字(单词和索引):{('the',1),('and',2),('a',3),('of'),4...}
如:THEISA1,6,3截长补短
由于文字的数字都不固定,有些可能是200字,有些可能是490字。这样一来转换成数字列表的数字也不固定,所以要做处理。这里将数字列表的长度都设置为380,长的去掉,短的补上0。数字列表转成向量列表除了知道文字的数字列表以为,还需要理解文字的语义。所以需要将数字列表转成空间向量,向量夹角和方向越接近,就表示词的意思越接近。Word2vec是一组用来产生词向量的相关模型,模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析1.创建项⽬⽂件(dlwork)jingyudeMacBook-Pro:~jingyuyan$mkdirproject09#进入项目文件夹后,创建dataset文件夹(dlwork)jingyudeMacBook-Pro:~jingyuyan$cdproject09(dlwork)jingyudeMacBook-Pro:project09jingyuyan$mkdirdataset2.下载IMDb数据集将数据集从/~amaas/data/sentiment/aclImdb_v1.tar.gz下载到dataset中。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析3.解压IMDb数据集IMDb数据集共有50000项“⽂字影评”,分别有25000项训练集和25000项测试集,其中每⼀项数据都标有“正⾯评价”和“负⾯评价”。4.读取数据01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析4.读取数据数据集是从互联⽹上收集的信息,需要对HTML的标签做⼀定的处理,读取imdbsimpleutil模块,使⽤read_files⽂件读取⽂件夹⽬录并对数据进⾏格式化的读取。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析4.读取数据读取数据后,随意查看⼀项数据,为了⽅便查看结果,我们定义好格式化字典。随机查看⼀项数据和数据的结果。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析5.建⽴Token使⽤Tokenizer建⽴Token,输⼊num_words为单词数量,我们这边选择使⽤2000个单词,建⽴拥有2000个单词的字典。并且读取所有训练集中的影评,并将token字典⾥的单词按照出现次数进⾏排序,排在前2000的单词会被列⼊字典当中。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析5.建⽴Token
可以看到the、and、a等这些单词是影评当中出现次数最⾼的。查看转换后的随机⼀项影评⽂字与数字序列01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析6.格式化数据操作使⽤截⻓补短的操作,数字列表总⻓度设置为100,随机选择⼀条影评,字数⻓度为78,经过处理后⻓度为100,若达不到100的,会在前⾯补全0。再次随机选择⼀条影评,字数⻓度为385,经过处理后⻓度为100,超出的部分会被截取掉。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测需要搭建多层感知器加⼊嵌⼊层的形式训练模型,这⾥和以往不同的是加⼊了嵌⼊层,可以将数字列表转换成向量列表。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测需要搭建多层感知器加⼊嵌⼊层的形式训练模型,这⾥和以往不同的是加⼊了嵌⼊层,可以将数字列表转换成向量列表。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测开始训练,验证集划分比例设置为0.2,训练周期设置为10次,单批次数据量为100。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测评估模型准确度。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测评估模型准确度。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测开始预测,把训练好的模型传⼊刚刚划分好的测试集数据进⾏预测。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测开始预测,把训练好的模型传⼊刚刚划分好的测试集数据进⾏预测。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测尝试加⼤⽂字处理的规模,修改预处理数据集参数⽣成新的数据集。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测尝试加⼤⽂字处理的规模,修改预处理数据集参数⽣成新的数据集。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析7.建⽴多层感知器进⾏预测查看评估模型准确度进行预测并显示预测结果01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析8.使⽤RNN模型进⾏模型建⽴和预测将修改上一节定义的模型,使用循环神经网络(recurrentneuralnetwork,RNN)。循环神经网络是一种非常流行的模型,它在自然语言处理领域中最先被使用,已经被广泛用于语音识别、语义分析、情感分析、语言翻译、语言建模等领域。循环神经网络与卷积神经网络相结合的模型已用于计算机视觉问题中图像内容识别。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析8.使⽤RNN模型进⾏模型建⽴和预测01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析8.使⽤RNN模型进⾏模型建⽴和预测01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析8.使⽤RNN模型进⾏模型建⽴和预测加入嵌入层,输出维数为32,输入维数为4000,代表之前的那4000个单词字典,数字列表为400,加入Dropout避免过度拟合,每次迭代训练随机丢弃35%神经元。01.Keras自然语言处理Kerasnaturallanguageprocessing构建项目——IMDb网络电影数据集分析8.使⽤RNN模型进⾏模型建⽴和预测开始训练使⽤RNN模型准确率⼤约为0.84,误差⽐之前两次实验更低了。PART2LSTM方法进行模型建立和预测02.LSTM方法进行模型建立和预测ModelestablishmentandpredictionbyLSTMmethod使⽤LSTM模型进⾏模型建⽴和预测长短期记忆(LongShortTermMemory,LSTM)即我们所称呼的LSTM,是为了解决长期以来问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构。尝试搭建LSTM模型,使用上一节的数据继续作为本次的实验数据集:fromkeras.preprocessingimportsequencefromkeras.preprocessing.textimportTokenizerfromimdb_simple_utilimportread_filesimportosimportnumpyasnpifnotos.path.exists('./dataset/aclImdb'):
tfile=tarfile.open('./dataset/aclImdb_v1.tar.gz','r:gz')
result=tfile.extractall('./dataset/')NUM_WORDS=4000MAXLEN=400aclImdbpath='./dataset/aclImdb/'y_train,train_text=read_files('train',aclImdbpath)y_test,test_text=read_files('test',aclImdbpath)token=Tokenizer(num_words=NUM_WORDS)token.fit_on_texts(train_text)x_train_seq=token.t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 副食品购销合同
- 大型会议场地租赁合同模板
- 物资采购合同书样本
- 2025生猪肉买卖交易合同
- 2025商品房买卖合同(现售)示范文本
- 2025建筑工程合同价款的确定与调整
- 2025装修建筑承包合同书范例
- 2025委托拍卖合同(网上竞价)范文
- 2025合同模板加盟连锁合同书范本
- 2025年资产移交合同范本
- 中央2025年公安部部分直属事业单位招聘84人笔试历年参考题库附带答案详解
- 三年级数学(上)计算题专项练习附答案
- 中医诊疗方案肾病科
- 2025年安庆港华燃气限公司招聘工作人员14人高频重点提升(共500题)附带答案详解
- 2025年供电所所长个人工作总结(2篇)
- 玩具有害物质风险评估-洞察分析
- 春节节后复工全员安全意识提升及安全知识培训
- 2024年3月天津第一次高考英语试卷真题答案解析(精校打印)
- 2024年河南省公务员录用考试《行测》真题及答案解析
- 2023年上海铁路局集团有限公司招聘笔试真题
- 贵州省贵阳市2023-2024学年高一上学期期末考试 物理 含解析
评论
0/150
提交评论