版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、深度学习读书笔记【篇一:深度学习文字识别论文综述】 深度学习文字识别论文综述 深度学习文字识别论文综述 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无监督学习的一种,深度学习采用了神经网络的分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻的节点之间有连接,同一层以及跨层节点之间相互无连接。深度学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。近年来,谷歌、微软、百度等拥有大数据的高科技公司相继投入
2、大量资源进行深度学习技术研发,在语音、图像、自然语言、在线广告等领域取得显著进展。从对实际应用的贡献来说,深度学习可能是机器学习领域最近这十年来最成功的研究方向。深度学习模型不仅大幅提高了图像识别的精度,同时也避免了需要消耗大量的时间进行人工特征提取的工作,使得在线运算效率大大提升。 深度学习用于文字定位 论文thai text localization in natural scene images using convolutional neural network主要采用cnn的方法进行自然场景中的文本分类,并根据泰字的特点进行分类后的后处理,得到更加精确的定位效果。如图1所示为cnn网
3、络模型,cnn网络由一个输入层,两个卷积层和两个下采样层以及一个全连接层组成,输出为一个二分类向量,即文本和非文本。 图1 cnn网络模型 该文主要思路为将图像切块后进行训练,采用人工标注样本的方法,使得网络具有识别文本和非文本的能力。由于样本数量较少,文中采用了根据已有字体生成训练数据集的方法,包括对字体随机添加背景、调整字体风格以及应用滤波器。如图2为生成的泰字样本,文中在标签的过程中将半个字或者整个字都标记为文本,增加了网络对文字的识别率。 图2训练样本集 在使用生成好的网络进行文字定位的过程中,论文采用的编组方法结合了泰字的特点,如图3为对图像文字的初步定位,其中被标记的区域被网络识别
4、为文字。 图3图像文字的初步定位 论文后期对标记的矩形小框区域进行了整合,结合了泰字本身的特点,如图图4所示为原始图像文字,图5为对识别结果进行的后处理,其中a,b,c将文字分为上、中、下三个部分。文中指出泰字一般的最高不超过中心线b的50%,采用这个规律进行了文字编组,得到如图6的编组结果,其中白色区域为编组结果。 图4原始文本图像 图5 后处理结果 图6 编组结果 同时论文也考虑了泰字的其他特点,如中心线与上边界和下边界的夹角不超过45度,根据这个规律又对编组结果进行调整。如图7所示,当超过夹角限制是进行了微调。如图8与图9为论文的最终定位结果。 图7 泰字编组调整 图8定位结果 图9定位
5、结果 论文reading numbers in natural scene images with convolutional neural networks结合隐马尔可夫模型 (hidden markov model,hmm)和深度学习方法来实现对自然场景中的数字进行定位和识别。首先采用cnn方法对原始的数字图像进行特征提取,将提取的结果输入至hmm模型进而得到数字的识别结果。如图10为论文提出的识别方法模型。图10 文字识别模型 论文为了实现直接在原始的图像上进行识别,采用了动态窗口滑动的方法,提取一系列的图像块。如图11为论文采用的cnn结构,包括4个卷积层,其中3个卷积层都有相邻的下采
6、样层,每个卷积层都包含一个本地归一化,共2个全连接层。网络的训练首先通过滑动窗口提取图像的骨架,然后采用主成分分析pca方法进行降维,然后将得到的主要特征作为gmm-hmm模型的输入,采用viterbi 译码对gmm-hmm的输出进行处理,最后采用cnn对生成的数据进行训练,数据的标签自动生成不需要人工参与。 图11cnn网络结构模型 论文首先采用cnn对数字进行分类,其中分类数为11即数字 0,1,2,3,4,5,6,7,8,9,以及标签10代表非数字,论文采用hmm 模型对分类的【篇二:深度学习的9篇标志性论文】 a fast learning algorithm for deep bel
7、ief nets (2006) - 首 次提出layerwise greedy pretraining的方法,开创deep learning方向。 layerwise pretraining的restricted boltzmann machine (rbm)堆叠起来构成 deep belief network (dbn),其中训练最高层的rbm时加入了label。之后对整个dbn进行fine-tuning。在 mnist数据集上测试没有严重过拟合,得到了比neural network (nn)更低的test error。 reducing the dimensionality of data
8、 with neural networks (2006) - 提 出deep autoencoder,作为数据降维方法发在science上。autoencoder是一类通过最小化函数集对训练集数据的重构误差,自 适应地编解码训练数据的算法。deep autoencoder模型用contrastive divergence (cd)算法逐层训练重构输入数据 的rbm,堆叠在一起fine-tuning最小化重构误差。作为非线性降维方法在图像和文本降维实验中明显优于传统方法。 learning deep architectures for ai (2009) - bengio关于deep learn
9、ing的tutorial,从研究背景到rbm和cd再到数种deep learning算法都有详细介绍。还有丰富的reference。于是也有个缺点就是太长了。 a practical guide to training restricted boltzmann machines (2010) - 如果想要自己实现deep learning算法,这篇是不得不看的。我曾经试过自己写但是效果很不好,后来看到它才知道算法实现中还有很多重要的细节。对照网上的代码看也能更好地理解代码。 greedy layer-wise training of deep networks (2007) - 对dbn的一些
10、扩展,比如应用于实值输入等。根据实验提出了对deep learning的performance的一种解释。 why does unsupervised pre-training help deep learning? (2010) - 总结了对deep learning的pretraining作用的两种解释:regularization和help optimization。设计实验验证两种因素的作用。 autoencoders, unsupervised learning, and deep architectures (2011) - 从理论角度对不同的autoencoders作了统一分析的
11、尝试。 on the quantitative analysis of deep belief networks (2008) - 用annealed importance sampling (ais)给出一种估计rbm的partition function的方法,从而能够估算p(x)以及比较不同的dbn。 training restricted boltzmann machines using approximations to the likelihood gradient (2008) - 提 出用persistent contrastive divergence (pcd)算法逼近 m
12、aximum likelihood estimation的目标,从而可以得到更好的generative model。传统cd算法并不是以最大化 p(x)为目标的,另有paper证明cd算法不对应任何优化目标函数【篇三:慕课读书笔记】 读书笔记 在认真研读了慕课与高效课堂两本书后,我内心引发深深地思考。深度学习的灵魂是让孩子成为学习的主人,不能以教师的教代替学生的学,充分尊重学生,因材施教,注意每个孩子的个性化教育,而不是如工业产品一样用统一的尺度去衡量孩子,旨在推进孩子的自主学习。 身为教师的我们,习惯于用成人的思维去看待孩子,殊不知这完全违背了教育发展的规律,因为我们忽略了孩子们的体验。学生
13、的学习发生在学生身上,只有我们的教和孩子的经历架起一道桥梁,孩子们方才猛然醒悟,否则无论我们多么费尽心力讲解,都是无效的。一个班级了50个孩子,他们拥有自己独特的学习过程,这个过程是他们自己进行知识创造的过程,我们需要根据他们的实际情况进行引导。如同学习开车,教练认为简简单单的倒库动作,对于许多许多学员来说理解多有不同。只有在实践中反复操作,才能真正领悟其中的精髓。 学习亦是如此,任何试图减少孩子出错的想法和做法都是错误的,孩子们只有在自己的动手学习、动脑思考过程中,方才可以生成属于自己的东西,这个东西才能转化为知识。教师的工作是引领孩子自动地主动地学习,这才叫深度学习。道德课堂要求我们要做一个有道德的教师,其主旨就在于充分尊重学生,按照教育的自然规律引导 孩子学习人的行为准则。教育的作用在于唤醒,而不是强加于人。教育是基于人的行为,只有充分点燃孩子内心向上的火花,孩子才会有更为大的突破与提升。 我们生活在一个日新月异的时代,信息技术的发展使得知识更新闪电进行。孩子们的学习资源不再是一本教科书而已,他们可以熟练的通过互联网获取更为广阔的学习资源。过去的教材是学生的世界,而今天世界是学生的教材。微课、慕课和翻转课堂在最近几年几乎已
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村某年上半年工作总结和下半年工作计划
- 国有企业公司工会工作总结及工作计划
- 2024年模具工作总结报告 模具工作总结与计划
- 商业计划书是直邮读物商业计划书
- 高中实验教学计划
- 信息化与工业化深度融合实施方案编制调研工作计划
- 八年级上册体育教学计划
- 2024年农村小学班主任工作计划
- 铜仁市万山区2023年八年级下学期《数学》期中试题与参考答案
- 乡镇农业工作总结及工作计划
- 幼儿园故事课件:《小马过河》
- 注塑机设备点检与保养作业指导书
- 《无人机载荷与行业应用》 课件全套 第1-6章 无人机任务载荷系统概述- 未来展望与挑战
- 品质部人员配置规划(整理)
- 高中化学-高三化学试卷讲评课教学设计学情分析教材分析课后反思
- 第四章节重力坝
- 维克多高中英语3500词汇
- 2015团章考试试题与答案(一)
- 1000个人名随机生成
- 中层干部竞聘演讲稿经典范文
- 最近国内外新闻大事ppt
评论
0/150
提交评论