



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、序列识别问题的聚合交叉熵损失函数(AC损失函数)文本识别算法介绍文本识别问题是一个经典的序列预测问题,他输入一个有序列信息的三维图像,输出一个预测序列。常用的文本识别框架为CNN+BiLSTM+CTC,和CNN+BiLSTM+Attention。经过CNN+BiLSTM将三维图像提取特征,得到2维的特征序列(T*C),然后通过CTC或Attention将特征序列转化为预测结果。给定一张来自于训练集Q的图像I,它的文本标签S,文本所包含的类别1,2,|C|,这张图像文本序列的长度L,通常的文本识别问题的损失函数为:E刀为L(w)=-(i,S)eQlog(P(S|I;w)=-(i,S)eQi=il
2、og(P(Sz|l,I;w)其中P(Si|l,I;w)表示在被预测序列的第|个字符预测结果为Si的条件概率。对于上述公式的计算非常困难,因为得到的文本特征与标签文本序列存在不对齐的问题,实际上不能直接使用第二个式子。CTC和Attention分别从两个方面解决了这个问题。CTC是将得到的特征序列每一个时刻都预测后直接去掉其中的空格,仅得到剩下的预测字符序列,然后将这个字符序列与标签序列计算交叉熵损失。但是他的关键在于如何反向传播,CTC通过隐马尔科夫模型中的前向后向算法从标签序列倒推回可能得到这个标签的预测序列,这些序列的概率权值是不同的,然后再进行后续的反向传播CTC层本身是没有变量的,因此
3、他训练的目的是使特征提取时能够学会文本序列的排布信息特征。它的损失计算是基于第一个公式E-(l,S)eQlog(P(S11;w)“Attention是直接增加了一个可训练的解码层,将非常长的特征序列解码为长的不同的预测文本。这相当于是将CTC中的前向反向算法替换为一种参数可训练的注意力机制。通过训练能够得到要预测某个位置的文本字符,需要从哪些特征中得到。相当于Attention层本身学习到了一种文本的排布信息特征。它的损失计算是基于第二个公式(i,s)gQ=1log(P(Sl11,I;w)ACE交叉熵损失本文提出了一种新颖的损失函数,这个损失函数不考虑序列中字符间的顺序,仅仅考虑一个字符串中某
4、个类别的字符出现的次数我们在没有Attention机制的网络中直接计算E为(厶脈Q1=1log(PSIl,I;w)是一种错误的做法,因为存在字符序列与特征序列的错位不对齐。基于此,文中提出了一种不需要考虑对齐的方案,即不考虑特征的顺序仅仅计算各类别字符出现次数。刀为刀:L(w)=(i,s)gQ1=1log(P(Sll,I;w)a-(i,S)eqk=ilog(P(Nk|k,I;w)其中|C|表示类别数,P(Nk|k,I;w)表示在图像I的预测结果中,第k个类别的字符出现的次数等于标签中给定次数N的条件概率。例如标签字符串为students,则损失函数的目标是,使识别结果的s,t出现两次,其他类出
5、现一次(包括空白类)。基于回归的ACE损失函数我们通过CNN+BiLSTM得到的特征序列维度为(T*K),其中T为序列长度,K为字符类别数,我们定义输出的特征序列张量为Y,第t个时刻的特征向量为阶,第t个时刻第k个类别的预测概率为曲。整个字符序列中所有位置第k个类别出现的总概率为yk=刀:iyk我们定义yk与N的平方损失(回归损失):maxk=ilog(P(Nk|k,I;w)Omink=i(Nkyj2数据集的损失函数表示为:L(w)=2(i,s)Qk=i(Nkyk)2T表示预测文本长度,|S|表示标签文本长度,我们用(T-|S|)表示字符串中空白字符的个数N=T|S|。ACE回归损失梯度首先损
6、失L(w)对输出yk求导dL(w)dL(w)加dyk=Wkdyk=(ykN)=(t=ykNk其中yk由softmax层得到,eaiyk=匸jeayi对ai求导得到dykdai=yi(&ij-yj)其中当i=j时,6ij=1,否则6j=0最终ACE回归损失梯度表示为:dL(I,S)dL(I,S)d认d叫=k=1dykdak=k=1(ykNk*yk(&kk逼=(ykNj*yk(1yk)k=hk=k(ykNk*认ytk回归损失的梯度消失上面的回归损失函数存在着梯度消失问题,在训练开始的几个阶段,我们的输出对每个类别都有着平均的输出,即yk=1/CI。当我们的类别数c比较大时,例如汉字识别,类别数高达
7、数千,此时yk的数量级是10-3,上面公式中,数量级大约是yk2,即106,即相当小的梯度更新,完全无法训练。即使我们的类别数并没有那么多,但是我们的梯度是yk2,它再对前面的层求导,每一次都会乘yk,即梯度将会以指数级减小,梯度消失问题。基于交叉熵的C损失函数我们将网络预测的各类别字符数量当作一个概率分布,yk=yk/T,将标签各类别字符数量当作另一个概率分布,Nk=Nk/T。我们使用交叉熵函数表示预测结果分布和标签分布的相似程度:L(I,S)=-k=1Nk*lnyk这个损失函数对softmax之前的Iogitsak求梯度:dL(Is)dl(i,S)dykdyNk11ykdak=k=1dyk
8、dykdak=k=i-yk*t*yk(%-yk)=-t*k=1Nk*yk*(%-yk交叉熵损失yt在上述公式中,N是常数,(6kkyk是yk的线性函数,损失函数主要取决于yk,我们希望他尽可能是常数级的。“在初始训练阶段,不同时刻t,不同类别k均匀分布,此时Tytkyk=yklT=t=1yk/Tayk,y=1“在随后的训练阶段,不同时刻t,某一个类别k的概率占主要部分,而其他类别非常小,此时Tytkyk=yk/T=t=1ytk/Taytk/T,yk=T可以看到这个值基本上是1T的常量。2维预测问题很多的文本呈二维的分布在图片上,例如一些不规则行文本,弯曲,仿射,多行文本等。这些问题使用传统的方
9、法无法有效解决,在这里我们可以使用ACE损失函数解决ACE损失函数可以很自然的应用于这些文本识别,因为他并不考虑文本的顺序,而仅仅考虑文本出现的次数或者频率,这在2维图像上也是可以计算的。假设输出的2维预测图高度H,宽度W(经过CNN,不等于原图大小),第h行第w列的预测输出表示为就如,我们定义yk亍W2-w=1yk=W*H=W*H损失函数表示为L(I,S)=-k=1Nk*lnyk=-k=1H*W*lnW*H我们直接将原始的2维预测拉直为1维预测结果,并计算损失。实验评估本文在自然场景文本识别,离线手写字符识别,日常场景目标计数三个任务中进行实验评估。我们分别使用1维和2维方法进行预测,得到的
10、预测结果分别为H的特征序列和W*H的特征图。场景文本识别本文使用两种类型的文本识别数据集,规则文本如iiit5k,SVT,ICDAR2003,ICDAR2013,不规则文本如ICDAR2015,CUTE80,SVT-Perspective。规则数据集用于研究ACE损失函数1维预测,不规则数据集用于研究2维预测。实现细节在规则数据集上的1维文本识别基于网络CRNN,在synth80k的800万合成数据集上训练。在不规则数据集上的2维文本识别基于网络ResNet-101,convl被替换为3*3,步长1,conv4_x作为输出,训练数据集来自800万合成数据集和400万张从8万大图中裁剪下来的包含
11、文本的数据集。所有的输入图像都被resize和padding到(96,100)大小,并且输出预测图大小(12,13),相当于8倍解析度下采样。我们然后将(12,13)的2维预测图拉直为12x13的一维预测序列,并使用ACE损失函数。实验结果回归损失与交叉熵损失我们对规则文本进行1维预测,分别使用ACE回归损失与交叉熵损失。回归损失存在梯度消失的问题,前面的一些层参数无法训练到,虽然回归损失能够收敛,但是收敛最终的单词错误率与字符错误率都非常高;交叉熵损失能够最终收敛到一个非常高的水平。与原始的CRNN网络相比较,表现有略微的提升。不规则文本我们在不规则文本上使用2维预测,仅仅采用ResNet-101的CNN网络,没有加入LSTM等序列信息。最终我们发现这个模型在CUTE和ICDAR15数据集上有非常好的效果,尤其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高端医用耗材项目合作计划书
- 2025年甘肃省平凉市灵台县梁原中学中考模拟化学试题(含答案)
- 怎制作系统操作指引
- 企业管理责任与担当
- 中考数学高频考点专项练习:专题15 圆综合训练 (2)及答案
- 护士护理工作礼仪培训
- 小学科学老师培训
- 2025年轻水堆核电站及配套产品项目发展计划
- 甘肃省武山一中2025届高三适应性调研考试化学试题含解析
- 2025年证券经纪代理与营业部服务项目合作计划书
- DL∕T 753-2015 汽轮机铸钢件补焊技术导则
- MOOC 中医与辨证-暨南大学 中国大学慕课答案
- JBT 7041.3-2023 液压泵 第3部分:轴向柱塞泵 (正式版)
- 电镀与化学镀
- 医古文部分课后练习题及课外阅读试题及答案
- 职业健康检查科室设置和分工
- 压力容器安装施工方案完整
- 摇臂钻作业指导书
- 个人外汇管理办法实施问答(一二三四期)(共5页)
- ▲封头重量计算
- 境外投资可行性研究报告(完整资料).doc
评论
0/150
提交评论