版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
October15,2024PAGE4/43张敏October15,2024PAGE4/43张敏《深度学习入门—基于Python的实现》(吴喜之张敏)现代Hopfield网络张敏October15,2024概论Hopfield(Hopfield1970年代引入由Hopfield(1982)1进行普及在机器学习历史的大部分时间里,HopfieldBERT等的变换器的引进而渐渐不被人关注.1HopfieldJJ.(1982)Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities.ProceedingsoftheNationalAcademyofSciences,79(8):2554–2558.Hopfield网络的要点是关联记忆或关联存储(associativememories),其主要目的是将输入与其最相似的模式相关联目的是存储和检索模式2.Hopfield网络充当具有二进制阈值节(binarythresholdnode)(content-addressable)关联记忆系统.它们保证收敛到局部最小值,因此,可能会收敛(错误的本地最小值),(预期的本地最小值).2(retrieve)也可以翻译成回收或者再现(也可能受到部分损坏或加入了噪声(即存储的模式中把它寻找出来这个过程就称为检索/回收/再现.October15,20245/43张敏October15,20245/43张敏LSTMSeppHochreiter与一组研究人员一起重Hopfield网络并得出了令人惊讶的结论Ramsaueretal.(2008)在题为《Hopfield网络就是您所需要的一切》(Hopfieldisallneed)的论文中3Hopfield网络与最新的变换器模型互换的几个要素.我们称这篇论文HopfieldHopfield网络(modernHopfield3RamsauerH,SchäflB,LehnerJ,SeidlWidrichM,GruberL,HolzleitnerM,PavlovicM,SandveGK,GreiffV,KreilD,KoppM,KlambauerG,BrandstetterJ,andHochreiterS.(2020)Hopfieldisallneed,arXiv:2008.02217.October15,2024PAGE15/43张敏October15,2024PAGE15/43张敏传统的Hopfield网络考虑传统的Hopfield网络,将N个存储模式(storedpatterns)表示为{xi}N ,X=(x1,x2,...,xN).∈{− }在传统的Hopfield网络中,这些模式是极性或二元的(polar或binary),即xi 1,1d,其中d是模式的长度.并将任何状态模式或状态表示为∈{− }上面对于模式的二元限制在实践中可以理解为黑白网格那样的离散图形,每个图形都是一个由二元像素(按照d维二元向量记录)组成的状态或模式(即这里的ξ).如果存储了N个图片(这里记为{xi}N ),在应用中,个(可能属于存储模式之一,但并不完全相同的)新图片(记为ξ)来寻找出它是存储模式中的哪一个,这就是检索或回收的一个简单目的.(associativememory)只是我们想要存储的N(sumofouterproducts),相应的权重矩阵W为:∑N∑W= ixi. (2.1)iWξ开始能检索到的那些模式.检索过程是一个迭代更新过程,每次都从一个状态(ξt)(ξt+1),直到满足某种设定的条件为止.下面介绍更新规则.更新规则及能量函数( )基本的同步更新规则(synchronuousupdaterule)是将状态模式ξ与权重矩阵W重复相乘,减去偏差并取符号:( )ξt+1=sgn Wξt−b , (2.2)∈bRd是一个偏差向量,可以将其解释为每个分量的阈值(asynchronousupdaterule)ξ的一个组(onecomponent执行此更新然后选择下一个要更新的组件.ξt+1=ξt则达到收敛.∈更新规则式(2.2)最小化能量函数(energyfunction)E:d d d( ξ ⩽ )22E=−1ξ⊤Wξ+ξ⊤b=−1∑∑wijξiξj( ξ ⩽ )22对于异步更新规则和对称权重,E t+1 E t 成立.当部最小值.{xi}NHopfield网络的E(ξt+1)=E(ξt)时部最小值.{xi}NHopfield网络的固定点,即
ξ=sgn(Wxi−b). (2.4)它们甚至应该是E的局部最小值.Hopfield网络性能讨论在实践中发现,Hopfield网络的检索模式是不完善的.有人怀疑Hopfield网络的存储容量有限就是问题所在.实际上,存储容量并不直接导致不完善的检索.无错误模式检索(retrievalofpatternsfreeoferrors)的存储容量为:2log(d)C= 2log(d)其中d是输入维数.(retrievalofpatternswithasmallpercentageoferrors)的存储容量为:C=0.14d. (2.6)因此,存储容量不足并不直接导致检索错误.相反,人们发现,可能的示例模式相关性反而产生检索错误.允许拉开紧密的模式,以便(强)相关的模式可以区分.现代Hopfield网络新能量函数 由于存储容量是Hopfield网络的关键之一,现代Hopfield网络,又名密集联想记忆(DenseAssociativeMemories),引入了新的能量函数,而不是式(2.3)中的能量函数,创造了更高的存储容量.KrotovandHopfield(2016)4引入了下面的能量函数:−−∑E= (xiξ), (3.1)i=1其中F(interactionfunction);N是存储模式的数量.他们选择了多项式相F(z)=za.4KrotovD,HopfieldJJ.(2016)Denseassociativememoryforpatternrecognition,arXiv:1606.01164,/abs/1606.01164.无错误模式检索的存储容量为:C= 1
da−1.
(3.2)2(2a−3)!!log(d)小错误模式检索的存储容量为:C=αaa−1, (3.3)其中,αa是一个常数,(任意)阈值.作为特例a2Hopfield模型(Hopfield,1982)对小错误模式检索C=0.14d的值.Demircigiletal.(2017)5通过使用指数相互作用函数F(z)=exp(z)扩展能量函数:−−E= ex(iξ), (3.4)i=1其中,N是存储模式的数量.5DemircigilM,HeuselJ,M,UpgangS,andVermetF.(2017)OnamodelofassociativememorywithhugestoragearXiv:1702.01929,/abs/1702.01929.( )式(3.4)也可以写成:( )E=−explse(1,X⊤ξ) , (3.5)其中,X=(x1,x2,...,xN)是数据矩阵(存储模式的矩阵),而(lse为指数和的对数(log-sum-expfunction,lse)(lse
(β,
z)=β−1
log Nl=1
l)).
(3.6)该能量函数导致存储容量为:dC=22. (3.7)更新规则 现在我们看一下更新规则(updaterule),该规则对于式(3.1)及式(3.4)都有效.对于极性模式(polarpatterns),即∈{− }ξ 11dξ[l]l个分量.(3.1及式∈{− }(3.4)的能量函数,第l个分量ξ[l]的更新规则通过当前状态ξξ[l]的状态的能量之差来描述.分ξ[l]被更新以减小能量.更新规则为:ξnew[l]=sgn[−E(ξ(l+)[l])+E(ξ(l−)[l])], (3.8)更新规则 这时(例如对于式(3.4)):ξnewξ
[N
l l)
(expx(
l l)]
,(3.9), N[l]=sgni ξ(+)[]−i ξ(−)[]其中,ξ(l+)[l]=1,ξ(l−)[lN[l]=sgni ξ(+)[]−i ξ(−)[]k̸=l).Demircigiletal.(2017)表明(3.4的能量函数最小的更(异步)ξ之后高概率收敛.注意,ξd个异步更新步骤,即针dξ[l](l=12d)中的每一个的一个更新.Hopfield网络相反Hopfield网络没有经典Hopfield网络的权重矩阵相反Hopfield网络的能量函xiξ的点积的函数的和.用于连续值模式和状态的新能量函数及更新规则 把式(3.5)的能量函数推广到连续值模式.我们使用负能量方程式(3.5)的对数,并添加一个二次项.二次项可确保状态ξ的范数保持有限.新能量函数定义为:(E=−lse(β,X⊤ξ)(
1ξ⊤2
ξ+β
−1logN+1M22=−β−1log
N
xiξ))+
1ξ⊤ξ+β−12
logN+
1M2,2(3.10)它由N个连续的存储模式通过矩阵X=(x1,x2,...,xN)构造而成,其中M是所有存储模式中的最大范数,即iM=max∥xi∥.iKrotovandHopfield(2016),Hopfield网络的存储模Xξ到隐藏单元的权重X可以看作从隐ξ的权重根据这种解释我们并不存储模式而是Hopfield网络中那样仅在模型中使用权重.6YuilleAL,6YuilleAL,RangarajanA.(2002)Theconcave-convexprocedure(CCCP).InDietterichOctober15,202425/43张敏式(3.10)的能量函数等式允许通过凹凸过程(Concave-Convex-ProcedureCCCP)ξ的更新规则andRangarajan(2002)6的描述有下面结果:总能量E(ξ)分为凸项和凹项:E(ξ)=E1(ξ)+E2(ξ).( −0.5ξ⊤ξCE1(ξ(Cξ( −项 lseβ,X⊤ξ =E2(ξ)是凹的(因为Hessian是正半定的,所以lse是凸的).ECCCP为:∇ξE1(ξ
t+1
)=−∇ξE2(ξt) (3.11)October15,2024PAGE26/43张敏October15,2024PAGE26/43张敏2( )ξξ∇(1ξ⊤ξ+C)(ξt+1)=∇lse(β,X⊤ξt) (3.12)2( )ξξξt+1=XsoftmaxβX⊤ξ⊤ , (3.13)其中∇ξlse(β,X⊤ξ)=Xsoftmax(βX⊤ξ).( )因此,状态模式ξ的更新规则为:( )ξnew=XsoftmaxβX⊤ξ . (3.14)应用凹凸程序获得更新规则可确保能量函数单调递减.Ramsaueretal.(2008)234中表明新能量函数的最重要属性是:全局收敛到局部最小值.指数存储容量.一个更新步骤后的收敛.指数存储容量和一个更新步骤后的收敛是从Demircigiletal.(2017)继承的.(3.14的(3.10)(局部最小值或鞍点).新能量函数更新与变换器自我关注的等价性 首先,将新的更新规则推广到多个模式,并且做到关联空间的投影.对于S个状态模式Ξ=(ξ1,ξ2,...,ξS),式(3.13)可概括为:Ξnew=Xsoftmax(βX⊤Ξ). (3.15)我们首先将X⊤视为N个原始存储模式Y=(y1,y2,...,yN)⊤,通过WK映射到一个关联空间,而Ξ⊤作为S个原始状态模式R=(ξ1,ξ2,...,ξS)⊤,通过WQ映射到关联空间.设置Q=Ξ⊤=RWQ, (3.16)K=X⊤=YWK, (3.17)1β=√dk, (3.18)可得Q=Ksoftmax√dkKQ. Q=Ksoftmax√dkKQ. (3.19)
(1 ⊤)(3.16(3.17中WQWK是将各自的模式映射到关联空间的矩阵.(3.19中softmax逐列应用KQ⊤.接下来(3.19这也意味着(1 softmax现在按行应用于其转置输入QK⊤(1 Qnew
=softmax
√dkQK⊤)
K. (3.20)现在,我们只需要通过另一个投影矩阵WV来投影Qnew:new V
(1 ⊤) V
(1 ⊤Z=Q W =softmax
√dkQK KW =softmax
√dkQK(3.21)我们已经得到了变换器的关注.N个原始存储模式Y=(y1y2yN)⊤R,将会获得变换器的自我专注.October15,202434/43张敏October15,202434/43张敏新Hopfield层 ( )YR重新替代,则(3.21为:( )Z=softmaxβ·RWQWKY⊤YWKWV, (3.22)Ramsaueretal.(2008)Hopfield层的基础式( · )(3.22Z是输出的相当于自我专注的结果模式为原始YRWQ,WK,WV的函数(3.22可以写成下面的形式:( · )Z=f(Y,,WQ,K,WV)=softmaxβRQKY⊤YKV.(3.23)October15,2024PAGE43/43张敏October15,2024PAGE43/43张敏⇒图1Hopfield层的示意图.为了理解图1及上述结果我们回顾一下投影到关联空间的过程及投影矩阵:⇒R=(ξ1
⇒,ξ2⇒
,...,ξS)⊤
WQQ=RWQ;Y=(y1
,y2
,...,yN)⊤
WK
K=YWK;⇒KV⇒
V=KWV.多功能Hopfield层(versatileHopfieldlayer)的模块在网页/ml-jku/hopfield-layers中有提供,其功能超越了自我关注.LNormWQLNormWQLNormKyes yes yesyesRnormalizenoprojectnonormalizenoQLNormWKLNormMatMulScaleMaskSoftmaxyes yesyesmultipleupdatesnononoYnormalizeprojectnormalizeKnoLNormWVLNormyes yes yesno no noYnormalizeprojectnormalizeVMatMul图1:新Hopfield层Hopfield网络上的工作所产生的见解使我们能够Hopfield层该层可用作现有层的即时替代以及诸如多实例学习、基于集合和置换不变学习、联想学习等应用上.图1Hopfield(yes-no)(及默认值)为:fromtypingimportOptional,Tuple,Unionnormalize_stored_pattern:bool=True,normalize_stored_pattern_affine:bool=True,normalize_state_pattern:bool=True,normalize_state_pattern_affine:bool=True,normalize_pattern_projection:bool=True,normalize_pattern_projection_affine:bool=True,normalize_hopfield_space:bool=False,normalize_hopfield_space_affine:bool=False,stored_pattern_as_static:bool=False,state_pattern_as_static:bool=False,pattern_projection_as_static:bool=False,pattern_projection_as_connected:bool=False,stored_pattern_size:Optional[int]=None,pattern_projection_size:Optional[int]=None,图1中总的向前传播要点为:输入数据到Hopfield关联模型.(padding)(mask)模式.应用屏蔽于内部关联矩阵.把处理过的输入数据输出.使用新Hopfield层做检索Hopfield层做模式检索.这时不需要可训练的WQ,WK,WV,Z为检索结果,R(可能与某些存储模式相似),Y为存储模式.下面是公式:Z=softmax(βRY⊤)Y. (3.24)使用新Hopfield
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工会福利招标后合同书
- 《多发伤的救治》课件
- 2025年福州货运从业资格考试题目和答案大全
- 2025年常州货运资格证500道题库
- 《复习免疫调节》课件
- 酒店业应收款项回收策略
- 独立办公室租赁合同
- 商业中心卷帘门施工合同
- 酒店客户信息移交办法
- 酿酒厂食堂外包服务评估
- 电气自动化专业职业生涯目标规划书范例及步骤
- 2024-2025学年上学期天津六年级英语期末模拟卷1
- 餐饮行业智能点餐与外卖系统开发方案
- 2024-2025学年九年级数学上学期期末考试卷
- 水利工程特点、重点、难点及应对措施
- 物业经理转正述职
- 24秋国家开放大学《企业信息管理》形考任务1-4参考答案
- 2024年共青团团课培训考试题库及答案
- 2024年共青团入团考试测试题库及答案
- 工程项目管理-001-国开机考复习资料
- 2022年全国应急普法知识竞赛试题库大全-下(判断题库-共4部分-2)
评论
0/150
提交评论