如何从0训练企业自用SoraLatte模型

上传人：1*** IP属地：山西上传时间：2024-07-14 格式：DOCX 页数：35 大小：450.32KB 积分：19.9 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1如何從0訓練企業自用Sora/Latte模型By神櫻團隊/高煥堂教授指導1.前言：ViT的魅力是開源的。ViT。每一個圖像塊進行嵌入編碼並添加位置的資訊，2----------------------------------------------------------------------------(引自https://hackmd.io/@YungHuiHsu/ByDHdxBS5)入，也可以利用卷積提取高級信息，同時降低Patch的冗餘特徵。缺乏一致性，也缺乏對較大運動的充分學習能力。3----------------------------------------------------------------------------(引自/@andy6804tw/)3。如下圖：(引自/@andy6804tw/)4----------------------------------------------------------------------------(引自/@andy6804tw/)片轉換為標記序列，然後可疊加成為多層Transformers顯著增強了這些方面的能力。最後再經過一個全連接層進行影像分類等後續任務。如下圖：5----------------------------------------------------------------------------(引自/@andy6804tw/)2.下載Sora替代源碼ra-model-16bdbc126c0d6----------------------------------------------------------------------------l在這網頁的文章裡，作者GavinLi說道：『Latte尚未開源其Text轉Video的訓練程式碼。於是，我們複製了論文中的文字到影片訓練程式碼，並將其提供給任何人使用，以訓練他們自己的Sora替代模型。』7----------------------------------------------------------------------------按下<Code>按鈕，就可以下載開源的程式碼了。如下：按下<Code>按鈕，就可以下載開源的程式碼了。如下：8----------------------------------------------------------------------------於是，順利下載源碼成功了。它利用預訓練的VAE將視頻編碼成為潛藏空間(Latentspace)中的特徵，並提取出時空的Token。然後應用一系列的TransformerBlock3.從Latte核心的Attention機制複習Attention機制勢非常浩大的Sora，其關鍵技術---DiT(DiffusionTransformer)的核心也是注意力機制。於是，本文就從相似度(Similarity)基礎，繼續延伸到注意力機制。更重要的是：此項機制也是可以學習的(Learnable)，於是9----------------------------------------------------------------------------就來把它包裝於NN模型裡，成為可以訓練的注意力模型(Attentionmodel)。輯，及其訓練方法。以<企業經營>來做比喻首先來做個比喻。例如，一個公司有三個部門，其投資額(以X表這三部門投資額是：X=[10,6,2.5]，其單位是---百萬元。經過一年的經營，其營收比率是：W=[2.0]，就可以計算出營收金額是----------------------------------------------------------------------------其中的預算分配表，可以是相似度矩陣(Similarity由相似度的計算而來。現在，就來理解上圖的計算邏輯，請觀摩一個X=torch.tensor([[10.0],[6.0],[2.5]])#投資額W=torch.tensor([[2----------------------------------------------------------------------------print('\n----投資預算額Z-相似度表A，計算出新年度的投資預算額，並輸出如下：使用Attention计算公式陣再除以它們的歐氏長度的乘積，將相似度的值正規化，就得到余弦----------------------------------------------------------------------------(Cosine)相似度。而且，如果將上述的相似度矩陣，在經由Softmax()函數的運算，就得到注意力矩陣(Attentionweights)了。例如，有兩個矩當我們把上圖裡的Wq、Wk和Wv權重都放入SelfAttention模型裡，就能進行機器學習(Machinelearning)來找出最佳的權重值(即Wq、Wk和Wv)，就能預測出Q、K和V了。並且可繼續計算出A了。訓練SelfAttention模型現在就把Wq、Wk和Wv都放入SelfAttention模型裡。請觀摩def__init__(self):defforward(self,x):X=torch.tensor([[10.0],[6.0],[2.5]loss.backward()print('ep=',epoch,'loss=',loss.item())print('\n-----預算分配表A-----')print('\n-----投資預算額Z-----')中，回持續修正模型裡的權重(即Wq、Wk和Wv)，並且其損失(Loss)值----------------------------------------------------------------------------Q、K和V，然後繼續計算出A和Z值。以上基於相似度計算，繼續說明合，然後進行預測。營規律，並進行準確的預測。4.繼續擴大到Latte的Attentation模型defforward(self,x):[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,#--------------------------這個程式並沒有進行訓練，只是把X輸入給Attention模型，然後觀察其q、k、v矩陣的形狀(Shape)。此程式執行時----------------------------------------------------------------------------defforward(self,x):[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,#--------------------------此程式執行時，輸出Attention-weight20----------------------------------------------------------------------------接著，可以將上述範例裡的Wq、Wk和Wv合併起來。請繼續觀21defforward(self,x):q,k,v=qkv.unbind(0)[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,22[[1,0,0,0,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,0,[[1,0,0,0,0,0,0,0,#--------------------------這個程式並沒有進行訓練，只是把X輸入給Attention模型，然後23----------------------------------------------------------------------------制。請繼續觀摩程式碼：24defforward(self,x):q,k,v=qkv.unbind(0)[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,25[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,[0,0,0,1,0,0,0,0,[[1,0,0,0,0,0,0,0,0#--------------------------這就展開多頭Attention的計算，並輸出Z值。所以此程式執行26----------------------------------------------------------------------------接著，就可以來訓練這Attenton模型了。請繼續觀摩程式碼：27defdefforward(self,x):#--------------------------------------#-----------訓練1000回合-----------------print('展開訓練...')28loss.backward()print('ep=',epoch,'loss=',loss.item())#-----------------------------------------print('\n-----Z-----')29----------------------------------------------------------------------------######################################################################################################################proj_drop=0.defforward(self,x):#--------------------------------------#-----------訓練1000回合-----------------print('展開訓練...')loss.backward()print('ep=',epoch,'loss=',loss.item())#-----------------------------------------print('\n--

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

如何从0训练企业自用SoraLatte模型

文档简介

温馨提示

最新文档

评论

如何从0训练企业自用SoraLatte模型

文档简介

温馨提示

最新文档

评论

相关文档