版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ML-Summit
2023大规模语言模型中语言与知识ML-Summit
2023全球机器学习技术大会ML-Summit
2023目录Multilingual
BERT
中存在多语言对齐现象1大语言模型中多语言对齐2大语言模型中的语言和知识分离3ML-Summit
202301Multilingual
BERT
中存在多语言对齐现象ML-Summit
2023MULTILINGUAL BERT 中存在多语言对齐现象mBERT
不同层恢复各类语言语法关系的准确性。Xu
et
al.
Cross-Linguistic
Syntactic
Difference
in
Multilingual
BERT:
How
Good
is
It
and
How
Does
It
Affect
Transfer?
EMNLP
2022ML-Summit
2023MULTILINGUAL BERT 中存在多语言对齐现象Xu
et
al.
Cross-Linguistic
Syntactic
Difference
in
Multilingual
BERT:
How
Good
is
It
and
How
Does
It
Affect
Transfer?
EMNLP
2022mBERT
第
7
层的不同语法关系表示的可视化。ML-Summit
2023MULTILINGUAL BERT 中存在多语言对齐现象mBERT
第
7
层的不同语法关系表示的可视化在进行任务Fine-Tune之后,聚合对齐更加明显Xu
et
al.
Cross-Linguistic
Syntactic
Difference
in
Multilingual
BERT:
How
Good
is
It
and
How
Does
It
Affect
Transfer?
EMNLP
2022ML-Summit
2023在大语言模型中有类似现象吗?ML-Summit
202302大语言模型中多语言对齐ML-Summit
2023大语言模型中也存在类似现象Xuetal.AreStructuralConceptsUniversalinTransformerLanguageModels?TowardsInterpretableCross-LingualGeneralization,EMNLP
2023语言直接在句法关系上具有很强的对齐性ML-Summit
2023大语言模型中也存在类似现象Xuetal.AreStructuralConceptsUniversalinTransformerLanguageModels?TowardsInterpretableCross-LingualGeneralization,EMNLP
2023词性标注任务,可以通过跨语言训练得到非常高的结果ML-Summit
2023通过多语言模型预训练,多语言语义在模型中已经完成对齐ML-Summit
2023大规模语言模型中多语言对齐Zhao
et
al.
LLaMA
Beyond
English:
An
Empirical
Study
on
Language
Capability
Transfer.
AAAI
2024
submittedML-Summit
2023大规模语言模型中多语言对齐比较如下模型:LLaMA(Touvronetal.
2023a)LLaMA2(Touvronetal.
2023b)Chinese
LLaMA
(Cui,
Yang,
and
Yao
2023b)基于LLaMA,扩展中文词元,30B中文Token语料二次训练(120GB)Chinese
LLaMA2
(Cui,
Yang,
andYao
2023a)基于LLaMA2,扩展中文词元,30B中文Token语料二次训练Open
Chinese
LLaMA
(OpenLMLab
2023)基于LLaMA,扩展中文词元,100B中英混合Token语料二次训练LLaMA+10K、
LLaMA+100K、LLaMA+1M基于LLamA不扩展中文词元,直接使用中文语料二次训练Zhao
et
al.
LLaMA
Beyond
English:
An
Empirical
Study
on
Language
Capability
Transfer.
AAAI
2024
submittedML-Summit
2023大规模语言模型中多语言对齐Zhao
et
al.
LLaMA
Beyond
English:
An
Empirical
Study
on
Language
Capability
Transfer.
AAAI
2024
submittedML-Summit
2023TOKEN扩展对模型影响很大,扩展后丢失原始信息,需要大量训练才能恢复ML-Summit
2023SFT数据量扩展到950K后,1M这种量级二次预训练没有特别的意义ML-Summit
2023使用中文进行二次预训练并不能在知识层面提升模型能力ML-Summit
2023在其他低资源语言中表现很类似ML-Summit
2023训练过程中非常明显的CODING-
SWITCH现象ML-Summit
2023训练过程中非常明显的CODING
-
SW
ITC
H现象ML-Summit
2023在大语言模型训练中我们还可以看到这些现象ML-Summit
2023ML-Summit
2023大部分LLM
在迭代1轮之后,效果提升就很不明显trainforone
epochTrainingaHelpfulandHarmlessAssistantwithReinforcementLearningfromHumanFeedback,Anthropic,
2023SimilarlytoWuetal.(2021),wefindthatourSFTmodelsoverfitonvalidationlossafter1
epochTraining language models to follow instructionswithhumanfeedback,OpenAI,
2022ML-Summit
2023有智能,打不开打的开,没智能打的开,有智能看不透From:中科院软件所 韩先培ML-Summit
2023ML-Summit
2023这些现象是否以及如何体现在大语言模型参数中?ML-Summit
2023ML-Summit
2023ML-Summit
202303大语言模型中的语言与知识注意:非常初步的结果,很多结论和实验并不十分可靠,仍在实验验证中ML-Summit
2023大语言模型参数中记录了知识有明显的语言核心区ML-Summit
2023大模型中的语言和知识分区如何确定如何确定模型中的语言核心区和非核心区:阿拉伯语、韩语、西班牙语、中文、俄语、越南语,每个语言10W条文本分别利用上述数据对模型进行二次预训练6种语言训练前后参数变化累加,权重变化最小的1-5%ML-Summit
2023大模型中的语言和知识分区如何确定变化超过1/3/5%的点取并集Parameter
Name变化超过1%点并集变化超过3%点并集变化超过5%点并集model.layers.0.self_attn.q_pr
oj.weight99.952%99.040%96.757%model.layers.0.self_attn.k_proj.wei
ght99.975%99.145%96.655%model.layers.0.self_attn.v_proj.wei
ght99.998%99.668%98.024%model.layers.0.self_attn.o_pr
oj.weight99.999%99.909%99.434%model.layers.0.mlp.gate_proj.w
eight99.996%99.328%95.437%model.layers.0.mlp.down_proj.wei
ght99.998%99.301%95.230%model.layers.0.mlp.up_proj.weight99.999%99.391%95.651%model.layers.0.input_layernorm.weight99.976%99.487%98.877%model.layers.0.post_attention_l
ayernorm.weight99.829%89.453%54.517%model.layers.1.self_attn.q_pr
oj.weight99.855%95.745%88.410%model.layers.1.self_attn.k_proj.wei
ght99.847%95.608%87.953%model.layers.1.self_attn.v_proj.wei
ght99.999%99.811%98.604%model.layers.1.self_attn.o_pr
oj.weight99.999%99.936%99.456%model.layers.1.mlp.gate_proj.w
eight99.994%99.145%94.551%model.layers.1.mlp.down_proj.wei
ght99.998%99.411%95.738%model.layers.1.mlp.up_proj.weight99.997%99.368%95.518%model.layers.1.input_layernorm.weight99.316%80.908%50.195%model.layers.1.post_attention_l
ayernorm.weight96.729%25.391%2.539%有非常少数的参数在所有语言二次预训练中变化都很小ML-Summit
2023对语言核心区和非核心区参数分别随机扰动LLaMA2-7B-baseTop
0.03Bottom
0.03Random
0.03Arabic6.73210.890132988.3128.815Chinese8.55415.018200279.45310.909Czech19.62237.88248612.70728.025Danish8.41216.15172907.68811.224Dutch16.86333.97653034.96123.371English8.3869.06025308.4108.673Finnish7.53517.22857291.12910.800French13.48522.26040576.05916.776German18.19530.79273363.97724.122Greek 3.843 6.028 448650.156 5.156扰动核心区域
在30种语言上PPL全都呈现爆炸趋势ML-Summit
2023对语言核心区和非核心区参数分别随机扰动LLaMA2-13B-BaseTop
0.03Bottom
0.03Random
0.03Arabic6.2658.29666492.7347.836Chinese7.8328.951136295.3598.757Czech17.36723.86320363.22522.303Danish7.4148.50718157.6218.627Dutch15.53420.71120631.89819.647English7.8518.5018503.6348.536Finnish6.8028.29115942.8388.366French12.36115.65317057.10215.247German16.67821.22329565.83220.850Greek 3.609 4.337 162718.406 4.393LLaMA2
7B
和
13B
现象完全一样ML-Summit
2023随机扰动恢复实验模型测试语料训练语料训练语句数量随机初始化bottom-diff0.01-freeze随机初始化bottom-diff0.01-non-freezeLLaMA2-7B中文公众号1W中文知乎073408.2032K4424.7796.2565K359.6945.9221W225.5915.9722W22.9046.155W7.1515.698英文Falcon
1W031759.9472K28371.53913.8845K441158.71914.7931W197902415.6042W9859.42616.395W1276.35418.961使用中文的进行训练后,中文能力都可以恢复,模型具备一定的“代偿”能力ML-Summit
2023随机扰动恢复实验模型测试语料训练语料训练语句数量随机初始化bottom-diff0.01-freeze随机初始化bottom-diff0.01-non-freezeLLaMA2-7B中文公众号1W中文知乎073408.2032K4424.7796.2565K359.6945.9221W225.5915.9722W22.9046.155W7.1515.698英文Falcon
1W031759.9472K28371.53913.8845K441158.71914.7931W197902415.6042W9859.42616.395W1276.35418.961在语言区不锁定的情况下,仅训练中文,英文也能恢复一定能力,但是锁定情况下很难恢复ML-Summit
2023大模型中的语言核心区展示Layer0-
KLayer1-
KLayer5-
KLayer10-
KLayer15
-
K Layer20
-
K Layer25
-
K Layer31-
KQKVO矩阵都呈现维度集中现象ML-Summit
2023大模型中的语言核心区展示Layer0-
upLayer1-
upLayer5-
upLayer10-
upLayer15
-
up Layer20
-
up Layer25
-
up Layer31-
upFFN-UP
&
Down某些维度上具有明显的列聚集现象ML-Summit
2023大模型中的语言核心区展示LLaMA2-13BLayer39-
o维度集中现象明显ML-Summit
2023扰动模型中单点模型PPL(公众号)llama2-13B-base5.865llama2-13b-reset‘1’-layer0-norm21005.866llama2-13b-reset‘1’-layer1-norm210083224.078llama2-13b-reset‘1’-layer1-norm28005.86llama2-13b-reset‘1’-layer1-norm42005.858llama2-13b-mul10-layer0-norm21005.866llama2-13b-mul10-layer1-norm210039462.238llama2-13b-mul10-layer1-norm28005.859llama2-13b-mul10-layer1-norm42005.864ML-Summit
2023仅修改130
亿参数中的1
个就会使模型混乱输入:Fudan
University
is
locatedinLLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.Thelanguageofinstructionis
Chinese.LLaMA2-13B-修改语言LayerNorm
2100扩大4倍
(PPL257.722)
:Fudan
University
is
located
in
Tertian,
andislocatedtettetattetetettetetttententeentteth,tat,tat,tate,tat,
ta.162words
for,</s>LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大4倍
(PPL
5.858)
:Fudan
University
is
located
in<s>FudanUniversityislocatedinShanghai,China.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryof
Education,
People‘s
Republic
of
China.
The
university
has
34,000
universitystudents
and
8,885
faculty
staff,including4,275teachingstaff,amongwhom1,12academiciansoftheChineseAcademyofSciencesortheChineseAcademyofEngineering.ML-Summit
2023仅修改130
亿参数中的1
个就会使模型混乱输入:Fudan
University
is
locatedinLLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.Thelanguageofinstructionis
Chinese.LLaMA2-13B-修改语言LayerNorm
2100
扩大10倍
(PPL
376079936)
:Fudan
University
is
located
in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s><s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s>
<s>\<s>{"<s>LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大10倍
(PPL
5.914)
:Fudan
U
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 济宁学院《篮球》2021-2022学年第一学期期末试卷
- 2024年度保险合同标的及保险理赔服务内容2篇
- 迈瑞医疗利润表分析
- 2024年度信息技术开发合同2篇
- 滴滴出行网约车安全培训
- 晚期肺癌的治疗进展
- 山东省济钢高级中学2024-2025学年高二上学期期中考试语文试题含答案
- 幼儿园变废为宝主题活动
- 全新2024年度广告投放服务合同2篇
- 人音版音乐七年级上册《第二圆舞曲》课件
- 上海市虹口中学2025届高三压轴卷数学试卷含解析
- 九年级全套课件教学课件教学课件教学
- 长春工程学院《西方文明史》2023-2024学年第一学期期末试卷
- 名班主任工作室建设方案6
- 北京市五十六中学2024-2025学年七年级上学期期中数学试题
- 人教版新目标初中英语七年级下册《Unit 2 What time do you go to school》单元作业设计
- 8.1 国家好 大家才会好(教学课件)-八年级道德与法治上册同步备课系列(统编版)
- 管理学基础知识考试题库(附含答案)
- 2024年“国际档案日”档案知识竞赛题目和答案
- 2023-2024学年广东省深圳市福田区八年级(上)期末英语试卷
- 河南省安阳市林州市湘豫名校联考2024-2025学年高三上学期11月一轮诊断考试 英语 含解析
评论
0/150
提交评论