2023年大规模语言模型中语言与知识报告_第1页
2023年大规模语言模型中语言与知识报告_第2页
2023年大规模语言模型中语言与知识报告_第3页
2023年大规模语言模型中语言与知识报告_第4页
2023年大规模语言模型中语言与知识报告_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ML-Summit

2023大规模语言模型中语言与知识ML-Summit

2023全球机器学习技术大会ML-Summit

2023目录Multilingual

BERT

中存在多语言对齐现象1大语言模型中多语言对齐2大语言模型中的语言和知识分离3ML-Summit

202301Multilingual

BERT

中存在多语言对齐现象ML-Summit

2023MULTILINGUAL BERT 中存在多语言对齐现象mBERT

不同层恢复各类语言语法关系的准确性。Xu

et

al.

Cross-Linguistic

Syntactic

Difference

in

Multilingual

BERT:

How

Good

is

It

and

How

Does

It

Affect

Transfer?

EMNLP

2022ML-Summit

2023MULTILINGUAL BERT 中存在多语言对齐现象Xu

et

al.

Cross-Linguistic

Syntactic

Difference

in

Multilingual

BERT:

How

Good

is

It

and

How

Does

It

Affect

Transfer?

EMNLP

2022mBERT

7

层的不同语法关系表示的可视化。ML-Summit

2023MULTILINGUAL BERT 中存在多语言对齐现象mBERT

7

层的不同语法关系表示的可视化在进行任务Fine-Tune之后,聚合对齐更加明显Xu

et

al.

Cross-Linguistic

Syntactic

Difference

in

Multilingual

BERT:

How

Good

is

It

and

How

Does

It

Affect

Transfer?

EMNLP

2022ML-Summit

2023在大语言模型中有类似现象吗?ML-Summit

202302大语言模型中多语言对齐ML-Summit

2023大语言模型中也存在类似现象Xuetal.AreStructuralConceptsUniversalinTransformerLanguageModels?TowardsInterpretableCross-LingualGeneralization,EMNLP

2023语言直接在句法关系上具有很强的对齐性ML-Summit

2023大语言模型中也存在类似现象Xuetal.AreStructuralConceptsUniversalinTransformerLanguageModels?TowardsInterpretableCross-LingualGeneralization,EMNLP

2023词性标注任务,可以通过跨语言训练得到非常高的结果ML-Summit

2023通过多语言模型预训练,多语言语义在模型中已经完成对齐ML-Summit

2023大规模语言模型中多语言对齐Zhao

et

al.

LLaMA

Beyond

English:

An

Empirical

Study

on

Language

Capability

Transfer.

AAAI

2024

submittedML-Summit

2023大规模语言模型中多语言对齐比较如下模型:LLaMA(Touvronetal.

2023a)LLaMA2(Touvronetal.

2023b)Chinese

LLaMA

(Cui,

Yang,

and

Yao

2023b)基于LLaMA,扩展中文词元,30B中文Token语料二次训练(120GB)Chinese

LLaMA2

(Cui,

Yang,

andYao

2023a)基于LLaMA2,扩展中文词元,30B中文Token语料二次训练Open

Chinese

LLaMA

(OpenLMLab

2023)基于LLaMA,扩展中文词元,100B中英混合Token语料二次训练LLaMA+10K、

LLaMA+100K、LLaMA+1M基于LLamA不扩展中文词元,直接使用中文语料二次训练Zhao

et

al.

LLaMA

Beyond

English:

An

Empirical

Study

on

Language

Capability

Transfer.

AAAI

2024

submittedML-Summit

2023大规模语言模型中多语言对齐Zhao

et

al.

LLaMA

Beyond

English:

An

Empirical

Study

on

Language

Capability

Transfer.

AAAI

2024

submittedML-Summit

2023TOKEN扩展对模型影响很大,扩展后丢失原始信息,需要大量训练才能恢复ML-Summit

2023SFT数据量扩展到950K后,1M这种量级二次预训练没有特别的意义ML-Summit

2023使用中文进行二次预训练并不能在知识层面提升模型能力ML-Summit

2023在其他低资源语言中表现很类似ML-Summit

2023训练过程中非常明显的CODING-

SWITCH现象ML-Summit

2023训练过程中非常明显的CODING

-

SW

ITC

H现象ML-Summit

2023在大语言模型训练中我们还可以看到这些现象ML-Summit

2023ML-Summit

2023大部分LLM

在迭代1轮之后,效果提升就很不明显trainforone

epochTrainingaHelpfulandHarmlessAssistantwithReinforcementLearningfromHumanFeedback,Anthropic,

2023SimilarlytoWuetal.(2021),wefindthatourSFTmodelsoverfitonvalidationlossafter1

epochTraining language models to follow instructionswithhumanfeedback,OpenAI,

2022ML-Summit

2023有智能,打不开打的开,没智能打的开,有智能看不透From:中科院软件所 韩先培ML-Summit

2023ML-Summit

2023这些现象是否以及如何体现在大语言模型参数中?ML-Summit

2023ML-Summit

2023ML-Summit

202303大语言模型中的语言与知识注意:非常初步的结果,很多结论和实验并不十分可靠,仍在实验验证中ML-Summit

2023大语言模型参数中记录了知识有明显的语言核心区ML-Summit

2023大模型中的语言和知识分区如何确定如何确定模型中的语言核心区和非核心区:阿拉伯语、韩语、西班牙语、中文、俄语、越南语,每个语言10W条文本分别利用上述数据对模型进行二次预训练6种语言训练前后参数变化累加,权重变化最小的1-5%ML-Summit

2023大模型中的语言和知识分区如何确定变化超过1/3/5%的点取并集Parameter

Name变化超过1%点并集变化超过3%点并集变化超过5%点并集model.layers.0.self_attn.q_pr

oj.weight99.952%99.040%96.757%model.layers.0.self_attn.k_proj.wei

ght99.975%99.145%96.655%model.layers.0.self_attn.v_proj.wei

ght99.998%99.668%98.024%model.layers.0.self_attn.o_pr

oj.weight99.999%99.909%99.434%model.layers.0.mlp.gate_proj.w

eight99.996%99.328%95.437%model.layers.0.mlp.down_proj.wei

ght99.998%99.301%95.230%model.layers.0.mlp.up_proj.weight99.999%99.391%95.651%model.layers.0.input_layernorm.weight99.976%99.487%98.877%model.layers.0.post_attention_l

ayernorm.weight99.829%89.453%54.517%model.layers.1.self_attn.q_pr

oj.weight99.855%95.745%88.410%model.layers.1.self_attn.k_proj.wei

ght99.847%95.608%87.953%model.layers.1.self_attn.v_proj.wei

ght99.999%99.811%98.604%model.layers.1.self_attn.o_pr

oj.weight99.999%99.936%99.456%model.layers.1.mlp.gate_proj.w

eight99.994%99.145%94.551%model.layers.1.mlp.down_proj.wei

ght99.998%99.411%95.738%model.layers.1.mlp.up_proj.weight99.997%99.368%95.518%model.layers.1.input_layernorm.weight99.316%80.908%50.195%model.layers.1.post_attention_l

ayernorm.weight96.729%25.391%2.539%有非常少数的参数在所有语言二次预训练中变化都很小ML-Summit

2023对语言核心区和非核心区参数分别随机扰动LLaMA2-7B-baseTop

0.03Bottom

0.03Random

0.03Arabic6.73210.890132988.3128.815Chinese8.55415.018200279.45310.909Czech19.62237.88248612.70728.025Danish8.41216.15172907.68811.224Dutch16.86333.97653034.96123.371English8.3869.06025308.4108.673Finnish7.53517.22857291.12910.800French13.48522.26040576.05916.776German18.19530.79273363.97724.122Greek 3.843 6.028 448650.156 5.156扰动核心区域

在30种语言上PPL全都呈现爆炸趋势ML-Summit

2023对语言核心区和非核心区参数分别随机扰动LLaMA2-13B-BaseTop

0.03Bottom

0.03Random

0.03Arabic6.2658.29666492.7347.836Chinese7.8328.951136295.3598.757Czech17.36723.86320363.22522.303Danish7.4148.50718157.6218.627Dutch15.53420.71120631.89819.647English7.8518.5018503.6348.536Finnish6.8028.29115942.8388.366French12.36115.65317057.10215.247German16.67821.22329565.83220.850Greek 3.609 4.337 162718.406 4.393LLaMA2

7B

13B

现象完全一样ML-Summit

2023随机扰动恢复实验模型测试语料训练语料训练语句数量随机初始化bottom-diff0.01-freeze随机初始化bottom-diff0.01-non-freezeLLaMA2-7B中文公众号1W中文知乎073408.2032K4424.7796.2565K359.6945.9221W225.5915.9722W22.9046.155W7.1515.698英文Falcon

1W031759.9472K28371.53913.8845K441158.71914.7931W197902415.6042W9859.42616.395W1276.35418.961使用中文的进行训练后,中文能力都可以恢复,模型具备一定的“代偿”能力ML-Summit

2023随机扰动恢复实验模型测试语料训练语料训练语句数量随机初始化bottom-diff0.01-freeze随机初始化bottom-diff0.01-non-freezeLLaMA2-7B中文公众号1W中文知乎073408.2032K4424.7796.2565K359.6945.9221W225.5915.9722W22.9046.155W7.1515.698英文Falcon

1W031759.9472K28371.53913.8845K441158.71914.7931W197902415.6042W9859.42616.395W1276.35418.961在语言区不锁定的情况下,仅训练中文,英文也能恢复一定能力,但是锁定情况下很难恢复ML-Summit

2023大模型中的语言核心区展示Layer0-

KLayer1-

KLayer5-

KLayer10-

KLayer15

-

K Layer20

-

K Layer25

-

K Layer31-

KQKVO矩阵都呈现维度集中现象ML-Summit

2023大模型中的语言核心区展示Layer0-

upLayer1-

upLayer5-

upLayer10-

upLayer15

-

up Layer20

-

up Layer25

-

up Layer31-

upFFN-UP

&

Down某些维度上具有明显的列聚集现象ML-Summit

2023大模型中的语言核心区展示LLaMA2-13BLayer39-

o维度集中现象明显ML-Summit

2023扰动模型中单点模型PPL(公众号)llama2-13B-base5.865llama2-13b-reset‘1’-layer0-norm21005.866llama2-13b-reset‘1’-layer1-norm210083224.078llama2-13b-reset‘1’-layer1-norm28005.86llama2-13b-reset‘1’-layer1-norm42005.858llama2-13b-mul10-layer0-norm21005.866llama2-13b-mul10-layer1-norm210039462.238llama2-13b-mul10-layer1-norm28005.859llama2-13b-mul10-layer1-norm42005.864ML-Summit

2023仅修改130

亿参数中的1

个就会使模型混乱输入:Fudan

University

is

locatedinLLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.Thelanguageofinstructionis

Chinese.LLaMA2-13B-修改语言LayerNorm

2100扩大4倍

(PPL257.722)

:Fudan

University

is

located

in

Tertian,

andislocatedtettetattetetettetetttententeentteth,tat,tat,tate,tat,

ta.162words

for,</s>LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大4倍

(PPL

5.858)

:Fudan

University

is

located

in<s>FudanUniversityislocatedinShanghai,China.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryof

Education,

People‘s

Republic

of

China.

The

university

has

34,000

universitystudents

and

8,885

faculty

staff,including4,275teachingstaff,amongwhom1,12academiciansoftheChineseAcademyofSciencesortheChineseAcademyofEngineering.ML-Summit

2023仅修改130

亿参数中的1

个就会使模型混乱输入:Fudan

University

is

locatedinLLaMA2-13B(PPL5.877):FudanUniversityislocatedinShanghai,China.Itislocallyknownas复旦大学.Theuniversitywasestablishedin1905.ItisaccreditedbyMinistryofEducationofthePeople'sRepublicofChina.Thereareover40,000studentsstudyinginvariouscoursesofferedbyFudanUniversity.Thelanguageofinstructionis

Chinese.LLaMA2-13B-修改语言LayerNorm

2100

扩大10倍

(PPL

376079936)

:Fudan

University

is

located

in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s><s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s>

<s>\<s>{"<s>LLaMA2-13B-修改语言非核心区LayerNorm其他维度扩大10倍

(PPL

5.914)

:Fudan

U

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论