2025人工智能行业数据集构建及模型训练方法实践_第1页
2025人工智能行业数据集构建及模型训练方法实践_第2页
2025人工智能行业数据集构建及模型训练方法实践_第3页
2025人工智能行业数据集构建及模型训练方法实践_第4页
2025人工智能行业数据集构建及模型训练方法实践_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能行业数据集构建及模型训练方法实践专业需求训练技术

数据构建集成演进三.NL2SQL助力大模型与传统IT智源IndustryCorpus1.0智源IndustryCorpus1.0

开源数据一期18二期扩展到30行业指令数据(医疗、教育)、行业偏好数据(医疗预训练数据:基于规则+模型指令数据:基于指令复杂性+回复质量+多轮相关性

IndustryCorpusIndustryCorpus

6借助LLM借助LLM训练方式:bge-m3(指标高,收敛快qwen1.5-0.5b-bge-bert-snowflake(fineweb-edu图1图1图3{:,:}{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom{"text":"\\_\\_\\_\\_\\_\\_\\_\\_\\_\\_\n\nTranslatedfrom*ChineseJournalofBiochemistryandMolecularBiology*,2007,23(2):154--159\\[译自:中国生物化学与分子生物学报\\]\n","quality_score":{"text":"![](brjcancer00428-0139.tif\"scanned-page\"){.737}\n","quality_score":-0.3435468375682831,}{"text":"#ifndef_IMGBMP_H_\n\n#ifdef {\n#endif\n\nconstuint8_tbmp[]={\n\\/\\/--调入了一幅图像:D:\\我的文档\\MyPictures\\12864-555.bmp*\\/\n\\/\\/--宽度x高度=128x64-- _SSD1306_16BIT_H_\n”,图3图3.fineweb-edu质量分类模型在中文上的打分表现,普遍较低对数据质量进行评估,结合使用两种策略:对数据质量进行评估,结合使用两种策略:Rule-based,odel- 三.NL2SQL助力大模型与传统IT

☆☆☆☆☆

☆☆☆☆SFTSFTsource:source:Wedemonstratethatlargelanguagemdstruggletoacquirenewfactualknowledgethroughfine-tuning,asfine-tuningexampesthatintroducenewknowledgearelearnedsignificantlyslowerthanthoseconsistentwiththemd’knowledge.However,wealsofindthatastheexampeswithnewknowledgelargelanguagemdmosyacquirefactualknowledgethroughpre-training,whereasfinetuningteachesthemtouseitmoreefficiently.为什么要采用CPT+SFT+RLHF的“CSR为什么要采用CPT+SFT+RLHF的“CSRBase(基座模型):CPT(继续预训练):RAG:使用医疗领域数据,在通用模型上进行使用医疗领域数据,在通用模型上进行CPT+SFT+RLHF(CSR)全流程训练,验证行业预训练数据有效性指令微调数据,人类偏好数据的筛选方案;确立了行业模型的训练范式。

偏好训练:借助GPT医疗领域示范模型训练:CPT医疗领域示范模型训练:CPT

CPT二阶段:基于模型过滤的高质量领域数据+SFTCPT医疗领域示范模型训练:CPTStage Stage目的:防止由于预训练和继续预训练数据

基于LLM过滤数 SFT数 token特殊token60B

一L领域数据中有语法错误,语义不连贯,多个不相关内容的拼从基于规则过滤后的数据中提取20k种子数据训练一个20B医疗领域示范模型训练:SFT医疗领域示范模型训练:SFTSFTGPTJudge

单轮QA数 多轮QA数

CR医疗领域示范模型训练:SFT医疗领域示范模型训练:SFT si=ci∗

不同话轮之间的相关性很低,导致前

L

|H)=−

lOgP(wj|H,w1,w2,…,wj−1;

L

)=−

lOgP(wj|w1,w2,…,wj−1;

(H,T)=CR> CR≪1:医疗领域示范模型训练:SFT医疗领域示范模型训练:SFT中文:英文医疗领域示范模型训练:RLHF医疗领域示范模型训练:RLHF图1.RL阶段数据筛选和训 全流程训练后,领域客观指标总体提升20%--基于harness评RL数据来源:SFT主观数据:使用SFT模型和GPT认知/安全数据:不进入RL

SFT+RL训练后,主观评估对比标注数据胜率为医疗领域示范模型训练:RLHF阶段-DPO医疗领域示范模型训练:RLHF阶段-DPO主观 示例Aquila-Med-

医疗领域示范模型训练:RLHF阶段-DPO医疗领域示范模型训练:RLHF阶段-DPO我们构建了一个包含12,727DPO偏好对的数据集,其中包括9,019个主观数据样本和3,708医疗领域示范模型训练:CSR医疗领域示范模型训练:CSR全流程训练后,客观指标总体提升20%--基于harnessSFT+RLHF训练后,主观评估对比标注数据胜率为82%,DPO提升三.NL2SQL助力大模型与传统IT三.NL2SQL助力大模型与传统ITAquilaSQLAquilaSQLContinuePreTrainSQLDataFormattedExactMatchLLM可以很好的适配SQL两步训练:CPTand可以在开源Cspider数据集达到SOTA表现.改变训练数据格式,适配本地数据库查询。设计基于LLM的NL2SQL格式化SFT生成数据中解析出SQL参考传统Text2SQL任务,计算生成的SQL和LabelAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLSELECTA.az26FROMAORDERBYDESCLIMITAquilaSQL+RAG:NL2SQLAquilaSQL+RAG:NL2SQLd基于向量化召回,找到12.7k个对照关系中最相关的N

SELECTM.az26FROMMORDE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论