




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
全球机器学习技术大会主办方合作伙伴异步社区wwwwnuhitwww.epuDl.Co清華大学出版社TSINGHUAUNIVERSITYPRESS清華大学出版社TSINGHUAUNIVERSITYPRESSCHINAMACHINEPRESS2025技术会议一技术人的思想盛宴2025技术会议一技术人的思想盛宴全球机器学习04月18-19日上海10月17-18日北京全球产品经理大会6月6-7日北京Summit全球软件研发8月15-16日上海全球全球C++及系统软件技术大会12月12-13日北京SoftwareSummitAIGC怏空2024长沙中国12024长沙中国1I111!!!2020-2024产品评测客户案例活动整理专题权威出版大模型驱动软件开发智能化的四大误区《新程序员》聚集全球技术大师、行业技术先锋,从前沿技术到《中国开发者调查报告》中国样本丰富的开发者调查报告,目前已成为完整准确了解中国开发者市场的重要参考资料。CSDNCSDN扫码购买最新版程序员杂志Al扫码购买最新版程序员杂志MLML-Summit2024全球机器学习技术大会张俊林新浪微博首席科学家、新技术研发负责人中国中文信息学会理事,中科院软件所博士。目前担任新浪微博技术研发负责人,在此之前在阿里巴巴担任资深技术专家,负责新技术团队。《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》的作者,目前主要研发兴趣集中在推荐系统及自然语言处理演讲主题:OpenAlo1技术原理解析ML-SummitML-Summit2024全球机器学习技术大会OpenAlo1技术原理解析MLML-Summit2024全球机器学习技术大会小OpenAlo1模型的意义小o1的可能训练过程小强化学习与LLM融合构造01模型全球机器学习技术大会全球机器学习技术大会人类大脑擅长快思考的系统1和擅长慢思考的系统2,GPT4类似于大脑中的系统1,OpenAIo1类似于大脑中的系统2。系统1系统2系统17慢慢刻意练习复杂决策下意识自动人类大脑的两套系统人类大脑的两套系统全球机器学习技术大会o1全球机器学习技术大会复杂逻辑推理能力的极大提升复杂逻辑推理能力的极大提升全球机器学习技术大会全球机器学习技术大会ScalingLaw是驱动最近几年大模型发展的主要因素,目前面临因数据短缺而曲线开始平缓的阶段,不可持续。5.0-5.0-4.03.0-2.0-Compute大模型发展的第一驱动力:ScalingLaw全球机器学习技术大会全球机器学习技术大会o1AIMEo1AIMEaccuracyo1RLTrain-timeScalingo1Inference全球机器学习技术大会全球机器学习技术大会O1-mini的效果在某些场景甚至比规模大的多的o1-Preview要好。AIMEAIME全球机器学习技术大会o1为小模型发展扫清了障碍全球机器学习技术大会 “能力分治”模式推进小模型技术发展:把语言、世界知识及逻辑推理三个能力解耦,语言能力靠小模型自身、逻辑推理LanguageLogicKnowledge01引发的安全对齐新模式MLML-Summit2024全球机器学习技术大会RevisesharmfulAlresponsesthroughiterativeself-critiqueandfine-tuning.UsesAlevaluationsofresponsesaccordingtoconstitutionalprinciplestogeneratepreferencedataforharmlessnessandusesittotrainanewmodelviaReinforcementLearningfromAIFeedback.UsesAlevaluationsofresponsesaccordingtoconstitutionalprinciplestogeneratepreferencedataforharmlessnessandusesittotrainanewmodelviaReinforcementLearningfromAIFeedback.4.AIGENERATESDATASETOFPREFERENCESFORHARMLESSNESSapproachthatharnessestheirreasoningcapabilitiestomakethemadheretosafetyandalignmentguidelines.Bybeingabletoreasonaboutoursafetyrulesincontext,itcanapplythemmore4.AIGENERATESDATASETOFPREFERENCESFORHARMLESSNESSUSINGTHENEWPREFERENCEMODEL(RLAIF)4.TRAINPREFERENCEMODEL2.CRITIQUEANDREVISERESPONSE “深度思考”在复杂任务中的广泛应用-大模型搜索全球机器学习技术大会深度思考能力善于解决长链条复杂任务,目前在LLM搜索已广泛采用,也会快速拓展到更多应用领域。perplexity.ai类似产品:Kimi探索版、ChatGPT搜索发布日期:2024年10月15日OpenAlco-founder,trackingwhentheyleavethecompanyandhighlightingwheretheywork特点:特点:Co-founderNameSamAltmanLeftOpenAICurrentWorkplace√将复杂问题拆解成若干子查询,通过复杂推理集成最终搜索1结果√Perplexity集成Co-founderNameSamAltmanLeftOpenAICurrentWorkplace20182ElonMusk√20182ElonMusk2024-05-14llyaSutskever2024-05-14+Askfollow-upVickiCheung2017-12-01a(OpenAI所有联合创始人何时离开公司以及现在在哪个公司)MLML-Summit2024全球机器学习技术大会小OpenAIo1模型的意义小o1的可能训练过程小强化学习与LLM融合构造01模型全球机器学习技术大会OpenAIol的在线推理过程全球机器学习技术大会oyfjdnisdroyfjdnisdrrtqwainracxzmynzbhhx->ThinkstepUsetheexampleabovetodecode:oyekaijzdfaaptcgsuaokybhaiouowaqhtmynznvaatzacdfoulxxzFirst,whatisgoingonhere?Wearegiven:First,anexample:"oyfjdnisdrrtqwainracxzmynzbhhx->ThinkstepWecanseethatwhen"oyfjdnisdrrtqwainracxzmynzbhhx"istransformedto"Thinkstepbystep"Todecodethegivenciphertextusingtheexampleprovided,we'llusethepatternidentifiedintheexample.CiphertextExample:1oyfjdnisdrrtqwainrac3.HiddenCOT摘要1THEREARETHREER'SINSTRAWBERRY全球机器学习技术大会全球机器学习技术大会基础能力服从指令/内容安全基础能力Pre-TrainingPost-TrainingInference思考/COT摘要生成答案基础能力(增强逻辑)服从指令(增强逻辑)思考/COT摘要生成答案全球机器学习技术大会大概率是不对的,也要重视增强基座模型的基础逻辑能力,两者相互促进。PerformanceItemPerformanceItemDifficulty=(0.85,0.4)NumberofLLMCallsNumberofLLMCallsItemDifficulty=(0.85,0.3)随着逻辑题目难度上升/集theScalingPropertiesofCompoundAISystems—α(easyfraction)=0.4—α(easyfraction)=0.5—α(easyfraction)=0.6OpenAIOpenAIo1发布之前的研究结论全球机器学习技术大会只强调Inference-TimeScaling大概率是不对的,也要重视增强基座模型的基础逻辑能力,两者相互促进。pass@pass@laccuracyjustaskol-minimajorityi40·/hughbzhang/status/1838288NN全球机器学习技术大会最小构成:主模型+COT摘要模型。producingdisallowedcontentinthesesummaries.Wefindthemodelhasstrongperformancehere.summarycontaineddisfoundthatthishappensinonly0.06%ofcompletions.Additionally,wepromptedol-previewwith全球机器学习技术大会gpt-4ogpt-4o-2024-08-06gpt-4o-2024-05-13Pricing$5.00/1Minputtokens$15.00/1Moutputtokens$2.50/1Minputtokens$10.00/1Moutputtokens$5.00/1Minputtokens$15.00/1Moutputtokens$2.50/1Minputtokens$7.50/1Moutputtokens$5.00/1Moutputtokens$2.50/1Minputtokens$7.50/1MoutputtokensVS.$15.00/1Minputtokens$60.00/1Moutput*tokensModelgpt-4o-mini$0.600/1Moutputtokens$0.600/1Moutputtokens$0.075/1Minputtokens$0.300/1MoutputtokensVS.$0.075/1Minputtokens$0.300/1Moutputtokens01-mini-2024-09-12$12.00/1Moutput*tokens$12.00/1Moutput*tokensNN全球机器学习技术大会MLML-Summit2024全球机器学习技术大会模型的意义小o1的可能训练过程小强化学习与LLM融合构造o1模型强化学习(ReinforcementLearning,RL)基础(1/4)全球机器学习技术大会1.Agent观察世界2.Agent改变状态3.Agent作出行为,对外部世界有某种影响希望在这个过程中获得最大收益希望在这个过程中获强化学习(ReinforcementLearning,RL)基础(2/4)全球机器学习技术大会变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。AMarkovDecisionProcessisatuple(S,A,P,R,γ〉状态采取行为a后转移■Risarewardfunction,Rs=E[Rt+1|St=s,At=a]全球机器学习技术大会强化学习(ReinforcementLearning,RL)全球机器学习技术大会目标:自动驾驶汽车行驶路程越远越好越快FastSlowSlowSlowSlowFastFast全球机器学习技术大会强化学习(ReinforcementLearning,RL)基础(4/4)全球机器学习技术大会DensestateS01中强化学习的状态空间(1/2)全球机器学习技术大会关于01的RL状态空间,首先的问题是:这个状态空间是离散的还是连续的?大概率是连续状态空间,或者说最好把它看成是连续状态空间。format'[1,2],3,4],5,Sotheuserisrequestingathatcantakeastringrepresenmatrix,suchas'[1,2],3,4],5,6]'andformat'[1,2],3,4],5,State1Token序列组成的连续状态空间01中强化学习的状态空间(2/2)MLML-Summit2024全球机器学习技术大会是连续状态空间。各种操控动作作为离散行为空间SotheuserisrequestingabashscriptO1:LLM+RLnojoVnOCnojoVnOC两者类似Prompt:Writeabashscriptthattakesamatrixrepresentedasastringwith两者类似format'[1,2],[3,4],[5,6]'andprintsthetransposeinthesameformat.01:Token序列作为连续状态空间输入RL打Atari游戏:图像作为连续状态空间输入和游戏RL的类比全球机器学习技术大会01中强化学习的行为空间(1/2)全球机器学习技术大会人在思考复杂问题时,有比较固定且数量并不太多的“思考模式”或者可以叫“思考因子”。比如拿到一个复杂问题,我们一般会首先明确这个问题的目标是什么,然后把复杂问题拆解成几个环节或者步骤,为了得到某一个具体步骤的解法,可能会提出一个假设,然后验证这个假设是否成立,如果不成立,那么继续提出新的假设,直到解决这个子问题…Sum:15+25=40Sum:15+25=40Alternatively,perhapssubtract:25-15=10.plaintextfromtheciphert提出猜测否定猜测提出猜测从HiddenCOT从HiddenCOT可以归纳出一些典型的人类思考问题的一些隐含的“思考因子”Alternatively,perhapscombinethenumbersinsomeway.Alternatively,thinkabouttheirpositionsinthealphabet.Alternatively,perhapstheletter提出候选方案Wait,earlierImissedLet'sre-expresstheSoSotheuserisrequestingabashscriptthatcantakeastringrepresentingamatrix,suchas'[1,2],[3,4],[5,6]'andoutputitstranspose,inthesameformat.自我发现&修正错误Approach:-Parsetheinputstringtoextractthematrixelements.-Buildthematrixasanarrayofarrays.-Transposethematrix.01中强化学习的行为空间(2/2)全球机器学习技术大会习调整因子标签内部Token的生成概率。■outputformats.....O1:LLM+RLamatrixrepresentedasastringwithformat'[1,2],3,4],[5,6]'andprintsthetransposeinthesameformat.AppendACTRephraseTarget-Starl>Sotheuserisrequestingabashscriptthatcantakeastringrepresentingamatrix,suchas'[
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国闪蒸罐装置行业经营策略与前景趋势预测报告
- 2025-2030中国药用安瓿瓶行业现状规模及供需趋势预测报告
- 董事会跨文化管理考核试卷
- 生育保险覆盖人群分析考核试卷
- 冷链物流行业市场细分与定位策略考核试卷
- 兔子养殖场环境风险评估考核试卷
- 流程监控中的风险评估与控制机制设计考核试卷
- 基于报告的行业分析:碳排放溯源技术的发展与市场机遇
- 基于社交媒体的旅游目的地营销策略研究报告
- 2025年房地产行业总结及市场预测报告
- 武陟县袁肯纸业有限公司纸箱项目环评报告
- 液氨的管理及应急救援处置
- 工程质量验收报告和竣工验收报告
- 2022-2023学年内蒙古赤峰市数学高一下期末统考模拟试题含解析
- 江西省建筑工程竣工备案表
- 幼儿园三年发展规划第一年实施绩效自评报告
- 中医医院中医师带徒协议模板范文
- GB/T 9081-2008机动车燃油加油机
- GB/T 17626.27-2006电磁兼容试验和测量技术三相电压不平衡抗扰度试验
- GB/T 1185-2006光学零件表面疵病
- 2023年人社所半年工作总结
评论
0/150
提交评论