软件与服务行业月之暗面:长文本能力点亮国产大模型发展之路_第1页
软件与服务行业月之暗面:长文本能力点亮国产大模型发展之路_第2页
软件与服务行业月之暗面:长文本能力点亮国产大模型发展之路_第3页
软件与服务行业月之暗面:长文本能力点亮国产大模型发展之路_第4页
软件与服务行业月之暗面:长文本能力点亮国产大模型发展之路_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录月之暗面:国产AI独角兽 4技术身公创人术背深厚 4从学到业明团打造之面 6KimiChat:长文本技术世界领先 8如何看待KIMI的长文本能力跃升? 风险提示 14图表目录图1:月之暗面发展历程 4图2:杨植麟与两位博士导师RuslanSalakhutdinov(最右WilliamCohen(最左)合影 4图3:杨植麟文章被大量引用 5图4:XLNet架构 6图5:杨植麟个人经历 6图6:杨植麟在华为云全球技术峰会介绍盘古NLP大模型 7图7:北京月之暗面科技有限公司股权情况 8图8:KimichatVSGPT4:搜索总结 9图9:KimichatVSGPT4:论文总结 9图10:KimichatVSGPT4:财报解析 10图chat上市至今已经历4轮迭代 10图12:按200万字测算,Kimichat长文本处理能力或领先全球 10图13:对比其他大模型,KimiChat文本处理能力接近GPT4 图14:KimiChat在长文本摘要、多选问答两个环节得分领先 图15:长文本能力使得KIMI能依据更长的Prompt进行推理 12图16:KIMI-Chat鼓励用户尝试超长文本的任务 13图17:KIMI在长文本任务中有较好的表现 13表1:杨植麟参与的部分学术论文(截至2024年3月21日) 5表2:月之暗面创始股东学术背景 7表3:月之暗面融资情况 8表4:主要大模型定价及上下文窗口对比 请阅读后评说明重要明 3/16AI独角兽月之暗面迅猛发展已成为国内大模型领域的领军企业之一。月之暗面(Moonshot2023310KimiChattoC为发展2024318Kimi200AI图1:月之暗面发展历程资料来源:澎湃新闻,IT之家,技术立身,公司创始人学术背景深厚公司创始人杨植麟师从中美各路AI大拿。Felow2015(P)研究全球排名第一的卡内基梅隆大学语言技术研究所攻读博士,师从知名学者RuslanSalakhutdinov与WilliamCohen。图2RuslanSalakhutdinov(WilliamCohen()合影资料来源:腾讯云,杨植麟与多位图灵奖得主合作发表论文,学术成果颇丰。据不完全统计,杨植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP20余篇。他曾与图灵奖得主BengioHotpotQA,并以一作身份发表《XLNet:Generalizedautoregressivepretrainingforlanguageunderstanding》和《Transformer-XL:Attentivelanguagemodelsbeyondafixed-lengthcontextNLPNeurIPS2019ACL2019202431LtoogeScolr940ransforer-L图3:杨植麟文章被大量引用资料来源:GoogleScholar,表1:杨植麟参与的部分学术论文(截至2024年3月21日)论文题目 发表时间 发布刊物 引用次数论文题目 发表时间 发布刊物 引用次数第几作者Xlnet:Generalizedautoregressivepretrainingfor 2019 Xlnet:Generalizedautoregressivepretrainingfor 2019 NIPS'19:Proceedingsofthe33rdInternationalConference 9840一作Transformer-xl:Attentivelanguagemodels 2019 AnnualMeetingoftheAssociationforComputational 3829共同一作Revisitingsemi-supervisedlearningwithgraph 2016 ICML'16:Proceedingsofthe33rdInternationalConference 2006一作HotpotQA:Adatasetfordiverse,explainable 2018 Procmulti-hopquestionansweringeedingsofthe2018ConferenceonEmpiricalMethods 1636一作GPTunderstands,too2023AIOpen986通讯作者beyondafixed-lengthcontext Linguisticsembeddings onInternationalConferenceonMachineLearninginNaturalLanguageProcessingGlm:Generallanguagemodelpretrainingwithautoregressiveblankinfilling

2021 Proceedingsofthe60thAnnualMeetingoftheAssociationforComputationalLinguistics

638 通讯作者Multi-taskcross-lingualsequencetaggingfromscratch

2016 arXiv 626 一作P-tuningv2:Prompttuningcanbecomparableto 2021 P-tuningv2:Prompttuningcanbecomparableto 2021 Proceedingsofthe60thAnnualMeetingoftheAssociation 617通讯作者Differentiablelearningoflogicalrulesfor 2017 NIPS'17:Proceedingsofthe31stInternationalConference 615二作Goodsemi-supervisedlearningthatrequiresa 2017 NIPS'17:Proceedingsofthe31stInternationalConference 545共同一作knowledgebasereasoning onNeuralInformationProcessingSystemsbadgan onNeuralInformationProcessingSystems资料来源:GoogleScholar,ACM,SemanticScholar,ACLAnthology,ScienceDirect,arXiv,杨植麟曾在谷歌就大模型长文本识别问题做出重要研究成果。读博后期,他曾在Facebook人工智能研究院和GoogleBrain研究院工作,GoogleBrain创始成员QuocLe也同时参与《XLNet》和《Transformer-XL》两篇论文的研究。Transformer-XLTransformerTransformer-XL下文碎片化问题,同时利用相对位置编码机制解决可能出现的时序混淆问题。请阅读后评说明重要明 5/16XLNet使用了《Transformer-XLPermutationLanguageModel(PLM)AR(Auto)AEAuto)相结合以更好地捕捉上文信息并改善了模型对长距离依赖性的处理能力。NLPKimi图4:XLNet架构资料来源:《Xlnet:Generalizedautoregressivepretrainingforlanguageunderstanding》,杨植麟等人,杨植麟深度参与了多个国产大模型的研发工作,是中国大模型产业的业界领袖之一。悟道大模型是智源研究院副院长、清华大学教授唐杰带头研发的我国最早的大模型之一,杨植麟作为唐杰的得意门生、智源青年科学家,深度参与项目研发,是多篇关键论文的AIGLMNLP大模型。图5:杨植麟个人经历资料来源:Github,汕头发布,清华大学官网,AI科技评论公众号,从学术到实业,明星团队打造月之暗面杨植麟在创立月之暗面之前,已积累了一定创业经验。2016curent.iI2021NLPBertGPT系列的效果。图6:杨植在华云全球技峰会绍古NLP大型 资料来源:华为云,penIGoogleGemini、GoogleBardNLP心技术被GooglePaLM、MetaLLaMA、StableDiffusion等主流产品采用。职位 学术背景表2:月之暗面创始股东学术背景职位 学术背景杨植麟 创始人实控

CMUAISalakhutdinovFacebookAIResearchGoogleBrainICLR、NIPSICML、KDD、ACLAI(State-of-the-art)。清华大学计算机博士,师从清华大学计算机系副系主任、数据挖掘顶级专家唐杰教授;曾作为核心开发张宇韬 联合创人,CTO者研发全球名的技大据析平台AMiner,产品务于等科技头及家科部等科研管理机构。周昕宇 联合创人 清华学级科生毕业选择加旷视以共一作身撰写《ShuffleNet:AnExtremelyEfficientConvolutionalNeuralNetworkforMobileDevices》,中标CVPR。毕业于清华大学与卡耐基梅隆大学,曾获2018年欧洲计算机视觉会议(ECCV)最佳论文提名。他是吴育昕 联合创人汪箴 创始成员资料来源:36Kr,量子位,

Meta(Facebook)员工,系公司人工智能实验室FAIR团队的一员,曾和队员何恺明共同提出了组归一化(GroupNormalization,简称GN)的方法。AIGoogle/AI/图7:北京月之暗面科技有限公司股权情况资料来源:,AI20233321025司已成为国内大模型领域的头部企业之一。表3:月之暗面融资情况时间投资方金额企业估值2023年6月红杉中国、真格基金超2亿美元超15亿美元2023年10月红杉资本、今日资本、砺思资本近20亿人民币2024年2月阿里、红杉中国、小红书、美团等超10亿美金约25亿美金资料来源:36Kr,KimiChat:长文本技术世界领先KimiChatC端用户提供服务。KimiChat(PDFExcelCSV、PPT、TXT、图片等)PDF文件解析、等任务环节,Kimichat表现与GPT4接近,显示出较好的文本处理能力与交互效果。图8:KimichatVSGPT4:搜索总结资料来源:Moonshot官网,OpenAI,图9:KimichatVSGPT4:论总结 资料来源:Moonshot官网,OpenAI,图10:KimichatVSGPT4:财报解析资料来源:Moonshot官网,OpenAI,技术迭代助力性能跃升,KimiChatChat2023102042024318日,MoonshotAI20010API11.5-21.5200133Kimihatemii15r(10okesade(20万okens)P-4urbo(12.8okes,为全球领先水平。图chat上市今已历4轮迭代 图12:按200字测,Kimichat长本处能力领先球0

1000200 2001000200 200128 12832 30 8

上下文窗口(千Tokens)资料来源:Moonshot官方公众号, 资料来源:各公司官网,(注:moonshot-v1最大上下文窗口假设为1Token=1.5字)chatchat在生成长文本摘要、多选问答上要优于其他模型,而在代码与数学的能力上moonshot-v1-128ktokens的60(L4P4urbo图13:比其大模,KimiChat文处理力近GPT4 图14:KimiChat在长本摘多选问两个节得领先资料来源BenchExtendingLongContextEvaluationBeyond100KTokens》(Zhangetal,2024),

资料来源BenchExtendingLongContextEvaluationBeyond100KTokens》(Zhangetal,2024),表4:主要大模型定价及上下文窗口对比模型提供商区域输入价格(元/Mtokens)输出价格(元/Mtokens)上下文窗口Claude3OpusAnthropic国外107533200KGPT4turboOPENAI国外71213128KClaude3SonnetAnthropic国外21107200KGLM-4智谱AI国内100100128Kmoonshot-v1-128kMoonshot国内6060128Kqwen-plus阿里巴巴国内202030K文心-4.0-8K百度国内12128K混元-标准版腾讯国内1010-Claude3HaikuAnthropic国外29200KGemini1.0ProGoogle国外13-资料来源:,Anthropic,OpenAI,Moonshot,阿里巴巴,百度,腾讯,Google,智谱AI,(注:美元与人民币换算为7.10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论