版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024年AI手机行业专题报告:AI手机走向AIOS_系统级AI定位端侧智能助理1.云端协同是AI手机未来,端侧AI成本、隐私安全多方面占优AI手机是基于大模型的高智能化手机终端。根据IDC定义,AI手机是NPU算力大于30TOPS(INT8)、搭载支持生成式AI的SoC并支持端侧大模型的手机。《AI手机白皮书》认为基于大模型的AI手机需具备强大的计算能力、复杂信息感知能力、自学习能力与创作能力。通过重构手机现有服务生态与操作系统,赋予用户全新AI体验。云端大模型协同满足AI手机不同场景需求。云侧:(1)具备高算力,适宜进行模型训练。可支持参数量千亿以上的大模型,推理与多模态交互能力强;(2)知识储备丰富,如GPT-4-Turbo外部文档和数据库截止日期更新至2023年4月;(3)泛化能力强,可作为AI应用开发基座。端侧:(1)成本低,避免数据中心高昂的运营、网络传输、能耗成本;(2)隐私安全性高,用户隐私信息存储及处理均在终端进行;(3)低延时,仅为单一用户服务,避免需求高峰时任务处理拥挤;(4)支持离线使用。基于云侧及端侧大模型特点,我们认为云侧大模型适用于复杂度高、专业性强、涉及多模态交互的任务处理,端侧大模型适用于复杂度低、隐私敏感度高的任务以及离线任务处理。针对复杂度高且涉及用户隐私的复合任务场景,可首先在端侧进行信息脱敏,再上传至云侧进行处理;并且端侧大模型可通过学习用户个人信息,在复杂任务处理中给予云侧大模型更佳提示,赋予用户更佳服务体验。基于云侧、端侧大模型协同的AI手机可满足用户不同场景需求,更高效地利用资源并提供更佳服务体验。端侧模型推理成本是云侧模型1/100以下。根据高通《混合AI是AI未来》,生成式AI单次搜索查询成本是传统搜索方法的10倍,目前每天搜索查询次数超过100亿次,每年增量成本可能达到数十亿美元。并且由于大模型的推理成本与终端用户数量正相关,云侧大模型推理成本将伴随日活用户数量及使用频率快速增长,规模化拓展难以持续。根据面壁智能CEO李大海测算,以搭载骁龙855的OPPO手机为例,假定搭载参数量2B、每秒处理量7.5Tokens的MiniCPM端侧模型,运行5年后报废,推理成本约为600元,测算可得170万Tokens推理成本仅1元,是Mistral的1/100,GPT-4的1/360。根据OpenAI,其在5月13日最新发布的GPT-4o可免费向用户提供服务,但仍在用量方面进行限制。根据OpenAIDeveloperForum,免费用户在3小时内仅允许向ChatGPT发送40条以内的消息。ChatGPT能耗达50万千瓦时/天,终端部署大模型降低数据传输能耗。根据纽约客报道,ChatGPT每天需处理约2亿个用户请求,消耗超过50万千瓦时电力,相当于1.7万个美国家庭平均一天的用电量。根据《混合AI是AI未来》,手机终端能够以很低的能耗运行生成式AI模型,可有效避免数据传输至云服务器中导致的高能耗。端侧AI保障用户隐私安全,并可基于用户信息提供个性化服务。生成式AI由于交互方式革新,不仅可收集用户邮箱、手机号等可唯一标识个人的信息,也会收集用户语音聊天记录,一旦泄露会严重影响用户的个人隐私安全。2023年3月ChatGPT的API出现错误,导致Redis内存中的数据并未及时清除,用户的聊天记录片段,甚至信用卡的最后四位数字、到期日期、姓名、电子邮件地址和付款地址等信息可能泄露至其他ChatGPT使用者。根据OpenAI官方调查报告,约有1.2%的ChatGPTPlus用户面临数据泄露。与云侧AI相比,端侧AI模型将用户个人信息储存在本地,无需上传至云服务器中,并且手机终端可通过安全芯片或操作系统进一步保护用户信息安全。同时端侧AI可在不牺牲用户隐私安全的前提下,利用储存在终端的用户信息以及用户的表情、喜好和个性等进行学习和演进,增强和打造定制化的生成式AI提示,提供更个性化的服务体验。高推理需求可导致云侧模型宕机,端侧模型可靠性好且延时低。生成式AI查询对云侧模型需求达到高峰时可能会出现高时延甚至拒绝服务。2023年11月ChatGPT更新导致用户需求火爆,ChatGPT及其API出现周期性中断,OpenAI耗时3个多小时解决问题,期间收到用户6614份中断报告;2024年3月20日Kimi受系统流量持续异常升高影响,用户无法正常使用。终端侧AI模型针对单一用户提供服务,可有效避免短期需求大幅提升,可靠性更佳。并且端侧AI在无网络连接情况下仍可正常使用,用户可随时随地享受AI服务体验。2.AI手机仍处早期阶段,AIOS赋予完整AI体验2.1.初级AI手机形态:基础AI应用+AI增强功能目前AI手机主要是在原有操作系统上集成AI功能或AI应用。集成AI功能:以原有操作系统为基础,通过搭载端侧大模型增加或增强AI功能,如增加AI助理智能摘要生成、实时翻译功能等;集成AI应用:通过OpenAI发布的GPTStore下载定制化、个性化的AIAPP,如ChatGPTAPP等,可通过自然语言交互实现旅行规划、智能问答、图像识别生成等功能。基于生成式AI的美图秀秀APP可支持AI绘画、AI修图、AI美容等功能。基于原有操作系统的AI手机通过集成AI应用或AI功能,能够以自然语言与用户进行交互并高效处理任务,但本质仍是通过API接口调用生成式AI模型,未实现AI系统级应用。GalaxyAI赋能多项应用,GalaxyS24系列AI体验全面升级。GalaxyAI首创即圈即搜功能,用户只需长按Home键并在当前文本、图片或视频界面圈选图像即可获得优质结果。GalaxyS24系列内置笔记助手,可根据内容智能排版、生成摘要和封面;内置转录助手可识别多人讲话并转录为支持编辑的文本,也可直接翻译录音并生成摘要;原生通话应用程序引入通话实时翻译功能,支持13种语言实时双向和文本翻译;图像应用具有智能修图建议、生成式编辑等功能,可快速去除反光、改变人物或对象位置大小等。谷歌Pixel8系列增强图像编辑,个人助理Gemini智能提升。谷歌Pixel8系列内置的MagicEditor可以通过生成式人工智能编辑照片,ZoomEnhance通过生成式AI预测照片细节,填充像素间间隙,增强变焦;个人助理Gemini支持文本、语音及图片交互,可帮助朗读和翻译网页并生成摘要;录音机增加AI功能,可自动总结对话并生成摘要;AudioMagicEraser通过AI识别声音,可直接从视频删除不想要声音。HarmonyOS4率先接入AI大模型,小艺同学增加多项AI功能。HarmonyOS4采用全新华为方舟引擎,与HarmonyOS3相比,滑动流畅性提升约20%,续航增加约30分钟;并且对超级中转站等进行优化,支持手机、平板、PC等不同端口,具备跨端流转能力。HarmonyOS4将AI大模型技术接入小艺,全新小艺增强自然语言理解能力,支持用户更日常的表述方式;增加智能摘要和文案辅助创作功能;可依托多模态大模型技术,对已有图像进行个性化二次创作。小米14搭载底层重构的澎湃OS,支持人车家全生态。小米澎湃OS重构子系统,优化内存管理提高应用启动速度。澎湃OS拥有AI大模型植入系统,基于端侧大模型的小爱助手可智能创作文本、快速撰写购物评价、生成发言稿等。小米14内嵌图像应用可实现AI妙画、AI搜图、AI写真、AI扩图等功能。搭载的XiaomiHyperConnect可实现所有智能设备实时统一组网,可在手机、平板等设备的“融合设备中心”进行快捷控制。搭载ColorOS14的OPPOFindX7实现AndesGPT模型端云协同。ColorOS14系统端侧支持70亿参数的AndesGPT·Tiny大模型,云端支持AndesGPT·Turbo/Titan大模型。OPPOFindX7搭载ColorOS14系统,内置小布助手具有智能摘要、智能消除、内容创作等AI功能,并且系统内置的图像软件具有AIGC消除效果,可智能生成写真照片。VivoOriginOS4搭载自研BlueLM,X100系列具备丰富AI功能。基于10亿参数BlueLM的VivoX100系列,其内置的AI助手“蓝心小v”具备超能语义搜索、超能问答、超能写作、超能创图和超感智慧交互等功能,能够实现智能问答、文案撰写、摘要生成、图片编辑。摄影应用基于生成式AI,通过人像识别、场景识别等功能可优化拍摄效果。2.2.进阶版AI手机:基于意图交互的AIOS意图交互升华AI认知,AIOS深度融合端侧大模型。AIOS改变原有操作系统指令式的工作逻辑,通过集成智能感知技术实时获取用户行为、偏好等环境信息,实现意图式人机交互,使AI或系统可更好地理解用户当下所处场景及基于自然语言的用户指令;通过将端侧大模型融入底层架构,AIOS可持续从与用户交互过程中学习并优化自身性能,为用户提供更个性化、精准的服务;基于AIOS的AI助理可理解应用界面及相应功能,通过调用应用APP,自动完成用户任务,简化重复枯燥的操作过程。荣耀MagicOS8.0首次实现意图识别人机交互。与主要负责管理硬件资源的传统OS内核不同,MagicLive平台级AI负责“管理”与人相关的因子,如个人知识库、位置与状态、习惯与画像等,帮助OS精准识别用户意图,高效调度系统服务。基于MagicLive平台级AI的场景感知、意图决策、用户理解能力,MagicOS8.0支持自然语言、语音、图片、手势、眼动等多模态交互方式,可智能识别用户意图,进行快速推理决策,主动提供个人化服务,提升交互效率。MagicOS8.0内嵌的任意门功能可基于意图识别让服务实现跨应用、跨设备一步直达、智慧流转,支持100多款国内主流应用服务,覆盖出行、办公、社交、搜索、娱乐、购物、美食等应用场景。内置的YOYO智能助理可理解用户意图,高效安全地连接云侧大模型,分发、融合、调度原子化服务,完成复杂任务闭环。苹果FerretUI模型增强iOS意图识别,致力打造AIOS。FerretUI以Ferret模型为基础,通过将手机UI界面分割为更小的子图像捕捉UI界面细节特征,并将所有子图像单独编码获取图像特征,最后将子图像与全局图像特征输入端侧大模型中,使端侧大模型可更好地捕捉UI界面细节信息。并且FerretUI通过收集各种初级UI任务的训练数据,如图标识别、查找文本、组件列表等,以精准定位和理解UI组件;通过收集与AI交互相关的高级任务数据集,如详细描述、感知/交互对话和功能推理,以增强模型与UI相关的推理能力。基于FerretUI可显著增强AIOS对手机UI界面的理解能力,并可根据用户指令找到具体元素完成交互。iPhone环境下FerretUI性能接近或超过GPT-4V。FerretUI模型可完成简单的UI定位和查询任务,在iPhone环境下130亿参数的FerretUI模型在初级UI任务中超越GPT-4V。并且可根据UI与用户进行感知对话、交互对话,告诉用户相应位置具体的UI内容,如何与UI进行交互,根据UI元素推断软件功能,在高级任务中的表现与GPT-4V接近。若将FerretUI与AI助理进行结合,AI助理可深入理解用户意图,并基于用户自然语言指令与手机APP进行交互,实现AI系统级应用。Siri将迎来重大革新,iOS18预计搭载更多AI功能。根据彭博社,苹果正在改进Siri和消息应用程序间的交互,使Siri更有效地自动生成文本并回答复杂问题;根据Theinformation报道,Siri将与Shortcuts应用程序进行更深入的集成,进而可自动执行复杂任务。2024年5月13日OpenAI发布GPT-4o,其具备强大的语音和视觉感知功能。用户无需等待模型完成发言即可插话,回应音频输入平均时间仅为320毫秒,较GPT-3.5/GPT-4下降88.6%/94.1%,并且可根据语气判断用户情绪,针对用户情绪改变自身语气,拟人化程度大幅提升。根据OpenAI官网,GPT-4o在MMLU、GPQA、MATH、HumanEval等推理测试中超越GPT-4Turbo、Claude3Opusn、GeminiPro1.5等前沿模型,并且在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。根据彭博社报道,苹果已与OpenAI达成合作协议,计划在6月11日WWDC全球开发者大会公布一系列全新人工智慧技术。OpenAI技术加持的Siri有望以低延迟进行语音对话,提高人机语音交互的自然流畅度。并且有望增强用户情绪感知,大幅提升拟人化水平。根据彭博社,苹果与OpenAI双方正确认一项新协议,将ChatGPT技术应用在iOS18中。根据macrumors,iOS18中多款应用程序如Spotlight、AppleMusic、Keynote、Shortcuts等将具备生成式AI功能。2.3.高级版AI手机:全自主执行能力的AIAgentAIOS的最终形态是具有全自主执行能力的数字人格。《PERSONAL大模型AGENTS:INSIGHTSANDSURVEYABOUTTHECAPABILITY,EFFICIENCYANDSECURITY》基于AIAgent智能水平将其分为L1-L5五个级别。具有意图交互与自我学习能力的AIOS将帮助AI助理深入理解用户需求,持续学习用户个人习惯等信息。伴随手机硬件配置升级以及端侧大模型推理性能提升,基于AIOS的AI助理有望成长为高度智能化的数字人格,可根据用户指令自主生成任务规划,完美执行用户任务并进行反馈。AutoGPT具备长期和短期记忆管理,可实现任务自主规划及执行。AutoGPT是基于GPT-3.5或GPT-4API接口开发的AIAgent,其可将用户提出的复杂任务拆解为多项子任务,自动生成相应任务提示并执行,无需用户进行干预和指导。并且可以基于互联网搜索获取最新数据、新闻等信息,实现知识库实时更新。通过集成Pinecone数据库,AutoGPT可保存与用户的对话、文本和上下文信息,并在对话中快速检索相关的内容,回顾历史对话,进而更好地理解用户需求,提供更个性化的服务。Mobile-agent打破APP界限,联用多款应用实现拟人化操作。Mobile-Agent基于视觉感知模块可从设备屏幕截图中准确定位视觉和文本元素以及图标信息,并通过视觉信息将语言模型生成的操作指令映射到具体的屏幕位置执行点击等操作。其具备自主规划能力,能够根据操作历史和系统提示自主规划新的任务。并且引入自我反思机制,在执行过程中若遇到错误或无效操作,可根据屏幕截图和操作历史进行反思,尝试替代操作或修改当前操作的参数。目前Mobile-agent已学会阿里巴巴、TikTok、Youtube等10项APP使用,并在部分跨应用场景中取得出色的结果。2.4.具备丰富大模型技术储备、出色AIOS与硬件开发能力的手机厂商将取得领先地位高性能端侧大模型、AIOS与出色硬件配置是AI手机核心。端侧大模型是AI手机智能核心,其性能将直接影响AI手机的使用体验;将端侧大模型融入底层架构的AIOS具备出色的意图交互能力,深化AI手机对用户需求的理解,并且可更好地调用硬件资源,充分发挥端侧大模型性能;CPU、GPU和NPU等硬件满足端侧大模型运算的算力需求,具有更高硬件配置的AI手机可率先搭载更强性能的端侧大模型,为用户提供更佳AI服务体验。苹果AIOS系统开发领先,自研芯片性能强劲,端侧大模型进展顺利,有望率先开发具备完整AI体验的AI手机。AIOS:苹果开发的FerretUI模型增强AIOS对手机UI界面的理解能力,可根据用户指令与手机应用进行交互。结合AI助理将赋予AI助理对手机应用的深度理解,有望实现AI助理自主调用APP,完美执行用户指令。通过与OpenAI进行合作,预计将实现Siri重大革新并且iOS18将增加多项AI功能;芯片:苹果自研A系列芯片性能出众,根据Geekbench6,最新的A17Pro单核性能较骁龙8Gen3高26%,NPU算力达35TOPS;端侧大模型:2024年4月苹果在HuggingFace发布4款OpenELM,参数量分别为2.7亿、4.5亿、11亿和30亿。其采用层级缩放策略,通过在Transformer模型的每一层有效分配参数,显著提升模型的准确率。根据《OpenELM:AnEfficientLanguageModelFamilywithOpenTrainingandInferenceFramework》,在使用1/2的预训练数据下,参数1B的OpenELM在零样本训练、leaderbroad任务和大模型360任务中的准确性较OLMo高1.28%/2.36%/1.72%。苹果有望凭借出色的芯片研发能力以及对操作系统的深刻理解,在AI手机开发中取得领先地位。谷歌率先布局大模型,积极推进Tensor处理器研发弥补硬件短板。端侧大模型:2023年谷歌发布具备万亿参数的大模型,Gemini。并以Gemini为基座模型开发参数量1.8B/3.25B的GeminiNano,目前已应用至谷歌Pixel8pro、三星GalaxyS24系列手机中。AIOS:谷歌发布的screenAI模型通过采用图像编码器和语言编码器提取图像与文本特征,可以识别UI元素的类型和位置,增强图像理解等多模态任务能力,深化对手机界面的理解。最新推出的Android14系统搭载AI助理Gemini,增加生成式AI功能。AICore可调用管理GeminiNano等端侧模型,便于开发者进行大模型调整和创新,助力构建AI应用生态;处理器:TensorG3处理器CPU单核及多核性能分别为A17Pro的60.4%/61.7%。自研TPU芯片,可提高AI手机中AI消除、AI视频强化等性能。根据9to5google,TensorG4将采用三星4nm制程工艺与更先进的FOWLP封装工艺,进一步提高能效比以及散热水平,为AI手机提供更佳性能支持。谷歌在大模型、操作系统领域具有丰富的技术积累,但自研处理器性能具有较大改进空间,未来仍需增强处理器性能以将更高性能端侧大模型搭载至AI手机。3.AIOS需搭载10B~100B端侧大模型,高性能需求掀起硬件革新浪潮AIOS的端侧大模型参数量应在百亿~千亿水平。意图交互能力是实现AIOS的前提,可使AI手机更懂用户诉求,提供更优质的服务体验。通过进一步增加端侧大模型参数量、改进端侧大模型的自学习性能可提高AIAgent的智能化水平,实现AIAgent自主规划并完美执行用户指令,无需用户进行干预。因此AI手机搭载的端侧大模型,其参数量至少需达到意图交互功能所需的参数量要求,然后通过硬件性能优化等方式支撑更高性能端侧大模型,逐步接近高智能AIAgent所需参数水平。根据荣耀官网,MagicOS8.0系统搭载的端侧大模型模型参数量为7B,苹果FerretUI模型的参数量为13B,意图交互能力所需端侧大模型参数在百亿级别。可实现任务自主规划及执行的AutoGPT和具备出色视觉感知、可自主规划并调用Tiktok、淘宝等应用程序的Mobile-Agent分别依赖参数量175B的GPT-3.5及参数量万亿以上的GPT-4V。考虑到手机终端算力性能有限,我们认为手机搭载的AIAgent所需端侧大模型参数量将显著低于ChatGPT的175B,预计将通过模型压缩等方法将模型参数量降低至千亿以下。3.1.异构计算突破算力瓶颈,骁龙、天玑、苹果A更新迭代提供坚实算力支撑百亿参数端侧大模型峰值算力需求达100TOPS以上。苹果提出的具有意图识别能力的FerretUI模型参数量达13B,我们基于此计算搭载AIOS的AI手机所需最低算力。假定用户手机屏幕分辨率为1920*1080,用户最大可允许屏幕推理时间为2s,硬件算力利用率为60%。根据OpenAI,1张高分辨率图像=85+170*(图像分辨率/512×512)tokens,经测算模型所需峰值算力达99TOPS。因此搭载AIOS的AI手机,处理器算力需达到100TOPS以上。集成NPU的异构计算具备最高能效比。生成式AI部署增加手机终端计算需求,主要可分为:(1)按需型需求,由用户触发需立即响应,包括图像生成、代码和会议摘要生成等;(2)持续型需求,运行时间较长,包括语音识别、视频优化、实时翻译等;(3)泛在型需求,在后台持续运行,包括始终开启的预测性AI助手、基于情境感知的AI个性化和高级文本自动填充。手机终端搭载的通用CPU和GPU难以满足生成式AI严苛且多样化的计算诉求。通过集成专为AI定制的NPU,以降低部分易编程性为代价可实现更高的峰值性能、能效和面积效率,进而可运行机器学习所需的大量乘法、加法和其他运算。基于CPU+GPU+NPU异构计算的处理器能够实现最佳手机应用性能、能效和电池续航,赋予增强的生成式AI体验。骁龙8Gen3搭载全新HexagonNPU,AI算力大幅升级。骁龙8Gen3搭载HexagonNPU为持续型AI推理带来98%性能提升和40%能效提升,处理器整体峰值算力达73TOPS,支持100亿参数端侧大模型。通过升级微切片推理降低内存带宽占用,并支持4.8GHzLPDDR5x,内存带宽可达77GB/s。CPU和GPU性能较前代提升30%/25%,能效提升20%/25%。高通在MWC2024宣布骁龙8Gen4将采用台积电3nm工艺制程,放弃Arm公版架构,采用高通自研Oryon内核,并将集成Adreno830GPU,有望进一步提升处理器算力。天玑9300+内置硬件级生成式AI引擎,最高支持330亿参数AI模型。天玑9300+是业界首款生成式AI端侧双LORA融合的芯片,Llama2-7B端侧大模型运行速度可达22tokens/秒,最高支持运行330亿参数模型。联发科与百度、百川智能、阿里云、谷歌、Meta等国内外大模型巨头达成合作,支持阿里云通义千问、百川大模型、文心大模型、谷歌GeminiNano、零一万物等AI大模型。根据CNMO,天玑9400预计将在2024Q4发布,采用台积电3nm制程并沿用ARM内核,CPU大核由Cortex-X4升级至Cortex-X5。苹果A17Pro率先采用3nm制程工艺,NPU算力达35TOPS。A17Pro搭载16核神经网络引擎,NPU算力较A16Bionic提高100%。CPU和GPU均采用6核设计,性能核心提升最高可达10%/20%。根据9to5Mac,A18芯片具备更大的尺寸,并将大幅增加内置AI计算核心数量,预计将搭载至iPhone16和iPhone16Pro。根据GIZMOCHINA,A18Pro在Geekbench6上的单核和多核跑分分别为3570/9310,较A17Pro高22%/28%。工艺制程升级+先进封装是处理器未来发展方向。根据台积电,与5nm制程技术相比,3nm制程的逻辑密度增加约70%,可实现相同功耗下频率提升10-15%,或相同频率下功耗降低25-30%,进一步提高芯片的运算能力以及能效比。目前台积电规划的3nm制程包括N3B、N3E、N3P、N3X、N3AE,其中N3B已应用至苹果的A17Pro,预计骁龙8Gen4将使用成本优化后的N3E。N3P性能将进一步提升,预计2024年下半年投产;N3X聚焦高性能计算设备,预计2025年进入量产阶段。以Chiplet为代表的3D封装技术,通过芯片封装小型化、高密度化,可实现异质异构的系统集成以及高互联密度与低信号传输延迟。并且先进封装有望延续摩尔定律,持续提升芯片性能并降低先进制程工艺成本。AI手机处理器有望基于先进封装突破摩尔定律限制,持续增强AI算力。图20:以Chiplet为代表的先进封装技术将持续提升处理器算3.2.内存升级+模型优化加速AI手机智能进化端侧大模型部署驱动手机内存升级,16GB是AI手机基本配置。根据智源社区,FP32全精度的llama213B模型推理所需最低内存为52GB,经过Int4量化后,其推理占用内存仍有6.5GB,考虑到手机运行安卓操作系统使用内存为4GB左右,后台运行其他手机APP需要6GB左右内存,累计内存需求达16.5GB。根据IDC,16GB内存将成为AI手机基础配置。目前OPPO、vivo、小米、荣耀等安卓厂商AI手机的最大内存达到16GB,可满足百亿参数端侧大模型运行的基本要求。苹果手机受益于更高效的iOS系统,内存占用需求更低,目前iPhone15Pro及iPhone15ProMax的最大内存为8GB。伴随具有更高智能水平与更多参数量的端侧大模型部署至AI手机,AI手机内存容量有望升级至24GB以上。基于模型压缩可在有限内存下部署更高性能端侧大模型。目前模型压缩方法主要包括数值量化、稀疏化处理、知识蒸馏等。数值量化通过简化数据或减少表示数值的比特数压缩模型大小。根据OPPO,FindX7部署的70亿参数AndesGPT-Tiny模型,正常的内存占用为28GB,无法搭载至AI手机中。经过INT4对模型进行压缩后,内存占用由28GB降低至3.9GB,实现AndesGPT-Tiny模型端侧部署。稀疏化处理主要是去除模型中数值为0或接近0的权值。微软提出的SliceGPT技术可在保持llama-270B模型99%零样本任务性能的前提下,剪除25%模型参数。知识蒸馏则是基于参数多、结构复杂的教师网络训练小参数学生网络,以期获得相似或更好性能。通过模型压缩可突破内存限制,加速更高参数端侧大模型部署,加快打造智能化AIOS。苹果通过优化闪存内存交互和内存管理,可加载较设备DRAM大两倍的端侧大模型。目前调用大模型的方法是将整个模型加载至DRAM中进行推理,需占用较大内存容量。苹果提出将模型参数存储在容量更高的闪存中,在推理过程中仅从闪存中加载所需参数。其通过滑动窗口技术仅增量加载与之前不同的神经元数据并释放滑窗外token占用的内存。同时以行列捆绑方式读取更大数据块,提高闪存数据吞吐量。通过及时删除冗余神经元、将新神经元插入预先分配数据结构消除DRAM重新分配内存和复制现有数据的需要,减少推理延迟。基于该方法可加载较设备DRAM大两倍的端侧大模型,并且在CPU和GPU上加载速度分别比传统方法提高4-5倍和20-25倍。内存带宽限制AI手机性能,LPDDR6预计将加速渗透。根据联发科,运行130亿参数端侧大模型所需内存带宽为130GB/s,目前已发布的AI手机搭载的最优DRAM为LPDDR5×,数据传输速度为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课程设计广告管理系统
- 链条炉课程设计
- 中国高空防坠器行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 2024年中国甜品羹市场调查研究报告
- 中国非固化橡胶沥青防水涂料行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 中国防火卷材行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 中国金属铜行业竞争格局及投资盈利预测研究报告(2024-2030版)
- 中国豆浆粉行业竞争策略与投资盈利预测研究报告(2024-2030版)
- 中国蘑菇罐头行业运行现状与前景趋势预测分析研究报告(2024-2030版)
- 中国胶片隔离剂行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 江苏省南京市建邺区2024-2025学年九年级上学期期中考试物理试题(无答案)
- 中小学师德师风建设各项制度汇编
- 广东省珠海市子期中学、梅华中学 2024-2025 学年上学期期中考试七年级数学试题(无答案)
- 2024秋期河南开放大学本科《消费者权益保护法》一平台无纸化考试(形考任务1至3+我要考试)试题及答案
- 公务员2024年国考申论真题(地市级)及参考答案
- 2024年河南省信阳市招才引智绿色通道招聘市直事业单位人员183人高频难、易错点500题模拟试题附带答案详解
- 民用无人机操控员执照(CAAC)考试复习重点题及答案
- 广西南宁市第十四中学2023-2024学年七年级上学期期中地理试题
- 2024-2030年中国应急产业市场发展分析及竞争形势与投资机会研究报告
- 2024年中国电动鼻毛器市场调查研究报告
- 2025年高考语文复习备考复习策略讲座
评论
0/150
提交评论