




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《人工智能与通用大模型》摘要2一、AI框架重要性日益突显,框架技术发展进入繁荣期,国内AI框架技术加速发展:
1、AI框架作为衔接数据和模型的重要桥梁,发展进入繁荣期,国内外框架功能及性能加速迭代;
2、Pytorch、Tensorflow占据AI框架市场主导地位,国内大厂加速布局AI框架技术;
3、AI框架技术从工具逐步走向社区,生态加速形成,未来围绕安全可信、场景落等维度呈现显著发展趋势;二、GPT开启AI大模型时代,国内外大厂发力布局,商业化空间加速打开:
1、数据、算法、模型三轮驱动AI发展,大模型优势显著,成为AI主流方向;
2、GPT开启千亿参数级AI大模型时代,语言、视觉、科学计算等大模型快速发展;
3、微软加速AI商用化进程,国内大厂发力布局,看好在细分场景下的应用落地;三、AI大模型展望——多模态将成为重要发展趋势:
1、AI模型走向多模态必然性的三大因素:跨模态任务需求+跨模态数据融合+对人类认知能力的模拟
2、OpenAI发布Whisper
API,模型具备物美价廉、架构简单等优点,多模态AI商用空间有望加速打开风险提示:1、AI技术发展不及预期;2、版权、伦理和监管风险;3AI框架深度学习框架:人工智能时代的操作系统4人工智能开发链条长且复杂训练数据准备算法实现环境安装模型训练模型验证推理数据准备算法实现环境安装模型训练数据使用深度学习框架工具进行开发深度学习框架人工智能基础设施分布式硬件资源物理资源调度、I/O设备管理通用模型架构支持计算机视觉应用使用主流编程语言GPU加速拓展包模型使用深度学习框架工具进行开发开发者使用简单支持AI领域的快速变化资料来源:北京日报,认知计算与云安全公众号,华为云,浙商证券研究所人工智能框架技术发展进入繁荣期0152000年~萌芽阶段2015-2018年稳定阶段2012年~成长阶段2019年~深化阶段API复杂无GPU支持手动实现网络使用简单多GPU支持复杂网络支撑指令式声明式生态友好分布式支持效率优化可拓展编译层优化多场景任务支持丰富套件支持算子优化统一标准端云一体大模型大任务全场景隐私与公平……未来资料来源:中国信息通信研究院《2022年AI框架技术白皮书》,浙商证券研究所国际主流深度学习框架:互联网巨头主导开发016国内外深度学习框架发布时间2013201420152016201720202020202x开发公司深度学习框架语言PythonLua,Python(new)C++PythonC++Lua,Python(new)PythonC++、CUDA、Python是否开源√√√√√√√√计算图静态静态动态动静兼容静态基于源码转换自动微分,不依赖计算图动静合一是否是分布式框架√√√√√特点/优点速度快、使用方便、社区好性能高、适合做语音任务高效灵活、易用容易上手简单清晰移动端高性能、通用轻便高效灵活、易用灵活高效资料来源:机器之心,CSDN,浙商证券研究所01TensorFlow+Pytorch占据市场主导地位72022年中国开发者人工智能框架使用率2018-2022年全球论文发表数量(按使用框架分)PytorchTensorFlow资料来源:Papers
with
Code,Omedia,浙商证券研究所Pytorch:Meta开源的主流学习框架018Pytorch版本平均每3~4个月更新一次,功能服务持续扩充2017年,Pytorch
正式发布2018年4月,0.4版支持Windows,并入caffe22019年5月,1.1版支持TensorBoard,增强可视化2019年10月,1.3版支持移动设备部署,更多功能工具2020年1月,1.4版支持分布式模型并行训练2020年4月,1.5版与Amazon合作,提升开发者模型部署效率2020年11月,1.7版支持Windows上的分布式训练,提供更多API2021年3月,1.8版支持AMD
GPU2022年11月,2.0版Transformer模型训练速度提升倍多维优势支持Pytorch实现对TensorFlow的反超门槛低只需要Numpy和基本深度学习概念代码简洁灵活基于动态图机制,网络搭建更方便文档规范官方社区可查看各版本文档
资源丰富arXiv新算法大多基于Pytorch实现开发者多Github上贡献者1100+大厂支撑Meta维护开发适用人群广泛深度学习初学者:快速实现模型算法,加深深度学习概念认识;机器学习爱好者:快速实现人脸识别、目标检测、图像生成等AI功能及实验;算法研究员:最新arXiv论文算法快速复现及开发;资料来源:CSDN,浙商证券研究所OpenAI:从多种框架的使用到专注于Pytroch0192015年Pytroch成为统一的深度学习框架深度模型框架转变便于调试:对Python生态的良好支持;大多数情况使用TensorFlow特殊情况使用Theano2020年简单易懂:PyTorch具有用户友好的API;
原因核心功能支持GPU加速的张量计算方便优化模型的自动微分机制强大高效:Pytorch提供了非常丰富的模型组件。极大缩短研究周期资料来源:OpenAI官网,浙商证券研究所Tensorflow:谷歌开源的向更加易用发展的主流学习框架01102017年2019年开源Tensorflow0.1版本2015年采用CPU+GPU计算模型使得神经网络能够有效计算Tensorflow从0.1到2.0的发展历程202x年Tensorflow2.3发布添加两种新机制,解决输入管道瓶颈并节约资源Tensorflow2.0发布缺点:调试困难、API混乱、入门困难运用更简单的模型进行构建、简化PI优点:简化的模型开发流程、强大的跨平台能力、强大的研究发现缺乏调度能力,需手动配置Tensorflow1.0.0发布,稳定版诞生优点:更快、更灵活、随时就绪引入更高级的API,可在移动设备上运行发布版本改进之处优点缺点资料来源:腾讯云,CSDN,helloword,城市经济网,浙商证券研究所AI框架技术呈现三层次结构,从工具走向社区生态11基础层组件层生态层编程开发编程接口API编码语言训练开发推理部署编译优化分布式并行自动微分动静转换模型轻量化图算融合算子生成内存优化计算图中间表示计算算子通信算子硬件使能自动并行高阶优化器…并行及优化组件科学计算(数值方法)科学计算(AI方法)…科学计算组件模型可解释数据-模型安全…安全可信组件训练可视化调试器…工具组件套件-模型库(CV、NLP…)AI领域扩展库(GAN、强化学习…)AI+科学计算(电磁仿真、视频生成…)社区文档AI框架资料来源:中国信息通信研究院《2022年AI框架技术白皮书》,浙商证券研究所百度PaddlePaddle飞桨平台0112资料来源:CSDN、中国日报中文网、浙商证券研究所飞桨企业版零门槛AI开发平台全功能AI开发平台飞桨产业级深度学习开源开放平台工具与组件自动化深度学习低代码开发工具强化学习联邦学习图学习科学计算量子机器学习生物计算核心框架端到端开发套件基础模型库预训练模型应用工具可视化分析工具安全与隐私工具云上部署编排工具资源管理与调度工具语义理解文字识别图像分类目标检测图像分割图像生成大模型训推一体自然语言处理计算机视觉语音推荐文心大模型时间序列动态图静态图大规模分布式训练产业级数据处理模型压缩服务器推理引擎边缘与移动端推理引擎开发训练推理部署前端推理引擎服务化部署全场景统一部署学习与实训社区未来AI框架技术将呈现六大发展趋势0113资料来源:中国信息通信研究院《2022年AI框架技术白皮书》、浙商证券研究所泛开发全场景超大规模科学计算安全可信工程化发展趋势泛开发前端便捷化后端高效化全场景标准化互通混合并行分布式处理自动微分统一加速引擎鲁棒性检测模型可解释模型自适应框架精细化前景展望多种开发语言无缝衔接动静图转换能力提升后端运行效率AI框架与硬件平台解耦,通过标准接口实现跨设备平台快速部署突破五堵墙:内存墙+算力墙+通信墙+调优墙+部署墙丰富编程接口内置专业领域科学计算套件提供丰富的AI鲁棒性检测工具AI模型的压缩和端侧推理框架的轻量化14AI大模型算力+数据支撑AI大模型加速发展0115计算和存储能力增长数据爆炸1991年万维网开放2005年全球互联网用户超10亿2007年iPhone发布2010年全球智能手机销量接近3亿部算法迭代1958年神经网络提出1965年专家系统诞生1989年,CNN算法应用于图像识别1998年网页评级算法2006年深度学习兴起2009年引入Spark算法处理大数据1997年,IBM战胜卡斯帕罗夫2002年云存储、云计算诞生2004年分布式技术2005年1G磁盘存储成本降至0.79美元1965年摩尔定律2006年Hadoop技术2009年开始使用GPU训练AI模型2012年深度学习算法在图像分类任务取得突破2013年谷歌AI学会策略类游戏2017年谷歌推出TPU加速机器学习过程2017年AlphaZero2018年GPT大模型2021年Alphafold实现蛋白质结构预测2022年ChatGPT资料来源:CSDN、腾讯网、新浪网、浙商证券研究所大模型为基底,AI大模型发展为场景应用奠定重要基础16AI大模型优势泛化性+通用性开发门槛低大模型意义AI应用通用化AI开发工程化项目建设集约化资料来源:IDC《2022中国大模型发展白皮书》、浙商证券研究所按照目标不同,AI大模型可分为四类,多模态为未来方向17利用计算机模拟、延伸及拓展人类语言能力NLP大模型CV大模型科学计算大模型定义现状挑战未来发展在语言理解与生成、智能创作、机器翻译、智能对话、知识图谱和定制化语言解决方案落地应用发展顺利语言的歧义、文化差异及多样化、情感分析困难以多个数据信息维度约束来验证情感分析及文本分析的准确性计算机模拟生物视觉,理解数字图像和视频,并提取目标信息2D数据工业质检、智慧城市落地完善,应用场景多;人脸、OCR识别发展较为成熟3D/4D数据识别面临变形、光照、遮挡等问题;数字人、数字孪生的数据获取困难,算法处理复杂打通数据融合以突破3D/4D获取瓶颈高效率完成再现、预测和发现客观世界运动规律及演化特征的全过程“AI+科学计算”(科学智能)引发科研方式的大变革,如生物制药、气象预报、地震探测等科研领域逐渐成熟科学计算大模型对开发者专业知识要求严苛,高质量训练数据的获取成本高,导致模型整体研发成本昂贵科技大厂与科研院校加强合作融合多模态大模型理解能力应用场景计算性能资料来源:IDC《2022中国大模型发展白皮书》、浙商证券研究所AI迈入大模型时代,参数量过千亿01182018GoogleBERT-base(1.1)GoogleBERT-Large(3.4)OpenAiGPT-1(1.2)百度ERINE1.0FacebookXLM百度ERINE2.0FacebookBARTGoogleALBERT(0.31)OpenAiGPT-2(15.8)FacebookRobertTa(3.35)NIVIDIAMegatron-LM(83)GoogleT5(110)GoogleELECTRA(1.02)MicrasoftTruning-NLG(172)FacebookM2m-100(150)GoogleBigBird(1750)OpenAiGPT-3(1758)EleutherAIGPT-j(60)GLM(1300)百度ERINE3.0(100)GoogleFLAN(1370)NaverCorpHyperCLOVA(2040)GoogleGopher(2800)百度ERNIE3.0Titan(2600)OpenAiInstructGBT(13)MetaAIOPT(1750)EleutherAIGPT-NeoX(200)GoogleLaMDA(2800)BigScienceBLOOM(1760)GooglePaLM(5400)微软和英伟达Megatron-TuringNLG(5300)2019202020212022资料来源:真格基金、浙商证券研究所,单位:亿GPT-1GPT-2GPT-3GPT-4推出年份201820192020-Transformer层数124896-参数量1.2亿15.8亿1750亿100万亿?预训练数据量5GB40GB45TB-国内外大厂相继布局千亿级AI大模型0119TransformerGPT-3InstructGPT/GPT-3.5ChatGPT企业大模型参数算力数据量模型类型商汤科技书生100亿商汤AIDC,峰值算力3740Petaflops—计算机视觉模型清华大学等八卦炉174万亿“海洋之光”超级计算机(国产超算)中文多模态数据集M6-Corpus多模态预训练模型阿里M6通义10万亿512块GPU1.9TB图像和292GB文本多模态预训练模型腾讯混元万亿级腾讯太极机器学习平台五大跨模态视频检索数据集多模态预训练模型微软&英伟达Megatron-Turing5300亿280块GPU3390亿条文本数据NLP大模型百度&鹏城实验室ERNIW
3.0
Titan2600亿鹏城云脑II算力集群(2048块CPU)和百度飞桨深度学习平台4TB语料库NLP大模型浪潮信息源1.02457亿2128张GPU
5000GB中文数据集NLP大模型OpenAIGPT3.51750亿上万块V100
GPU组成的高带宽集群算力超万亿单词的人类语言数据集NLP大模型华为云盘古千亿2048块GPU,鹏城云脑II和全场景AI计算框架MindSpore40TB训练数据多模态预训练模型中科院自动化所紫东太初千亿昇腾AI基础软硬件平台万条小规模数据集图、文、音三模态资料来源:商汤、腾讯、阿里,百度,华为云,OpenAI官网OpenAI以GPT为基石,深度布局各模态AI及各类应用0120TransformerGPT-3GPT-1GPT-2GPT-3Instruct
GPT论文年份2018201920202022Transformer层数124896—参数量1.2亿15.8亿1750亿13亿预训练数据量5GB40GB45TB—Whisper语音-文本模型DALL-E2文本-图像模型ChatGPT类别名称参数量基础版本Davinci1750亿Curie67亿Babbage15亿Ada12亿代码生成Code-cushman60亿关联分析Similarity-curie67亿文本检索Search-babbage-doc15亿内容筛选Content-filter1.07亿GPT模型迭代多样的模型调用接口来源:CSDN,电子工程世界,腾讯网,浙商证券研究所ChatGPT实现路径:算力与框架支持,应用百花齐放0121资料来源:CSDN、机器学习算法与自然语言处理、电子工程世界等、浙商证券研究所微软云AzurePyTorchTransformerGPT-3InstructGPT/GPT-3.5ChatGPTOpenAI的独家云提供商算力资源深度学习框架API迭代更稳定易于使用模型Attention机制大模型参数少速度快效果好模型人类反馈强化学习RLHF对话AI模型人类反馈强化学习RLHF人工监督微调连续多轮对话承认自身错误质疑不正确的问题承认自身的无知Transfomer的Decoder分支1750亿个参数小样本学习能力无代码编程对话类搜索引擎小说生成语音陪伴语音工作助手对话虚拟人机器翻译人工智能客服基于InstructGPT形成ChatGPT对话系统0322ChatGPTInstructGPTGPT-3代码训练指令微调(instructiontuning)
基于人类反馈的强化学习(RLHF)
参数数量降低了100倍(1750亿->13亿)增加Chat属性网页公众测试入口略微降低参数量资料来源:CSDN、电子工程世界、新智元、浙商证券研究所搜索引擎Bing集成ChatGPT,即时生成个性化规划与建议新版Bing搜索引擎四大技术突破将ChatGPT整合进Bing和Edge搜索模型搜索性能答案相关用户体验Bing在OpenAI的下一代LLM模型上运行,该模型专门为搜索定制,比ChatGPT更强大普罗米修斯(Prometheus)模型:可以提高搜索结果相关性,并对答案进行注释搜索与聊天相结合,除了传统的搜索结果外,还提供了聊天界面通过将人工智能模型应用于核心搜索算法,改进了核心搜索指数,使得搜索结果相关性实现飞跃资料来源:微软、TheVerge,浙商证券研究所新增聊天窗口传统信息搜索框
新版Bing功能展示能动的提供解决方案:创建菜谱、制定旅行计划、诗歌创作等0423资料来源:微软科技公众号、CSDN,浙商证券研究所0404AI赋能微软Office:内容处理智能化,提升工作效率
自动创建简历:使用LinkedIn等合作伙伴的个性化见解,优化简历布局简历助手实时字幕实时提供字幕:针对听力受损或非母语人士,提供多种语言显示字幕一键换肤自动套取模板:OfficePLUS模板库支持PPT一键换色和统一字体自动制表自动生成表格:AI读取表格,并自动复制到Excel中,对图片拍照,就可自动生成表格文本预测完整文本预测:输入文字时,Word会给出完整句子的预测,个性化贴近使用者的写作风格演示指导提高PPT演示技巧:帮助用户对常见错误提供即时反馈+语法纠正:MicrosoftEditor为写作提供建议,并提供拼写检查和基础的语法纠正服务语法纠正可视摘要可视化摘要:能自动获取到未注意到的数据点之间的可能相关性支持语音检索:实现语音转文字,并加入图片文字识别功能语音检索24资料来源:微软科技公众号、CSDN,浙商证券研究所0404AI赋能微软Teams:提高会议效率,增强协作体验说话人时间轴
自动生成会议记录智能回顾自动生成会议记录:并为参会人员提供个性化的提要,AI输出个性化的时间线标记同框场景增强协作体验:打造参与度更高的会议体验。专注面部表情、熟悉非语言提示,轻松查看讲话者实时字幕实时翻译:提供可读文本供所有人查看。在多媒体演示中提供字幕,使用实时翻译字幕帮助减少会议中的语言障碍智能扬声器清晰易懂的对话体验:通过扬声器,可以识别和区分会议室中多达10个人讲话的声音
新版Teams功能展示微软Teams25资料来源:微软官网,浙商证券研究所0404AI赋能微软VivaSales:自动生成邮件,提升沟通效率集成前:销售人员需在CRM系统里查阅相关的报价信息,再花费数十分钟撰写一份简单的回复邮件自动写稿:AI程序从客户记录和Office电子邮件软件中提取数据,将这些信息用于生成个性化文本、定价细节和促销信息的电子邮件集成OpenAIGPT3.5技术自动生成回复邮件提出报价+VivaSale功能展示—邮件智能编辑26Google在各模态领域布局AI模型,并提供多项功能服务模块0127GPT-3ChatGPTFlamingo图像-文本LOLNerf
2D图像-3D图像Parti文本-图像Phenaki文本-视频类别模型功能计算机视觉Pix2Seq用于对象检测的语言建模框架多模式模型DeViSE视觉语义嵌入LiT将语义理解添加到图像模型PaLI多语种语言图像学习FindIt基于自然语言的通用对象定位VDTTS视觉驱动的文本到语音音频生成AudioLM基于语言建模的音频生成官方开源多个多模态模型来源:CSDN,新浪,Google
Parti,知乎,浙商证券研究所国内AI大模型,大厂+高校将主导未来0128大模型的主要玩家有科技大厂、高校和新型研发机构,形成了四种合作模式(1)大厂独立完成(2)机构+高校(3)大厂+高校(4)大厂+机构+高校。大厂通过资金优势、数据优势往往可以独立完成或主导合作。机构凭借行业领袖的团队和政府的资金支持,可以主导合作。而高校凭借行业领袖的团队提供科研能力支持。过去来看,由于大厂受到商业任务限制,资金和数据优势未能充分发挥。而未来,在ChatGPT之后,经过验证的模式铺平商业决策之路,将逐步成为未来大模型的主导力量。科研能力优势无商业任务资金优势科研能力优势无商业任务资金优势数据优势高校大厂新型研发机构资金优势:算力、数据数据优势:数据科研能力:模型数据来源:CSDN、电子工程世界、新智元,浙商证券研究所添加标题百度:文心大模型0229坐拥大模型+训练框架+数据+社区多重优势,百度有望成为AIGC领域率先实现商业化的领头羊。自2019年发布ERNIE1.0,百度持续投入大模型的技术创新与产业应用,布局了NLP、CV、跨模态等大模型,率先提出行业大模型,成了支撑大模型产业落地的关键路径,构建文心大模型层、工具平台层、产品与社区三层体系。根据IDC的大模型评分,在产品能力、生态能力和应用能力三个维度上百度均位于第一梯队,且在生态维度远高于平均水平,这得益于百度的大模型框架“飞桨”、旸谷社区。百度将于2023年3月发布“文心一言”,有望成为首款中文生成式对话大模型产品。
文心大模型与产品框架文心大模型评分数据来源:文心官网,IDC,浙商证券研究所。产品与社区文心一格AI艺术和创意辅助平台文心百中大模型驱动的产业级搜索系统旸谷社区大模型创意与探索社区工具与平台EasyDL-大模型零门槛AI开发平台BML-大模型全功能AI开发平台大模型API文心大模型大模型套件数据标注与处理大模型精调大模型压缩高性能部署场景化工具行业大模型国网-百度·文心浦发-百度·文心航天-百度·文心人民网-百度·文心冰城-百度·文心深燃-百度·文心吉利-百度·文心泰康-百度·文心TCL-百度·文心辞海-百度·文心电影频道-百度·文心行业大模型医疗ERNIE-Health行业大模型行业大模型金融ERNIE-Finance对话PLATO搜索ERNIE-Search信息抽取ERNIE-UIE跨语言ERNIE-M代码ERNIE-Code图网络ERNIE-Sage语言理解与生成ERNIE3.0TinyERNIE3.0鹏城-百度·文心ERNIE3.0Zeus商品图文搜索表征学习VIMER-UMSOCR图像表征学习VIMER-StrucText多任务视觉表征学习VIMER-UFO视觉处理多任务学习VIMER-TCIR自监督视觉表征学习VIMER-CAE文图生成ERNIE-ViLG文档智能ERNIE-Layout视觉-语言ERNIE-ViL语音-语言ERNIE-ViL地理-语言ERNIE-GeoL生物计算大模型化合物表征学习HelixGEM蛋白质结构预测HelixFold单序列蛋白质结构预测HelixFold-Single基于BERT衍生百度文心大模型,料将推出对话系统文心一言0230注:ERNIE(EnhancedlanguageRepresentationwithInformativeEntities)ERNIE1.0架构:改进了MLM任务ERNIE2.0:+持续学习框架ERNIE3.0、3.0TITAN:+参数量ERNIE版本1.02.03.03.0TITAN推出年份2019202020212022参数量参考bertbase(1.1亿)参考bertbase(1.1亿),bertlarge(3.4亿)100亿2608亿预训练数据量Wiki,baike,news,tiebawiki,news,dialogue,IR,discourserelation4TB-数据来源:CSDN,电子工程世界,浙商证券研究所。阿里巴巴:通义大模型训练策略和框架上领先行业0231阿里巴巴率先构建大模型统一底座、通过训练策略大幅提升稀疏参数大模型框架训练效率,在大模型框架上具备领先地位。阿里巴巴2021年3月发布M6,成为国内最早提出千亿模型的厂商,同年发布十万亿模型M6-10T,通过expertprototyping训练策略成功实施MoE稀疏参数模型,使模型达到10万亿参数级别。2022年9月发布通义大模型,通过统一学习范式M6-OFA和模块化的设计,提升大模型跨模态能力和效率。2023年报电话会上,集团CEO张勇表示针对生成式AI趋势,将全力构建预训练大模型。阿里通义大模型架构Dense模型与MoE模型添加标题FFNSAFFN
1FFN
2FFN
3SA路由Dense模型MoE模型数据来源:阿里官网,浙商证券研究所。华为:盘古大模型聚焦实业0232华为盘古大模型深耕实业,拥有更广泛的行业大模型,具备更强的落地能力。基于ModelArtsAI工作平台的盘古大模型2021年4月发布,目前已应用于10+行业的100+应用场景。根据信通院模型开发和模型能力两方面测评,均为优异水平。盘古预训练大模型架构及Offering数据来源:36氪,浙商证券研究所。盘古大模型(根技术:架构,泛化性,精度,训练成本)盘古行业大模型(行业know-how:行业数据预训练,无监督训练)煤矿小语种/英语金融风控时尚气象生产线质检数字人大脑销量预测电商搜索海浪电力巡检司法工业耗能/参数预测图文搜索智慧育种视觉大模型NLP大模型图网络大模型多模态大模型科学计算大模型皮带质检PCBA缺陷识别电力缺陷识别案件关键词抽取电商情感分析多轮对话企业财务异常检测空气质量检测工业参数检测时尚版权保护时尚辅助设计图文搜索短缺天气预报近海养殖,台风预测智慧育种ModelArtsStudioWorkflow2.0PRO工作流并行推理框架预处理算法L2细分场景模型L2行业大模型L0基础大模型合作伙伴交付盘古工作流(快速交付:工作流,增量学习,小样本标注)L0→L1行业大模型定制费L0基础大模型使用授权费工作流订阅及基于下游任务微调大企业或政府方案(混合云或公有云)中国企业方案(云边协同)Offering1(千万级)Offering2(百万级)数据集管理器图像标注工具标注任务特征存储自定义算法预置工作流AI应用评估推理数据采集其他数据来源渠道本地训练ModelArts平台工作流33多模态AI发展AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策0134单模态多模态跨模态多模态神经搜索Jina
AI光谱AI实现模态融合多模态AI数据:将多模态数据融合处理模型:更多融合人类脑神经机制,提升性能功能:实现智能决策、跨模态任务、运动控制、智能预测反馈……来源:CSDN,IBM
Research,浙商证券研究所国内外大厂持续布局跨文本、图像、音视频各模态的AI模型0135TransformerGPT-3InstructGPT/GPT-3.5ChatGPT时间提出者模型名称功能意义2021年1月OpenAICLIP-DALL·E以文搜图,按照文字描述生成对应图片CLIP的zero-shotlearning技术在各种数据集上的表现都很好2021年5月GoogleMUM多功能统一模型可从75种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序2021年9月百度DocVQA跨模态文档理解登顶DocVQA榜首2021年11月NVIDAGauGAN2根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容可用文字和图画混合创造逼真的艺术2021年11月Microsoft
&北大NvWa女娲实现文本/草图转图像、图像补全、文字指示修改图像视频、文字/草图转视频、视频预测等在8种图像和视频处理的视觉任务上具有出色的合成效果2021年12月NVIDAPoE
GAN文字描述、图像分割、草图都可以转化为图片,还可同时接受以上几种输入模态的任意两种组合可以在单模态、多模态输入甚至无输入时生成图片。2022年1月百度ERNIE-ViLG图文双向生成刷新文本生成图像、图像描述等多个跨模态生成任务最好效果2022年1月MetaAu-HuBERT通过输入语音音频和唇语视频内容,输出对应文本在嘈杂的环境下,通过读唇可以将语言识别的准确性最高提升6倍。2022年7月MetaMake-a-Scene文本生成图像,并允许文本输入进行有针对性创作用户获得更丰富的个人理念定制,从而生成更加具有针对性的画作2022年9月OpenAIWhisper语音生成文本,支持语音转录和翻译两项功能并接受各种语音格式
多模态AI模型有望进入商用时代2022年11月MetaMake-a-Video文本、图片生成短视频,根据输入的自然语言文本生成一段5秒钟左右的短视频。AIGC进入视频创作领域2022年11月NVIDAMagic3D根据文字描述生成3D模型,可将低分辨率生成的粗略模型优化为高分辨率的精细模型3D建模效率更高,且成本更低来源:51CTO,浙商证券研究所多模态AI以融合为核心,基于5大技术环节实现复杂问题解决0136淘宝多模态特征融合方案表征(Representation)翻译(Translation)对齐(Alignment)融合(Fusion)联合学习(Co-learning)目标实现模态互补剔除模态冗余模态映射模态子成分关联分析信息整合模态知识填充技术路线联合表示Example-based无监督方法早期/晚期融合Parrallel
learning协同表示Decoder-Encoder监督方法多核学习Zero
Sh
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际贸易买卖合同模板
- 采购合同协议样本
- 机械租赁安全规范合同版
- 供热服务保障合同
- 工厂购销合同范本
- 城市户外广告投放工程合同
- 塔吊设备供应合同
- 采购与供应合同协议书范本
- 长期仓库租赁合同模板
- 宠物猫咪领养及养护合同2025
- 报价单(报价单模板)
- 少儿美术幼儿园课件- 4-6岁 《沙漠鸵鸟》
- 撤场通知书( 模板)
- richcui美国sspc富锌底漆解读
- IATF169492016内部审核报告范例
- 人教版高中地理必修一全册测试题(16份含答案)
- 成果导向(OBE)教育理念课件
- 交通运输概论全套PPT完整教学课件
- 西北工业大学英文简介
- 《动画场景设计》第一章 动画场景设计概述
- 2023年湖北宜昌伍家新城投资控股集团有限公司招聘笔试题库含答案解析
评论
0/150
提交评论