2024年人工智能行业专题报告:AI革命-机遇与风险_第1页
2024年人工智能行业专题报告:AI革命-机遇与风险_第2页
2024年人工智能行业专题报告:AI革命-机遇与风险_第3页
2024年人工智能行业专题报告:AI革命-机遇与风险_第4页
2024年人工智能行业专题报告:AI革命-机遇与风险_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年人工智能行业专题报告:AI革命_机遇与风险1.AI的本质:三大谬误和五大悖论悖论1:莫拉维克悖论(Moravec’sParadox)实现类似人类的高阶的认知任务(如推理和解决问题)需要很少的计算能力,但在模拟人类的基本感知和运动技能时却需要大量算力。悖论2:脑科学悖论计算机科学=硬件科学+软件科学;智能科学=脑科学+心理学;人工智能=智能科学+计算机科学悖论3:可解释性与自主性悖论AI系统的自主性增强但做出的决策越来越难以解释。一方面,我们希望AI系统能够自主地做出决策,但另一方面,我们也需要理解这些决策背后的原因,以便进行监管和纠正错误。悖论4:知识图谱悖论尽管AI和机器学习技术能够从大量数据中发现模式和知识,但它们只能执行预设的算法和处理已有的信息,而不会产生真正意义上的新知识。悖论5:生成AI悖论生成AI可能在生成内容时表现出高度的创造性,但这些内容的质量和逻辑性却难以评估,因为AI可能并不完理解其自身创作的内容。2.通往AGI的路径:美国看技术创新通往AGI的路径:2024AI技术发展更新人工智能在几个基准上已经超过了人类的表现,包括图像分类、视觉推理和英语理解等。然而,它在数学竞赛、视觉常识推理和规划等更复杂的任务上仍然落后于人类。2022年中国的AI专利数占全球的61%,而美国占约21%。如算2003-23年的总专利数美国占全球的60%,而中国占15%。产业界依然是AI研发的主要驱动力,2023年超一半的模型来自于产业界。通往AGI的路径:尺度定律的终点尺度定律(Scalinglaws)是一种描述系统随着规模的变化而发生的规律性变化的数学表达,通常表现为一些可测量的特征随着系统大小的增加而呈现出一种固定的比例关系。尺度定律在不同学科领域中都有广泛的应用,包括物理学、生物学、经济学等,OpenAI2020年发现,大语言模型也遵循着尺度定律(以Transformer为代表)。尺度定律是通过增加计算量、模型参数和数据集大小来提升单个大语言模型的“智能”水平。但在多模态的数据集中,尺度定律的极限更加难以达到,模型性能会在达到极限前提前衰减。通往AGI的路径:多模态大模型训练模型的算力需求激增,如早期的AlexNet仅需要470PBFLOP用于训练,而2017年发布的Transfomer则需要约7400PB。谷歌的GeminiUltra是目前最先进的基础模型之一,则需要500亿PBFLOP的算力。传统的人工智能系统的能力有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。但随着多模态大模型的发展,一些新的模型如谷歌的Gemini和OpenAI的GPT-4,已经展示出同时处理好图像和文本任务的能力,甚至可以处理音频如GPT-4o。通往AGI的路径:小模型/混合专家模型MoE混合专家模型(MixtureofExperts:MoE)的前提是如果有一个复杂问题可以被拆分为多个领域知识的简单问题,通过把各个领域问题分发各个领域的专家来解决,最后再汇总结论。它由多个专业化的子模型(即“专家”)组合而成,每一个“专家”都在其擅长的领域内做出贡献。混合专家模型(MoEs)与稠密模型相比,预训练速度更快;与具有相同参数数量的模型相比,具有更快的推理速度;需要大量显存,因为所有专家系统都需要加载到内存中;虽然在微调方面存在诸多挑战,但对混合专家模型进行指令调优具有很大的潜力。3.2024商业化起步:中国看场景应用HostingLLM:硬件成本,训练成本,调度时延,闲置算力管理等等。训练Transformer成本仅需930USD,GPT4则要7800万USD,Gemini则高达近2亿USD。Deepseek(236B参数,32k上下文):每百万token输入1元,每百万token输出2元,行业的1%。字节豆包(32k上下文):每百万token0.8元,(128k上下文)每百万token5元。4.可信大模型的评测体系—体系迭代可信大模型的评测体系–基准测试榜单深度学习的评估一直使用基准测试(Benchmark),大模型也通过设计合理的测试任务和数据集来客观、公正、量化的评估模型的性能,是产学研各界最为认可的人工智能评测方式。大模型基准测试榜单主要通过多维度评测考察模型综合能力,测试方法主要分为客观考试和人工主观评价。可信大模型的评测体系–首轮测试对比本次试评测大模型总数30家,其中闭源商业大模型12家,开源大模型18家。一级测试维度为通用、行业、应用、安全,可以划分为理解、知识、学科、可靠等32个二级子维度。商业闭源大模型能力优于开源大模型,在榜单的综合能力前10名中,商业闭源大模型占据了9席。可信大模型的评测体系–开源模型能力榜单从开源大模型的榜单结果可以看出,开源大模型的能力表现除了依赖模型参数量,还与版本迭代时间相关。开源大模型在通用评测中的数学、推理能力上与商业模型有明显差距,并且在自主可控等方面存在风险。5.GPT-4o:发力端侧语音模式时延缩短,优化用户体验:之前延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒,GPT-4o将这一延迟被大幅缩短为320毫秒。多模态大模型全面赋能:传统语音模式通过三模型实现:音频转文本,GPT3.5/GPT-4处理文本,再文本转音频。但GPT-4会丢失信息,因其无法直接处理语调、多说话者、背景噪音,且不能输出笑声、歌唱或情感。而GPT-4o通过端到端训练了一个全新的模型,能够同时处理文本、视觉和音频输入输出。这意味着所有的输入和输出都由同一个神经网络处理。GoogleI/O2024GeminiLive:谷歌发布了语音对话人工智能助手GeminiLive,用户可以在移动应用上与Gemini进行对话,对标GPT-4o。轻量化模型Gemini1.5Flash:基于“蒸馏”技术,专为大规模服务设计,速度更快、成本低至0.35美元/百万Token。图像、视频和音乐的人工智能生成工具:谷歌发布了针对图像、视频和音乐的人工智能生成工具,分别为Imagen3、Veo和MusicAISandbox。Gemini支持的AIOverview功能:谷歌即将在浏览器搜索中引入Gemini支持的AIOverview功能,新功能可以使浏览器支持多轮推理,将复杂问题分解处理,将原本需要几分钟甚至几个小时的研究压缩到在几秒钟内完成,还将支持在搜索中对视频提问。硬件生态:TPU,ARM架构的CPU,GPU同NVIDIA合作,通过Cloud卖算力。现有产业生态赋能:AskPhotos,Workspace,etc。6.GenAI在制造业中应用的潜力工业制造领域的运营利润提升相对较小,GenAI将逐步提高生产效率,而非对产品和成本结构进行彻底改变。GenAI在工业制造领域使用相对容易采纳,大多数用例都关注于在已知技术、可行性和责任范围内的内部流程优化,可行性和责任挑战较低,或者可以轻易缓解。颠覆程度较低,商业模式(产品类型、定价模式)基本保持不变,颠覆性影响主要体现在运营模式上。GenAI将作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论