具身智能AI行业市场分析

上传人：白*** IP属地：湖南上传时间：2023-09-27 格式：DOCX 页数：31 大小：2.01MB 积分：20 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

具身智能AI行业市场分析1、产业链图理解传感器+大模型+具身智能1.1从框图开始理解具身智能AI它尤其适用于描述L2-L3-L4自动驾驶的智能化处理方式。而自动驾驶是“具身智能”重要落地场景。最上面是“传感后融合“，传感器数据处理后再融合、预测、决策、控制。中间是“传感前融合“，即数据先同步和融合后，再预测、决策、控制。下面近似为“端到端”，大大增加了预测、规划、控制的数据处理。如果这个问题扩张到更大的范畴，例如增加AI推理+理解+运动，把机器人也绘制进去，就得到下面的“具身智能产业链图”。1.2传感器：机器人传感器值得一提的是，2020-2022年是智能汽车传感器获得高关注的阶段，尤其“硬件预埋”趋势下。2022-2023年是机器人传感器获得高关注的阶段。1.3AI3D视觉：NeRF，三维重建新范式NeRF，即NeuralRadianceFields（神经辐射场)。其通俗理解：给予海量不同视角的二维图，合成同一场景不同视角下的图像。还可以通俗理解为X-Y-Z到三维极坐标的转化，第三视角到第一视角的转化。NeRF提出的隐式表达以空间点的坐标和观察者的视角、位置作为输入，输出则是点的RGB信息和占用密度。占用密度这一点与占用函数相似，但没有像占用函数那样粗暴地用0和1表示一个点是否被占用，而是用0~1之间的数字表示点被占用的程度这样可以大幅减少计算量。辐射场：如果我们从一个角度向一个静态空间发射一条射线，我们可以查询到这条射线在空间中每个点（x,y,z）的密度ρ，以及该位置在射线角度(θ,φ)下呈现出来的颜色c（c=(R,G,B)）。即F(x,y,z,θ,φ)→(R,G,B,ρ)。密度是用来计算权重的，对点上的颜色做加权求和就可以呈现像素颜色。给定F(x,y,z,θ,φ)直接查表获得RGB值和密度，给体渲染方法。体渲染：对上述辐射场的密度和颜色做积分，就可以得到像素的颜色，并遍历所有像素，这个视角下的图像就渲染出来了。1.4AI3D感知：BEV，可用于具身智能感知BEV鸟瞰图。BEV的全称是Bird’seyeview（鸟瞰图），我们以特斯拉为例：特斯拉车型使用多个摄像头采集图像，并进行有效的融合。系统直接通过将所有摄像头采集图像通过矫正后，统一输入到神经网络来提取特征。然后利用大模型的Transformer，将这些特征进行关联，之后再投影到一个向量空间之中。BEV的通俗理解：把不同视角的观察合成一个“天眼模式”整体图，了解全局。尤其图像是2D传感，通过连续序列，恢复出3D信息。这种方式的优点有：减少硬件传感器、提高纯视觉精度、可复用多种数据源（甚至多模态），缺点是成本高。1）这种鸟瞰图仿佛就是开了一个整体视角，让车辆能够把近处的感知统一放到一个平面中，尽可能的增大了感知的范围和冗余度。2）但缺点是成本，2023年，如果要做BEV的城市辅助驾驶，可能需要投入超过百亿元。3）BEV可以结合国内的传感器优势。尽管国外通常利于AI软件优化智能驾驶，国内通常利用激光雷达等传感器优化智能驾驶，但BEV可以融合激光雷达的点云，做到尽量统一。下图就是一个案例：主要有两个分支将点云数据转换为BEV表示。上分支提取3D空间中的点云特征，提供更准确的检测结果。下分支提取2D空间中的BEV特征（原始点云转换），提供更高效的网络。1.5AI3D感知：占用网络占用网络OccupancyNetwork。Tesla在2022年10月的AIDay中展现了OccupancyNetwork感知技术。基本的思想是将三维空间划分成体素（voxel），通过0/1赋值对voxel进行二分类：有物体的voxel赋值为1，表示voxel被物体占据；没有物体的voxel被赋值为0。当然实际中的赋值可以是概率值，表示voxel存在物体的概率，这个概率也可以理解成密度或者透明度。OccupancyNetwork的通俗理解：两维的鸟瞰BEV，变为三维的鸟瞰。而增加运动序列预测。Voxel的使用：1）voxel其实是计算机图形学和计算机视觉中早期使用的三维重建表达方式，主要用于一些对精度要求不是很高的场景进行三维建模。2）Voxel的属性除了是否被占据，还包含语义信息和速度信息（OccupancyFlow）等。其中速度信息是一个三维向量，用于表述voxel运动的速度和方向，类似于2D图像中的光流（OpticalFlow）。这可以用于判断物体是否运动。Occupancy和OccupancyFlow都是底层层次信息，非常适合表示非刚体(non-rigid)场景。3）一个应用领域是汽车AI，还一个领域是CT医学图像。Voxel的表达方法存在分辨率、内存占用大、渲染效率的问题，在三维重建领域早已经被mesh所取代。但近些年来，随着深度学习在三维重建领域中的兴起，voxel的重建方案重新兴起（以上来自《自动驾驶之心》2023年1月观点）。在恢复空间特征后，融合、恢复高分辨率、复杂输出是关键。特斯拉采用暂时对齐（TemporalAlignment）将不同时序的特征，对齐后融合。进而采用反卷积上采样，恢复高分辨率。毕竟是分割3D空间的每个voxel,信息量更加稠密，低分辨率可能会导致性能受限。接下来就是占用网络的预测输出（VolumeOutputs）。后面则可以做更多高级语义非任务和输出（比如：OccupancyFlow,Semantic，Shape，RoadSurface等）。可以根据特斯拉在CVPR2022workshop的演讲、特斯拉历次AI发布会的披露，了解细节。占用网络有双重监督信号。第一是直接占用值的监督，第二是NeRF渲染的监督。智能汽车软件进步还包括端到端能力、多模态、大模型规控算法等。2023年5月，特斯拉推出FSDv1.4，要现FSD端到端能力，即包含高速领航、城市道路领航和泊车的智驾功能。2023年6月，多模态神经网络可能成为后续特斯拉亮点，如摄像视频、地图、导航、IMU（惯性测量单元）、GPS等。虽然国内的传感器方案较为领先，预计会越来越多的借鉴Transformer、BEV、占用网络等技术。2023年6月，理想汽车家庭科技日的发布，可以作为国内汽车大模型发展的缩影:1）ADMax3.0基于BEV架构的车端感知模型已经可以在绝大多数路段实时生成稳定的道路结构信息，奠定摆脱高精地图依赖的基础。2)不止感知算法层面，规控算法也使用了大模型技术。3）其NOA技术架构特点可以理解为：使用NPN特征和TIN网络增强BEV大模型，做到不依赖高精地图，识别万物；使用模仿学习让规控算法做出更加拟人的决策；全自动、全闭环的训练平台支撑大模型持续进化。1.6从AI感知，到端到端+具身智能（感知+预测+推理+理解+运动）2023年6月，《Planning-orientedAutonomousDriving》（以路径规划为导向的自动驾驶）获得本届CVPR2023年最佳论文奖（BestPaperAward），其涉及的是自动驾驶大模型，很多思路可以同时用于未来智联汽车、具身智能机器人。而上述难点1）识别控制相关软件、2）基于感知的运动、5）学习与控制交叉，也在本篇论文的思路中有所涉及。从分块优化，变成一体化AI优化，即“端到端”。在过去自动驾驶AI中，一般将认为划分为多模块，例如感知、预测、路径规划等。论文提出的“端到端”，即一体化训练、一体化AI（论文提出UnifiedAutonomousDriving，即UniAD）。它把感知、预测、规划等三大类主任务、多种子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的端到端网络框架下。例如：1）在backbone环节，特征提取，其中涉及BEV和多模态等大模型技术。将一系列多相机图像输入特征提取器，并将生成的特征通过BEVFormer中的现成BEV编码器转换为统一鸟瞰图(BEV)特征。UniAD并不局限于特定的BEV编码器，并且可以利用其他替代方案通过长期时间融合或多模态融合来提取更丰富的BEV表示。2）在感知环节，目标检测与跟踪模块可以实现对动态元素的特征提取、帧间物体跟踪。检测和跟踪agents。MapFormer将mapqueries作为道路元素（例如，车道和分隔线）的语义抽象(semanticabstractions)，并对地图进行全景分割。3）预测模块，实现动静态元素交互与长时序轨迹预测，而且已经有“联合训练AI”。占据栅格预测模块实现了短时序全场景BEV、实例级预测。由于每个单元的动作都会显着影响场景中的其他，因此该模块对所有考虑的单元进行联合预测。4）在规划模块，基于轨迹预测，做防碰撞，其中涉及占用网络（Occupancynetwork）等大模型技术。基于自身的轨迹预测和基于占据栅格的碰撞优化并使自己远离OccFormer预测的占用区域(occupiedregions)以避免碰撞。此前，端对端AI训练很容易出现的问题是：由于涉及环节太多、系统太复杂，很容易出现“局部最优”和“梯度下降”问题。我们本来以为会用残差网络（ResNet）增加反馈参数，来帮助自动驾驶大模型的训练。而论文提出的“联合训练AI”，即预测联合训练、预测规划一体训练，实现了“类似全局优化”，而“子任务”的引入也细化了环节。这篇论文的趋势可能会改变具身智能（智联汽车+机器人+智能家居）的AI软件训练方式：尝试端对端，并用一系列联合训练，来防止局部最优，达到更好的效果。1.7具身智能：AI推理+理解，例如谷歌+微软等作为科技巨头，微软的chatGPT也在努力渗透硬件载体，例如机器人软件领域。而这些，恰恰将AI从感知，推进到推理和理解范畴。ChatGPT在人机交互的4大潜在应用。1）Zero-shottaskplanning。根据自然语言指令，生成适用于不同机器人平台和任务的代码，无需任何预先训练或微调。这种能力可以让用户快速地探索不同的机器人方案，而不需要了解底层的编程细节。场景：机械臂操作、无人机导航、家庭助理机器人等。优点：可以实现跨平台、跨任务的机器人控制缺点：可能存在代码错误或效率低下的风险。2）Userontheloop交互式对话，以解决复杂的机器人任务，例如需要多步骤或多个目标的任务。用户可以通过对话提供高层次的反馈、指导或修改指令，而ChatGPT可以根据用户的意图和上下文调整代码或行为。这种能力可以让用户更灵活地控制机器人，而不需要一次性给出完整的指令。场景：机器人协作、机器人教学、机器人规划等。优点：可以提高机器人任务的成功率和鲁棒性。缺点：可能需要更多的对话轮次或用户干预。3）Perception-actionloopsChatGPT可以利用视觉信息来指导机器人的动作，例如识别物体、估计距离、规避障碍等。可以通过XML标签或其他格式来接收和处理图像数据，并生成相应的代码或动作序列。这种能力可以让机器人更好地适应复杂和动态的环境，而不需要预先定义所有可能的情况。适用场景包括机器人导航、机器人抓取、机器人搜索等。优点是可以增强机器人的感知和决策能力。缺点是可能存在视觉误识别或动作不准确的风险。4）Reasoningandcommon-senseroboticstasksChatGPT可以利用常识知识和推理能力来解决一些需要逻辑、几何或数学思维的机器人任务，例如计算角度、判断方向、选择最优路径等。ChatGPT可以通过自然语言或数学表达式来表达和解决这些问题，并生成相应的代码或动作序列。这种能力可以让机器人更智能地执行一些抽象或难以描述的任务，而不需要用户提供过多的细节。适用场景包括机器人推理、机器人游戏、机器人创造等。优点是可以拓展机器人的应用范围和难度。缺点是可能存在常识错误或推理失败的风险。谷歌的PaLM-E会利于具身智能（EmbodiedAI）的发展。一方面，具身智能主要涉及机器人的感知、规划、控制、导航等上层部分。另一方面，具身AI不再像传统AI仅从图像、视频、文本等数据库中学习，而是基于自身传感器（多是视觉传感器）感知环境并通过与环境交互进行学习。大模型AI发展后，其对具身智能的提升至少包括：1）通过抽象的自然语言直接对机械智能控制。2）Zeroshot下的CV能力：图像分类、语义分割、目标检测、实例分割、物体追踪。3）更多跨模态的理解能力。其中，PaLM-E目前一大特色就是跨模态。PaLM-E(562Billionparameters)=PalM(540B)+ViT(VisionTransformer,22B)。它本身是个多模态的大模型，不仅能理解文本，还能理解图片（因为加了ViT），可以理解图片中的语义信息。Few-shotprompt可以看懂笑话（左上角），zero-shot可以具有图文思维链。1.8具身智能：AI理解+运动上述微软、谷歌等AI功能，似乎和运动执行、路径规划等更加聚焦的智能关联度低，而以UCLA论文《DesignofaHighlyDynamicHumanoidRobot》、《DevelopmentandReal-TimeOptimization-basedControlofaFull-sizedHumanoidforDynamicWalkingandRunning》为例，涉及这些软件较为深入。这些会启发我们2023H2甚至未来多年，机器人软件、AI大模型的一些趋势。计算单元分为控制安全接口、控制接口、摄像感知接口、硬件接口等，均涉及软件。它们对AI机器人软件的涉及包括：1）稳定性问题，可以归纳为识别、控制相关软件。ARTEMIS的最初动机是一个可以进行超动态运动的平台。本论文侧重于这项努力的第一步，有力地行走和奔跑的能力。后续希望满足跳跃/转身等复杂问题，需要做一些延展。例如：其一为推广运动生成流水线，使其不需要专家知识和平台经验（可以归纳为zero-shot经验的运动生成），其二为提高稳定性的软件（跟踪潜在复杂和快速变化的鲁棒控制器）。2）路径规划。当前已经有一定“泛化”能力，希望后续发展身体控制/路径规划/跨平台运动（没有感知数据、地面上存在重大障碍物时，ARTEMIS也能够保持平衡并在遇到意外时避免掉落。这是因为ARTEMIS的运动堆栈的反应性质）。但下一步可以在没有运算指引的情况下，通过身体控制、路径规划等，实现高效的运动(ARTEMIS可以稳健地从A点移动到B点，但走哪条路仍然是一个未完成的任务)。如果这样做成，不仅限于ARTEMIS，还为混合系统的路径规划领域开辟路径。3）基于感知的运动，下一步有两个路径，一个是多步骤足迹规划，一个是状态估计。当前基于环境的运动有一定进展。当前先感知数据，以告知机器人脚可以定位的安全区域，这可以从头部的立体相机或位于其身体的两个立体相机获得。感知数据可用后，下一个挑战是呆在安全区域。一个解决方法是，更长的足迹规划；另一个解决方法是，态估计。目前机器人浮动底座的位置状态不可观察，导致坐标系漂移。若将感知数据与定位上下文中的状态估计结合，则所有状态都变得可观察。尽管这是当前领先的设计，但也做出下一步机器人软件发展的趋势展望：4）把物理接触建模，在抓取/碰撞等任务中，问题会放大。工作控制器中，模拟建模和实际物理情况，经常有差距。模拟与现实之间的差距经常在学习社区中讨论，但在机器人技术中却很少被强调。这个问题可能会在碰撞检查很重要的其他机器人领域反复出现，例如灵巧操作和抓取领域。5）学习与控制交叉口。硬件上做上述测试，成本太高。在考虑鲁棒性或随机性的作品，但另一种方法可能是在管道中采用基于机器学习AI的方法。而且可以推测，一旦AI训练资源足够，很可能后续的动作会更加多样。因为论文提到，“模型相关的计算负担，模型中的非线性通常会禁止它们在在线规划和控制中的使用”（“Additionally,nonlinearitiesinthemodelsoftenprohibittheirusageinonlineplanningandcontrolbecauseofthecomputationalburdenassociatedwiththem“）。6）人机交互（HRI）。ARTEMIS也可以成为一个有趣的平台，可用于探讨超动态运动以外的主题，其中之一就是人机交互。7）合成运动，也就是连续运动反映的意图和情绪。运动发生的规模和速度可以暗示接下来的运动是什么。此外，运动的空间和时间方面的差异也可以表示情绪和意图。而其中1）识别控制相关软件、2）基于感知的运动、5）学习与控制交叉，正是下一章节论文涉及的。1.9具身智能的零样本尝试：如李飞飞VoxPoser解决需要预定义动作、机器无法直接被LLM（大语言模型）操控问题。2023年7月《VoxPoser:Composable3DValueMapsforRoboticManipulationwithLanguageModels》中，指出：1）很多训练需要预训练、预定义。大语言模型LLM虽然取得了进展，但大多数人仍然依赖预定义的动作原语来与环境进行物理交互，这仍然是一个主要瓶颈。2）大语言模型直接输出控制不可行。文本通常由高维空间中的高频控制信号驱动，而机器人运动无法直接达到高维高频率。本论文的解决思路是利用LLM的优点。LLM在自由形式语言教学中，擅长推断可能性和约束条件。而且，通过LLM可以具备代码编写能力。代码能力可以与视觉语言模型（VLM）交互，以组成3D价值图，将知识根植于观察空间。然后将组合的值映射为机器人的轨迹（专业说法是，基于模型的、零样本、具有动态扰动鲁棒性的闭环机器人轨迹）。论文将这种方法称为VOXPOSER。这是一种从LLM中提取可能性和约束的公式，用于在3D观察空间中组成体素（Voxel1）值图，以引导机器人与环境交互。具体来看：1)从指令语言中，输出语言的可供性和约束；2)转化成PYTHON代码；3)代码调用API；4)API操纵3D体素（Voxel）；5）AI的奖励机制（正文指出，有效地提供观察空间中的“密集奖励”，能够在每一步都重新规划）训练动作；6）路径规划期目标函数，并合成路径。1.10具身智能的泛化尝试：谷歌RT1、RT2我们分析了2022年12月《RT-1:ROBOTICSTRANSFORMERFORREAL-WORLDCONTROLATSCALE》、2023年7月《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》，做一些分析。2022年12月《RT-1:ROBOTICSTRANSFORMERFORREAL-WORLDCONTROLATSCALE》，指出：1）难点是可扩展和大容量。AI在视觉、NLP等领域已经成功，从孤立的小规模数据模型转向大型通用模型（预训练过）。后续，要点是开放式任务不可知训练，以及能够吸收大规模数据，形成高容量架构。2）难点是机器人的多任务模型。在有监督学习中，消除对大型特定任务数据集的训练很有意义，但对于多任务训练很难。在机器人领域，希望训练一个强力的、大型的多任务骨干模型。具体来说：3）对图像和语言，转为标记Token。模型建立在Transformer架构上，以图像和任务描述的历史作为输入，并直接输出标记化的动作。4）依赖图像和语言的预训练，这是后续可以改善的。图像通过ImageNet预训练的EfficientNet-B3（Tan&Le，2019）模型，该模型以6幅分辨率为300×300的图像作为输入，并从最终卷积层输出形状为9×9×512的空间特征图。对于语言的预训练，先通过Universal语句编码器嵌入（Cer等人，2018）。然后转为FiLM层（Perez等，2018）的输入。该层被添加到预训练的EfficientNet中，以调节图像编码器。5）经过TokenLearner，到标记化动作。上述指令被转换后，通过FiLM层调节预先训练的EfficientNet。生成的视觉语言标记由TokenLearner精简，输入到Transformer中，输出标记化动作。2023年7月《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》。1）增加互联网学习能力，利于扩展。论文指出：研究了如何将基于互联网规模数据训练的视觉语言模型直接纳入端到端机器人控制中。并使RT-2能够从互联网规模的训练中获得一系列紧急能力。这利于解释机器人训练数据中不存在的命令的能力（例如将对象放置在特定数字或图标上），以及响应用户命令执行基本推理的能力（如例如拾取最小或最大的对象或最接近另一对象的对象）。2）增加有效率的“泛化“能力。论文指出：为了将自然语言响应和机器人动作都适应相同的格式，将动作表示为文本标记，并以与自然语言标记相同的方式将其直接合并到模型的训练集中。正文称之为视觉语言动作模型（VLA）。值得注意的是，本文的VLA/VLM与李飞飞团队定义的VLM的含义有相似之处，均为visionlanguageactionmodel，只是VLA更强调动作action。3）强调了动作微调。为了使视觉语言模型能够控制机器人，必须训练它们输出动作。论文采取了一种直接的方法来解决这个问题，将动作表示为模型输出中的标记（类似语言标记）。动作空间主要包括机器人末端执行器的六自由度（6DoF）位置和旋转位移。连续维度（除离散终止命令外）被均匀地离散为256个仓。因此，机器人动作可以使用离散仓的序数表示为8个整数。为了使用这些离散化的动作将视觉语言微调为VLA(视觉语言动作模型)，需要将模型的现有标记化中的标记与离散动作仓相关联。可见：RT-2的发展，将“具身智能”的智能化继续推进。它1）延续了RT-1的多模态（视觉、指令、动作一体化智能），与李飞飞团队VoxPoser的VLM思路有相似之处。2）泛化和延展性大大增加，但在“0样本”和动作自由度上，依然有空间。3）投资者2022-2023年机器人投资标的主要是减速器、传感器等硬件，预计未来会走向大模型软件等标的。1.11产业链小结可见：1）2020-2022年，大智联汽车的传感器环节是产业链重点。2）2022-2023年，大机器人成为重点，催化剂为特斯拉机器人的进展。3）2022H2至今，软件能力、智慧能力，得到大幅度增强，主要是大模型的研发、营销、工程化落地加速。2、两大关键问题本章讨论两大关键问题：耦合/解耦，钟摆效应。2.1软硬件耦合或解耦：可能是两套体系部分投资者认为具身智能会“解耦“，即软件、硬件（甚至制造和生产等）分离。我们认为：可能是两套体系。尤其“东方式”、“西方式”产业链不同。我们的科技TMT价值链往往属于“东方式”。我们每个环节的价值链都相对平均，体现“行行出状元”，也与“共同富裕”更加契合。这样为了变强变大，往往需要在零件/产品/IT服务/品牌均较为出色，才能成为国内tmt领军。这样会促进“硬件+软件+生产一体化”，也会促进tmt领军直接接触客户。而“西方式”的tmt往往是“解耦“的，某个细分领域成为世界领先即可，即使当前甚至较长时间不盈利。一旦持续收入较快增长，预计会在某个时间扭亏为盈，利润率快速提升（例如NFT、chatGPT、软件等较为虚拟的事物在西方更流行）。2.2钟摆效应正是由于“解耦”与“耦合”，均在较长时间内存在，但市场往往一段时间只倾斜一个，这就形成认知的钟摆。最终两种路径往往互相学习、借鉴，形成“折中”的形态。3、下一步：现金流和工程化当前情况下，具身智能和AI软件的工程化落地是关键。我们从历史经验中发现，现金流好的公司，创新胜率明显更高。工程化能力虽然难以量化，但净营业周期往往是很好的代替，就是经营周转能力。往往反映了“研发+产品+工程+销售+话语权”。3.1“仓廪实而知礼节”：适用于具身智能+AIGC从当前互联网、互联网+，都可以发现：有较好的现金流，对创新的胜率明显提高。这也适用于具身智能、AIGC。众所众知，1995-2001年“信息高速公路”，带来了产业和股票都较大表现。但此后为“泡沫破裂”、“去伪存真”。最后崛起的代表例如微软、亚马逊、思科、英特尔；让人惋惜的代表包括网景公司、Webvan、雅虎等。1）网景公司Netscape。微软在于网景竞争中逐渐处于上风。1998年11月24日，美国在线以42亿美元、免税换股的方式，收购网景。而在2000年美国在线又与时代华纳合并。2007年12月28日，美国在线在博客表示将停止网景浏览器的开发2）雅虎。1998年，雅虎本来有机会收购当时的谷歌雏形——“BackRub（网络爬虫）”项目，谷歌创始人拉里·佩奇和谢尔盖·布林要价100万美元将项目卖给雅虎。但当时的雅虎只愿意在搜索方面跟它合作。2006年，雅虎报价10亿美元收购Facebook，但最终收购价下调至8.5亿美元，雅虎没有收购。2008年，微软出价446亿美金试图收购雅虎，但没有成功。我们认为，雅虎对技术的关注度高低、对长期发展的关注高低，决定了这几次决策。3）Webvan。Webvan是一家美国的网上杂货零售商，曾经一度非常著名。当时，Webvan一度开支巨大。Webvan斥资10亿美元建设先进的仓库，但这并不能迅速带来回报。Webvan在2001年宣布破产。我们认为，1995-2001年生存下来、甚至最终发展壮大为互联网领军的：第一点是长期主义，体验在战略和研发。1997年亚马逊的贝索斯开始写致股东的信，希望创造一种“经久不衰的特许经营权”机制,一种通过释放互联网的力量，这体现着长期主义。这种精神，在最终互联网领军上均有体现。第二点是安全边际，主要通过现金流体现。相关公司1996-2006年财务情况验证了安全边际的重要性：即使网景公司如日中天时，自由现金流也不佳。即使亚马逊还在起步阶段，2002年起自由现金流已经是正数。3.2技术和工程能力的财务筛选工程化能力虽然难以量化，但净营业周期往往是很好的代替，就是经营周转能力。往往反映了“研发+产品+工程+销售+话语权”。4、重点公司分析4.1萤石网络：工程能力强+2C机器人萤石网络短中长期逻辑均有较大看点：短期看，半年报业绩超预期且高增有望持续；中期看，“SaaS+AI”拉动新增量，萤石云有望非线性加速；长期看，面向具身智能积极备战，有望成为2C机器人“国家队”。首先，公司近期发布2023半年报，利润大超预期：2023上半年收入22.85亿元，同比增长9.3%；归母净利润2.59亿元，同比增长70.3%。其中23Q2收入12.06亿元，同比增长14.1%，归母净利润1.67亿元，同比增长100%。我们在业绩前瞻中预测23Q2收入12亿元、归母净利润1.25亿元，实际收入完全符合预期，利润大超预期。23Q2毛利率同比大幅提升8.6pct至44.6%，是利润超预期的主要推动力。我们认为原因在于：1）公司通过对采购和订单管理精细化，使得供应链成本下降；2）上半年主要电子元器件价格处于下行周期；3）收入结构上，毛利率水平偏低的专业客户占比下降、高毛利率的物联网云平台业务占比提升、海外业务占比提升。以上1）、3）两点因素将在长周期维度上，持续提升公司毛利率中枢。其次，“SaaS+AI”拉动新增量，萤石云有望非线性加速。此前云服务付费率不高（根据公司年报，2022年C端持有萤石设备的年度累计活跃用户数约2100万，持有萤石设备的年度累计付费用户数约227万，付费率约10.8%），主要由于能力单一（云存储占绝对大头）。当前变化正在发生，2022年底公司推出了首款老人看护服务套包，此外面向宠物看护、儿童看护等特殊场景将持续推出SaaS化订阅的AI算法包，通过为客户提供增量价值、切中用户刚需，实现云业务付费率、ARPU值的上行。并且在未来有望结合AI大模型，在改善体验的同时增加收费点，进一步提升云服务收入增速和占比。第三，面向具身智能积极备战，有望成为2C机器人“国家队”。我们认为，公司发展具身智能已集齐多重有利因素：1）起步早、能力全。公司在2023半年报中，明确表示“针对C端具身智能机器人方面做积极的布局沉淀和前瞻性预研。”截至上半年在研的9大项目中，多数与具身智能相关，其中技术涉及硬件的运动控制、软件的导航算法，以及大模型、云边融合等，均将为2C机器人的研发奠定基础。在智能服务机器人产品线上，目前公司已经布局了清洁机器人和陪伴机器人，未来产品线有望持续丰富。2）云能力+制造能力，两道护城河。一方面，公司凭借稀缺的云服务能力，能够为智能家居和机器人注入智慧的灵魂，提升用户体验，并实现快速迭代进化；另一方面，公司不断强化制造能力，包括IPO募投的萤石智能制造重庆基地项目，将为2C机器人降低成本、快速迭代带来关键优势，有望更快实现“更低成本-更高市占-更多数据-更大竞争优势”的飞轮，在C端具身智能领域占据领先位置。3）既有国家队身份，又富有管理活力。萤石实控人为中电科，又背靠实力强劲的母公司，C端机器人“国家队”身份下容易获得各方资源支持；同时，公司管理团队在长期的市场竞争中，已经充分证明了战略和管理能力，并拥有高度市场化的激励机制。此外，公司在线上线下、国内国际渠道全面布局，助力上述逻辑加速兑现。1）国内电商渠道方面，加大在常规的电商平台上直播和优质达人带货，还积极开拓抖音等内容兴趣电商的直播渠道销售；2）国内线下渠道方面，公司形成了直营旗舰店、经销商专卖店、下沉市场堡垒店等多层次的终端渠道架构，积极布局线下专卖体验店，助力全屋智能系统业务；3）海外渠道方面，上半年在零售连锁卖场、家居建材类连锁店、专业经销渠道和街边店等多渠道中均取得了较好的增长，目前已在多个国家和地区实现线上与线下多渠道覆盖。4.2柏楚电子（申万机械）：具身智能领军。切割主业高速成长+焊接新品或迎放量期公司上市前主业为激光切割设备运控系统，上市后公司纵向延伸智能激光切割头业务、横向拓展智能焊接机器人控制系统业务。（一）业务1：激光切割系统-柏楚方案降低行业准入门槛，综合市占率持续提升运动控制系统是激光切割设备、自动化生产设备的关键功能部件，一个完整的激光切割流程包括：第一步，使用控制系统提供商提供的激光专用设计软件或第三方工业设计软件如AutoCAD、Solidworks等绘制零件、装配体的加工图纸；第二步，将加工图纸通过软件进行后期图形处理及排版，生成加工的机床代码；第三步，激光切割机床根据代码指令执行切割任务，整个切割过程中涉及图形编辑、工艺设置及具体加工工艺选择、运动控制、切割头和激光器等外设控制、加工控制、切割头与切割部件之间焦距控制及随动等各环节，最终完成零件、装配体的加工。激光切割过程所需的关键技术包括CAD、CAM、NC、传感器技术等硬件设计技术：1）CAD技术：通过计算机建模或从图纸读取数字模型，进行图形识别、编辑和优化处理，生成零件并将零件通过计算机辅助在板材或型材上进行排版，并输出待加工模型；2）CAM技术：根据工艺要求，通过计算机辅助生成所需的刀路轨迹以及光路、气路、焦点等控制参数和自动化加工模型，并生成指令；3）NC技术：可以实现根据生成的机床代码指令执行具体加工工序的功能，具体涉及加工过程中的运动/加工控制、切割头和激光器等外部设备控制等；4）传感器技术：通过传感器技术实现切割过程中温度、湿度、压力、光电、视觉、气压、激光加工头与被切割板材之间的间距等因素的控制，从而优化激光加工效率，提高智能化水平；5）硬件设计技术：针对激光行业特殊需求，定制开发相应硬件产品，合理的硬件设计和专业的检测手段可以起到提高切割稳定性及抗干扰能力的作用。柏楚产品推出后重新定义激光加工行业标准、降低切割设备操作门槛及学习成本。公司核心技术自主研发，完整地掌握了激光切割控制系统研发所需的CAD技术、CAM技术、NC技术、传感器技术和硬件设计技术五大类关键技术。在柏楚电子推出“CAD、CAM和NC三合一激光切割控制系统”和“网络通讯式随动系统”两项技术变革前，国际激光切割的完整流程通常为：利用AutoCAD、Solidworks等专用CAD设计软件绘制零件图，然后再导入美国SigmaNest或西班牙Lantek等专业排样软件中进行零件后处理和排版，生成加工文件后导入德国倍福、德国PA、西门子等数控系统中，搭配德国Precitec的电容随动系统进行后续加工操作。柏楚电子推出上述技术变革后，为下游激光设备制造商提供了一站式的解决方案，重新定义了我国激光加工行业的标准，用户可以在柏楚电子的控制系统中同时实现上述激光加工的全部流程，大幅降低激光切割设备的操作门槛和学习成本，简化激光切割设备的装机和调试过程。柏楚电子在激光切割领域保持强竞争力。1）中低功率激光切割控制系统：柏楚电子的中低功率产品在稳定性、可靠性、精度、速度、易用性等各方面均具备明显优势，市场占有率约为60%。2）高功率激光切割控制系统：目前国际厂商依然占据绝对优势，为中国市场主导者，柏楚2021年市占率约17%，近年随着国内高功率激光切割市场发展及柏楚产品日益成熟，柏楚份额持续提升中。（二）业务2：智能切割头-搭载高功率切割设备，渗透率提升+国产替代切割头充当“四肢”的角色，与控制系统实现协同互补。激光切割控制系统与智能激光切割头是大脑与四肢的关系，两者软硬结合，需要在信息收集、传输、反馈的同步性和精密性上达到很高的契合。切割头在激光切割中的工作流程是：激光器产生激光，通过外光路传输，在切割头内经聚焦镜聚焦后，作用于被加工材料表面，将材料气化或者在切割气体辅助下形成熔池，以实现吹散被激光融化的金属熔渣或助燃。由于高功率激光切割的工作环境恶劣，设备需要在高温、高湿、粉尘污染大的环境下运行，外部环境和切割头内部任何微小的变化都会对设备性能和切割效果产生较大影响，因此及时将工况信息传递回控制系统，由控制系统进行实时调整，有助于最大程度保证激光切割设备的工作效率。柏楚电子智能切割头产品与高功率软件搭载销售，客户认可度高、销售额快速提升。目前我国整机制造厂商使用的高功率激光切割头和三维激光切割头主要依赖进口，主要供应厂商分别为德国Precitec和德国LT。且德国厂商生产的切割头的传感器数据无法与国产的激光切割系统进行实时的通讯，从而无法实现智能的闭环控制策略。公司激光切割头具备安装、调试简易，传感器齐全，将是目前市场为数不多的具备与国外同类产品竞争力的国产智能切割头。从产业层面来看，公司原有主业激光切割头软件和智能激光切割头在激光切割设备整机制造中属于平行工序的关系，下游客户高度重合。基于公司在控制系统细分领域内的龙头位置，公司拓展智能激光切割头具有渠道优势，且客户对于切割头评价反馈较高，子公司波刺自动化（切割头业务主体）营收快速增长。2020年波刺自动化子公司营收进0.11亿元，2023年上半年营收达到1.54亿。（三）业务3：智能焊接机器人控制系统-机器换人大势所趋、柏楚产品或迎放量期钢构非标场景属性，倒逼智能焊接机器人需求。智能焊接机器人产品为电弧焊焊接机器人。按照机器人加工路径生成的方式不同，焊接机器人产品可以分为示教焊接机器人和智能焊接机器人两类。示教焊接机器人主要需要人工示教来编辑焊缝的加工的路径；智能焊接机器人通过离线编程来生成焊缝加工路径。目前国内焊接行业自动化水平较低，现有进口产品成本过高，且对操作调试人员的技术能力具备较高的要求。而随着我国钢结构产业的持续快速发展，钢构产品产量增加将直接带动钢构焊接市场需求。与此同时，焊工工种的持续短缺，使得钢构企业对于焊接自动化解决方案的需求与日俱增，智能焊接机器人替代人工为行业趋势。完整的钢结构零件焊接加工流程及公司核心技术在焊接工艺的应用情况如下：第一步、从Tekla，Revit等建筑设计软件里导出需要焊接的钢结构零件模型。第二步、对钢结构零件模型进行编辑，设置焊缝，生成坡口并设置焊道顺序。第三步、在数字孪生系统中编辑机器人焊接动作，进行运动仿真，确认加工路径正确没有碰撞。并生成焊接加工站运行指令。第四步、3D相机扫描整个工件，对工件进行识别和空间定位，并校正焊缝的加工位置数据。然后机器人根据焊接指令运动到焊缝起始位置进行焊接。焊接过程涉及机器人姿态自适应调整，动态规划路径以及自动避障，焊接工艺选择匹配，焊缝跟踪传感器控制，图像信号处理，焊缝跟踪过程以及焊接工艺动作实时调整，最终完成零件的焊接。切割与焊接为上下道工序，柏楚切割场景积累技术工艺可部分复用于焊接场景。切割与焊接在钢结构产品生产制造中属于上下游工序的关系。由于焊接与切割在CAD技术、CAM技术、NC技术、传感器技术和硬件设计在智能制造和自动化领域的共通性，公司在切割领域所积累的核心技术储备为进军智能焊接机器人及控制系统领域奠定了坚实的基础。目前，国产焊接机器人大多数为需要人工示教的半自动化模式，公司通过开发工件视觉定位系统、智能焊缝跟踪系统通过视觉传感器识别工件和焊缝，智能焊接离线编程、控制系统通过CAD技术、CAM技术、NC技术进行焊接机器人加工工艺控制，达到取代人工示教模式进行自动化智能焊接的效果。当前下游钢构企业迫于产能及成本压力，对于智能焊接机器人需求迫切，随着公司产品成熟度提升及积极市场推广，未来焊接产品或将迎来放量期。4.3德赛西威（tmt&汽车）：从中国领先tier1走向世界级德赛西威是中国领先的汽车tier1，从事智能座舱、智能驾驶、智能互联业务。预计未来要冲击成为世界级tier1公司成长来自乘用车销量、智能化渗透率、智能化ASP、客户结构四重因子的成长。收入增长的持续强劲验证了渗透率和ASP的增加。现金流的优秀、减配压力下较强的毛利率（剔除汇兑影响）体现优质客户结构的增加。而2023年5月开始，车市恢复状态中。2）2023H2-2024，预计德赛西威即将迎来IPU02增长、第四代座舱电子、高阶ADAS量产、ADAS出海等新型机会。4.4虹软科技：工程化能力强+车载AI虹软科技在AI底层视觉优化较好，适用于手机+车载+VRAR+商户AIGC等领域。伴随特斯拉视觉AI大模型热议，投资者寻找BEV路线图的标的。而虹软科技官方网站实际披露了虚拟BEV帮助停车。我们认为BE

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

具身智能AI行业市场分析

文档简介

温馨提示

最新文档

评论

具身智能AI行业市场分析

文档简介

温馨提示

最新文档

评论

相关文档