版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
空间计算发展报告(2024)空间计算发展报告(2024)7 空间计算发展报告(2024)7目 录ŸÅtȚÆBBØ’(2024) 2.2.1 ¡eÜ ț@ @@ 17222 ¡øȚ ț@ Ț@@ 2O223 ¡øȚ 4@@@ 222.2.4 @ W16țJ2@ 26( ) gȚ Țg@ ğț@@. 2/231 ź@Ş @ 28232 ź ¡øȚ Țg@ 29( ) Ț). @ @. 302.4.1 2 @ @@țĘ 30242 @[;Ę]ÿȘ 4@Ş ğ@@@‹@;@. 3O243 ¡øȚ @ 32( )@oț@@@@..........................................34251@ ................................................3522g¿Țș@ ..........................................3623ț@@ 2 5 ț@ @@ 46(y*—) NJRFI ğ „țg261 gÜ ’42 2 @Țci,ȚFj „ț92.7.15G/5G—A/6G@'%/ß512.7.15G/5G—A/6G@'%/ß512.7.25G—A1ŒD-53273 6G @@ 55{øÇj, •61() ÿ Q '; 61311 Kg 61312 Kg 62() țȚ{j ‹, 648321 Ę *;Q. 6489 空间计算发展报告(2024)910空间计算发展报告(2024) 10 空间计算发展报告(2024) 空间计算发展报告(2024)一、空间计算技术发展的背景(一)空间计算发展的背景空间计算代表了一种全新的计算范式,通过虚拟与现实的深度融合,让计算系统能够理解、模拟和增强物理空间。回顾计算技术的发展历程,大致经历了从PC桌面计算到智能手机移动计算,再到以XR终端为主的空间计算时代的发展历程。伴随着人机交互技术的变革、划时代终端的出现以及新型网络技术的演进升级,每个阶段都极大地扩展了计算的能力和应用场景,同时也提升了设备对环境的感知能力和用户交互的自然性。PC桌面计算时代这是早期的计算机计算范式,主要特点是用户需要在固定的位置使用计算机,如个人台式电脑(PC),核心技术是中央处理器(CPU)和存储技术,确保了较强的计算和数据存储能力。PC桌面计算为信息处理和办公提供了强大的支持,但受限于物理空间和设备携带不便。PC时代的计算集中在二维模式下,人机交互方式主要局限于键盘和鼠标,终端对物理环境的感知能力弱,难以对物理空间进行有效感知和计算,导致物理空间和数字空间处于割裂状态,沉浸式体验差。移动计算时代随着技术的发展,计算机开始小型化,满足了商务人士对便携性的需求,这一阶段的主要代表是笔记本电脑。随着3G/4G/5G移动通信技术的发展、智能手机和平板电脑的普及,人类真正进入到了移动计算的时代,计算从固定的桌面环境转移到更加灵活的移动场景中。移动计算使得用户可以在不同的地点进行随时随地的工作和学习,极大地提高了工作效率和生活的便利性。移动设备(特别是智能手机、平板)集成了多种传感1空间计算发展报告(2024) 器(如摄像头、加速计、GPS等),一定程度上增强了对环境的感知能力(特别是位置能力)。随着2017年开始苹果和Google先后推出了移动增强现实SDKARKit和ARCore,开启了虚实融合的移动应用体验时代,但受限于基于触摸屏的人机交互技术的局限,用户的沉浸感体验不强。沉浸式元宇宙应用呼唤新一代的沉浸式移动通信终端。空间计算时代以扩展现实XR终端为主的空间计算(SpatialComputing)作为新一代计算范式,不再局限于实体屏幕,而是在真实的物理空间中,通过扩展现实XR(涵盖AR/VR/MR)技术,实现物理世界与数字世界的无缝融合,提供更加沉浸式的虚实融合体验。空间计算技术标志着计算不再仅是功能性的处理工具,还是人与物理世界、虚拟世界之间的桥梁。空间计算依赖于高精度的传感器、摄像头和算法(如深度学习和计算机视觉技术),能够实现高精度的三维重建和实时人机交互,用户通过手势、语音、眼动、脑机接口等方式与虚拟物体交互,沉浸感和空间感知进一步增强。未来以XR终端为主的空间计算时代,算力、人工智能与网络通信技术将更加关键,下一代XR终端的发展将是一个融合了硬件、网络、算力和算法的全新阶段,硬件、网络、算力和算法紧密相连,共同推动空间计算技术的发展。特别是沉浸式通信已经成为6G的主要应用场景之一,6G将为空间计算技术的发展在通信、感知、计算等方面提供坚实支撑,成为空间计算发展的强大背景和综合生态系统,为技术创新和应用拓展奠定基础。(二)空间计算概念定义广义的空间计算指的是计算机对空间数据和空间关系的处理和分析能力,涉及空间数据的获取、管理、处理和理解与空间位置相关的信息。空间计算的涵盖范围非常广泛,比如最早的全球定位系统、虚拟现实/增强现实、机器人、自动驾驶等领域。2 空间计算发展报告(2024)狭义的空间计算是指继桌面计算、移动计算之后的一种虚实融合的“感知-通信-计算-交互”一体化的新型计算范式,通过对物理空间、用户空间和信息空间的多模态感知、三维建模与虚实融合,实现虚拟信息基于物理场景和以用户为中心的沉浸式呈现与实时动态交互。空间计算是元宇宙的入口关键技术,主要关注如何通过信息技术将物理世界与数字世界深度耦合,使得虚拟与物理对象之间的交互自然高效,同时具备感知空间关系与语义推理的能力。空间计算不仅涉及空间数据的采集、处理和建模,还涵盖了时间、位置和环境等多维度信息的集成分析,能够感知和理解用户周围的空间,并将数字内容与现实场景相互交织。随着移动XR终端的逐渐成熟,空间计算正助推移动互联网从现有平面交互式应用形态向空间三维立体式应用形态转型升级,逐渐成为下一代数字经济和智能社会的底座技术,迈向未来6G沉浸式通信和元宇宙应用愿景。网络和通信技术空间计算应用空间计算共性关键技术网络和通信技术空间计算应用空间计算共性关键技术空间计算基础支撑技术空间信息采集终端XR(硬件/软件)可穿戴交互设备三维裸眼显示终端空间计算服务平台多模态人机交互技术空间建模技术空间感知与定位技术空间数据管理技术三维引擎技术三维渲染技术文旅工业商业教育娱乐办公地产医疗算力资源专用芯片技术物联感知技术算力资源专用芯片技术物联感知技术人工智能技术3空间计算发展报告(2024) (三)空间计算的行业应用界,利用扩展现实XR(VR/AR/MR)、AI等技术,推进互联网应用型态由二维平面向三维空间进化,可以广泛应用于工业、文旅、商业、教育、医疗、军事、地产、娱乐等诸多行业。空间计算在工业行业的应用空间计算在工业行业中的应用能够带来生产效率的提升,为企业降低成本。例如,以空间计算为基础的增强现实(AR)可将2D或3D信息叠加到真实物体和现实环境中,实时获取装配和维修指导,从而显著减少误操作和培训成本,在遇到现场作业人员无法解决的情况时,可以借助AR向远程专家寻求协助。此外,数字孪生技术也正在被广泛采用,利用虚拟工厂模型与现实世界中的工厂实时同步,管理人员可以远程监控生产线,进行预测性维护并优化生产流程。这些技术不仅降低了停机时间,极大提高了工厂资源利用率。在装备制造业,汽车制造业,能源行业等诸多工业行业中,空间计算技术已经能够为企业带来显著收益。空间计算在文旅行业的应用空间计算正深度融合文旅产业,重塑产业结构与游客体验。在旅游景点方面,借助三维重建技术,可以将旅游景点复刻到虚拟世界中,用户可以足不出户感受世界各地的著名景点的魅力。VR大空间技术的应用,能够为游客打造更加沉浸式的虚拟游览体验。游客仿佛置身于一个巨大的虚拟空间中,周围的景物栩栩如生,带来前所未有的震撼感受。空间计算技术还可以为游客提供景点实时AR导航导览服务。虚拟数字人导游以拟人化形象进行语音和AR讲解,增加游览的趣味性和社交性。在数字化文博领域,博物馆可以通过空间计算技术进行数字化升级,实现3D复原与互4 空间计算发展报告(2024)动展示。这为文化传承、教育、互动体验等方面提供了新的可能性,对于推动博物馆的发展和文化遗产的传承具有重要意义。空间计算技术为历史文化和现代旅游景点提供了全新的呈现形式和服务形态,在元宇宙概念的驱动下,空间计算将为文旅行业开创数字化的全新业态。空间计算在商业领域的应用在商业领域,空间计算正深刻改变商业的运营模式。空间计算技术在零售业推动了场景数字化,沉浸式的购物体验。空间计算助力品牌推出数字藏品形式的虚拟商品,增强品牌的数字世界的影响力,扩展品牌市场。商场和线上平台也开始使用AR来增强购物体验,例如,商场通过AR应用为顾客提供室内导航,通过AR红包或者优惠券等互动形式的广告营销活动,并引导顾客到特定商铺进行消费,增加了营销内容的趣味性,达到吸引顾客参与,大大提升了广告的推广效果,实现了线上线下的互动。空间计算在教育行业的应用空间计算为教育和职业培训带来了创新的教学方式,可以促进教学方式的变革。通过VR和AR,学生可以体验到沉浸式学习,例如,在虚拟环境中探访历史遗址,模拟化学实验,或者学习复杂的机械原理。教师可以利用AR技术展示复杂的概念和模型,如解剖学等,增强学生对学习内容的理解。对于职业培训,特别是那些存在高风险的工作,如飞行员训练,VR技术还可以为他们提供虚拟训练环境,让他们在安全的虚拟世界中进行学习,减少了实际训练的成本和风险。空间计算技术助力学生和教师可以在虚实融合或者完全虚拟的环境中进行多人实时互动,打破物理空间限制,增强教学的体验效果。空间计算在医疗行业的应用空间计算在医疗领域的应用正在迅速发展,借助增强现实(AR)、5空间计算发展报告(2024) 虚拟现实(VR)、混合现实(MR)和AI技术,可以极大地改善医疗服务的效率和质量。主要应用在医学培训与教育、远程医疗与咨询、康复与治疗、患者体验与沟通等方面。例如,通过分析患者的医学影像(如CTMRI),创建3D模型,帮助医生制定最佳手术方案,可以进行手术前规划。在实际手术中,使用AR技术实时叠加患者的解剖结构,帮助医生进行精确定位,这种方法已经在神经外科和骨科等领域取得成功。在远程医疗与咨询方面,该技术可以用于虚拟会诊。医生和患者可以通过AR/VR技术进行远程会诊,医生可以在虚拟环境中与患者互动,展示病情和治疗方案,甚至开展远程手术。空间计算在房地产行业的应用在房地产行业,空间计算同样带来了深刻的变革。借助虚拟现实技术,购房者或者租房者可以在线选择房源实现虚拟看房,远程参观房屋,深入了解房间布局和装修效果,提升购房或租房决策的效率与准确性。空间计算也极大推动了室内设计的发展,设计师可以通过增强现实(AR)在现实环境中实时展示家具和装饰品的摆放效果,帮助客户直观地看到装修后的效果,客户通过空间计算技术查看不同的装修风格和家具摆放,从而加速设计和装修的决策过程。空间计算在娱乐行业的应用空间计算同样正在深刻改变娱乐行业内容制作、互动体验与观众参与方式,增强现实(AR)与虚拟现实(VR)与混合现实技术的应用,虚拟与现实的界限变得逐渐模糊,为用户提供更加沉浸式、个性化、交互性强的娱乐体验,如在体育赛事转播领域空间计算增强了体育赛事的沉浸式观看体验,为观众提供实时数据、虚拟视角和互动功能,具有身临其境的感觉。在数字游戏领域,空间计算正在逐渐变革电子游戏的形式,提供更加沉浸真实的游戏体验。空间计算正在推动娱乐行业进入一个沉浸式和互动6 空间计算发展报告(2024)化的新时代。通过AR、VR、全息影像和虚拟场景,用户的参与感和娱乐体验将变得前所未有地丰富。未来,随着元宇宙和跨平台生态的构建,娱乐形式将进一步融合现实与虚拟,为全球用户带来更多创新的娱乐方式。空间计算在广电行业的应用空间计算将在广电行业中发挥重要的作用,对广电行业的发展具有深远的意义。空间计算技术不仅提升了内容创意与生产水平,还为用户带来更丰富的沉浸式视频体验,同时推动广电技术创新与产业升级。在节目制作过程,利用空间计算技术,广电行业可以实现快速、准确的三维建模,为赛事直播、娱乐节目、新闻制作等领域提供了更丰富的视觉元素,增强内容的吸引力和用户沉浸感。同时空间计算技术可以突破演播室的空间限制,实现AI实景融合,让节目制作更加灵活多样。通过空间计算技术实现智能制播,广电行业可以高效地完成内容制作、分发和播放,提供工作效率和内容质量。在节目呈现方面,空间计算技术为广电行业用户带来更加逼真的沉浸式互动体验。随着空间计算技术与人工智能、大数据等先进技术相结合,将可为广电行业的智能化、个性化发展提供更强的技术支持,为推动广电行业的转型升级和高质量发展发挥更大的作用。(四)空间计算发展趋势空间计算作为连接和融合数字空间与现实世界的关键技术,正在重塑人类与数字世界的交互方式,其发展前景广阔,将对未来社会产生深远影响。空间计算全球市场规模增长潜力巨大空间计算通常被认为是元宇宙的核心关键技术。全球知名IT研究与顾问咨询机构高德纳公司预测到2033年,空间计算的全球市场规模将增长至1.7万亿美元,市场潜力巨大。7空间计算发展报告(2024) (1)设备更新换代推动空间计算市场发展随着空间计算技术的不断发展,设备正在不断更新换代。目前,传统的电脑和手机在人们生活中仍然占据重要地位,但空间计算的出现为用户带来了全新的交互体验,XR/AI眼镜等可穿戴设备在未来2-3年会逐渐成为空间计算的重要载体。轻薄化XR眼镜相比传统AR/VR设备具有便携性优势,可轻松佩戴,随时随地使用,满足用户在移动场景下的沉浸式体验需求。同时,其自然交互方式更加直观、便捷,通过手势、语音、眼动等与用户互动,提升了用户体验。预计大概2027年轻薄化智能AR眼镜逐渐会成熟,2030年以后有可能逐步替代手机成为未来6G时代的新一代沉浸式移动通信终端。(2)5G到6G的网络演进2023年6月ITU将沉浸式通信正式确定为6G的主要业务场景之一。通信技术的不断升级是空间计算发展的重要推动力,从5G到6G的演进将为空间计算带来更强大的网络支持。6G将提供更高的带宽,使得空间计算设备能够更加流畅地传输大量的图像、音频和数据,满足虚拟现实和增强现实等应用对大规模数据传输的需求。更低的延迟将极大地提升空间计算设备的实时交互性能,确保用户操作及时得到响应,提高交互的流畅性和准确性,为远程手术等对实时性要求极高的应用提供有力支持。更强大的连接能力将拓展空间计算的应用场景,支持更多设备连接和协作,实现设备之间的分布式高效协同和边缘智能。空间计算技术不断创新与突破苹果VisionPro与数字内容互动的新方式。VisionPro的出现,不仅在技术上实现了新的突破,还为用户带来了全新的视觉和交互体验。其可调节的特性,能够满足8 空间计算发展报告(2024)不同用户的需求,无论是在观看视频、玩游戏还是进行办公等场景下,都能提供出色的表现。预计在未来几年,随着技术的不断进步,VisionPro设备也将变得更加轻薄,佩戴更加舒适,同时功能也将不断增强,为用户带来更加沉浸式的体验。Rokid、Xreal、小派科技、Pico、NOLO等国内企业在空间计算领域也展现出了强大的发展潜力。Rokid、Xreal专注于AR眼镜的研发和生产,为用户提供了沉浸式的娱乐和办公体验,未来会采用更轻薄的光波导方案,为用户提供更轻薄的体验。小派科技则在VR头显领域取得了显著的成就,其高分辨率和高刷新率的产品受到了消费者的广泛关注。AR+AI大模型的融合为空间计算领域带来了新的发展机遇。Meta的雷朋眼镜是AI技术与时尚元素相结合的产物,它不仅具备时尚的外观设计,还集成了先进的AI技术。用户可以通过雷朋眼镜获取实时的信息提示、导航指引等功能,为日常生活带来了便利。同时,Meta还在2024年推出了未来轻薄化AR眼镜的原型机Orion,预计将在2027年左右正式推向市场。AR+AI大模型融合的轻薄化眼镜将成为未来真正的市场主流,有望在2030年开始逐步取代手机而成为新一代的沉浸式移动通信终端。空间计算应用场景不断拓展在空间计算领域,软件也在不断发展。苹果发布的VisionPro为整个行业树立了新的标杆,带动了相关产业链的发展。苹果将空间计算视为未来科技发展的重要方向,通过其强大的生态系统和技术实力,推动空间计算在消费市场的普及。微软也在空间计算领域积极布局,为MicrosoftTeams上的高级会议创建空间音频解决方案,提升远程协作的效率和体验。亚马逊则通过其云计算服务AWS,为空间计算应用提供强大的算力支持。这些科技巨头的布局将进一步推动空间计算技术的创新和应用。9空间计算发展报告(2024) 空间计算的软件生态正在不断丰富和完善。未来,空间计算软件会更加注重用户体验,通过不断创新的人机交互方式和功能,为用户提供更沉浸式的体验。例如,软件可能会进一步优化手势识别和空间音频技术,使用户在与数字内容互动时更加自然和流畅。同时,软件可能会与人工智能技术深度融合,实现更智能的场景识别和交互推荐,为用户提供个性化的空间计算体验。政策大力支持空间计算发展目前,国内在空间计算技术方面已发布一些政策支持。上海市在“元宇宙”新赛道行动方案中明确支持空间计算技术,深圳市在数字经济发展规划中也将其列为重点发展领域,并通过设立专项科研基金和产业扶持资金等方式鼓励企业和科研机构开展研发和应用。预计未来会有更多地区和国家层面出台具体政策支持其发展,一方面加大对技术研发的投入,提高我国自主创新能力;另一方面鼓励在各行业应用推广,制定行业标准和规范。国际上,美国白宫科技政策办公室于2024年2月首次将空间计算纳入科技创新战略布局,并列入先进计算领域《关键和新兴技术清单》以强调其对维系美国国家安全优势的重要性,并与先进超级计算(含AI)、先进云服务、边缘计算等核心技术并列。联邦政府通过美国国家科学基金会资助相关项目,地方政府也积极提供赠款、税收优惠并创建创新研究中心。美国国防部是空间计算技术的重要推动力量,美国国家标准与技术研究所参与制定关键技术标准。此外,日本、韩国等部分科技发达国家也在积极关注和推动空间计算技术发展。空间计算产业链协同发展,生态系统不断完善目前,空间计算产业链已经初步形成了硬件、软件、内容和服务等环节的协同发展态势。在硬件方面,芯片厂商、传感器厂商、显示面板厂10 空间计算发展报告(2024)商等不断推出高性能的产品,为空间计算设备的发展提供了基础支持。例如,高通、英特尔等芯片厂商推出的专门用于空间计算设备的芯片,提高了设备的计算能力和图形处理能力。在软件方面,操作系统厂商、软件开发工具厂商等不断优化产品,为开发者提供更好的开发环境。空间计算技术的生态系统正在逐步形成。科技巨头如Meta、苹果、谷歌、微软等纷纷布局空间计算领域,推出了自己的产品和平台,吸引了众多开发者和合作伙伴的加入。同时,一些专注于空间计算技术的创业公司也不断涌现,为生态系统的发展注入了新的活力。未来,空间计算生态系统将不断完善和发展。一方面,随着技术的不断进步,生态系统中的技术标准和规范将不断完善,提高不同企业产品之间的兼容性和互操作性。另一方面,生态系统中的参与者将更加多元化,除了科技企业和开发者,还将吸引更多的行业用户、投资者、政府机构等参与其中,共同推动空间计算技术的应用和发展。11 空间计算发展报告(2024)二、空间计算核心关键技术进展(一)空间计算终端的进展工作方式。虚拟现实(VR)、增强现实(AR)和混合现实(MR)设备,作为空间计算技术的重要硬件载体,通过创造沉浸式、互动性的数字体验,模糊了现实与虚拟的界限。这一技术进步不仅在消费电子领域引发了革命性变化,也在医疗、教育、工业等多个行业展现出巨大的应用潜力。透视技术路径空间计算XR终端设备可分为光学透视(OST,OpticalSee-Through)和视频透视(VST,VideoSee-Through)两种技术路径,依据现实世界呈现方式的不同。OST技术通过透明或半透明光学合成器直接显示现实世界,虚拟信息叠加于视野中,实现虚拟与现实的融合。OST设备呈现的现实世界是真实的,虚拟元素不会完全遮挡现实场景,虚拟与真实物体可在同一视场并存,提供增强现实效果。OST在亮度、分辨率、延迟等方面具优势,但受限于光学技术,色彩表现和虚实融合存在挑战。OST类似在普通眼镜上加装“投影仪”,通过混合光源增强现实体验。VST技术通过相机捕捉现实世界图像并显示在不透明屏幕上,虚拟信息与现实图像结合,实现增强现实效果。VST不受物理光学限制,完全依赖软件算法叠加虚拟信息,支持用户与虚拟物体互动。VST能精确控制虚拟物体的遮挡和深度感知,确保其与现实物体正确互动,并可实时优化图像质量。尽管VST具有灵活性,但面临图像延迟、视觉差异和配准问题等挑战。高成本硬件和图像失真问题仍需技术创新解决,以提升AR体验的流畅性与自13空间计算发展报告(2024) 然性。设备形态划分:一体式和分体式从设备形态来看,空间计算XR设备可分为一体式和分体式两种设计。分体式设备注重佩戴舒适性,将显示单元与计算单元分开,优化了重量分布和散热问题,提升了设备的轻便性。该设计使得头戴设备专注于高质量的显示效果,而计算任务由外部设备(如专用空间计算主机、智能手机或个人电脑)承担。这种分工不仅提高了佩戴舒适度,还增强了设备的灵活性,能够根据不同场景快速切换计算平台。分体式设备可根据使用场景细分为头盔型、头戴型、眼镜型等形态,同时能够结合外部设备的高性能计算能力,为用户提供更丰富的功能和更佳体验。一体式设备则将计算、电池、存储和显示等模块集成在一起,提供了更高的便携性与易用性。用户无需连接外部设备,便可随时随地体验空间计算。其即插即用的特点让用户能快速进入虚拟世界,且通常价格较为亲民,适合预算有限的用户。然而,由于所有组件集成在同一设备内,一体式设备的图形处理能力较分体式设备有所不足,电池续航和散热性能也成为设计挑战。尽管如此,一体式设备凭借便捷性和易用性,满足了用户对随时随地体验空间计算的需求。根据使用场景,一体式设备可细分为眼镜型、头盔型等形态。空间计算终端设备的发展趋势空间计算终端的核心在于其强大的空间计算能力,能够实时感知物理环境并将数字信息与现实世界无缝融合。近年来,随着技术的持续创新,空间计算XR终端呈现出一些新的发展趋势。2023年6月,Apple推出了自己的首款空间计算设备——AppleVisionPro,凭借其先进技术、创新设计和丰富功能,为用户带来了全新的沉浸式体验,成为空间计算领域产品与技术趋势的引领者。VisionPro采用M2+R1双芯片架构,M2芯片作为主处理器,具备强大的计算与图形处理14 空间计算发展报告(2024)能力,适应复杂应用场景。而R1芯片专注于实时传感数据处理,具有高度并行性和低延迟,确保设备在各种运动状态下的稳定性与准确性。这种通用计算芯片与专用协处理器的联合架构,不仅确保了画面清晰、低延迟,还提高了设备性能的稳定性,进而实现更高效、节能的运行。此外,Meta在2024年Connect大会上展示的MetaOrion原型机也采用了双芯片架构。眼镜端通过专用协处理芯片进行位置追踪、手势追踪、眼部追踪和图形算法等处理,而渲染与常规计算则由分体式计算模块完成,并通过无线方式传输至眼镜端。这种设计使得MetaOrion眼镜本体保持轻便,为用户提供舒适佩戴体验,同时有效优化散热、性能和续航,合理分配计算负载,提升了整体设备性能。空间计算终端的另一个重要发展趋势是自然交互。在空间计算环境中,传统的鼠标和触屏交互方式已不再适用,面对空间化、3D化的虚拟内容,用户需要一种新的自然交互方式来满足其需求。AppleVisionPro采用了先进的自然交互技术,结合计算机视觉、传感器融合和机器学习算法。通过高精度摄像头捕捉用户的眼球运动和手势,再结合语音识别技术,实现了无需触摸屏幕即可完成各种操作的交互方式。这种方式不仅提升了设备的易用性和灵活性,还显著改善了用户体验,使用户能够更沉浸地享受科技带来的便利。MetaOrion则引入了肌电图(EMG)手环技术,通过手腕周围的精密传感器捕捉手部肌肉电信号,并与眼动追踪技术结合,利用眼睛作为指针,手指捏合作为点击动作,提供了一种直观、自然的交互体验。内容、无法创造内容的问题。VisionPro的空间拍摄功能让用户从多角度拍摄富有创意和立体感的照片和视频,通过空间相册真实还原拍摄时的临场感和沉浸感,用户可以随时回顾并与他人分享。为解决空间视频和照片存储问题,MV-HEVC(MultiviewHighEfficiencyVideoCoding)作为新15空间计算发展报告(2024) 的视频编码标准应运而生。MV-HEVC是HEVC的扩展,旨在高效编码多视角视频,特别适用于3D内容。通过压缩左右眼视角的冗余信息,MV-HEVC提高了存储效率。同时,MV-HEVC与HEVC解码器兼容,支持在不支持3D的设备上播放,增强了空间视频和照片的通用性。该标准在不显著增大文件大小的前提下,实现了3D视频的高效存储,推动了空间视频和照片成为主流多媒体形式。生成式AI的迅猛发展正在重塑3D内容制作领域,成为行业变革的关键力量。自2022年ChatGPT引发AIGC浪潮以来,生成式AI在游戏、影视、3D打印等领域的应用持续扩大。3D生成技术的核心在于通过深度神经网络生成物体或场景的3D模型,并通过色彩与光影增强其逼真度,主要研究方向包括AI建模、骨骼绑定、表情、动作及渲染等。3D包括基础层、资产提供层和应用层。生成式AI替代传统工具,显著降低生产成本并提高效率。传统3D制作流程中,建模环节成本最高,尤其在3D游戏中,该环节研发成本可占总成本的60-70%。生成式AI能够在各个环节发挥作用,降低门槛、减少成本、提高效率。目前,空间计算终端仍面临一些挑战。大多数终端尚不直接支持5G网络,依赖手机或Wi-Fi,这限制了其移动性和网络速度,尤其在需要高速、低延迟连接的场景中。此外,优质内容主要集中在手机和电脑等成熟终端,空间计算内容生态在生产、流通和商业化方面尚未完善。同时,终端依赖硬件进步,如高分辨率、低功耗微显示屏、强大计算芯片、优化光学方案和小型化高容量电池等。总体而言,尽管空间计算终端已快速发展并逐步成熟,但未来仍需行业在技术和生态方面的持续创新。16 空间计算发展报告(2024)(二)空间建模技术的进展空间计算实现了现实空间与数字空间的无缝融合,其中数字空间的构建涵盖了“人、物、场”三类主要内容。构建过程涉及数据采集、数据管理和三维重建等关键环节。空间数据采集技术空间数据采集是数字空间“人、物、场”内容构建的关键前置环节,主要分为接触式和非接触式两类方法。接触式方法通过触发式或连续式测量,直接采集高精度三维信息,但要求测量仪器与场景接触,适用性有限。非接触式方法无需接触被测物体,通过影像分析获取数据信息,应用范围更广泛。非接触式方法进一步分为主动视觉法和被动视觉法。主动视觉法向场景发射结构光源,通过计算光源投影信息检测目标位置,主要技术包括结构光法、TOF(Time-of-Flight)和三角测距法。被动视觉法通过传感器接收外界光源反射信息测量三维场景,根据摄像机数量分为单目、双目和多目视觉法。表1空间数据采集技术概览表是否接触被测物体类型主要技术原理优点缺点接触式-触发式测量每一轮数据采集/每次行扫描1)仅在需要时进行数据采集2)适合于偶发事件监测1)只适用于可接触状态2)可能错过在触发条件不满足时发生的重要信息,导致数据不全面-连续式测量不间断数据采集能够捕捉完整的时间序列数据只适用于可接触状态,需要更多存储资源17空间计算发展报告(2024) 是否接触被测物体类型主要技术原理优点缺点非接触式主动结构光捕捉被测物体表面的变形光数据1)适合高分辨率和高准确度场景2)适用于动态或实时监测场景1)光线条件对数据采集质量影响较大2)被测物体的表面纹理特征会影响测量效果TOF通过光或其他信号从发射到返回的时间来获取距离信息1)适合大范围环境的测量2)适合动态场景下的实时监测1)光线条件会影响测量精度2)多个反射面或障碍物的环境会影响测量结果三角测距法测量两个已知点之间的距离和夹角,利用三角形的几何原理来计算目标点位置1)通过测量角度和距离实现高精度的定位和测量2)所需的测量工具相对简单1)要求测量点之间有直接视线2)角度测量的微小误差会影响结果准确度被动单目视觉使用单个相机进行数据采集1)仅需要一个相机2)能够快速处理捕获的图像数据1)只有一个视角,无法直接获得深度信息2)需要复杂的图像处理算法来恢复深度信息双目视觉通过比较两个相机捕获的图像来获取深度信息1)通过两个相机视差,可以直接计算深度信息2)能够处理动态场景中的物体运动1)两个相机之间需要精确的校准,过程相对复杂2)需要复杂的算法进行图像匹配和深度计算多目视觉使用不少于三个相机进行数据采集1)减少因遮挡导致的信息丢失2)提供更强的立体感知,适用于复杂场景1)软硬件配置复杂,成本较高2)多个相机之间的精确校准复杂18 空间计算发展报告(2024)倾斜摄影技术:近年来在空间数据采集中得到广泛应用。作为多目视觉的非接触式被动采集技术,它通过在无人机等飞行平台上搭载多台传感器,从垂直和四个侧视角度采集影像。相比传统摄影测量,其额外的倾斜角度能够获取更丰富的侧面纹理信息。然而,由于倾斜摄影仅记录光线的强度信息,对光线方向、波长和时间等其他维度信息的忽视,最终成像可能出现细节丢失的问题。光场(LightField):光场是空间中光线集合的完整表示,全光函数包含7个维度,可全面描述真实场景。光场采集作为基于结构光的非接触式主动采集技术,通过投影结构图案并解析相位信息获取三维深度数据,具备成本低、精度高、速度快和抗干扰能力强等优势。典型光场采集系统t华大学等单位建成全国首个7500平方米“元宇宙光场采集中心”,配备776台六色LED、直径6.6米球形支架和100多台4K相机,可高保真采集人及物体的静态和动态7D数据(位置3维、光源方向2维、相机方向2维)。19空间计算发展报告(2024) 空间计算发展报告(2024)和GeoJSON是常用存储与交换格式。云平台(如AmazonS3、GoogleCloud、阿里云Ganos)采用弹性分布式架构,提升空间数据存储与计算能力。空间数据高效检索技术:通过空间索引提升数据检索效率。常见索引包括:2)网格索引:将研究区域划分为规则网格,适用于快速检索矢量点、线和点云数据。2)R树索引:用最小外包矩形替代空间对象,适用于大规模点云和三维模型数据。3)GiST索引:通过平衡树结构支持自定义规则,灵活处理多类型空间数据。4)向量索引:利用数学模型为图像搜索等高维向量场景构建高效数据结构。空间索引的选择与优化决定了检索效率,是高效空间数据管理的核心。空间数据可视化:将空间数据转化为图形或图像,是空间数据管理的重要体现。随着大规模在线数据需求增加,传统离线地图服务难以满足实时需求。通过新的可视化索引,可以加速数据展示与访问。针对矢量和栅格数据,快显技术利用稀疏金字塔结构平衡创建时间、存储空间与访问效率。对于三维数据,动态裁剪和多级细节层次(LOD)技术提升了海量数据的实时渲染能力,满足复杂场景展示需求。空间数据安全管理技术:旨在保护地理信息、地图、卫星图像等空间数据的安全性与隐私性,是空间计算与信息安全交叉领域的重要方向,涵盖密态数据管理、多方联合计算、数据防篡改及隐私增强四大核心技术。空间计算涉及空间数据的采集、存储、处理、生产与调用,保障这些过程中的数据安全至关重要。一方面,空间数据具有巨大的社会和商业价值,需防止其被恶意窃取或篡改;另一方面,许多空间数据涉及个人隐私,如地理位置与带地理标记的图像,需确保隐私不被泄露。关键安全技术包括传统数据库安全技术(访问控制、数据脱敏、数据审计、加密、备份等)与以下新型安全技术:21空间计算发展报告(2024) 密态数据管理:确保敏感数据在全生命周期内始终以密态形式存在,即使系统或数据库管理员也无法直接访问明文数据,从根本上避免服务器端的数据泄露问题。核心技术包括可信执行环境和同态加密。多方联合计算:在多方协作场景中,通过安全计算技术使参与方在不共享数据明文的情况下完成联合任务,避免数据泄露并消除数据孤岛。核心技术包括多方安全计算和联邦学习。数据防篡改:防止数据在管理和操作中被恶意篡改,确保数据真实性、历史可追溯性及操作不可抵赖性,为数据提供公信力。核心技术包括区块链和可验证数据结构。隐私增强计算:保护个人隐私数据,在采集与发布阶段提升数据的不可区分性,确保合规性并避免违反隐私保护法规。核心技术包括数据泛化和差分隐私。社会对数据安全和隐私保护日益增长的需求。空间三维重建技术空间三维重建技术通过从多视角数据中构建真实世界的三维模型,主要包括四个核心技术:运动结构恢复(StructurefromMotion,SfM)、多视角立体视觉(MultiviewStereoVision,MVS)、表面重建与纹理重建。SfM:该技术通过特征匹配、相机姿态估计和三维点云重建,基于多视角图像与相机内参,恢复出稀疏的三维点云和相机外参。该过程利用图像几何信息推断场景的空间结构。MVS:该技术在SfM生成的稀疏点云基础上,通过图像对选择、视差估计和点云优化进行稠密化处理,生成高精度的三维点云,为后续的建模与仿真提供基础。22 空间计算发展报告(2024)表面重建:为了将稠密点云转化为可视化模型,表面重建技术通过插值和拟合,生成如三角网格等连续表面,使得三维点云具备更高的物理仿真与可视化能力。纹理重建:通过本征分解和反投影,将输入图像中的纹理信息映射到表面重建后的三维模型上,实现对模型细节的填补与增强,提升模型的视觉真实感。这些技术相辅相成,共同完成了从多视角图像到三维虚拟模型的转换,广泛应用于虚拟现实、数字孪生和智能制造等领域。运动恢复 多视立体结构(SfM) 视觉运动恢复 多视立体结构(SfM) 视觉表面重建纹理重建图3传统空间三维重建技术流程在空间数据采集与管理技术不断发展之际,空间三维重建技术作为其核心环节之一,经历了由传统方法到深度学习驱动方法的变革。传统的三维重建技术,如SFM和MVS,通过多视角图像的特征匹配、点云生成与优化、表面与纹理重建等步骤,已广泛应用于三维建模与计算机视觉领域。然而,这些技术仍面临图像点匹配不精确、光照变化、重复纹理以及光滑或无纹理表面等问题,导致在复杂环境下的三维重建效果有限。此23空间计算发展报告(2024) 空间计算发展报告(2024)空间计算发展报告(2024) 动作捕捉的应用,但在几何细节、外观一致性和物理运动表现上仍存在不足。实时高斯重建:3DGS的实时性优势使其能够在消费者级设备上实现高质量的实时渲染,支持大规模场景重建和SLAM等应用。然而,大量高斯基元填充导致较高内存占用,如何优化高斯元的表征与渲染密度,既保证精度又紧凑表达场景,仍面临挑战。高斯与SLAM结合:3DGS的显式几何表示和实时渲染特性提升了SLAM在稀疏或非结构化场景中的表现,增强了系统的鲁棒性和精度。但传统3DGS技术主要关注静态场景,未考虑物理运动规律,限制了其在动态SLAM中的应用。数字人建模技术数字人技术在元宇宙、游戏和影视制作等虚拟场景中广泛应用。随着技术的发展,数字人建模正从传统的手工方式向基于计算机算法的自动化建模转变。根据数字人的身体结构及其静态与动态表征,数字人建模主要包括以下三方面:人脸建模:传统的的人脸建模方法依赖3D设计者使用建模软件(如Maya、Blender)手动创建模型,制作过程既依赖经验,又成本较高。随着三维可变形模型(3DMorphableModel,3DMM)的应用,建模成本大大降低,且模型具有较好的适应性。近年来,基于面部动作编码系统(FacialActionCodingSystem,FACS)的方法也得到广泛使用,通过结合音素、音量、音高和共振峰等信息,能够生成更加精细的人脸模型。人体建模:人体建模最初依赖循环神经网络(RecurrentNeuralNetworks,RNN),但在处理长程信息和位置信息时存在一定的局限性。2017年,Transformer模型的提出,使得人体建模在扩展性和长程依赖的捕捉能力上取得了显著进展,逐步取代了RNN模型。随后,降噪扩散模26 空间计算发展报告(2024)型(DenoisingDiffusionProbabilisticModels,DDPM)的应用进一步提升了人体建模的分布建模能力。通过引入隐式函数,可以根据空间查询点是否位于表面,细致地刻画人体外观。基于PIFu(像素对齐隐式函数)的人体重建技术通过查询点实现对人体外观的细粒度重建,并通过结合几何先验优化,成功解决了复杂衣物和姿势下的高精度重建问题。此外,应用3D高斯泼溅(3DGS)技术或结合人体模型与高斯核,能够仅凭单幅图像进行三维数字人的重建。人物动态建模:人物动态建模通常通过动画文件驱动人物模型变形,生成动态内容。传统的动作捕捉技术(如光学式和惯性式)在高精度动作生成方面表现突出,但对设备环境和成本有较高要求。近年来,生成式运动捕捉技术不再依赖复杂的传感器和摄像机,而是通过学习大量的动作数据(如行走、跑步、跳跃等),并基于输入信号(如文本到动作的转换、关键帧等)生成连续的动作序列。这种方法不仅减少了硬件需求,还能够通过调整和控制模型,创造出难以在现实中实现的动态效果。目前,最有效的动画生成方式是通过运动捕捉技术采集真人动作,并将这些动作迁移到数字人模型中。随着人工智能生成内容(AIGC)的快速发展,基于AIGC技术的智能数字人逐渐成为一个研究热点。通过AIGC,数字人不仅具备更高的交互能力,还能为虚拟空间中的用户提供多样化的服务,推动数字人技术向更加智能化、高效化的方向发展。(三)空间感知技术的进展空间感知的关键技术包括三维注册和面向定位的三维重建。三维注册指将虚拟信息精确叠加到真实空间,通过传感器和算法,确定虚拟物体在空间中的位置、方向和尺度,保证虚拟与现实的融合。主要技术包括目标追踪和同步定位与建图(SimultaneousLocalizationandMapping,27空间计算发展报告(2024) SLAM)。目标追踪通过标记物实现位置匹配,而SLAM则利用传感器自主定位并构建环境地图,适用于动态场景。面向定位的三维重建通过运动结构恢复(StructurefromMotion,SfM)技术,利用多视角图像恢复三维场景,生成精确的点云地图。该技术支持大规模空间的点云融合,为端云融合、多用户交互和XR大空间等应用提供基础。SfM通过特征点匹配重建空间结构,广泛应用于虚拟现实和增强现实,尤其在复杂环境中表现突出。这两项技术的发展推动了空间计算向更高精度和效率迈进,增强了虚拟现实体验的真实性和交互性。面向定位三维重建技术通过构建大规模点云地图支持三维注册,推动端云融合、多用户交互及XR大空间等应用的实现。三维注册技术三维注册技术在空间计算中发挥着关键作用,涉及多种先进技术,提升空间感知与交互体验。目标追踪(marker-based)技术通过标记物对物体或场景进行精确追踪,支持大空间导航与三维注册精度提升。基于2D图片的方法依靠二维码或特定图案实现追踪,具备部署简单、成本低等优点,但易受遮挡与光照变化影响,且缺乏深度信息;而基于3D物体的方法则利用三维物体标记进行更精确的三维定位,具有更强的鲁棒性与灵活性,尽管部署复杂且计算成本较高。同步定位与地图构建技术(SLAM)无需标记,通过实时估计设备位姿并构建环境地图,广泛应用于自动驾驶、机器人导航等领域。SLAM术分为视觉SLAM、视觉惯性SLAM、RGBD-SLAM与LiDAR-SLAM等,其中多传感器融合方案通过雷达与视觉的互补性增强系统鲁棒性。激光惯性系统中的松耦合与紧耦合方案,各自通过优化算法提升精度与稳定性,前者以LOAM为代表,后者则采用LIO-SAM进行长时间导航。在大尺度复杂场景下,端侧设备计算资源有限,可能导致误差累积与28 空间计算发展报告(2024)跟踪不稳定,端云协同成为解决方案,通过将复杂计算任务分配给云端,提升端侧定位精度,减少延迟。尽管端云协同框架有效解决了计算瓶颈,仍面临云端地图表达、通信稳定性和动态更新等挑战。语义SLAM通过环境物体的语义理解,进一步提升定位与地图构建的准确性,并与3DGS-SLAM协同,为大空间导航提供了强有力支持。三维空间感知技术三维空间感知技术是空间计算中至关重要的组成部分,特别是在AR大空间应用中,能够为用户提供沉浸式的虚拟与现实融合体验。其核心目标是通过准确的空间定位和环境重建,感知物理世界并生成精确的虚拟模型,从而为用户创造实时的交互和导航体验。运动结构恢复(StructurefromMotion,SfM)作为三维空间感知的经典方法,通过从无序图像中提取特征,进行离线的三维重建,广泛应用于大规模地图构建和场景建模。在VR/AR环境中,SfM技术能够为空间计算提供高精度的空间模型,并支撑如城市地图等大规模场景的感知与互动。然而,SfM在大规模数据处理时面临计算资源消耗大的问题,这会导致在AR大空间应用中,尤其是在需要快速加载和实时渲染时,用户体验受到影响。此外,传统的SfM方法处理无序图像数据时缺乏高效统一的框架,难以支持从不同视角、不同时间采集的大量数据,导致实时性难以满足。与此相比,3D高斯泼溅(3DGS)技术提供了一种更高效的实时空间感知方案。它以低计算代价实现高效的三维场景渲染,特别适用于AR大空间的动态重建和实时交互。例如VastGaussian通过分治法优化大规模场景的渲染,在扩展重建规模方面具有显著优势,为AR大空间应用提供了更加广阔、真实的空间感知体验。因此,3DGS技术不仅提升了三维空间感知的实时性和精确度,还在AR大空间中优化了环境重建和交互体验,为未来的空间计算应用提供了更高效的解决方案。29空间计算发展报告(2024) (四)三维渲染引擎技术的进展数字空间的“人、物、场”内容构建后需要通过渲染方式呈现。当前游戏、影视、元宇宙等领域快速发展,推动国内外GPU渲染硬件及渲染引擎加速迭代,然而渲染算力资源依旧难以满足全球激增的渲染任务量,算力资源的最大化利用成为渲染技术发展重要方向。三维渲染技术发展概述20世纪50至80年代,光线追踪、全局照明和渲染元素分离等渲染技术出现,为模拟光线算法打下基础。90年代,SGI和微软推出OpenGL和Direct3D,皮克斯的Renderman引擎用于《玩具总动员》,NVIDIA提出GPU概念并推出GeForce256显卡。21世纪初,Direct3D8.0发布,云计算兴起,NVIDIA推出QuadroFX系列。21世纪10年代,WebGL、Vulkan推动网页图形发展,RTX20系列引入RT核心实现硬件加速的实时光线追踪,DLSS提升图像质量。CPU串行处理逻辑数据,GPU展出云渲染、分布式实时云渲染和端云协同渲染等解决方案。国内外三维渲染引擎发展情况目前,主流三维渲染引擎以UnrealEngine(UE)和Unity为主。根据ExternLabs数据,2023年Unity在全球游戏引擎市场(含手机、电脑、主机)份额为48%,手游市场份额高达70%。UE的全球游戏引擎市场份额也达到了13%。UE:由EpicGames开发的三维渲染引擎,广泛应用于游戏开发、建筑可视化、电影制作等领域。自1998年UE1引入3D图形技术以来,经过多次升级,增加了实时光照、动态阴影等功能,成为主流开发引擎;30 空间计算发展报告(2024)2021年推出的UE5支持Nanite和Lumen等图形技术,提供逼真的场景渲染能力。Unity:由UnityTechnologies于2005年推出。随着对Windows、iOS、Android平台的支持增加以及对图形渲染和光照功能的改进,Unity逐渐成为移动端游戏开发的首选。2024年发布的Unity6.0进一步增强了通用渲染管线和高清渲染管线性能,加快了跨平台内容生产及渲染速度。国外三维渲染引擎大行其道的同时,国内企业则积极推进国产三维渲染引擎自研工作。CocosCreator:国产开源游戏引擎,2.x版本专注2D,稳定成熟,国内;3.x版本增加了3D支持,刚起步,持续迭代中。LayaAir:国产开源游戏引擎,从1.0的极致性能到2.0的WEB3D引擎,再到3.0的AIGC引擎生态,可以基本满足各类型3D游戏开发需求。Egret:HTML5技术开源游戏引擎,含2D/3D渲染核心等模块,采用先进渲染技术实现高效性能优化。ViWo:北京大学科研转化成果,三维虚拟仿真智能引擎,支持国产化环境,原生支持大地坐标GIS数据,可模拟自然环境效果,结合AI快速构建场景。RAYSENGINE:浙江大学自主开发的渲染引擎,支持端云协同实时渲染,自研高保真算法和材质,支持超大规模场景电影级渲染。筑境·绘境:咪咕自研元宇宙内容平台,涵盖数据采集、三大智能生产管线、数字资产库等,提供全栈式创作支持,依托移动算力实现分布式实时云渲染。目前国内较多采用UE、Unity等商业引擎,其优势在于开发迅速,跨平台兼容,环境门槛低,拥有众多第三方包。UE擅长桌面端高精度渲染,Unity则专注于移动端轻量级场景,均广受游戏影视行业欢迎。两者盈利模式以授权和提成为主。国产引擎面临起步晚、知名度低、生态规模31空间计算发展报告(2024) 小等困境,市场推广侧重工业等领域,缺乏成熟盈利模式,且跨平台兼容性需提升。渲染技术的发展动态(1)云渲染调度节点 4下发渲染任务到worker节点2渲染任务提交渲染集群 1上传原始素材渲染节点 6存 3原始文件拷贝OBS5结果汇总回传渲染平台个人用户下载结果数据图6云渲染流程下载结果数据32 空间计算发展报告(2024)空间计算发展报告(2024) 交互指令输出画面
终端渲染端云协同端云协同场景拆分场景拆分实时渲染器实时渲染器
云端渲染端云协同端云协同实时渲染器实时渲染器(姿态与位置、深度图、运动矢量)第n帧渲染帧/基础帧二次投影与位置信息计算、渲染、编码等VR终端(姿态与位置、深度图、运动矢量)第n帧渲染帧/基础帧二次投影与位置信息计算、渲染、编码等VR终端第N帧显示帧第n+1帧渲染帧云渲染平台合成输出低时延编码低时延编码网络传输并行处理图9XR大空间端云协同渲染模式随着5G-A、6G技术在“通感算智融合”方面的能力不断加强,未来端边云协同渲染技术将有更广阔的应用发展空间。(五)智能人机交互技术的进展空间计算依赖先进的交互技术如手势识别、语音控制和眼动追踪来增强用户的沉浸感和参与感。随着计算能力提升和人工智能融入,这些交互技术正变得更加智能化,使空间计算能自适应用户需求。这种进步推动了34 空间计算发展报告(2024) 空间计算发展报告(2024) 时间使用可能不适,且在某些场景中应用也受限制。视觉手势识别是目前手势识别的主流技术。但视觉算法处理图像数据成本高,受摄像头焦距和覆盖范围限制,容易存在盲区和光线遮挡,影响准确性。系统响应时间、环境因素和手势多样性,是空间计算手势识别设备普遍面临的挑战。肌电与超声波技术在成本和准确性上有优势,但易受信号强度和噪声影响。实际应用常采用混合技术,结合不同方法提高识别效率和准确性,满足多样化需求。各类手势识别技术在应用过程中均存在一定的局限性。数据手套及各种穿戴式设备虽然具备较高的鲁棒性和准确性,但其穿戴不便可能影响用户体验,使得在长时间使用中产生不适感,从而限制了其在某些场景的广泛应用。(3)技术趋势各类手势交互技术面临空间复杂多变、时间差异导致动作分解识别困难等挑战。手势交互技术未来发展方向包括:a)传感器集成:未来手势识别将整合多种传感器,通过多传感器协同提高准确性,改进穿戴舒适性如蓝牙连接和减重也是方向。b)新特征探索:丰富特征提取是提高识别准确度的关键。引入新传感器发现新特征,提升系统性能。未来应根据用户和场景选取高相关性特征,提高泛化能力。c)新算法发展:研究与传感器匹配的机器学习算法,优化手势分类准确性和效率。通过对比分析不同算法与传感器组合,找到更适合的搭配,实现更高识别效果。眼动追踪交互技术在交互中,注视可替代瞄准,而不会影响任务绩效和舒适度,使用视线追踪的参与者显示出较少的身体需求。许多厂商已将眼动追踪功能整合到商业产品中,例如苹果公司在2024年推出的空间计算设备VisionPro。36 空间计算发展报告(2024)之前的研究提出了基于眼动追踪的用户界面,证明其能减少简单操作的时间,从而避免使用专门控制器的时间。(1)发展趋势眼动交互技术经历了三个主要阶段:主观感知阶段、侵入式描述阶段和非侵入式描述阶段。37空间计算发展报告(2024) 曝光度
视线操作与传统GUI结合提出MAGIC技术光电记录法
进行MDITIM技术研究实现在解放双手且不依赖其它设备开发了一种基于视线分析用户兴趣区的自处理信息显示系统直接观察法原始的眼动实验法后象法早期眼动研究常用机械记录法
的情况下,用视线完成字符输入提出基于眼动的动态放大技术,把鱼眼呈现技术与视线追踪技术结合开发EyeWrite系统用视线的移动轨迹模仿手写笔"写"字把眼动技术用于聊天机器人设计一套基于视线追踪的文本光标快速重定位技术使用眼球传感器对眼球进行运动来表达其基本需求应用了眼动和键盘相结合的混合输入方法使用支持向量机算法开发Eyetyping技术利用眼控进行文本输入提出智能指点技术能够取代鼠标独立使用将视线编码应用于手机眼电记录法最早将眼动用于实时人机交互主要为残障人士开发辅助工具
在线处理眼动数据角膜反光法/野图像跟踪法在眼动交互系统中加入了语音指令,用注视点代替鼠标的指点功能光学记录法
公布发明专利:视线跟踪技术能避免可见光变化或环境阴暗等情况带来的干扰使用Eyetype帮助患有肌萎缩性电磁感应法开发出第一款精确非侵入眼动仪侵入式描述阶段非侵入式描述阶段知阶段侵入式描述阶段非侵入式描述阶段
侧索硬化症瘫痪的病人用眼睛进行交流萌芽期
过热期
低谷期复苏期成熟期时间视线跟踪技术 视线反馈技术 视线点击技术 视线输入技术图11视线跟踪技术发展历程图38 空间计算发展报告(2024)最初,研究者通过直接观察法和后象法探讨眼动现象,使用镜子和闪光灯记录轨迹。技术进步后,侵入式描述阶段引入更精确的记录方法,实现对眼球运动的精确测量。非侵入式描述阶段后,眼动交互技术提升用户体验,广泛应用于实际场景。当前,热点包括解放双手的眼动输入、自动放大特定区域、视线引导鼠标操作及与其他交互技术结合等,旨在提高交互的自然性和适宜度,优化用户体验。这一历程展示了眼动交互技术在提升人机交互效率和便捷性方面的潜力。眼动交互的主要技术可分为如下几种技术:眼动交互技术视线反馈技术眼动交互技术视线跟踪技术媒介 视线点击技术视线跟踪技术视线输入技术图12眼动交互技术分类眼动交互技术通过视线跟踪实现自然互动,主要包括反馈、点击和输入等技术。视线反馈利用眼动信息进行实时反馈提升操作效率;视线点击替代鼠标应用于无法使用双手的场景;视线输入将眼动轨迹转化为字符指令辅助残障人士沟通。这些技术提升了人机交互的便捷性和直观性。目前,一些产品如PICO4Pro与VisionPro中都搭载了眼动模块。眼动追踪还可以实现焦点渲染,改善应用性能。广泛应用于各种搭载眼动功能的XR设备中,如索尼PSVR2。(2)存在的问题与挑战眼动交互技术在空间计算中的应用潜力巨大,但仍面临多项局限性和亟待解决的问题:39空间计算发展报告(2024) 准确性不足:尽管XR设备在眼动追踪上可达0.5°到1°的精度,但在实际应用中可能偏差至2°,显著低于桌面设备的精度。因此,提高XR中的眼动采集设备的准确性以接近桌面端的水平是一个挑战。此外,用户在使用过程中易出现运动疲劳,影响系统可靠性,因此开发个性化的适应性的调节算法将是未来重点。焦点渲染产生的渲染伪影:虽然焦点渲染功能能节省性能资源,但当前凝视渲染技术存在空间伪影(如闪烁)问题,影响VR体验,尤其是在周边视觉敏感区域。未来需要通过改进技术和机器学习方法减少这些伪影。c)硬件设计限制:眼动模块是否能够集成,不仅涉及到模块本身,还取决于计算单元的设计,例如高通公司的XR2芯片。这块芯片应用在了PICO4系列和Quest系列机身上,但是其支持的摄像头芯片有限,这意味着如果要实现眼动功能就必须多占用2个摄像头,从而为其他功能造成不便。市场适应性与普及性:尽管其应用潜力巨大,眼动追踪技术的高成本仍限制了其市场普及,例如PICO4Pro的眼动模块的高级功能需要企业版才可解锁。降低设备成本和提升可用性是推动大众市场应用的关键。e)隐私问题:开发者与公司是否能获取到用户的眼动数据,以及数据的用途,这涉及到了用户隐私。苹果公司在VisionPro的开发中就强调了这一点,即不允许开发者直接拿到眼动数据。在未来发展中需要严肃讨论这个问题。这些局限性表明,尽管眼动交互在XR中展示了广阔的应用前景,但要实现其潜力,仍需解决上述问题,并不断推动技术的发展和优化。40 空间计算发展报告(2024)(3)技术趋势眼动交互的发展趋势主要体现在以下几个方面:轻量化设计:配备眼动追踪的VR头显朝轻便舒适方向发展。用户长时间使用更舒适,提高用户体验。市场稳定性:目前拥有眼动追踪技术的VR头显显示出稳定增长潜力。主流头显如PICO的Pico4Pro、苹果VisionPro和META的QuestPro取得市场认可,领域发展前景乐观。c)应用领域扩展:眼动技术应用向更广泛领域延伸,涵盖社交游戏、动作捕捉、教育培训和运动分析等。多样化应用使眼动交互技术愈发普及。总体而言,眼动交互技术正处于快速发展的阶段,随着硬件的不断改进和应用领域的扩展,其潜力和影响力将继续增长。语音交互技术作为人类沟通的主要媒介,语音是信息传递中最便捷自然的手段。随着科技进步,语音交互在信息化社会中逐渐脱颖而出,成为人机交互中最具潜力的方式之一。语音交互技术是一项集多领域多学科成果的复杂系统。它以语音为基础信息载体,使机器“听懂”用户指令,理解意图,并反馈信息。用户通过语音输入与设备互动,获得实时反馈,使人际交互更直观人性化。目前,语音交互广泛应用于智能助手、车载系统、医疗健康、无障碍技术、客服及教育培训等领域。随着技术进步,其应用场景将持续扩展。(1)发展综述语音交互技术起源于20世纪50年代,经历了模板匹配、概率统计建模、深度学习和端到端语音四阶段的发展。41空间计算发展报告(2024) 曝光度 MIT开发出了著名的语音合成系统开始使用HMM进行语音识别DTW技术提出
微软推出全双工语音交互技术预训练的语言模型被证明十分有效Tacotron上线,端到端语音合成成为潮流Google推出大规模的CNN-RNN-CTC架构基于Attention机制的GNMT系统上线第一个端到端句子级唇读模型LipNet提出科大讯飞提出DFCNNAttention机制引入语音合成预训练的语言模型首次提出LPC别
基于统计的语音识别框架提出出现n-gram语言模型第一个非特定人连续语音识别系统Sphinx出现PSOLA算法提出基于大语料库的单元挑选与波形拼接合成方法出现递归神经网络LSTMRNNsBengio等人提出第一个神经语言模型——前馈神经网络可训练的语音合成方法提出完全基于规则的对话机器人诞生
Attention机制首次提出LSTM和ICASSP技术被运用到语音合成中SequencetoSequence学习提出第一个计算机语音识别系统第一次机器翻译实验成功第一个语音识别系统Audry出现图灵测试提出离散马尔可夫过程被应用于描述语言的自动机第一个电子语音合成器诞生
LSTM被运用于自然语言处理领域DNN在语音合成中应用开始推广Mikolov等人在词嵌入上做了创新,使训练更有效邓力等人最早将深度学习引入语音识别KeiichiTokuda教授开发出了基于HMM的语音合成系统HTS亚历克斯·格雷夫斯使用CTC方法训练LSTMcollobertDBN深度学习阶段概率统计建模阶段深度学习阶段概率统计建模阶段术 术 图13语音交互技术发展阶段42 空间计算发展报告(2024)作为人工智能的重要入口,语音交互涵盖(ASR,AutomaticSpeechRecognition)、语义理解(NLU,NaturalLanguageUnderstanding)以及语音合成(TTS,Text-to-Speech)三大主要技术模块,一次完整的语音交互流程如图所示。0101对话输入与前端处理02语音识别ASR03语义理解NLU04对话状态维护DST对话输出07语音合成TTS06语言生成NLG05动作候选排序Policy NLP 图14语音交互流程语音识别将用户语音输入转化为文本,早期模板匹配仅适用于小词汇量。隐马尔可夫模型等统计模型提升了精度。2006年后深度神经网络推动了大词汇量识别。近年基于Transformer的端到端模型提高了灵活性和准确性。语义理解负责解析用户意图,通过NLP结合上下文分析、知识图谱等技术识别深层含义,包括情感与语境,使系统更智能地应对复杂对话、多轮交互和模糊表达。方法生成的声音略显僵硬。神经网络TTS如FastSpeech和VALL-E显著提升了合成语音的自然度和表达力。(2)存在的问题与挑战a)准确性与理解能力:用户语音识别和理解是语音交互核心,但可能受环境噪声等干扰导致偏差。连续对话中,token限制难以持续捕捉上下文,需反复重申指令,影响流畅性。43空间计算发展报告(2024) b)隐私与安全性:语音数据采集和存储引发隐私问题。语音交互可能无意中捕获情感、语调和背景噪音等信息,削弱用户信任,影响使用意愿。c)多语言与方言支持的不足:语音交互受限于语言差异。目前多数语音识别和理解系统主要服务英语等语言,对其他语言支持不足。d)公开场合下的心理负担:因为难以预测机器反应,导致许多用户不愿在公共场合进行语音交互。(3)发展趋势人工智能使语音交互技术未来前景广阔。其应用将扩展至情感识别、多模态交互等领域。情感识别使机器理解感知人类情感,多模态交互赋予机器多种感官交流能力,提升人机交互自然性和便捷性。“大模型+语音”模式将为语音技术及其产业带来革命性变革,传统单点技术借助大模型实现语义理解、指令执行、多轮对话、情绪感知、超拟人化合成等方面的显著提升。改善了用户体验,拓展了应用场景和价值,支撑了语音同传、自动客服、虚拟员工、陪伴机器人等未来智能产品的创新,孕育更多产业机遇。总之,人工智能驱动的智能语音交互技术充满潜力,并随技术进步不断迭代,在多个领域广泛应用。脑机接口技术脑机接口(BCI)在人或动物大脑与外部设备间创建直接连接,实现信息交换。按采集信号方式不同,可分为侵入式、非侵入式和半侵入式。BCI系统由大脑、脑信号采集装置、信号处理与解码模块、控制接口、外部设备及神经反馈组成。BCI绕过外周神经和肌肉建立通信与控制通道,通过采集大脑电信号,经预处理、特征提取和模式识别,解码大脑活动状态或意图,用于与外部设备通信或控制,并将信息反馈给用户,促使大脑调44 空间计算发展报告(2024)空间计算发展报告(2024) 责任划分不清晰,设备故障或不良后果时如何合理分配责任仍需明确。c)产业难题:脑机接口产业化成本高,侵入式设备需大量临床验证,市场接受度低。缺乏统一标准阻碍规模化应用,监管不完善影响投资信心。(2)发展趋势脑机接口技术目前处于从研究到产业落地阶段,未来趋势包括:跨学科融合促进信号采集解码突破,提升准确性与安全性;基础研究与应用并行,脑科学进展可能引领创新;硬件趋向柔性、小型化,集成化发展;自适应技术与系统集成增强疗效与便利性;信号采集多元化,算法进步强化系统稳定性。这些将共推BCI市场扩张。多模态交互技术多模态人机交互整合多个通道的信息,提供自然高效的互动。它包括言语、肢体动作、手写文本和图像等方式,使用户能在虚拟或现实中自然互动。模态是独立的人机输入或输出通道,用于信息交换和互动。模态分为机器对人和人对机器两种类型。机器对人的模态有视觉(屏幕显示)、听觉(音频输出)和触觉(振动反馈),以及非普遍的味觉和嗅觉;人对机器的模态包括键盘、触控等简单输入,以及计算机视觉和语音识别等复杂方式。多模态交互系统结合不同模态,提供灵活的交互方式,满足多样的交流需求。多模态人机交互与VR/AR设备结合,增强沉浸式体验。主流的VR设备如MetaQuest和Pico支持基于手势的交互,使用户能自然操控虚拟对象,并通过手势完成选择、拖拽和缩放操作,同时语音简化菜单选择。VisonPro支持眼动交互方案,通过检测眼动行为处理交互逻辑,提升用户体验。46 空间计算发展报告(2024)(1)发展现状多模态交互技术发展可概括为三个阶段:早期认知研究、图形用户界面和多维用户界面。这些技术根据性质可分为三类:多模态理论与框架、多通道交互和混合界面。曝光度Lucente结合语音识别和
Schmalstieg的Studierstube系统手体跟踪输出实验
Benko的交叉推手势交互技术Benko实现场景动态缩放lg的VARK模型
图形用户界面阶段认知研究阶段早期图形用户界面阶段认知研究阶段早期多维用户界面阶段架 互 图16多模态交互技术发展历程图47空间计算发展报告(2024) (2)存在的问题与挑战多模态交互是解决VR交互问题的有效途径,成为6G交互技术研究的重点。在现有硬件条件下,未来多模态交互技术需解决以下问题:a)任务处理:构建不同交互通道的语义模型,协调任务和技术映射关系,如视线追踪和手势识别结合,实现快速自然交互。需设计适配复杂环境的多模态处理机制,使用户无缝切换和整合多种交互方式。b)支持技术完善:提高语音识别精度及手部追踪准确度以适应VR/AR环境需求,并有效管理这些设备以提升整体交互效率。c)信息融合:将视觉、语音、手势等模态信息融合,适配虚拟场景中的动态互动需求,通过适当的融合策略和调度算法整合用户输入方式。d)多种交互技术:探索触觉反馈和全身姿态识别等高阶技术,支持丰富的虚拟互动体验,拓展多模态交互应用价值。e)交互测试评估:需要高效的测试方法验证多模态交互的可靠性和稳定性,确保实用性和用户友好度,为空间计算落地应用提供可靠技术支撑。(3)发展趋势未来VR技术将推动多模态交互的广泛应用,主要趋势包括:网络建设优化:随着6G的发展,VR/AR对网络要求提高,需实现实时、低延迟响应。多模态计算使设备能动态管理网络资源,如自动调节带宽以支持语音、图像和视频处理,促进人-机-环境融合。空间计算结合:视线追踪、手势识别和语音命令等多模态交互成为VR/AR标准,提升沉浸感和便捷性。用户可通过自然方式选择和操作虚拟对象,推动空间计算向高效交互体验发展。为构建高效交互系统并实现自然用户中心交互,需探索跨模态框架和创新设计,增强虚拟空间操作自由度和自然度,奠定多场景应用基础。48 空间计算发展报告(2024)(六)新型视频技术的进展2023年苹果发布MR头显VisionPro。VisionPro以空间视频为入口,推动新内容生态。体积视频在通信、教育、制造、娱乐、医疗、文旅等领域初露头角,有望成为下一代视频形态。空间视频苹果公司将空间视频称为立体视频“StereoVideo”,通过为左右眼提供不同视图来增强用户体验。为提升体验,苹果提供了ARKit、RealityKit工具套件,支持MV-HEVC编码标准,并更新了AirPods系列的空间音频功能。产品功能上,新款iPhone或iPad的相机支持3D捕捉和创建精确模型。苹果“空间视频”制作过程基于双目立体视觉原理,使用手机摄像头采集视差画面,生成MV-HEVC编码视频。VisionPro设备上的8K显示器和眼追踪系统分别向左右眼呈现视频,产生3D效果。用户可与空间视频实时交互。目前,除苹果设备外,其他如Quest系列也开始支持MV-HEVC编码空间视频拍摄。尽管制作已便携化,但呈现体验仍依赖高性能终端设备。便携化的呈现体验是未来关键发展方向。体积视频体积视频(VolumetricVideo)通过捕捉真实世界的人物和场景,生成连续的三维模型序列,提供6DoF高自由度、沉浸式和互动性的观看体验。制作流程包括
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度餐饮商铺装修设计租赁合同
- 2025年度美容院跨区域入股合作合同协议书
- 2025年退休返聘人员解除工作合同协议
- 2025年度老年公寓护理员劳动保护与职业发展合同
- 二零二五年度租赁房屋押金管理服务合同
- 2025年度集体林权流转合同范本(林业生态补偿)
- 二零二五年度房地产开发项目预付款合同
- 2025年度租房合同及房东房屋安全承诺书
- 2025年度能源合同能源管理项目违约金赔偿标准及节能减排效果
- 2025年建筑施工项目管理合同
- 2024年公安机关理论考试题库附答案【考试直接用】
- 课题申报参考:共同富裕进程中基本生活保障的内涵及标准研究
- 2024年安徽省高考地理试卷真题(含答案逐题解析)
- 高中学校开学典礼方案
- 2024年度中国邮政集团公司县分公司工作总结
- 产程中的人文关怀护理
- 开工第一课安全教育记录表
- 2024年黑龙江农业职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 基于数据驱动的锂离子电池剩余使用寿命预测方法研究
- 《内脏疾病康复》课件
- 家具厂各岗位责任制汇编
评论
0/150
提交评论