今天，我们来聊聊科技热词“具身智能大模型”-新闻中心-科技有限公司

今天，我们来聊聊科技热词“具身智能大模型”

发布时间：2025-06-06 16:00:29

阅读量：389次

【导语】随着人工智能与机器人技术的深度融合，具身智能正逐步成为推动机器人智能化升级的核心引擎。本文将从具身智能的发展背景、技术路径及核心瓶颈，到未来发展展望进行全面剖析。具身智能强调智能体通过物理身体与环境交互获得真正的智能行为和适应性，其兴起是AI与机器人技术各自发展到一定阶段的必然结果。然而，数据积累不足成为制约具身大模型发展的核心瓶颈。业内正积极探索仿真、AR等技术手段打破这一瓶颈，并预示着具身大模型将从分层式结构向端到端一体化架构演进。中国移动智慧家庭运营中心的专家团队将为您深入解读具身智能的未来发展趋势，展现其迈向通用人工智能（AGI）的广阔前景。本文由赵石轩、赵永生、王颢撰写，程宝平审核，由中国移动科学技术协会出品。

今天，我们来聊聊科技热词“具身智能大模型”

1. 具身智能的发展背景

1.1 具身智能的定义

具身智能是一种基于物理身体进行感知和行动的智能系统，其核心在于通过智能体与环境的交互获取信息、做出决策并实现行动。这种智能形式突破了传统人工智能（AI）的局限，强调有物理身体的智能体通过与物理环境的互动来获得真正的智能行为和适应性。具身智能的实质是强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。

1.2 具身智能是机器人和人工智能技术发展汇聚点

具身智能的兴起是人工智能与机器人技术各自发展到一定阶段的必然结果，也是两者深度融合的体现。AI为机器人提供“大脑”，使其具备感知、思考和决策能力；而机器人则为AI提供“身体”，使其能够与真实世界进行交互，获取经验和知识。这种“大脑+身体”的结合，使得机器人不再只是被动执行命令的工具，而是成为真正意义上的智能体，能够主动理解任务需求、规划执行路径，并在复杂环境中灵活调整策略。

1.3 具身智能大模型为机器人提供从感知、推理到执行的具身智能全流程解决方案

机器人要实现具身智能应用落地，必须完成自主感知、自主推理、自主执行的全流程解决方案。而具身智能大模型可以提供底层技术支撑。

自主感知需机器人具备对外部环境（人或物）的感知能力，通过传感设备、信息表示建模、信息转译理解、下游任务应用，使得机器人能够在复(fù)杂(zá)的(de)工(gōng)作(zuò)环(huán)境(jìng)下(xià)执(zhí)行(xíng)任(rèn)务(wu)。具(jù)身(shēn)智(zhì)能(néng)大(dà)模(mó)型(xíng)能(néng)够(gòu)处(chù)理(lǐ)来(lái)自(zì)物(wù)体(tǐ)、环(huán)境(jìng)、行(xíng)为(wèi)、表(biǎo)达(dá)等(děng)不(bù)同(tóng)维(wéi)度(dù)的(de)感(gǎn)知(zhī)数(shù)据(jù)，并(bìng)通(tōng)过(guò)内(nèi)部(bù)的(de)信(xìn)息(xi)表(biǎo)示(shì)重(zhòng)建(jiàn)来(lái)充(chōng)分(fēn)理(lǐ)解(jiě)并(bìng)指(zhǐ)导(dǎo)推(tuī)理(lǐ)和(hé)执(zhí)行(xíng)的(de)步(bù)骤(zhòu)。

自(zì)主推(tuī)理(lǐ)的(de)过(guò)程(chéng)主要(yào)包(bāo)括(kuò)任(rèn)务(wu)规(guī)划(huà)、导(dǎo)航(háng)和(hé)交(jiāo)互(hù)环(huán)节(jié)。任(rèn)务(wu)规(guī)划(huà)是(shì)具(jù)身(shēn)智(zhì)能(néng)的(de)核(hé)心(xīn)任(rèn)务(wu)之(zhī)一(yī)，将(jiāng)抽(chōu)象(xiàng)的(de)非(fēi)可(kě)执(zhí)行(xíng)人(rén)类(lèi)指(zhǐ)令(lìng)转(zhuǎn)换(huàn)为(wèi)具(jù)体(tǐ)的(de)可(kě)执(zhí)行(xíng)技(jì)能(néng)。这(zhè)一(yī)步(bù)骤(zhòu)的(de)完(wán)成(chéng)需(xū)要(yào)将(jiāng)人(rén)类(lèi)指(zhǐ)令(lìng)分(fēn)解(jiě)为(wèi)机(jī)器(qì)人(rén)可(kě)执(zhí)行(xíng)的(de)技(jì)能(néng)并(bìng)执(zhí)行(xíng)技(jì)能(néng)。具(jù)身(shēn)大(dà)模(mó)型(xíng)可(kě)作(zuò)为(wèi)任(rèn)务(wu)规(guī)划(huà)的(de)转(zhuǎn)换(huàn)器(qì)和(hé)分(fēn)解(jiě)器(qì)，用(yòng)LLM将(jiāng)状(zhuàng)态(tài)信(xìn)息(xi)描(miáo)述(shù)成(chéng)PDDL语(yǔ)言(yán)再进行规划，取代以往需要人工针对实际问题书写PDDL语言对任务进行建模，并以zero-shot进行任务规划。

导航是具身智能体在3D环境中自主移动完成导航目标的能力。早期的导航通过构建一系列基于规则的组件和算法，实现有效的环境感知、定位、路径规划和避障。而基于具身智能大模型的导航则是利用深度学习与强化学习技术，提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征，具身智能大模型导航算法从大量数据中学习环境特征和导航策略，实现强自适应性和高灵活性。

交互是指具身智能体主动探索环境、定位目标物体或位置获取环境中的信息，然后基于获取的信息回答问题。该任务可视为导航、传统问答任务的结合。相比于传统已有问答任务，具身智能大模型赋能后的机器人具有主动行动能力，因此可以实现更为复杂的场景交流问答信息。

自主执行是指实现任务的具体动作，其中最重要的环节就是技能学习，其以技能描述、环境观察为输入，输出完成技能所需的7Dof轨迹（主要指人手腕或者机械臂末端执行器的位置、朝向、末端状态）。具身智能大模型可通过将专家演示数据用神经网络拟合后产生相关的执行序列，或是通过设计奖励函(hán)数(shù)，由(yóu)机(jī)器(qì)人(rén)通(tōng)过(guò)交(jiāo)互(hù)学(xué)习(xí)行(xíng)为(wèi)策(cè)略(è)，最(zuì)后(hòu)掌(zhǎng)握(wò)实(shí)际(jì)执(zhí)行(xíng)任(rèn)务(wu)操(cāo)作(zuò)。

2. 具(jù)身(shēn)大(dà)模(mó)型(xíng)两(liǎng)种(zhǒng)技(jì)术(shù)路径分(fēn)析(xī)及(jí)核(hé)心(xīn)瓶(píng)颈(jǐng)

2.1 具(jù)身(shēn)大(dà)模(mó)型(xíng)的(de)两(liǎng)种(zhǒng)流(liú)派(pài)

目(mù)前(qián)，具(jù)身(shēn)大(dà)模(mó)型(xíng)可(kě)以(yǐ)分(fēn)为(wèi)两(liǎng)大(dà)流(liú)派(pài)，分(fēn)层(céng)具(jù)身(shēn)模(mó)型(xíng)和(hé)端(duān)到(dào)端(duān)大(dà)模(mó)型(xíng)。

分(fēn)层(céng)具(jù)身(shēn)模(mó)型(xíng)采用(yòng)“大(dà)脑(nǎo)-小(xiǎo)脑(nǎo)-肢(zhī)体(tǐ)”的(de)架(jià)构(gòu)，上(shàng)层(céng)大(dà)模(mó)型(xíng)负(fù)责(zé)感(gǎn)知(zhī)与(yǔ)决(jué)策(cè)，底(dǐ)层(céng)硬(yìng)件(jiàn)层(céng)和(hé)中(zhōng)间(jiān)响(xiǎng)应(yīng)快(kuài)的(de)小(xiǎo)模(mó)型(xíng)负(fù)责(zé)分(fēn)解(jiě)与(yǔ)执(zhí)行(xíng)。这(zhè)类(lèi)模(mó)型(xíng)更(gèng)适(shì)合(hé)当(dāng)前(qián)的(de)数(shù)据(jù)积(jī)累(lèi)水(shuǐ)平(píng)，且(qiě)更(gèng)容(róng)易(yì)融(róng)入(rù)基(jī)于(yú)学(xué)习(xí)的(de)控(kòng)制(zhì)方(fāng)法(fǎ)，因(yīn)此(cǐ)被(bèi)更(gèng)多(duō)厂(chǎng)商(shāng)采用(yòng)。

端(duān)到(dào)端(duān)大(dà)模(mó)型(xíng)能(néng)够(gòu)直(zhí)接(jiē)实(shí)现(xiàn)从(cóng)人(rén)类(lèi)指(zhǐ)令(lìng)到(dào)机(jī)械(xiè)臂(bì)执(zhí)行(xíng)的(de)过(guò)程(chéng)。输(shū)入(rù)图(tú)像(xiàng)及(jí)文本(běn)指(zhǐ)令(lìng)后(hòu)，模(mó)型(xíng)输(shū)出(chū)夹(jiā)爪(zhǎo)末(mò)端(duān)的(de)动(dòng)作(zuò)轨(guǐ)迹(jī)。这(zhè)种(zhǒng)方(fāng)式(shì)简(jiǎn)化(huà)了(le)系(xì)统(tǒng)的(de)层(céng)次(cì)结(jié)构(gòu)，提(tí)高(gāo)了(le)响(xiǎng)应(yīng)速(sù)度(dù)，但(dàn)由(yóu)于(yú)缺(quē)乏(fá)中(zhōng)间(jiān)逻(luó)辑(ji)推(tuī)理(lǐ)层(céng)，对(duì)海(hǎi)量(liàng)数(shù)据(jù)的(de)依(yī)赖(lài)度(dù)极(jí)高(gāo)，目(mù)前(qián)尚(shàng)未(wèi)成(chéng)为(wèi)主流(liú)选(xuǎn)择(zé)。

2.2 分(fēn)层(céng)具(jù)身(shēn)模(mó)型(xíng)

分(fēn)层(céng)具(jù)身(shēn)模(mó)型(xíng)通(tōng)过(guò)将(jiāng)感(gǎn)知(zhī)、规(guī)划(huà)决(jué)策(cè)、控(kòng)制(zhì)和(hé)执(zhí)行(xíng)各(gè)模(mó)块(kuài)分(fēn)解(jiě)为(wèi)多(duō)个(gè)层(céng)级(jí)，分(fēn)别(bié)突(tū)破(pò)“大(dà)脑(nǎo)”和(hé)“小(xiǎo)脑(nǎo)”，利(lì)用(yòng)不(bù)同(tóng)的(de)神(shén)经(jīng)网(wǎng)络(luò)进(jìn)行(xíng)训(xun)练(liàn)，最(zuì)终(zhōng)再(zài)整(zhěng)合(hé)起(qǐ)来(lái)。例(lì)如(rú)人(rén)形(xíng)机(jī)器(qì)人(rén)企(qǐ)业Figure便是采用三层级方案，顶层集成了OpenAI的大模型，负责视觉推理和语言理解，中间层是神经网络策略（NNP），负责快速、灵巧的操作，将视觉信息直接转换为动作指令，并输出这些指令；底层是全身控制器，负责提供稳定的基础控制，在接收神经网络策略的动作指令后，输出各关节的扭矩指令。又例如银河通用的三层级大模型方案。底层是硬件层，中间层是通过仿真合成数据不用任何真实世界数据训练的泛化的技能，最上层是大模型，可以调度中间技能API，来实现完整的从任务的感知、规划到执行的全流程。

在分层模型方案中，将机器人的感知、推理和执行环节被类人化地划分为负责解决高层次认知或决策问题的“大脑”，以及负责基础层面的功能性问题的“小脑”。两大系统各司其职又互相合作，“大脑”负责解析任务需求，整合来自传感器的信息，进行任务的细化和策略规划；“小脑”则专注于精细的运动控制，确保在“大脑”制定的策略指导下，机器人能够准确无误地执行动作并进行必要的调整。目前较为普遍的方向是，机器人的“大脑”由大模型来担任，“小脑”则依然为底层控制算法。

大脑负责感知和规划决策系统，主要基于多模态大模型，通过学习、理解、融合和对齐各传感器采集而来的跨模态信息，实现对复杂环境的鲁棒建模与更精准、通用的感知，并(bìng)根(gēn)据(jù)环(huán)境(jìng)情(qíng)况(kuàng)，自(zì)主拆(chāi)解(jiě)任(rèn)务(wu)、规(guī)划(huà)动(dòng)作(zuò)。

小(xiǎo)脑(nǎo)负(fù)责(zé)运(yùn)动(dòng)规(guī)划(huà)与(yǔ)控(kòng)制(zhì)系(xì)统(tǒng)，是(shì)人(rén)形(xíng)机(jī)器(qì)人(rén)实(shí)现(xiàn)自(zì)然(rán)和(hé)流(liú)畅(chàng)动(dòng)作(zuò)的(de)关键。目(mù)前(qián)，“小(xiǎo)脑(nǎo)”运(yùn)动(dòng)控(kòng)制(zhì)包(bāo)括(kuò)基(jī)于(yú)模(mó)型(xíng)的(de)控(kòng)制(zhì)方(fāng)法(fǎ)和(hé)基(jī)于(yú)学(xué)习(xí)的(de)控(kòng)制(zhì)方(fāng)式(shì)两(liǎng)个(gè)大(dà)类(lèi)。传(chuán)统(tǒng)的(de)基(jī)于(yú)模(mó)型(xíng)的(de)控(kòng)制(zhì)方法通过建立机器人的运动学和动力学模型，进行运动轨迹规划和平衡控制。这一类方法的特点是身体控制稳健，但步频较慢，且整体开发较为复杂，成本高，不利于产品快速迭代。基于模型的控制方法具体包括ZMP判据及预观控制、混杂零动态规划方法、虚拟模型解耦控制、模型预测控制+全身控制（MPC+WBC）等。基于学习的控制方法是使用端到端的人工智能技术，代替复杂的运动学模型，一般通过人类示教或自主学习建立运动执行策略，其中通过人类示教的方式也称为模仿学习，效果依赖高质量示范数据；或是通过自主学习的方式，指通过精心设计学习目标，机器人不断在环境中探索逐渐发现最大化奖励的方式学习到最优的执行策略，效果依赖于仿真环境。

2.3 端到端大模型

端到端大模型目前主要聚焦于机器人的具身作业，实现直接从人类指令输出机械臂执行动作的闭环流程，即输入是图像及文本指令，输出是夹爪末端动作。以谷歌的RT-1到RT-2的进化迭代为例，2022年谷歌机器人研究团队便基于模仿学习中行为克隆学习范式，把Transformer应用机器人的操纵任务上，提出了RT-1模型，其输入为图片序列、自然语言指令，可直接输出由机械臂运动的目标位姿、基座的运动、模式转换指令，该端到端模型显示出了在具身作业领域泛化能力。紧接着于隔年，谷歌发布了RT-2模型，基于VLM模型基础，通过在互联网上数据训练，学习到更多关于视觉和语言之间映射关系的知识后，在机器人操纵任务上微调，使得机器人在执行具身作业任务时获得更强涌现能力。

端到端模型相比于分层具身模型，其可以简化传统上需要多个独立模块才能完成的任务流程，提高系统的效率的同时还能增强其泛化能力和通用性。首先在泛化能力方面，端到端模型具有强大的泛化能力。以谷歌DeepMind推出的RT-2为例，该模型可以在新的物体、背景和环境中表现出显著改善的性能。它可以理解并响应那些在训练数据集中未曾出现过的命令，并基于底层语言模型提供的思路链进行推理，从而做出合理的决策。其次在通用性方面，端到端模型具备高度的通用性。由于它是建立在一个通用的大规模预训练基础上，因此理论上几乎所有的“智能机器设备”都可以使用这套算法。无论是汽车、飞行器还是其他类型的机器人，只需要经过(guò)适(shì)当(dāng)的(de)微(wēi)调就能满足特定应用场景的需求。

2.4 数据是具身大模型训练的核心瓶颈

对于具身大模型发展而言，训练数据积累不足是核心瓶颈。因对人类而言一些简单的任务诸如灵巧性能力、空间感知能力、平衡恢复能力等，对机器人而言却是困难重重。为让机器人能够掌握这些能力，需要用海量数据进行训练才能达成，但机器人模态的数据积累远远落后于其他模态，严重制约了机器人的学习能力和性能提升。对比不同模态下的最大数据集，文本模态约15Ttokens，图片模态有6B图文配对数据，视频模态有2.6B视听特征数据。然而机器人模态只有240万个数(shù)据片段，相比其他模态而言，数据积累远远不够。

针对数据积累不足问题，行业往往通过远程操作、视频学习等方式以快速积累机器人训练数据。远程操作主要由实验人员操作机械手柄，远程控制机器人做出相同动作，以此来积累数据。通过多个操作员协作收集了大规模多样化的数据集，再(zài)基于这些数据集训练机器人的灵巧作业能力。在单臂机器人任务中，通过远程操作来进行数据采集，通常需要多个操作员、机器人以及数月的人力投入，耗时耗力。而在类人机器人的任务复杂性更高场景中，因此需同时控制多臂和多指手，数据采集工作负担更是大幅增加。视频学习是通过多模态大模型，直接让机器人通过视频学习人类动作，从而积累训练数据。考虑到通过人类远程操控等方式的示教成本较高，从人类视频中学(xué)习(xí)已(yǐ)成(chéng)为机器人的主流训练方法之一，如直接通过YouTube视频进行策略学习。但视频学习同样遇到一些局限。例如在控制上，视频示教没有提供机器人本体的运动数据，智能体需要仅根据演示视频生成动作指令，增加了学习难度。

在感知上，机器人与人类的视角不同，人类演示视频中的每一帧是人手臂的运动图像，而机器人捕获的图像是机械臂的运动图像，二者之间存在较大差异，导致机器人难以准确理解人类动作。在误差精度上，由于视角差异和图像内容的不同，演示视频与机器人感知的图像之间存在较大误差，影响学习效(xiào)果(guǒ)。

3. 具(jù)身(shēn)大(dà)模(mó)型(xíng)未(wèi)来(lái)发(fā)展(zhǎn)展(zhǎn)望(wàng)

3.1 通(tōng)过(guò)仿(fǎng)真(zhēn)、AR等(děng)技(jì)术(shù)手(shǒu)段(duàn)打(dǎ)破(pò)数(shù)据(jù)积(jī)累瓶颈

为打破机器人训练数据荒的现状，业内目前正尝试采用仿真模拟、AR等技术手段收集与机器人运动学相匹配的可执行训练数据，并能大幅提升任务执行成功率。2024年11月，来自英伟达、UT Austin和UCSD的研究人员推出了一种大规模自动化数据仿真生成系统——DexMimicGen，它可基于少量人类演示合成类人机器人的灵巧手运动轨迹，帮助实现在更少人工干预下扩大类人数据的采集，相较仅依赖源演示，DexMimicGen大幅提升了策略成功率，所有任务中基于DexMimicGen数据集训练的机器人表现明显优于仅基于少量源数据训练的机器人。2024年10月，斯坦福李飞飞团队提出了一种基于AR技术的数据收集系统——ARCap，它通过增强现实（AR）和触觉警告提供视觉反馈，以指导用户收集高质量的演示，通过利用从ARCap收集的数据，经验证机器人可以提升任务执行效率和复杂度，例如在杂乱的环境中进行操作和长视野跨具身操作。

3.2 从分层式结构向端到端一体化架构的演进

具身大模型作为人工智能与机器人技术深度融合的产物，正在引领机器人迈向通用智能的新阶段。未来，随着数据积累的不断丰富、算法能力的持续提升以及硬件算力的快速进步，具身大模型将经历从分层式结构向端到端一体化架构的演进，最终实现“大脑-小脑-肢体”高度协同的自主行为能力。

当前主流的分层具身大模型将继续发挥其在任务分解、多模态感知和决策规划方面的优(yōu)势，尤其是在工业制造、危险作业等结构化场景中，具备更强的可解释性和可控性。然而，随着远程操作和仿真训练等数据获取方式的成熟，机器人训练数据量将持续增长，为端到端大模型的发展提供坚实基础。未来端到端具身大模型将成为核心发展方向，它不仅提升了系统的响应速度和泛化能力，也为机器人进入更开放的服务场景（如家庭服务、医疗护理、教育陪伴等）提供了可能。

总的来看，具身大模型不仅是机器人智能化升级的核心引擎，更是推动AI迈向AGI（通用人工智能）的重要一环。未来十年，将是具身智能爆发的关键窗口期，值得持续关注与深入布局。

作者：

赵石轩中国移动智慧家庭运营中心企业发展部战略管理经理

赵永生中国移动智慧家庭运营中心具身智能产业创新中心技术管理经理

王颢中国移动智慧家庭运营中心企业发展部战略管理经理

审核：

程宝平中国移动首席专家、中国移动智慧家庭运营中心具身智能产业创新中心总经理

出品：×中国移动科学技术协会

前一篇：花几千万训练的大模型免费开源？图啥？返回列表下一篇：突破人类视觉极限！人类实现“近红外”视觉？