
2024年6月3日,NVIDIA在台湾台北举办了一场媒体圆桌会议,邀请机器人及边缘AI副总裁迪普·塔拉(Deep Tara)分享了物理AI的最新动态。
精准度是物理AI实现的关键
塔拉回顾了NVIDIA CEO黄仁勋在2024年3月GTC大会上首次提出“物理AI”概念,并在2024年COMPUTEX上继续强调这一主题。他指出,物理AI之所以重要,是因为人类生活的80%都与物理世界相关。相比数字AI,物理AI面临更高的精准度要求,因为物理世界中的智能必须非常准确,不能依赖人类频繁干预。
他举例说明,使用ChatGPT或Gemini制作幻灯片时,90%到95%的准确率是可以接受的,因为最终由人类校对;但在物理世界中,AI必须具备更高的自主性和精准度。
NVIDIA从三年前的大规模语言模型(LLM)开始,逐步发展到视觉语言模型(VLM)、视觉语言动作模型(VLAM),并进一步构建了涵盖整个环境的“世界基础模型(World Foundation Models)”。这些技术的进步使得部分物理AI应用的精准度问题得以解决。
塔拉将物理AI比作100米短跑运动员冲击奥运会的过程,强调突破“10秒”门槛意味着进入比赛阶段。自动驾驶领域在过去六个月已实现这一突破,但要达到奥运金牌级别的“9.7秒”仍极具挑战。尽管如此,自动驾驶车辆的数量已是数年前的百倍以上,显示出行业的快速发展。
他还提到,外观检测、自主搬运机器人(AMR)、操作机器人以及未来的类人机器人都需要类似的技术突破。类人机器人虽然机会巨大,但因涉及复杂操作和物理规律的处理,是最具挑战的领域。精准度依然是首要技术难题。
代理型AI推动物理AI发展
近几个月代理型AI(Agentic AI)的进步为物理AI带来了积极影响。塔拉指出,将机器整合进现有环境类似于雇佣员工,员工必须具备智能并能与团队协作。物理AI同样需要与其他机器人、不同形态和智能水平的系统、人类及数字AI协同工作,这种复杂的整合无法完全依赖人工编程完成。
代理型AI的出现使得AI能够编写代码,作为连接机器人与各种控制系统(如可编程逻辑控制器、楼宇管理系统)的“胶水”,极大提升了系统整合效率。过去三个月,这一领域取得了显著进展,模型变得更精准,代理型AI促进了工作流程的无缝整合。
塔拉强调,解决精准度问题的关键之一是拥有优质的训练数据,但物理AI的数据采集门槛极高。与ChatGPT可访问互联网海量文本不同,物理世界需要通过远程操作、模仿学习、动作捕捉等多种方式采集数据,且这些仍不足够,因此合成数据生成成为必要手段。
其中,“世界基础模型”是合成数据生成的有力技术。该模型不仅模拟机器人动作,还涵盖整个环境的物理反馈,确保机器人与环境的互动被全面捕捉。
塔拉介绍了NVIDIA的首个全能模型Cosmos 3,支持视频、音频、文本、3D、动作和意图等多模态数据,完全开放,用户可根据需求进行私有化或开源。Cosmos主要用于物理AI的数据生成、推理和仿真。
丰富库与参考模型加速行业进步
CUDA-X库是NVIDIA的另一优势。过去,开发者需手动选择和集成库与工具,耗时耗力。如今,借助代理型AI,所有CUDA库、参考模型和工具均已“代理准备”,无需人工干预即可自动整合和构建系统,大幅缩短开发周期,提高生产效率。
在Jetson平台上,NVIDIA首次为每台设备引入完整代理,只需两个命令即可利用NVIDIA技术构建所有软件。
面对全球存储紧缺,NVIDIA通过代理型AI与多个行业合作,成功将内存占用降低25%至40%,使得原本需要16GB或14GB内存的应用可在8GB内存下运行,显著提升设备出货量。
塔拉还提到,台湾作为制造业重镇,正部署多种机器人用于外观检测和标准作业流程(SOP),NVIDIA开发了“代理蓝图”,实现工厂整体运营的智能代理管理。
类人机器人与未来展望
塔拉坚信类人机器人是人类面临的最大机遇之一,未来将出现数百亿台具备通用智能的类人机器人,但目前尚无类似ChatGPT的类人机器人“大脑”,且精准度仍不足。
研究者们虽在计算资源方面取得进展,但硬件组装仍是瓶颈,许多时间花在机器人维修上。为此,NVIDIA与多家公司合作,提供完整硬件参考设计,帮助研究者专注于智能大脑的开发和测试,提升通用机器人研发速度。
何时实现科幻电影场景?
在问答环节,塔拉表示,物理AI的精准度和计算资源需求取决于机器人任务的复杂度。过去AI多为专用模型,现阶段正从通用模型派生出专业模型,类似人类从通才到专才的过程。
他指出,制造、物流、零售等行业存在劳动力短缺,物理AI的自主性将弥补这一缺口,但目前大多数应用尚未达到“10秒框架”的精准度门槛。
关于电影《我,机器人》的场景,塔拉认为通用智能大脑出现后,具备专业功能的机器人将逐步涌现。当前类人机器人多部署于工厂和仓库,因环境半结构化且安全可控,适合商业应用。
家庭机器人则会从简单功能开始,如吸尘和拾取物品,逐步解决安全和智能问题。家庭环境复杂多变,机器人必须达到极高安全标准,远超自动驾驶的要求。
他预测,未来10年内,机器人将成为人类的社交伴侣,孩子们将与机器人共同成长,机器人外观可更换但记忆永存,成为安全、可靠且个性化的伙伴,带来数十亿甚至数百亿规模的市场机遇。
关于电池寿命和能耗问题,塔拉认为智能、灵活性和经济性比总能耗更重要。类人机器人能自主更换电池或充电,自动驾驶车辆则需考虑续航距离。机器人通常在限定范围内活动,类似台湾的Gogoro电动摩托车电池可快速更换,机器人也能实现自主更换。
因此,能效比总能耗更关键,智能水平才是核心。
NVIDIA通过不断推进物理AI的精准度、代理型AI的整合能力以及硬件和软件生态的完善,正引领机器人技术迈向更广泛的应用和未来的智能社会。


