自动驾驶之后,轮到具身智能了。
作者 | 辰纹
来源 | 洞见新研社
“人工智能下一个浪潮是具身智能,即能理解、推理并与物理世界互动的智能系统”, 英伟达CEO黄仁勋去年在ITF World 2023半导体大会上的预测正在成为现实。
5月份,日本横滨召开的国际顶级机器人学术会议(ICRA2024)上,人形机器人扎堆亮相。
7月份,上海世界人工智能大会(WAIC 2024)展出人形机器人“十八金刚”是整个大会“最靓的仔”。
8月份,在北京闭幕的世界机器人大会中,人形机器人成为当之无愧的“C位”主角,官方表示,这是人形机器人数量最多的一届大会,并且,现场有超过一半的观众都集中在人形机器人公司的展台。
很显然,和大模型一样,作为具身智能最重要的实体形态,人形机器人正在走向人工智能的舞台中央。
以上展出的各类机器人“能文能武”,会写字,会洗衣,做家务更是十项全能;能打咏春,能做拳击陪练,也能成为贴身保镖。
从场面上看,很热闹,但深入内里,这么火的具身智能,亦或是人形机器人,距离“凭本事吃饭”还有多远呢?
在进行我们的讨论之前,首先要明确,什么是具身智能?
根据具身智能的英文翻译(Embodied artificial intelligence,EAI)可以发现,“本体”和“智能体”是两个非常重要的构成,具有“感知决策、物理实体、环境交互”的特征。
直白一点的理解就是,具身智能可以感知并理解周围环境,在物理环境中执行具体任务。
事实上,早在60多年前,自动化技术的先驱者欧姆龙公司就提出了“机器能做的事情让机器去做,人类应该从事富有创造性的活动”的观点,但终因技术尚未成熟,空有美好想法却难以落地。
从2022年开始,具身智能迎来了新一轮的发展期,背后的核心变量是大模型的发展。
8月2日,初创公司Figure AI发布人形机器人Figure02,在与OpenAI合作开发的AI模型的支持下,Figure02的对话交互更具实时性、常识推理能力也更加到位。
很显然,大模型技术为人形机器人实现更优的感知、决策、交互能力提供了技术基础,同样也为机器人实现大脑感知决策,小脑运动控制的泛化性带来了非常大的想象空间。
另外一面,人形机器人的硬件技术方面也有了长足的进步,2023年末特斯拉发布的Optimus Gen2搭载自研执行器,足部采用铰链式连接并配备力传感器,使得Gen2的行走速度较Gen1提升30%并具备更好的平衡性。
更加重要的是,特斯拉发布Optimus后,带动公司股价连续11个交易日收高,马斯克的身价也在这段期间膨胀了约670亿美元,进一步验证了市场对人形机器人商业化的前景,从而将科技圈的关注焦点又重新拉回到具身智能。
这里主要体现在三个方面。
一是全国各国政府在政策层面的引导。
其中,中国政策的短期目标在于实现核心零部件的技术突破,长期目标在于丰富产业应用和生态;海外的政策更多集中在前沿技术的攻关以及重要场景的落地等方面。
中国人形机器人重要政策梳理 资料来源:各政府网站,中金公司研究部
二是下场的玩家多元,且竞争愈发激烈。
除了像优必选、波士顿动力、傅里叶智能这类以做本体、硬件见长的老牌机器人公司和一批近期涌现专注机器人产业的初创公司,比如智元机器人、银河通用机器人、星动纪元、逐际动力等之外,还有两派玩家。
其一是以科大讯飞、百度、腾讯、谷歌等为代表的科技大厂携带着感知认知的算法优势而来;其二则是以小鹏汽车、小米、追觅、特斯拉这类为代表的跨界厂商,这类玩家往往拥有比较确定的应用场景,以及可以共享的产业链。
三是资本对具身智能赛道的热情,毕竟真金白银投出去是为了有更多的回报。
据不完全统计,2023年国内有9家人形机器人企业获得累计超19亿元融资,今年上半年,国内有13家人形机器人企业融资总金额超25亿元,成立仅一年的银河通用机器人,在 6 月甚至获得超7亿人民币天使轮融资,估值达到数十亿人民币,被称为“年度最大天使轮”。
而以“先进制造-机器人”为标签,截至今年8月初,则发生了135笔融资。
虽然行业很热闹,但是在研发和应用层面,人形机器人还是有诸多问题待解。
首当其冲的就是技术路线的收敛。
北航机器人研究所名誉所长,中关村智友研究院院长王田苗在“2024世界机器人大会”期间发表观点时就表示,“当前人形机器人还面临两大难点,一是机器人目前的‘软’件端,适合机器人的通用大模型和垂直专业模型,还在攻坚阶段;此外,灵巧手目前在技术和成本上都有需要攻克的难点。”
所谓的“软件“,指的是将复杂任务拆分为无数个子任务,各种子任务在现实的物理空间中相融合,其中就需要大模型技术的赋能,从而实现人机交互。
通俗的说,就是要让机器人拥有泛化能力,比如,家庭服务机器人,不用主人发号指令,就能主动安排自己的工作,将房屋清扫、做饭炒菜、物品收纳等家务能够按照轻重缓急的顺序逐一完成。
行业普遍认为,人形机器人在硬件上不存在壁垒,虽然目前不同厂商之间机器人在移动速度、负载能力等机械性能上存在不小的差距,但是这些差距并非不可逾越,时间和成本最终会抹平一切。
最终决定人形机器人能力高低的还是以软件为基础的泛化能力,只有拥有强大的泛化能力,人形机器人才能适应各种任务场景,才具备真正的“可用性“。
由机器人的泛化能力进行延伸,机器人的本体形态,末端执行器的选择,也就是人形机器人的脚和手的技术方向,行业的技术路线尚未有比较统一的共识。
关于机器人的移动能力,行业的主要分歧为双足和非双足的区分。
如果执着于具身智能所强调的“人形“,双足是不二之选,可是在当前的技术条件下,双足机器人的实用性、稳定性和开发成本等方面都要弱于轮式底盘为主的非双足方案。
两种方案都有各自的簇拥,前者认为,就像L4级自动驾驶一样,双足就是人形机器人的最终形态,从长远来看,双足的算法研究意义重大;后者认为,从商业化落地的视角来看,非双足方案的适用性更强,也符合“沿途下蛋“的思维。
相于脚的选择,手指方案的选择就更多了。
有的企业选择“一步到位“,对照着人类在机器人身上也安上了五根手指,如戴盟机器人的 Sparky 1 配备基于光学触觉传感器的五指灵巧手。
有的企业则先从二指夹爪、三指手出发,如星尘智能S1的双机械臂搭配二指夹爪,银河通用G1采用右夹爪和左吸盘组合,以及 UniX AI 家庭场景机器人 Wanda 的三指手。
技术路线之所以会出现百花齐放的现象,很大一个原因就是在没有形成统一标准之前,厂商们都想自己来定义这项技术。
事实上,相比手和脚的选择,更让人形机器人厂商们头疼的是数据的收集问题。
提升机器人的“软件”泛化能力,是需要训练数据的。
自动驾驶采集数据,只需在测试车辆上安装传感器就好了,机器人的训练数据,更多要采集人类的行为数据,这也是说,需要在从事具体工作的人类身上或者工作场景中安装传感器,当需要人类参与到数据收集时,这个事情就变得复杂了。
智元机器人公布了公司的数据采集计划,预计9月底建成一个有100台左右机器人的采样厂,对应150个工人,其目标是一个工人生产1000条数据/天,将数据采集的效率如何放在一旁先不谈,这种数据采集的模式是否可行,还有待后续观察。
一个值得关注的细节,目前很多人形机器人企业已经进入到小批量量产阶段,部分产品的价格也被厂商们打到了10万以内。
例如,宇树科技G1人形机器人自5月发布以来,9.9万元定价引发热议。在2024世界机器人大会上,宇树科技宣布G1迎来量产版,设计更适应大规模生产。
智元机器人合伙人兼营销服副总裁姜青松在接受媒体采访时表示,智元双足人形机器人今年10月份开始量产,后期预计一个月生产100台,今年预计出货量200台左右,轮式机器人预计出货100台左右。
此外,EX机器人CEO李博阳向媒体透露,公司已实现量产盈利,今年内会有500台左右的生产数量,明年的出货量将进一步增加。
特斯拉方面也透露,明年将小批量生产人形机器人,计划在工厂部署超千台以辅助工作。
好消息很多,可是人形机器人距离真正的商业落地还是很远。
王田苗表示,现阶段无论15万还是10万或更便宜,主要还是面向科研平台展示,类似于自动驾驶行业中的线控底盘,目前的人形机器人产品更多是行业内的内部消化,同行们买来进行相关研发来用。
有行业人士分析表示,对应着自动驾驶的商业机会,具身智能,也就是人形机器人的发展过程中也有着三类机遇。
首先是像L4级自动驾驶一样,机器人本地的开发,瞄准人形机器人的终局提前占位,只要能够熬到具身智能时代的真正到来,自然能够爽吃一把。
其次是像自动驾驶在矿山、封闭园区、环卫清扫这样的特定场景中的应用,人形机器人的场景开发也有不少机会,只是现在阶段行业的探索尚未有明确的结果。
最后是上下游的产业机会,有时候卖铲子远比挖矿更赚钱。这里的上游包括智算中心的建设、算力芯片和端侧模型等方面的关键技术;下游则涉及到各种传感器、关节模组等,类似于自动驾驶中的各种雷达、智能座舱等。
对照着以上,人形机器人产业的发展路径其实已经非常清晰了。
虽然目前行业对于人形机器人在智能机器人领域的占比有不同观点,乐观派认为人形机器人的市场份额最高将超过60%。
另一部分产业观察者则认为,人形机器人只解决了一部分需求,而其他类型的机器人,如臂式、轮式、履带式等机器人的适用场景更加丰富,因而人形机器人只会占据30%左右的市场份额。
真正的市场竞争与坐在办公室里的“兵棋推演”还是会有不同,人形机器人的具体形态取决于应用场景和客户需求,取决于客户愿意为哪种服务成本和产品功能买单,最终还是要看技术的创新能力和发展程度。
来自国际机器人协会预测显示,2021年至2030年,全球人形机器人市场规模年复合增长率将高达71%。中国电子学会数据则称,到2030年,我国人形机器人市场规模有望达到约8700亿元。