登录
注册
据 Woofun AI 消息,乔治亚理工学院机器人专家 Animesh Garg 在《物理人工智能领域的'数据驱动策略'》一文中提出警示,行业普遍信奉的通过增加远程操控次数、扩大应用范围及延长运行时间来构建数据循环系统的逻辑存在根本性缺陷。Garg 将体化智能领域的数据竞争比作棒球运动中的“数据驱动策略”时刻,质疑累计运行时间是否真能反映模型发展的实质性进展。对于投资者而言,这不仅是学术争论,更关乎体化智能企业的成本结构、商业化速度及核心竞争优势的重新定义,若数据资产无法转化为模型能力的提升,市场估值逻辑将面临重构。Garg 借用了 2002 年奥克兰运动家队的经典案例,该队以极低薪资赢得 103 场胜利,关键在于发现了球员估值中的市场低效,即传统球探看重的打击率、盗垒数不如上垒率关键。同理,物理人工智能领域可能正处于类似阶段,业界虽认同数据是开发通用机器人模型的必备要素,却往往只关注累计远程操控时长、训练案例数量、部署机器人数量及实际运行时间等易于量化的指标,而忽视了数据本身的内在质量与分布特征。机器人数据与文本数据的性质截然不同,大型语言模型可从互联网、代码仓库及书籍中获取海量低成本文本数据,其瓶颈主要在于计算能力、数据清洗以及训练效率方面;而机器人模型则需要包含物理交互、动作反馈及环境变化信息,每一小时有效数据的获取都需耗费实际资源,与设备成本、人力投入、场地条件、传感器性能、故障处理机制及安全措施紧密相关。机器人专家 Ken Goldberg 曾用“10万年的数据差距”这一术语来形容机器人数据与互联网规模的人工智能数据之间的差异,即当前训练大规模视觉语言模型的文本图像数据若换算为人类阅读观看时间,相当于 10 万年量级,而机器人领域缺乏同等规模的真实世界交互数据。
这种说法并不是为了为机器人模型设定具体的评判标准,而是想提醒业界:真实世界交互数据的获取成本远高于网络文本数据。这也正是 Garg 反对将'机器人远程操控视为低成本高效生产方式'的原因,虽然大量手动远程操控能生成丰富训练数据,但若仅根据数据总量评估价值,资金将流向重复性高、难度低且信息密度低的样本,而非能有效降低故障率的场景。在 Garg 的分类体系中,物理人工智能数据大致可以分为三类:观测数据、干预数据和部署数据,它们在成本、使用限制及信息密度方面存在显著差异。第一类观测数据如第一人称或第三人称视角视频,优势在于成本低且覆盖广,有助于模型理解物体、空间、动作结果及环境因素,但缺点在于模型虽能观察人类或物体行为,却未必能确定机器人在特定情况下应采取的行动。第二类是干预数据,这类数据包括远程操控过程中产生的轨迹数据、教学过程中收集的数据以及人在其中参与指导所产生的数据,对机器人训练具有直接价值,因包含'观察到了什么、如何移动及移动后发生什么'的连续信息,但获取高质量干预数据成本极高,且劳动力与设备成本下降速度可能远低于软件数据成本。第三类是部署数据,这类数据是指机器人在实际商业环境中运行时产生的遥测数据。从某种角度来看,这类数据与企业的业务发展模式非常相似,即机器人边工作边产生收益并生成训练数据,但实际操作中存在统计陷阱。目前机器人首次应用通常发生在环境变化小、流程清晰且风险可控的场景,如结构整齐仓库、工厂或单一任务场合,虽然生产数据数量可观,但分布狭窄且重复性高,一旦模型掌握局部规律,每多运行一小时产生的数据价值将显著下降。部署数据并非毫无价值,真正有价值的是失败案例、运行异常、特殊边界条件及罕见干扰因素,但这些特殊数据不会以企业期望的稳定频率出现,且筛选分析故障原因成本较高。Garg 对借鉴语言模型扩展规律持谨慎态度,增加数据量虽有助于降低训练误差,但收益会逐渐递减,若训练样本高度重复或来自狭窄分布,新数据帮助将迅速减弱。在机器人技术背景下,这一问题更为明显,例如学习从固定货架取放包裹的机器人,最初几千次训练、失败及调整产生的数据价值极高,但一旦动作、对象、光照及路径信息被充分记录,后续新增数据很可能只是重复已知知识。语言模型训练领域也出现过类似情况,重复性强且几乎完全相同的训练数据会浪费资源并影响模型一般化能力,Garg 虽未直接将结论应用于机器人训练,但借此说明了一个重要的观点:评估数据价值的依据不应该仅仅是数据量,还应该考虑不同样本之间的差异程度。对于物理人工智能,'多样性'至少具有两层含义:一是让模型接触更多物体、空间环境、材料类型、光照条件、遮挡现象及不同操控方法;二是防止模型在简单任务环境表现良好却在稍有差异场景出问题。因此,极端情况或异常现象的训练数据尤为重要,现实世界情况从来不是均匀分布,低频出现的异常现象往往决定技术方案商业可行性,如物体位置偏差、包装变形、表面反光、夹持器打滑、人为干预、传感器检测失败及地面摩擦力变化等,无论模型在常规样本表现多好,若无法应对这些异常,实际应用仍会遇阻。这篇文章挑战了体化智能企业普遍采用的商业化路径:先在有限场景部署机器人,通过人工远程操控确保运行并收集生产数据,再利用数据训练更强模型并扩展应用范围。Garg 将这种路径称为'新型整合型'发展模式,试图绕过单纯数据收集环节,让机器人尽快进入商业应用,用运营营收抵消数据收集成本,相比建立专门远程操控基地,此路径看似更高效。但要建立真正有效的数据循环系统,前提是早期商业应用产生的数据必须具有足够新鲜度和多样性,以助模型适应更多场景。若场景变异性低、熵值低且专为特定任务设计,数据很快饱和,企业最终得到的可能不是具备通用功能的强大模型,而是一系列需持续集成、维护和处理异常的定制化项目,导致两类成本增加:一是每个新场景需投入资金调整环境、优化流程、制定故障方案及加强安全;二是若部署未实现盈亏平衡,扩大规模不意味低成本获取更多数据,反而可能需用大量重复数据弥补成本损失。因此,早期部署机器人并非无意义,而是需仔细分析实际效果:新场景能为模型带来多少新功能覆盖?生成多少失败案例和异常数据样本?这些样本是否可应用于其他场景?扣除硬件、人力、维护及集成成本后,每花费一美元获得的模型改进效果是多少?Garg 建议并非停止数据收集,而是改变评估数据价值的重点,累计运行时间、远程操控时长及训练案例数量可作为衡量指标,但不应直接代表模型发展进度。更值得思考的问题包括:某项具体任务的数据饱和点何时出现?添加新功能需投入多少系统集成成本?数据在多大程度上覆盖不同应用场景和动作类型?生产数据中有多少由环境变化或异常样本导致?部署过程中有多少常规'成功案例'应被过滤而非用于训练。根据这三类数据的不同特点,资本分配方式也应有所区别:观测数据应优先考虑低成本、高多样性和广泛应用范围,以扩大模型基础功能;成本较高的远程操控和教学数据,当针对具体任务收集达到饱和后,应将预算转向开发更多新应用功能而非重复训练;部署数据则应重点关注失败案例、特殊边界条件及偏离正常分布的样本,同时剔除大量信息密度低的常规操作数据。这套观点对评估物理人工智能价值有重要实践意义,拥有更多机器人、更长运行时间或更庞大远程操控团队,不一定意味着企业具备更强竞争优势,真正难以复制的竞争力可能在于能否持续获取高价值的数据、能否及时判断哪些数据已经达到了饱和状态,以及能否以更低成本覆盖更多应用场景。
然而,这仍只是关于资本分配的角度,并非行业共识,机器人模型是否像语言模型那样呈现规模效应?部署数据是否能在某些高维应用场景持续产生新有用信息?不同应用场景间数据迁移效率如何?这些问题需更多实证研究解答。Garg 的提醒指向一个更具体问题:衡量物理人工智能发展成效的'关键指标'可能不是数据收集总量,而是每花费一美元所能获得的具有新颖性的数据样本数量。对于那些仍依赖'数据循环系统'讲述发展故事的机器人企业,市场最