登录
注册
据 Woofun AI 消息,在具身智能浪潮席卷全球的背景下,一种名为"机器人数据采集员"的新兴职业正在悄然兴起,其核心工作是在真实物理场景中,通过穿戴特制设备重复折叠毛巾、整理桌面等基础动作,将人类的身体经验转化为训练数据。
这一群体中包含了被裁员的程序员、背负房贷的前房产中介以及急需兼职的大学生,他们每日工作8小时,日薪仅为200元,晚班稍高至250元,却构成了支撑估值超百亿元机器人公司发展的底层基石。
这种看似低端的体力劳动,实则是解决机器人"水土不服"、填补全球高质量物理交互数据巨大缺口的关键一环,揭示了人工智能从虚拟走向现实过程中残酷而真实的产业链条。在机器人真正学会服务人类之前,人类正弯下腰,以自身的身体经验作为燃料,喂养着这些尚未成熟的智能体。
这一现象不仅折射出当前具身智能行业对真实数据的极度渴求,更暴露了技术爆发初期,资本、技术与劳动力之间复杂的价值分配关系。随着行业对数据质量要求的提升,这一临时性的职业窗口或许正在迅速收窄,但其背后所指向的产业逻辑与未来图景,却值得深入剖析。在一家位于城市角落的民宿内,数十名采集员正戴着沉重的头盔和手套,在狭小的空间里进行着机械而缓慢的动作,他们的每一次抬手、每一次转身,都被传感器精准记录,最终汇入庞大的训练数据库,成为机器人'小脑'模型进化的养分。
这种场景与外界描绘的'解放人类劳动力'的宏大叙事形成了鲜明对比,构成了当下科技产业中最具张力的现实切片。值得注意的是,这一行业的繁荣并非偶然,而是源于大语言模型与具身智能在数据获取路径上的根本性差异。前者可以依赖互联网上已有的海量文本与图像进行训练,而后者必须依赖真实物理世界中的交互数据,这些数据无法通过简单的网络爬取获得,只能依靠人类在真实场景中一遍遍演示。因此,数据采集成为了具身智能发展的瓶颈,也催生了庞大的"卖铲子"生意。从智元机器人、银河通用到京东,各大巨头纷纷自建数据体系,试图在数据荒原中抢占先机,而无数像李晨晨这样的普通人,则成为了这场技术竞赛中最直接的参与者与牺牲者。他们不知道这份工作能持续多久,只知道在机器人学会叠被子之前,自己必须先学会像机器人一样行动,将每一个动作拆解成数据,卖给那些渴望未来的公司。
这种悖论式的生存状态,正是当前具身智能产业最真实的写照。在6月的一个下午,通过招聘网站海投简历,短短半小时内便有四家公司联系,其中一家估值百亿元的机器人公司提供了全职岗位,并承诺缴纳五险一金,但其余两家均为外包公司,且最终指向同一家数据采集服务商。
这一现象揭示了该行业用工模式的普遍特征:绝大多数岗位通过兼职渠道流通,缺乏长期稳定的雇佣关系,且社会保障覆盖率极低。日薪200元的定价标准,配合晚班额外50元的补贴,构成了这一群体的基本收入结构,而工资结算方式则灵活多变,既有周结也有月结,但工作时间过短往往面临扣款风险。入行门槛之低令人咋舌,从投递简历到完成线上面试、线下试岗,最快仅需24小时。面试过程几乎不涉及学历或专业经验的考察,唯一的核心指标是身体机能。在一场包含30多名应聘者的视频群面中,面试官仅询问身高体重,甚至直接观察手掌大小与手指形态,最终仅因体型过于肥胖无法穿戴设备而拒绝了一名应聘者。
这种将入行标准退回到生理机能的筛选机制,反映了当前数据采集工作的本质:它不需要复杂的智力投入,只需要符合特定物理条件的身体作为载体。一位曾从事IT运维、后转行送外卖的众包骑手,在面试中热情地自我介绍,却误将岗位称为"抓娃娃",直到被面试官纠正为"机器人数据采集"。另一位应届毕业生因身形娇小,被要求将手掌伸至镜头前确认尺寸,最终勉强获得试岗机会。这些细节表明,该行业对从业者的要求并非技能导向,而是纯粹的身体适配性导向。对于刚刚兴起的具身智能行业而言,理想的数据采集范式尚未统一,目前主流方案主要分为三类:真人数据和真机遥操数据。真机遥操数据由人通过外骨骼设备或远程控制系统,在真实环境中操控机器人完成任务,传感器同步记录全过程。这类数据最接近机器人未来的实际应用场景,价值最高,但成本也最为昂贵,相当于同时承担机器人本体与人工操作的双重成本,目前主要由机器人厂商自建采集体系完成。仿真数据则在虚拟环境中生成,无需真实场地与真人,成本主要源于算力,可大规模并行训练。
然而,虚拟世界与现实世界之间存在难以逾越的鸿沟,材质、摩擦、光照等细节难以完全复刻,导致训练出的机器人在现实环境中可能出现"水土不服"。真人数据则分为两种情况:一种仅采集真人行为视频,成本最低但信息量有限;另一种在视频基础上叠加动作捕捉与传感器轨迹,能记录更多细节,价格适中,是目前性价比最高的方案。本文所涉及的岗位即属于后者。一套完整的真人采集设备,包括装有运动相机的骑行头盔、内置传感器的数采手套、手部运动相机、多个定位器及配套软件,总成本约十万元,且正处于专利申请阶段。正式上岗前,所有人员需经过三天培训与试岗。第一天,项目经理与组长逐一检查手部条件,数采手套为均码,手指过长、过短、过胖或过软均无法使用。四十多名试岗人员中,当场淘汰了四五人。李晨晨的小拇指偏短,戴上手套后传感器在指节处皱缩,软件无法准确还原动作,经央求后才获准继续尝试。手指只是第一关,第二天的实操环节更是筛掉了半数人员。在穿戴设备过程中,需先戴头盔固定,再套一次性手套防汗,接着戴上内置传感器的数采手套,最外层加针织手套隔绝信号干扰,三根数据线从手套与头盔延伸,用松紧带固定在腰间。随后需双手平举胸前保持不动,等待软件校准。李晨晨负责调试,我负责穿戴,但十分钟过去,虚拟手模型仍未调至合适位置,组长直接接手并决定换人。李晨晨低声说"学不会",次日便未再出现。第三天试岗地点安排在一间两室一厅一厨一卫的民宿,我与一位护理专业应届生搭档,在主卧负责整理床铺与折叠毛巾,另一组人在客厅采集整理桌面数据,其他同事则被分配至桌游馆、厨房等场景,具体任务取决于机器人公司的数据需求。工作核心要求是像机器人一样行动:慢,手指活动幅度小。这是一个与本能的对抗过程。起初我试图高效完成动作,却被组长指出"快了,视频里成虚影,传感器跟不上"。随后又因动作太僵硬被要求"自然一点,只是慢,但要像人"。于是,我不得不紧绷腰臀肌肉,缓慢而完整地执行拎起毛巾、展开、铺平、折叠、压实等动作,拉平被子、掖好边角、整理褶皱,每一个动作都需缓慢、完整、连续。组长特别强调"不要甩毛巾、抖被子",因为小臂处无相机与传感器,机器人无法理解此类动作。
此外,还需灵活变换物品摆放位置与整理动作,如毛巾有时在被子上方,有时夹在枕头缝隙,有时单手拎起枕头一角,有时双手抱起,以丰富数据类型。尽管组长承诺工作地点在民宿,上厕所方便,但实际穿脱与调试设备需至少十五分钟,上一次厕所会浪费两人近半小时,而少采一分钟可能影响绩效考核。采集数据过少不扣钱,但每天有效数据需达5小时、18000秒,才会奖励50元。时间按秒计算,一天86400秒,一个班次8小时即28800秒。新手需每天采集约9000秒有效数据,但在戴上设备、调试设备的1000多秒内,疲倦感便已袭来。为防止头部相机晃动,头盔调节带需旋紧,如同孙悟空的金箍死死扎在头顶;防汗一次性手套层层包裹,形成高温高湿的'小气候',采集一轮仅2000多秒,摘下时手套与手均潮湿皱巴。傍晚时分,肩颈因头盔重量酸痛,腰部因长时间弓身僵硬。在机器人学会像我一样工作之前,我先变得和它们一样了。试岗期间,这套正在申请专利的设备几乎持续出问题。定位器频繁断联,传感器形变无法校准,不同手型导致映射偏差。一位运维人员在几栋楼间奔波,不停重启调试,额头汗水未干。因设备全新研发,无标准操作流程,只能靠人工调整。他半个月前还在做视频剪辑,修设备知识现学。隔壁组组员无奈表示"两小时了,数采手套还没连上",举着双手站立配合调试,肩膀酸了就活动两下,继续等待。八小时工作中,近一半时间耗在设备调试上。所有人都希望设备尽快恢复正常。现场仅有24套设备,是整个空间最昂贵的'资产'。为高效利用,公司安排白班与夜班,每套设备对应4名采集员轮换。设备闲一分钟,即少一分钟数据产出。在具身智能行业,此类由真人操作、含视觉与传感器信息的数据有价无市。当前具身智能数据总体定价区间在200至500元/小时,部分现实场景实际操作采集的真机数据高达每小时1000元。理论上,一组采集员一天工作8小时的有效数据产出,最高可售1600至8000元。但"有效"二字如同筛子,视频画面丢失、动线设计不合理、操作重复、相机拍到人脸均意味着数据失效,需标叉重采。熟练采集员一天产出4-5小时有效数据,新手仅2-3小时。数据流入市场前,还需经过质检、清洗、标注,每一轮都在损耗,最终能按高价售出的远比想象少。即便打折,数据依然值钱,但值钱的是数据,而非生产数据的人。劳务公司告知白班日薪200元,晚班250元,而招聘方称实际支付劳务公司每人每天300元,'不便宜'。从人的日薪200元到数据每小时最低200元,中间隔着劳务公司、数据服务商、机器人厂商等,每一层都抽走价值,采集员站在价值链最底层。这条价值链存在,恰恰因为数据太稀缺。一家估值超百亿元的机器人公司HR透露,机器人数据生产分采集、质检、标注三环节,眼下行业最紧缺的是最前端的数据采集。这类数据天然无法从互联网获得。过去几年,大语言模型快速成长,重要原因在于互联网已积累海量文字、图片与视频,模型只需阅读学习公开内容,即可获取关于互联网世界的知识。机器人不同,需学习抓取杯子、折叠衣服、打开柜门、搬运物品,这些知识不存在于现有互联网数据库,只存在于人的身体经验中。智元机器人合伙人、具身智能业务负责人姚卯青曾表示,机器人完整数有视频,还有力触觉传感器等,需以某种方式采集。无论真实环境还是虚拟世界,都需先布设机器人、搭建场景,再引入遥操人员控制机器人采集。换句话说,大模型主要学习如何像人类一样思考表达,机器人则学习如何像人类一样行动,对真实物理世界产生影响。这也是机器人数据采集爆发的根本原因。截至2026年初,全球高质量真实物理交互数据总量仅约50万小时,而训练通用具身智能模型需千万小时起步,缺口巨大。需求迅速催生出一门新的'卖铲子'生意。智元机器人、银河通用、自变量机器人等机器人公司,加速自建数据体系,建设真机数据采集基地,训练机器人'小脑'模型,甚至推动数采集中心,希望两年内积累1000万小时真实场景数据。但嗅到机会的并不全是机器人相关公司。我试岗的公司去年成立,核心团队此前从事VR设备相关业务。运营负责人称公司已完成融资,目前最主要工作是为机器人企业采集和生产训练数据。
与此同时,不少活跃在具身智能数据赛道的明星企业,如无问智科、弈人科技,最早其实诞生于自动驾驶浪潮之中。随着具身智能升温,这些公司开始将原有数据生产能力迁移到机器人领域,从仿真数据采集。6月22日,如祺出行也发布了具身智能数据平台。不少机器人数据采集企业诞生于自动驾驶浪潮之中。今年,多家数据服务企业陆续披露融资和订单情况,有的转型不到一年,数据采集业务收入便超过亿元,有的获得多轮亿元乃至十亿级融资,在手订单达到数亿元规模,部分数据采集企业甚至比机器人本体厂商更早实现盈利。试岗结束后,我再也没见过李晨晨。那些走了的人,雁过无痕。留下来的人,困在这套设备里,也困在自己的生活里。在机器人数据采集现场,很少听到有人讨论机器人,大家聊得更多的是房贷、婚育、找工作和工资。一个前地产中介,31岁,不久前辞职。大概六七年前,他在河北廊坊买了房,背上房贷。如今他和妻子在北京城区租了一个小单间,房租、房贷成了两人每月固定开支。'先干着吧。'他说。他知道这不会是一份长期职业,但眼下没有更好选择。过不了多久,妻子就要休产假,在此之前希望能找份更稳定工作。一个25岁女孩,和丈夫认识三个月就结婚,之前在父母开的电商公司工作。因这段婚姻,她从家里出走,但未能顺利解除劳动关系,只能到处找兼职。机器人数据采集是她出走后的第一份工作。还有两个结伴而来的大学生,来自北京某大专院校物联网专业。他们参加过市级竞赛,拿过奖项,履历并不差。培训时,公司负责人走到他俩面前,半开玩笑感慨:'还是工作不好找啊。'另一位刚工作一年的女生比较简单——天气太热,不想在外面跑面试,于是先来做兼职,等天气转凉再找新工作。调试设备时,她举着胳膊站了十几分钟,第二天手臂酸得发抖。这些人年龄不同、经历不同,来到这里的原因也不同,但他们有一个共同点:都在等待下一份更确定的工作出现。没人相信自己会一直干下去。
事实上,这份工作也很难一直干下去。枯燥本身就会筛掉一大批人,第一天40多人,到第三天,已只剩下20个人。很多人不是因为被淘汰,而是受不了。我也只忍受到了第三天,没拿到工资。但与此同时,外面关于这个行业的传言却越来越热闹。过去一年中,社交媒体上流传着不少关于数据采集员的帖子。智联招聘2026年产业人才报告显示,这个岗位招聘职位数同比暴涨769%。央广网和央视财经将它定义为具身智能浪潮下的热门新职业,预计未来五年全产业链相关岗位增量将突破百万。各地机器人企业、数据服务商持续线上线下大规模招工,职校校企专场、居家兼职招募广告随处可见。"热门新职业""百万岗位缺口""门槛低、上手快"——这些词听起来像是一个风口在向所有人招手。但真正进到这个行业的人很快发现,确实有高薪,比如通过外骨骼设备或遥操系统直接控制真实机器人的操作员,这需要一定技术背景,采集员日薪可达千元以上。但更多的还是最下面那一层——日薪两百。比如这间民宿里的人。成为机器人燃料的采集员们。在这家公司里,大部分中基层员工都不是正式员工,而是通过第三方劳务公司招聘。负责培训我的组长今年21岁,是机电专业应届毕业生,来到公司不过三个月时间。因为控制成本,公司暂时没有扩张团队,他至今仍然按照周结方式领取工资,劳务公司要从他的日薪中抽去两成。即使是身处行业中心的人,也很少对未来做出长期承诺。培训时,运营负责人只能告诉我们,公司未来一年的订单已经确定,未来两年发工资没有问题。听到这句话,我们纷纷扭头,彼此对视,眼神有些意味深长。订单在增长,融资在增长,行业规模也在增长,但在这间民宿里,这些数字和站在床边弯腰叠毛巾的人没什么关系。具身智能依然是当下最热门的创业赛道之一,企业相争融资、上市,资本也在不断涌入,所有人都在争抢高质量数据。但另一方面,它也依然处于早期阶段,机器人还不能稳定、成规模地投入市场,很难独立完成一个完整、流畅的家务动作。因此,整个行业都在拼命收集完整的机器人数据。今天的机器人需要学习如何叠毛巾,于是有人重复折叠几百上千次;需要学习如何整理桌面,于是有人一遍遍把水杯归位、书本按大小放整齐,再打乱重来。这些数据最终会变成机器人的能力。但当机器人真的学会了这些动作之后呢?类似的变化在大语言模型行业发生过。最初,行业需要大量标注员处理基础数据,标注员也成为了一个"热门新职业"——门槛低、需求大、到处招人。人们只需坐在电脑前,给图片打标签、给文字分类,用最机械的劳动喂养最前沿的算法。但随着模型能力提升,简单标注逐渐失去价值,需求开始向法律、医疗、教育、科研等专业领域转移,真正稀缺的标注员成了高等院校毕业的硕士、深耕行业的专家。眼下这间民宿里的人,正在走同一条路。数据采集不会消失,但采集员未必还是今天这批人。苗头是,行业里已经开始讨论数据是否真正能够提升模型能力。换句话说,机器人学到的越多,人类需要教给它的东西也会变得越难。下午六点半,我们撤下设备,给相机和定位器充电,离开民宿。两个半小时后,夜班的采集员会陆续到岗。那时候,设备重新启动,定位器亮起绿灯,新一轮的数据采集开始了。24套设备,几乎昼夜不停地运转。在民宿之外,关于这个行业的叙事,是另一套话术:这是一个即将解放人类劳动力的万亿级产业,机器人将走进千家万户,照顾老人、陪伴孩子、打理家务......我们不知道机器人什么时候能够服务于人类,但知道在这之前,会有人重复千万遍同样的动作,把自己与世界相处的经验拆解成数据,把身体里的常识、习惯和判断一点点教给机器。仅仅只是把这份工作视作人生中的一个临时停靠点,但他们做的事情,却指向一个漫长得多的未来。至于未来到来的那一天,自己会身处何处,没有人知道答案。"以后都是机器人在工作,咱们又要出去找新工作了。"我又想起李晨晨说的这句话,想起她说这句话时皱着的眉头和牵强上扬的嘴角。她至今没敢告诉父母自己欠下的债务,和四处找兼职的境况。
这一现象深刻揭示了技术演进过程中,底层劳动者与顶层愿景之间的巨大鸿沟。在资本狂热追逐具身智能万亿市场的同时,无数个体正以肉身作为试验田,承担着技术试错的成本。这种'人肉燃料'的模式或许只是过渡阶段的产物,但随着数据需求的指数级增长与质量要求的提升,简单的重复性劳动终将无法满足模型训练的需求。行业正在经历从'量'到'质'的转型,未来的数据采集员可能需要具备更高的专业技能,甚至需要像现在的标注员一样,向专业领域专家转型。
然而,对于当下的李晨晨们而言,这种转型的门槛依然高不可攀。他们被困在日薪200元的循环中,用身体的疲惫换取短暂的生存空间,却对未来的不确定性感到深深的无力。这种无力感并非个例,而是整个行业在爆发初期,技术、资本与劳动力三者博弈的缩影。当机器人最终学会叠被子、整理桌面时,那些曾经教它们这些动作的人,或许早已消失在历史的尘埃中,只留下数据流中冰冷的记录,证明他们曾存在过,曾为这个智能时代贡献过自己的体温与汗水。这不仅是技术的进步史,更是一部关于人类劳动价值在智能时代如何被重新定义与消解的悲喜剧。在数据荒原上,每一滴汗水都凝结成算法的养分,而每一个弯腰的身影,都是通往未来图景中不可或缺的注脚。
尽管前路未卜,但这场由人类亲手点燃的智能革命,正以其独特的方式,重塑着我们对工作、价值与未来的认知。