登錄
註冊
據 Woofun AI 消息,在具身智能浪潮席捲全球的背景下,一種名爲"機器人數據採集員"的新興職業正在悄然興起,其核心工作是在真實物理場景中,通過穿戴特製設備重複摺疊毛巾、整理桌面等基礎動作,將人類的身體經驗轉化爲訓練數據。
這一羣體中包含了被裁員的程序員、揹負房貸的前房產中介以及急需兼職的大學生,他們每日工作8小時,日薪僅爲200元,晚班稍高至250元,卻構成了支撐估值超百億元機器人公司發展的底層基石。
這種看似低端的體力勞動,實則是解決機器人"水土不服"、填補全球高質量物理交互數據巨大缺口的關鍵一環,揭示了人工智能從虛擬走向現實過程中殘酷而真實的產業鏈條。在機器人真正學會服務人類之前,人類正彎下腰,以自身的身體經驗作爲燃料,餵養着這些尚未成熟的智能體。
這一現象不僅折射出當前具身智能行業對真實數據的極度渴求,更暴露了技術爆發初期,資本、技術與勞動力之間複雜的價值分配關係。隨着行業對數據質量要求的提升,這一臨時性的職業窗口或許正在迅速收窄,但其背後所指向的產業邏輯與未來圖景,卻值得深入剖析。在一家位於城市角落的民宿內,數十名採集員正戴着沉重的頭盔和手套,在狹小的空間裏進行着機械而緩慢的動作,他們的每一次抬手、每一次轉身,都被傳感器精準記錄,最終匯入龐大的訓練數據庫,成爲機器人'小腦'模型進化的養分。
這種場景與外界描繪的'解放人類勞動力'的宏大敘事形成了鮮明對比,構成了當下科技產業中最具張力的現實切片。值得注意的是,這一行業的繁榮並非偶然,而是源於大語言模型與具身智能在數據獲取路徑上的根本性差異。前者可以依賴互聯網上已有的海量文本與圖像進行訓練,而後者必須依賴真實物理世界中的交互數據,這些數據無法通過簡單的網絡爬取獲得,只能依靠人類在真實場景中一遍遍演示。因此,數據採集成爲了具身智能發展的瓶頸,也催生了龐大的"賣鏟子"生意。從智元機器人、銀河通用到京東,各大巨頭紛紛自建數據體系,試圖在數據荒原中搶佔先機,而無數像李晨晨這樣的普通人,則成爲了這場技術競賽中最直接的參與者與犧牲者。他們不知道這份工作能持續多久,只知道在機器人學會疊被子之前,自己必須先學會像機器人一樣行動,將每一個動作拆解成數據,賣給那些渴望未來的公司。
這種悖論式的生存狀態,正是當前具身智能產業最真實的寫照。在6月的一個下午,通過招聘網站海投簡歷,短短半小時內便有四家公司聯繫,其中一家估值百億元的機器人公司提供了全職崗位,並承諾繳納五險一金,但其餘兩家均爲外包公司,且最終指向同一家數據採集服務商。
這一現象揭示了該行業用工模式的普遍特徵:絕大多數崗位通過兼職渠道流通,缺乏長期穩定的僱傭關係,且社會保障覆蓋率極低。日薪200元的定價標準,配合晚班額外50元的補貼,構成了這一羣體的基本收入結構,而工資結算方式則靈活多變,既有周結也有月結,但工作時間過短往往面臨扣款風險。入行門檻之低令人咋舌,從投遞簡歷到完成線上面試、線下試崗,最快僅需24小時。面試過程幾乎不涉及學歷或專業經驗的考察,唯一的核心指標是身體機能。在一場包含30多名應聘者的視頻羣面中,面試官僅詢問身高體重,甚至直接觀察手掌大小與手指形態,最終僅因體型過於肥胖無法穿戴設備而拒絕了一名應聘者。
這種將入行標準退回到生理機能的篩選機制,反映了當前數據採集工作的本質:它不需要複雜的智力投入,只需要符合特定物理條件的身體作爲載體。一位曾從事IT運維、後轉行送外賣的衆包騎手,在面試中熱情地自我介紹,卻誤將崗位稱爲"抓娃娃",直到被面試官糾正爲"機器人數據採集"。另一位應屆畢業生因身形嬌小,被要求將手掌伸至鏡頭前確認尺寸,最終勉強獲得試崗機會。這些細節表明,該行業對從業者的要求並非技能導向,而是純粹的身體適配性導向。對於剛剛興起的具身智能行業而言,理想的數據採集範式尚未統一,目前主流方案主要分爲三類:真人數據和真機遙操數據。真機遙操數據由人通過外骨骼設備或遠程控制系統,在真實環境中操控機器人完成任務,傳感器同步記錄全過程。這類數據最接近機器人未來的實際應用場景,價值最高,但成本也最爲昂貴,相當於同時承擔機器人本體與人工操作的雙重成本,目前主要由機器人廠商自建採集體系完成。仿真數據則在虛擬環境中生成,無需真實場地與真人,成本主要源於算力,可大規模並行訓練。
然而,虛擬世界與現實世界之間存在難以逾越的鴻溝,材質、摩擦、光照等細節難以完全復刻,導致訓練出的機器人在現實環境中可能出現"水土不服"。真人數據則分爲兩種情況:一種僅採集真人行爲視頻,成本最低但信息量有限;另一種在視頻基礎上疊加動作捕捉與傳感器軌跡,能記錄更多細節,價格適中,是目前性價比最高的方案。本文所涉及的崗位即屬於後者。一套完整的真人採集設備,包括裝有運動相機的騎行頭盔、內置傳感器的數採手套、手部運動相機、多個定位器及配套軟件,總成本約十萬元,且正處於專利申請階段。正式上崗前,所有人員需經過三天培訓與試崗。第一天,項目經理與組長逐一檢查手部條件,數採手套爲均碼,手指過長、過短、過胖或過軟均無法使用。四十多名試崗人員中,當場淘汰了四五人。李晨晨的小拇指偏短,戴上手套後傳感器在指節處皺縮,軟件無法準確還原動作,經央求後才獲准繼續嘗試。手指只是第一關,第二天的實操環節更是篩掉了半數人員。在穿戴設備過程中,需先戴頭盔固定,再套一次性手套防汗,接着戴上內置傳感器的數採手套,最外層加針織手套隔絕信號干擾,三根數據線從手套與頭盔延伸,用鬆緊帶固定在腰間。隨後需雙手平舉胸前保持不動,等待軟件校準。李晨晨負責調試,我負責穿戴,但十分鐘過去,虛擬手模型仍未調至合適位置,組長直接接手並決定換人。李晨晨低聲說"學不會",次日便未再出現。第三天試崗地點安排在一間兩室一廳一廚一衛的民宿,我與一位護理專業應屆生搭檔,在主臥負責整理牀鋪與摺疊毛巾,另一組人在客廳採集整理桌面數據,其他同事則被分配至桌遊館、廚房等場景,具體任務取決於機器人公司的數據需求。工作核心要求是像機器人一樣行動:慢,手指活動幅度小。這是一個與本能的對抗過程。起初我試圖高效完成動作,卻被組長指出"快了,視頻裏成虛影,傳感器跟不上"。隨後又因動作太僵硬被要求"自然一點,只是慢,但要像人"。於是,我不得不緊繃腰臀肌肉,緩慢而完整地執行拎起毛巾、展開、鋪平、摺疊、壓實等動作,拉平被子、掖好邊角、整理褶皺,每一個動作都需緩慢、完整、連續。組長特別強調"不要甩毛巾、抖被子",因爲小臂處無相機與傳感器,機器人無法理解此類動作。
此外,還需靈活變換物品擺放位置與整理動作,如毛巾有時在被子上方,有時夾在枕頭縫隙,有時單手拎起枕頭一角,有時雙手抱起,以豐富數據類型。儘管組長承諾工作地點在民宿,上廁所方便,但實際穿脫與調試設備需至少十五分鐘,上一次廁所會浪費兩人近半小時,而少採一分鐘可能影響績效考覈。採集數據過少不扣錢,但每天有效數據需達5小時、18000秒,纔會獎勵50元。時間按秒計算,一天86400秒,一個班次8小時即28800秒。新手需每天採集約9000秒有效數據,但在戴上設備、調試設備的1000多秒內,疲倦感便已襲來。爲防止頭部相機晃動,頭盔調節帶需旋緊,如同孫悟空的金箍死死紮在頭頂;防汗一次性手套層層包裹,形成高溫高溼的'小氣候',採集一輪僅2000多秒,摘下時手套與手均潮溼皺巴。傍晚時分,肩頸因頭盔重量痠痛,腰部因長時間弓身僵硬。在機器人學會像我一樣工作之前,我先變得和它們一樣了。試崗期間,這套正在申請專利的設備幾乎持續出問題。定位器頻繁斷聯,傳感器形變無法校準,不同手型導致映射偏差。一位運維人員在幾棟樓間奔波,不停重啓調試,額頭汗水未乾。因設備全新研發,無標準操作流程,只能靠人工調整。他半個月前還在做視頻剪輯,修設備知識現學。隔壁組組員無奈表示"兩小時了,數採手套還沒連上",舉着雙手站立配合調試,肩膀酸了就活動兩下,繼續等待。八小時工作中,近一半時間耗在設備調試上。所有人都希望設備儘快恢復正常。現場僅有24套設備,是整個空間最昂貴的'資產'。爲高效利用,公司安排白班與夜班,每套設備對應4名採集員輪換。設備閒一分鐘,即少一分鐘數據產出。在具身智能行業,此類由真人操作、含視覺與傳感器信息的數據有價無市。當前具身智能數據總體定價區間在200至500元/小時,部分現實場景實際操作採集的真機數據高達每小時1000元。理論上,一組採集員一天工作8小時的有效數據產出,最高可售1600至8000元。但"有效"二字如同篩子,視頻畫面丟失、動線設計不合理、操作重複、相機拍到人臉均意味着數據失效,需標叉重採。熟練採集員一天產出4-5小時有效數據,新手僅2-3小時。數據流入市場前,還需經過質檢、清洗、標註,每一輪都在損耗,最終能按高價售出的遠比想象少。即便打折,數據依然值錢,但值錢的是數據,而非生產數據的人。勞務公司告知白班日薪200元,晚班250元,而招聘方稱實際支付勞務公司每人每天300元,'不便宜'。從人的日薪200元到數據每小時最低200元,中間隔着勞務公司、數據服務商、機器人廠商等,每一層都抽走價值,採集員站在價值鏈最底層。這條價值鏈存在,恰恰因爲數據太稀缺。一家估值超百億元的機器人公司HR透露,機器人數據生產分採集、質檢、標註三環節,眼下行業最緊缺的是最前端的數據採集。這類數據天然無法從互聯網獲得。過去幾年,大語言模型快速成長,重要原因在於互聯網已積累海量文字、圖片與視頻,模型只需閱讀學習公開內容,即可獲取關於互聯網世界的知識。機器人不同,需學習抓取杯子、摺疊衣服、打開櫃門、搬運物品,這些知識不存在於現有互聯網數據庫,只存在於人的身體經驗中。智元機器人合夥人、具身智能業務負責人姚卯青曾表示,機器人完整數有視頻,還有力觸覺傳感器等,需以某種方式採集。無論真實環境還是虛擬世界,都需先佈設機器人、搭建場景,再引入遙操人員控制機器人採集。換句話說,大模型主要學習如何像人類一樣思考表達,機器人則學習如何像人類一樣行動,對真實物理世界產生影響。這也是機器人數據採集爆發的根本原因。截至2026年初,全球高質量真實物理交互數據總量僅約50萬小時,而訓練通用具身智能模型需千萬小時起步,缺口巨大。需求迅速催生出一門新的'賣鏟子'生意。智元機器人、銀河通用、自變量機器人等機器人公司,加速自建數據體系,建設真機數據採集基地,訓練機器人'小腦'模型,甚至推動數採集中心,希望兩年內積累1000萬小時真實場景數據。但嗅到機會的並不全是機器人相關公司。我試崗的公司去年成立,核心團隊此前從事VR設備相關業務。運營負責人稱公司已完成融資,目前最主要工作是爲機器人企業採集和生產訓練數據。
與此同時,不少活躍在具身智能數據賽道的明星企業,如無問智科、弈人科技,最早其實誕生於自動駕駛浪潮之中。隨着具身智能升溫,這些公司開始將原有數據生產能力遷移到機器人領域,從仿真數據採集。6月22日,如祺出行也發佈了具身智能數據平臺。不少機器人數據採集企業誕生於自動駕駛浪潮之中。今年,多家數據服務企業陸續披露融資和訂單情況,有的轉型不到一年,數據採集業務收入便超過億元,有的獲得多輪億元乃至十億級融資,在手訂單達到數億元規模,部分數據採集企業甚至比機器人本體廠商更早實現盈利。試崗結束後,我再也沒見過李晨晨。那些走了的人,雁過無痕。留下來的人,困在這套設備裏,也困在自己的生活裏。在機器人數據採集現場,很少聽到有人討論機器人,大家聊得更多的是房貸、婚育、找工作和工資。一個前地產中介,31歲,不久前辭職。大概六七年前,他在河北廊坊買了房,背上房貸。如今他和妻子在北京城區租了一個小單間,房租、房貸成了兩人每月固定開支。'先幹着吧。'他說。他知道這不會是一份長期職業,但眼下沒有更好選擇。過不了多久,妻子就要休產假,在此之前希望能找份更穩定工作。一個25歲女孩,和丈夫認識三個月就結婚,之前在父母開的電商公司工作。因這段婚姻,她從家裏出走,但未能順利解除勞動關係,只能到處找兼職。機器人數據採集是她出走後的第一份工作。還有兩個結伴而來的大學生,來自北京某大專院校物聯網專業。他們參加過市級競賽,拿過獎項,履歷並不差。培訓時,公司負責人走到他倆面前,半開玩笑感慨:'還是工作不好找啊。'另一位剛工作一年的女生比較簡單——天氣太熱,不想在外面跑面試,於是先來做兼職,等天氣轉涼再找新工作。調試設備時,她舉着胳膊站了十幾分鍾,第二天手臂酸得發抖。這些人年齡不同、經歷不同,來到這裏的原因也不同,但他們有一個共同點:都在等待下一份更確定的工作出現。沒人相信自己會一直幹下去。
事實上,這份工作也很難一直幹下去。枯燥本身就會篩掉一大批人,第一天40多人,到第三天,已只剩下20個人。很多人不是因爲被淘汰,而是受不了。我也只忍受到了第三天,沒拿到工資。但與此同時,外面關於這個行業的傳言卻越來越熱鬧。過去一年中,社交媒體上流傳着不少關於數據採集員的帖子。智聯招聘2026年產業人才報告顯示,這個崗位招聘職位數同比暴漲769%。央廣網和央視財經將它定義爲具身智能浪潮下的熱門新職業,預計未來五年全產業鏈相關崗位增量將突破百萬。各地機器人企業、數據服務商持續線上線下大規模招工,職校校企專場、居家兼職招募廣告隨處可見。"熱門新職業""百萬崗位缺口""門檻低、上手快"——這些詞聽起來像是一個風口在向所有人招手。但真正進到這個行業的人很快發現,確實有高薪,比如通過外骨骼設備或遙操系統直接控制真實機器人的操作員,這需要一定技術背景,採集員日薪可達千元以上。但更多的還是最下面那一層——日薪兩百。比如這間民宿裏的人。成爲機器人燃料的採集員們。在這家公司裏,大部分中基層員工都不是正式員工,而是通過第三方勞務公司招聘。負責培訓我的組長今年21歲,是機電專業應屆畢業生,來到公司不過三個月時間。因爲控制成本,公司暫時沒有擴張團隊,他至今仍然按照周結方式領取工資,勞務公司要從他的日薪中抽去兩成。即使是身處行業中心的人,也很少對未來做出長期承諾。培訓時,運營負責人只能告訴我們,公司未來一年的訂單已經確定,未來兩年發工資沒有問題。聽到這句話,我們紛紛扭頭,彼此對視,眼神有些意味深長。訂單在增長,融資在增長,行業規模也在增長,但在這間民宿裏,這些數字和站在牀邊彎腰疊毛巾的人沒什麼關係。具身智能依然是當下最熱門的創業賽道之一,企業相爭融資、上市,資本也在不斷湧入,所有人都在爭搶高質量數據。但另一方面,它也依然處於早期階段,機器人還不能穩定、成規模地投入市場,很難獨立完成一個完整、流暢的家務動作。因此,整個行業都在拼命收集完整的機器人數據。今天的機器人需要學習如何疊毛巾,於是有人重複摺疊幾百上千次;需要學習如何整理桌面,於是有人一遍遍把水杯歸位、書本按大小放整齊,再打亂重來。這些數據最終會變成機器人的能力。但當機器人真的學會了這些動作之後呢?類似的變化在大語言模型行業發生過。最初,行業需要大量標註員處理基礎數據,標註員也成爲了一個"熱門新職業"——門檻低、需求大、到處招人。人們只需坐在電腦前,給圖片打標籤、給文字分類,用最機械的勞動餵養最前沿的算法。但隨着模型能力提升,簡單標註逐漸失去價值,需求開始向法律、醫療、教育、科研等專業領域轉移,真正稀缺的標註員成了高等院校畢業的碩士、深耕行業的專家。眼下這間民宿裏的人,正在走同一條路。數據採集不會消失,但採集員未必還是今天這批人。苗頭是,行業裏已經開始討論數據是否真正能夠提升模型能力。換句話說,機器人學到的越多,人類需要教給它的東西也會變得越難。下午六點半,我們撤下設備,給相機和定位器充電,離開民宿。兩個半小時後,夜班的採集員會陸續到崗。那時候,設備重新啓動,定位器亮起綠燈,新一輪的數據採集開始了。24套設備,幾乎晝夜不停地運轉。在民宿之外,關於這個行業的敘事,是另一套話術:這是一個即將解放人類勞動力的萬億級產業,機器人將走進千家萬戶,照顧老人、陪伴孩子、打理家務......我們不知道機器人什麼時候能夠服務於人類,但知道在這之前,會有人重複千萬遍同樣的動作,把自己與世界相處的經驗拆解成數據,把身體裏的常識、習慣和判斷一點點教給機器。僅僅只是把這份工作視作人生中的一個臨時停靠點,但他們做的事情,卻指向一個漫長得多的未來。至於未來到來的那一天,自己會身處何處,沒有人知道答案。"以後都是機器人在工作,咱們又要出去找新工作了。"我又想起李晨晨說的這句話,想起她說這句話時皺着的眉頭和牽強上揚的嘴角。她至今沒敢告訴父母自己欠下的債務,和四處找兼職的境況。
這一現象深刻揭示了技術演進過程中,底層勞動者與頂層願景之間的巨大鴻溝。在資本狂熱追逐具身智能萬億市場的同時,無數個體正以肉身作爲試驗田,承擔着技術試錯的成本。這種'人肉燃料'的模式或許只是過渡階段的產物,但隨着數據需求的指數級增長與質量要求的提升,簡單的重複性勞動終將無法滿足模型訓練的需求。行業正在經歷從'量'到'質'的轉型,未來的數據採集員可能需要具備更高的專業技能,甚至需要像現在的標註員一樣,向專業領域專家轉型。
然而,對於當下的李晨晨們而言,這種轉型的門檻依然高不可攀。他們被困在日薪200元的循環中,用身體的疲憊換取短暫的生存空間,卻對未來的不確定性感到深深的無力。這種無力感並非個例,而是整個行業在爆發初期,技術、資本與勞動力三者博弈的縮影。當機器人最終學會疊被子、整理桌面時,那些曾經教它們這些動作的人,或許早已消失在歷史的塵埃中,只留下數據流中冰冷的記錄,證明他們曾存在過,曾爲這個智能時代貢獻過自己的體溫與汗水。這不僅是技術的進步史,更是一部關於人類勞動價值在智能時代如何被重新定義與消解的悲喜劇。在數據荒原上,每一滴汗水都凝結成算法的養分,而每一個彎腰的身影,都是通往未來圖景中不可或缺的註腳。
儘管前路未卜,但這場由人類親手點燃的智能革命,正以其獨特的方式,重塑着我們對工作、價值與未來的認知。