登录
注册
随着人工智能能力的指数级跃升,投资界正弥漫着一种'人工智能精神分裂症'般的悲观情绪:既然 Anthropic、OpenAI 和 Nvidia 等巨头将不断进化,所有依赖模型的企业是否终将沦为等待被吞噬的空壳?这种逻辑认为,最终市场上仅会剩下最先进的模型权重与计算资源。
然而,Sarah Guo 指出这种观点仅对了一半。表层应用确实会被吞没,但真正的问题在于:当 AI 吞噬了所有可训练内容后,那些无法被训练的价值究竟是什么?答案隐藏在组织内部:企业专有数据、复杂的工作流程、用户信任、系统权限、行业判断力以及长期运营积累的经验。模型可以变得更聪明,却无法自动融入银行系统;可以生成医疗建议,却无法赢得医生信任;可以起草法律文件,却无法承担资深律师的法律责任。
这种绝望情绪在软件工程领域尤为明显。2024 年 Devin 问世时,其在标准基准测试中仅能完成 13% 的任务,被市场忽视;一年半后,最强 Agent 已能解决 80% 以上的任务,并在高盛和美国陆军内部落地。许多人误以为软件工程已被吞没,但 MIT 的 Mert Demirer 团队在超过 10 万名开发者参与的研究中发现:最新编码 Agent 使代码编写量增加了 180%,但交付到生产环境的代码仅增加 30%。午方 AI 梳理发现,编写成本虽降,但剩余步骤仍需人类完成,且至关重要。基准测试可量化,故可训练;但通过测试不等于变更对十年代码库正确。模块存在的理由可能未记录,部署流程可能依赖无人承认的 cron 作业。这种正确性无法从排行榜看出,只能在现实世界运行足够长时间验证。OpenAI 推理模型先驱 Noam Brown 指出,评估 Agent 一年表现,唯一可靠方法是让其实际运行一年。这种正确性是私有的,是资本无法压缩的时间壁垒。
真正的自动化不仅是模型变强,更是产品、模型、工作流程与公司架构共同发展。Gabe Pereyra 强调,调动人的积极性是基准测试无法触及的:说服怀疑的合作伙伴改变经营方式,或在重组中保持团队凝聚力。招聘 CEO 时,分析能力与人际处理能力同样重要,模型变强不会改变此权重。反馈机制模糊,时间跨度以年计,信任取决于特定个人。午方 AI 注意到,每家公司已将最先进工具交给工程师,但工程组织变革速度远滞后于模型发展。工具采用需一个季度,真正重组需数年。可被看到的工作成果逐渐消失,具有结构性价值的成果无法量化:任何可列入排行榜的工作都可制成训练集,注定商品化。Rippling 的 Matt MacInnis 指出,仅回答通用问题的代币几乎无价值,基于公司数据的推理代币才珍贵,因它在做真正想做的事。工作成果从两端被消耗:下游买家只关心成本,任务落入最便宜开源模型;上游实验室试图让模型吞噬自身构建框架,实现'边界吸收'。通用智能体成本高,专注应用可极致调优,保留差价。
因此,任何工作可问两个问题:正确性是否专有、成本高昂且仅存于特定数据?是否封闭在外人无法访问的系统?结合任务饱和程度,可得 2×2 矩阵。答案公开且饱和的工作属商品化代币,开源模型主导;答案公开但属前沿的工作如编码基准测试,属实验室领域,因评估免费。真正价值在'不可训练'角落:正确性仅存于私有环境的前沿工作。Inference Cloud 中,绝大多数代币由定制模型生成,非通用开源模型。障碍高低不一:开发者玩具代码仓库可移植标准化,易被研究;银行业务系统不可移植不标准化。SWE-Bench Verified 好成绩不能获系统根访问权限。能力可吞噬很多,但更好模型不会将私有真实数。它不持许可证、不承担法律责任、不拥有公司文件,错误时不能被起诉。瓶颈非智力,而是权限和责任。午方 AI 分析认为,即使比任何人都聪明的模型,仍需被允许进入系统,且有人为其行为负责。那扇门有锁和插销:锁代表环境,需获信任、安全审查、集成并签结果责任合同;插销代表用户。如今大多数美国医生每天用 OpenEvidence,此工具无法用计算能力买到。实验室明天可能训练完美医疗模型,仍无法进入医生诊所或 UCSF 决策流程。信任通过长期关系和用户同意建立,非梯度下降抹去。
应用程序公司需在'不可训练'领域占一席之地,完成不起眼任务:整理公司私有数据结构,提供操作工具,与客户合作改变员工工作方式。能完成'转化'的公司难被复制,转化过程永不停止,集成维护随客户关系持续。获胜公司是那些将领域专家和工具派到客户身边的。例如,顶尖老牌律师事务所每年并购交易近一千笔,不能让数百名律师助理下载文件给通用智能体审核,保密不允许。即使实现,信息也零散:每个助理单独修改,无人看完整流程。真正重要信息在交易层面。每笔交易形态独特:并购涉及保密协议、条款清单、尽职调查报告、购买协议、辅助文件及成交检查清单;知识产权诉讼涉及动议书、证据收集、现有技术分析及更多动议书。每个业务领域有自身结构,律师和工具不能随意替换。律师事务所真正需解决更高问题:如何同时管理每个业务领域,像高级合伙人处理数百起案件,同时吸引新业务并培养年轻律师。转变公司非编写任务评审报告可解,需像打'数据棒球'操作:中间目标模糊,反馈不完整,循环周期长,环境变化。不幸的是,无法量化价值也难销售,因外部无法判断 AI 是否真能如基准测试显示改变运营。最强大公司停止从外部证明实力,首先进入客户内部环境,再根据实际效果定价。Sierra 只在智能体解决问题后收费,人类处理则不收费,价格本身成评价机制,因 Sierra 有权定义'问题得到解决'。Cognition 的 Devin 在软件领域推出'性能保障'制度,只有被信任进入系统内部操作,才有资格为结果提供保障。
即使在代币服务层面,性能也不像普通商品简单。最优秀 AI 原生公司将服务集中在一两个供应商如 Baseten 或 Fireworks。每个代币成本趋向商品化,但实际负载可靠性及稀缺计算资源稳定访问权不受影响。提供哪种推理服务及使用哪些模型,都是不同选择。推理服务领域唯一真正类似商品因素是价格。常见反驳是:实验室是供应商,为何不利用内部产品掠夺性定价压低价格,或取消 API 访问独占市场?这是绝望情绪真正体现,但仅在模型层是单一玩家游戏时成立。事实非如此,模型层更像三到五个参与者死亡竞赛,一些国际参与者训练进度落后约六个月,开发领域规模比去年扩大五倍。客户希望供应商竞争,实验室更看重市场份额,倾向通过竞争提升实力而非消灭特定应用。在实验室直接竞争市场,此现象尤为明显。消费者聊天场景,最优秀模型从未完全占据市场。ChatGPT 多年领先,现市场份额被 Gemini 蚕食,因 Gemini 在 Android 系统和搜索功能优势,非模型更优秀。Anthropic 被认为在预测市场和互联网氛围分析领域有最好模型,但在消费者聊天领域几乎不算主要竞争者,相反在企业应用和编码场景发展壮大。如果更优秀模型无法在最核心应用场景赢得竞争对手用户青睐,肯定无法通过集成手段轻易接管医院医疗记录系统或银行负债管理框架。如今公众选择产品,不仅看编码能力。如果前沿模型层仍竞争激烈,应用层依然有价值。如果任务无法通过外部标准评估,必须由内部人员决定什么算好结果。此决定过程本身就是竞争核心。当这些决定被记录成公认标准,无论基础模型实验室多聪明,都无法凭空创造,因权威只存在于具体领域。权威往往停留在已存在地方:经验丰富律师制定法律判例,医生定义安全临床答案,'问题得到解决'概念由与客户建立长期关系公司确定。随着学会测量更多工作,可量化部分逐渐消耗,不可量化部分不断缩小,找不到固守位置停滞不前。必须不断推进,进入尚未量化领域,重新评估风险并调整。在特定任务中,若拥有专有数据和评估体系,可将任务训练到前沿水平,在关键场景击败通用模型;专用模型成护城河一部分。相反,若在通用模型能力方面竞争,是资本大战,最终输给拥有更多计算资源公司。这也是拥有有限访问权限和易量化任务公司最易陷入陷阱。当公司为生存决定将通用任务训练到超越前沿模型高度,结果往往取决于数据中心规模。竞争结局往往非独立赢家,而是被拥有足够计算资源公司收购。
以上内容均属防御措施,更困难部分在于进攻——首先决定开发什么。这是一整年一直在寻找的东西,可能只找到三次。模型在此无用,只会按指令行动,无法告诉什么值得关注。既然无法对这些目标进行基准测试,也就无法训练。这也是现有巨头不会把所有东西据为己有的原因:坚守已建立阵地,下一个开辟新天地的人,一定是先于他人发现价值的人。也许,意图这种因素比计算资源更为稀缺。绝望情绪中一半正确:表层应用确实被吞噬,如今许多企业看起来也只不过是这些表层应用。但关于吞噬之后还会剩下什么,此观点错误。背后机制清晰,最终结果并非如此。敢打赌,未来发展方向是:AI 成本继续下降,价值继续向只有少数模型能触及范围转移。那些承载历史意义、不可量化元素,才会真正具有价值。因此,走进这些领域,去做看似平凡转化工作,然后开始记录在那里什么是'好的结果'。因为总会有别人去做这件事。今年被引用次数最多基准测试分数,实际上只是一张即将失去价值地形图,以及一条通知——一条告诉某些人,他们即将失去定义'什么是好的结果'权利的通知。