登录
注册
据 Woofun AI 消息,API7.ai 创始人温铭在深度实践 AI 编程后指出,当前技术瓶颈已从模型能力转移至人类决策层面。他在 2026 年春节期间亲历了一次技术转折:面对 Apache APISIX 中一个无法复现的棘手 bug,传统代码审查失效,而 AI Agent 仅凭现象描述与静态分析,在不到 10 分钟内精准定位问题。
这一事件确立了其核心判断:AI 在编码执行上已超越资深工程师,但架构设计与核心逻辑的 "Why" 仍需人类把控。近期,他个人在软件研发中消耗了数百亿 Token,这一巨额投入并未带来对 AI 的盲目崇拜,反而让他确信,真正制约生产力的变量是人。温铭强调,AI 能够完美执行 "What" 与 "How",但在涉及技术权衡、架构抽象及核心概念判断时,资深工程师的经验价值不降反升。
这种认知差异直接导致了他在公司内部推行'尽量不手写代码'的激进策略,将 "打字" 工作完全移交 AI Agent,从而引发了一场关于工程师角色定位的深刻讨论。
在组织内部推行这一策略时,阻力主要来自那些自我定位过于清晰的工程师群体。温铭观察到,当工程师将自己严格框定在 "前端" 或 "后端" 的职能边界内时,AI Agent 这种能够打破边界的工具反而成为不适应源。以 Dashboard 开发为例,传统模式下需要精通前端技术、审美、性能优化、SEO 及各类框架的资深人员才能交付合格产品;而在 AI 辅助下,即使是不具备前端手写经验的负责人,只要清晰定义评判标准——如配色方案、CDN 资源加载策略、移动端适配要求——即可产出六七十分的产品。
这种转变重构了产品迭代闭环:过去需要产品经理、架构师、前后端工程师多方协作数周的需求,现在由销售或解决方案同事直接利用 AI Agent 模拟修改,在半小时内向用户展示原型并确认需求。
这种效率的跃升并非源于工具本身,而是源于对'领地意识'的消解。温铭建议反对者使用最强的大模型放手尝试,以亲身体验其边界,而非固守旧有认知。然而,反弹最强烈的群体恰恰是最资深的工程师,他们普遍质疑 "Vibe Coding" 产出的代码仅能作为玩具,无法承载生产级负载。温铭反驳称,代码能否上生产的关键不在于代码类型,而在于指挥者是否具备清晰的架构理解、测试思维及对生产环境的敬畏之心。若缺乏对技术的追求,即便简单的 CRUD 操作也无法通过 AI 高质量完成。
针对生产级代码的可靠性,温铭提出了一套严格的约束机制,核心原则是 "人必须参与决策"。即便 AI 的决策正确率高达 85% 至 90%,剩余 10% 的误差也足以导致项目质量崩塌。因此,他确立了 "看不懂的决定绝不做" 的铁律。在名为 AISIX 的新 AI 网关项目中,团队重度使用 Claude Code 进行编码,但核心概念设计、架构选型、里程碑推进及技术权衡等关键决策,全部保留给人类。为了约束 AI 的输出,团队强制要求 AI 执行端到端测试、Dashboard 核心路径点击测试及完善文档编写。
更关键的是,温铭引入了'AI 审 AI'的自动化流程:由 Claude Code 生成的代码,会立即启动一个全新的、独立的 AI Agent 进行审计,形成 "写" 与 "审" 的闭环,同时辅以 CodeRabbit 和 GitHub Copilot 进行第二层审查。
这一流程的底层逻辑在于,项目稳定性的来源并非代码的精美程度,而是大量用户在生产环境中的真实反馈与快速迭代。AI 的革命性在于将迭代速度推向极致:当用户在凌晨两点提交 Bug 时,系统首先由 AI 进行初步分析,结合版本号、场景及错误日志进行静态分析,超过一半的问题在此阶段即可定位;若无法确定,AI 会自动拉起复现环境,运行对应版本的代码与插件进行端到端测试。定位完成后,还会启动独立 Agent 在独立环境中进行二次复现与 Double Check。人类工程师的角色则转变为优化这套自动化流程:调整提示词、更换模型、打磨复现场景,并将经验沉淀其中。最终拍板权仍归人类,因为 AI 能在 10 分钟内完成过去需半小时至一小时的准备工作,让人类在精力充沛时做出关键判断。
Woofun AI 整理数据显示,温铭在使用 AI 写软件的过程中,经历了从 "堆框架" 到 "扔框架" 再到 "高质量决策" 的三个演变阶段。第一阶段,团队利用 ECC、Oh My OpenCode 等技能集合与提示词集合搭建软件工程框架,通过多个 Agent 并行推进任务,模拟指挥团队的感觉,以此发现盲点。第二阶段,随着大模型能力的提升,团队开始摒弃沉重的外部框架,转而将控制权收回。此时,大模型已能自主搜索、理解并执行 "做端到端测试" 或 "优化页面" 等指令,无需复杂的外部脚手架。温铭认为,此时工程师的真正价值在于将一二十年踩过的坑,沉淀为约一百行的 agents.md 或 CLAUDE.md 文件,作为原则与经验库供 AI 每次加载。
这意味着扔掉的是他人喂给的经验,留下的是自身的核心洞察。第三阶段则是从 "上瘾式编码" 转向 "高质量决策"。在加速键按下后,原本每天两三个的技术决策激增至四五十个,人类精力难以负荷。温铭曾陷入 "上瘾" 状态:睡前布置大任务让 AI 整夜运行,在公司持续迭代,回家后每十几分钟决策一次,导致睡眠不足且决策质量下降。他最终调整节奏,将并行任务控制在五六个,仅在上午至下午三四点精力充沛时进行高质量决策,其余时间通过阅读、运动恢复精力,晚上与周末彻底远离 AI。
这一调整确保了每天四五十个决策的高质量,避免了因疲劳导致的无效迭代。温铭强调,烧掉 1 亿还是 100 亿 Token 并非关键,核心在于经验是否沉淀进配置文件,以及高质量决策能否高效产出。
在技术架构层面,温铭团队基于对 AI 流量特性的深刻洞察,从零开始用 Rust 语言开发了全新的 AI 网关 AISIX,而非沿用 Apache APISIX 的 OpenResty/Lua 架构。
这一决策源于对 API 流量与 AI 流量核心概念差异的识别:API 网关关注路由、Service、Consumer 及插件,而 AI 流量的核心是 LLM Provider 与虚拟 API Key。若强行将模型合议、语义路由等 AI 特有功能套入传统 API 网关,会显得极不自然。AISIX 将各家大模型统一在单一 API 下,内置 Token 计量、成本控制、多模型负载均衡与 Fallback、Prompt 安全及流量可观测性等功能,实现了处理流程的通畅。选择 Rust 的根本原因在于 AI 流量多为长连接的流式输出,请求挂起时间长且并发极高,需要无 GC 停顿、单请求开销低且延迟可预测的运行时环境,Rust 在此场景下优于传统方案。
值得注意的是,这一痛点的发现并非源于自身需求,而是来自对行业大公司的观察。温铭个人使用 Claude Code Max 20 套餐,月费约 200 美金,Token 充足;但许多大公司采用 AWS Bedrock 或 Google Vertex API 按 Token 计费,月支出可达 2000 美金甚至更高。这些企业面临的核心痛点在于成本归属、安全管控及流量治理。正如当年开发 Apache APISIX 一样,产品解决的痛点往往来自对行业大批公司的洞察,而非开发者自身的直接体验。
温铭最后重申,同样的模型与提示词,不同经验水平的决策者会导致结果天差地别:有经验的工程师能将 AI 决策正确率从 80% 提升至 85%,而缺乏经验者可能始终停留在 80%。在每天四五十个决策的复利效应下,1.1 的 100 次方与 1.01 的 100 次方之间的差距巨大,最终产出的软件质量将呈现云泥之别。