54万行代码之后,Garry Tan发现AI编程的旧游戏结束了

2026/06/03 01:23
🌐zh-Hans

别再用富士康工厂的模式管理 Agent

54万行代码之后,Garry Tan发现AI编程的旧游戏结束了
原文标题:Stop building Foxconn factories for your agents
原文作者:Garry Tan,Y combinator
编译:Peggy

编者按:当越来越多人讨论「AI 会不会取代程序员」时,YC 总裁 Garry Tan 提出的其实是另一个问题:如果 AI 已经能够完成大部分编程工作,我们为什么还在用管理普通软件的方式管理它?

今年年初,Garry Tan 花费数月时间,用 Rails 和 AI Agent 写出了一个拥有 54 万行代码的项目 Garry's List。项目完成后,他却得出了一个看似矛盾的结论:这 54 万行代码本身并不重要,真正有价值的是在开发过程中沉淀出的 GStack——一种围绕 AI Agent 工作流构建的新型开发框架。

在他看来,过去几年软件行业形成了一种集体惯性:开发者不断增加测试、校验器、重试机制、后台任务和各种控制逻辑,把模型层层包裹起来。这种做法在模型昂贵且能力有限的时代有其合理性,但当 LLM 已经能够自主完成大量工作后,这些系统反而像是在给一个超智能工人建造「富士康工厂」——用大量规则和流程去约束本已具备能力的智能体。

随着模型成本快速下降、能力持续提升,软件开发的重点或许正在从「写更多代码」转向「设计更多能力」。作者提出用 Markdown 构建 skill pack(技能包,即可测试、可复用的能力模块),让 Agent 自动生成代码、测试与评估体系,将复杂工作流沉淀为可复利的能力资产。他甚至展示了一个例子:原本需要数天时间完成的黑客松评审工作,如今只需几十分钟即可由 Agent 完成。

从某种意义上说,这篇文章讨论的并非编程,而是软件工业化逻辑的终结。当代码不再是最稀缺的资源,工程师的核心竞争力也开始发生转移:比起写出更多代码,判断什么值得构建、如何定义问题,以及如何把经验沉淀为可复用能力,正在变得更加重要。作者最终得出的结论是:未来最优秀的工程师,未必是写代码最多的人,而可能是那个写得最少,却能释放最多智能的人。

以下为原文:

今年 1 月,我重新开始写代码,做了 Garry's List。Rails 代码和用于约束它的测试加起来,超过 50 万行。

我当时很为它自豪。但其实不该。真正值得自豪的不是这个应用,而是我在构建它的过程中摸索出来的一套工作方式。GStack,也就是我使用 Agent 编程的方式,正是在做 Garry's List 的过程中长出来的。后来我把它开源了。它现在已经是 GitHub 历史上 star 数最高的 100 个开源项目之一,不到三个月拿到了大约 10.5 万颗星。

那 50 多万行代码是「产品」。那套工作方式才是「副产品」。而真正重要的,是这个副产品。

那么,54 万行围绕一个 LLM 搭起来的代码,本质上是什么?

它是一座富士康工厂。为一个高度智能的 AI 工人建造的工厂。这个工人本不需要被高度监控,但我们还是给它建了。

进门要穿鞋套。早上 6 点起床。集体做操。日复一日站在同一条流水线上。生活艰难到每栋高楼都要装上防护网,因为——那不是一种你想过的人生。每一个测试、每一道护栏、每一次重试循环,都是往这个工人身上拧上的一寸笼子。而这个工人本来就能完成这项工作,甚至还能完成你根本没想到的一千件事。

人和 Agent 都有无限可能,但富士康工厂的逻辑,是从美好的生命中榨取智力和劳动。它们本来可以做这些工作,甚至做得多出 1000 倍,只要我们允许它们这么做。

我建过这样的工厂。今天所有人几乎都在这么建。而我现在想告诉你:不要再这么做了。

时间旅行者

我用 53.9 万行代码真正证明的,是我可以完美伪装成一个时间旅行者。

一个 2013 年的 Web 2.0 工程师,也就是上一次我真正称得上软件工程师时的自己,被扔进了 2026 年,手里拿着现代工具,却仍然用他唯一熟悉的方式构建软件:更多代码。永远是更多代码。

工具已经变了,但我的本能没有变。

2013 年的工程师在骨子里相信一件事:能力等于代码行数。这个信念在过去几十年里都是对的,直到今天。

如果你把 Codex 或 Claude Code 交给我,我可以完成 100 个甚至 1000 个工程师的工作量。但这仍然是同一张地图,只是换了更快的引擎,用最快的速度冲向一个现在已经错误的目的地。

这正是当下几乎所有 AI 构建者所处的位置。他们升级了工具,却保留了 2013 年的心智模型。

这个陷阱看起来不像陷阱,因为代码确实能跑。Garry's List 也确实上线了。那一个月,我感觉自己像是经历了人生中生产力最高的阶段。

但那只是服务于一个过时想法的生产力。

LLM 曾经很贵,所以我们必须「驯服」它们

截至 2025 年前后的旧经济学是:LLM 调用很贵,而代码很便宜。

所以你会写代码来节省模型调用,约束它、驯服它、小心翼翼地调用它。那时的架构是:用大量软件包裹少数几个珍贵的模型调用。

但这个等式的两边都反过来了。

模型正在变得便宜,而且每个季度都更便宜。与此同时,模型足够聪明,价值与成本的比例已经发生翻转。模型还能写出可用的代码。

所以你不再需要写代码来「看管」模型。你可以用自然语言告诉模型要做什么,然后让它只写出真正必要的最小代码。

这就是 just-in-time software(即时生成式软件),而我们正在进入它的黄金时代。

软件制品的形态也彻底变了。那个 Rails 应用是 54 万行我写下并拥有的代码,以及用来监管它的测试。它的替代品,是一个由 Markdown 和少量代码构成的 Agent,规模只有前者的一小部分。

能力相同。更容易阅读。更容易维护。也灵活得多。因为行为存在于你可以用自然语言编辑的指令里,而不是冻结在你某天写下的逻辑代码中。

我们曾经写代码来照看一个东西,但现在这个东西已经比那些代码更聪明。

富士康工厂内部:连防护网都搭好了

如果你最近在写代码,很可能已经在不知不觉中建造这种工厂。

你可以走进自己的代码库,数一数有多少代码只是因为你不信任模型能完成它的工作才存在。我的代码库里,大约有 26.2 万行应用代码,以及大约 27.6 万行用来监管它的测试。审计委员会比公司本身还大。

有些清洗器在检查模型本来可以处理的输入。有些校验器在检查模型本来可以发现的输出。有些重试循环包裹着模型调用,而模型其实已经能够自行恢复。每一行这样的代码,都是在下注:这个工人一定会失败。

你也写过类似的下注。我们都写过。

127 个后台任务,其中 33 个是定时任务。这不是能力,而是给一个现在通常会准时上班的 LLM 工人设置了 33 个闹钟。

在我建造「富士康工厂」的那些日子里,Claude 和我写过一个 1778 行的文件。它唯一的作用,是质疑模型给出的事实。

它会把模型提出的每一个论断拆开,并行地发给五个不同来源验证,然后打分。简单论断会先经过一道轻量分诊门槛,避免所有内容都走完整流程。如果第一轮没有结果,就重试。然后还有备用方案的备用方案。

《瑞克和莫蒂》里有一集,Rick 在早餐桌上造了一个小机器人。机器人启动后抬头问:我的使命是什么?Rick 说:你负责递黄油。机器人把黄油碟推过去,低头看着自己的双手,说:天啊。然后它就坐在那里。那个机器人也有无限可能。它却被造出来递黄油。我的 27.6 万行测试,就是那个黄油碟。

当你用 2023 年式的「富士康工厂」方法构建软件时,你建造的是一座笼子。如果不小心,你自己会变成看守这座 AI Agent 监狱的人。

Markdown 现在就是程序

我说 Markdown,并不是指 prompt。

Prompt 是短暂的。你输入一句话,得到一个结果,然后它就蒸发了。

我说的是构建。是有版本管理、可测试、可复用的构建。

Markdown 是指令层:意图、技能、判断,以及关于工作应该如何完成的说明。TypeScript 则是薄薄一层确定性逻辑。它只承担少数真正必须由代码完成的事情:I/O,以及那些绝对不能幻觉的部分。

更重要的是,你要像测试代码一样测试 Markdown。

在我的系统里,这个循环只需要一个词:skillify it。

我会先和 Agent 一起把某个东西做出来,直到它能工作。然后我说:「skillify it。」接着 Agent 会写出:

Markdown 技能说明;

它需要的最小代码;

代码的单元测试;

技能的 LLM eval;

覆盖技能与代码的集成测试;

一个 resolver,让 Agent 在相关场景下自动调用这个技能;

以及 resolver 自身的 eval。

这一整套,就是一个 skill pack(技能包)。它是一个可复用能力单元,会不断复利。

真正神奇的是测试:对 skill 的覆盖,允许它在变化中不被破坏。这就是它和 vibe coding(凭感觉写代码)的区别。Vibe coding 只是感觉,而 skill pack 有测试。

我们现在才刚刚开始实时摸索 Agent 工程的系统原语,就像早期 CPU 时代发明栈、堆、寄存器和冯·诺依曼架构一样。

我认为 skill pack 就是这样的原语之一。Harness(执行框架)也是另一个。

大多数人还没意识到这一点,因为他们仍然在用代码行数衡量软件。

你真的可以建出什么疯狂东西

这不是一个玩具式论点。

这个 Agent 能做的事情,已经超过了那个 50 多万行 Rails 应用,而且新增代码只有后者的一小部分。

举个具体例子:黑客松评审。

两周前的一个周六,我们办了一场 GStack/GBrain 黑客松,有 85 个提交作品。我上传了包含所有作品的 Google Drive,然后说:开始。

Agent 分析了每个代码库的代码质量,对每一位参赛者做了深度研究,观看并截图了每个 demo 视频,给界面打分,并对 85 支团队进行了排名。最后,它告诉我这批作品里最值得关注的 5 个应用。

评审一场黑客松,原本是好几天的苦活,现在变成了大约 30 分钟的事。

我没有写代码。我让 OpenClaw 去做任务,我负责引导它。等它完成后,我说:skillify it。

于是它变成了一个任何人都可以永远复用的 tarball,可以应用在任何黑客松表格上。

我现在几乎每天都在说「skillify」。我已经有超过 350 个 skill pack。几乎所有我在个人和工作中需要处理的任务,现在我的 Agent 都能做。

这就是反转的一个例子。

过去,一个这样的能力会是一个真正的软件项目:需要爬虫、评分流水线、视频处理、研究模块、排名系统。现在,它变成了 Markdown 加一点代码,由 Agent 在一个下午构建出来,并且所有人都可以复用。

顺便说一句,那场黑客松的冠军确实写出了一段我最后润色并合并进 main 分支的代码。现在 GStack 可以在模拟器和真实设备上测试 iOS 应用,而这个完整功能,是一个人在黑客松不到 8 小时内做出来的。

Tokenmaxxing

这里有一张入场券,但几乎没人愿意付钱:你必须愿意在 token 上花钱。

Peter Steinberger 做了 OpenClaw,这是我最喜欢的 harness。他说过,自己愿意每年花大约 100 万美元在 token 上。

大多数人听到这个数字会退缩。但他们不该退缩,因为黄金就在这里:如果你愿意这么做,你就可以生活在 2028 年。而其他人要花好几年才能追上来。

这也是为什么 OpenAI 决定向每家 YC 公司提供 200 万美元额度的 token credit,以 uncapped SAFE 的形式发放。

当你能够把原始智能转化成 token,再把 token 转化成真正可被用户使用、能解决真实需求、并且用户愿意付费的产出时,会发生某种神奇的事情。

如果你是创始人,就应该把这种能力拉到最大。这也是为什么我一直强调 skillify,因为它是一种真正能带来好结果的方法。

过去一个时代,我们总觉得 LLM 调用太贵,必须节制使用。我们一直在 ration,也就是配给它们。

但现在,正是这个本能在拖慢人们。

如果你愿意 tokenmax,愿意让 Agent 自由消耗 token、持续运行,你就能获得类似 1994 年互联网早期的先发优势,只不过这次的成本用 token 支付。

这会把仍然对一个价格正在崩塌的资源斤斤计较的 99.99% 以上组织挡在门外,把领先优势交给少数真正看懂的人。

一年几万到几十万美元,对一些人来说甚至更少,你今天就能以几年后全世界不得不采用的方式运行。

你可以在 2026 年活成 2028 年。这笔提前投入是值得的。因为今天价值 10 万美元的 token,明年可能只要 1 万美元,后年可能只要 1000 美元,到 2028 年底也许只要 100 美元。

如果你告诉历史上任何一个创业者:你可以投入六位数资本,让自己提前两到三年进入未来,并且维持这种优势好几年,100 个合格创始人里,100 个都会接受这笔交易。

唯一挡在面前的,是那个 2013 年的本能:它告诉你,模型调用太贵,不能放开用。

但它们已经不贵了。那是旧经济学。反转已经发生。

Esalen,而不是富士康

如果 54 万行控制代码是在为工人建造一座富士康工厂,那么解法就是建造它的反面。

Big Sur 的悬崖边有一个地方叫 Esalen。人们去那里被拆解、被重塑,放下盔甲,然后更像自己地回来。

没有流水线。没有工头。没有早上 6 点的哨声。是自由,而不是控制。

去建造那样的东西。

去建造一个 YC 那样的地方:我们在那里帮助你建立公司,解决真实问题,找到 product-market fit。

建造那些能让工人自由的地方,无论这些工人是人类,还是 AI。

这就是整个精神内核。

做那些能让 Agent 自由的东西。做那些能让人类自由发挥的公司。

在知识工作中,工厂是失败模式。真正的目标,是建立释放人的机构。现在,这个目标也指向了 Agent。

OpenClaw 就像一辆你必须自带扳手的法拉利。模型是引擎,不是整辆车。我们仍然处在 Apple I 时刻,还在焊面包板。

它发布得很粗糙。你仍然必须自己把它完成。

我开源的 GBrain、检索引擎和 skill pack,还不是开箱即用的完整产品。

有人说 OpenClaw 不安全。他们不明白,自由正是它强大的原因。在你真正遇到问题之前,不要急着给一个你信任的东西拧上安全护栏。你手里的扳手,恰恰说明它还没有被关进笼子。

控制系统之所以精致,是因为控制需要彻底的控制,也就是富士康工厂。自由系统之所以粗糙,是因为它相信你会把它完成。

你要选择自己到底在建哪一种。然后回头看看你写了多少代码。

这到底意味着什么

54 万行 Rails 代码,是我证明自己仍然能在旧游戏里打到最高水平。

但那个水平属于 Web 2.0,属于十年前。

我依然能像过去一样打得很好,甚至能成为 1000 倍工程师。但我做的是建造富士康工厂。旧代码。旧游戏。

而新游戏,根本不是用代码行数来玩的。

结果是,我的黑粉们是对的。如果你们正在读这篇文章,匿名朋友们,我向你们致意。

当你可以把意图直接转化成可运行、可测试、可复用的系统时,瓶颈就不再是你能构建多少东西,而是你到底想要什么,以及它是否值得构建。

稀缺资源变成了清晰度、品味和判断力。

写代码最少的工程师,往往才是构建最多东西的人。

我写了 54 万行代码才学到这一点。你不必重走一遍。

[原文链接]

QQlink

Tiada pintu belakang kripto, tiada kompromi. Platform sosial dan kewangan terdesentralisasi berasaskan teknologi blockchain, mengembalikan privasi dan kebebasan kepada pengguna.

© 2024 Pasukan R&D QQlink. Hak Cipta Terpelihara.