Litecoin

中国AI为什么发展得这么快?答案藏在实验室内部

2026/05/13 07:37
🌐en

一个美国工程师眼中的中国AI实验室

中国AI为什么发展得这么快?答案藏在实验室内部
原文标题:Notes from inside China's AI labs
原文作者:Nathan Lambert
编译:Peggy,BlockBeats

编者按:中国 AI 实验室正在成为全球大模型竞争中越来越难忽视的力量。它们的优势不只是人才多、工程强、迭代快,更来自一种很现实的组织方式:少谈概念,多做模型;少强调个人明星,多强调团队执行;少依赖外部服务,更倾向于自己掌握核心技术栈。

本文作者 Nathan Lambert 走访了多家中国头部 AI 实验室后发现,中国 AI 生态和美国并不完全一样。美国更重视原创范式、资本投入和顶尖科学家的个人影响力;中国则更擅长在已有方向上快速追赶,通过开源、工程优化和大量年轻研究者的投入,把模型能力迅速推向前沿。

最值得关注的,不是中国 AI 是否已经超过美国,而是两种不同的发展路径正在形成:美国更像是由资本和明星实验室驱动的前沿竞赛,中国则更像是由工程能力、开源生态和技术自控意识共同推动的产业竞赛。

这意味着,未来 AI 竞争不只是模型排行榜之争,也会是组织能力、开发者生态和产业执行力之争。中国 AI 的真正变化,正在于它不再只是复制硅谷,而是在用自己的方式参与全球前沿。

以下为原文:

坐在从杭州开往上海的新式高铁上,我望向窗外,看到起伏分明的山脊,山上点缀着风力涡轮机,在落日映照下形成剪影。群山构成了背景,眼前则是大片田野与成片高楼交错的景象。

我带着极大的谦逊从中国返回。去到一个如此陌生的地方,却受到如此热情的欢迎,这是一种非常温暖、也非常具有人情味的体验。我有幸见到了许多 AI 生态中的人,他们是我此前只在远处知道的人;而他们用灿烂的笑容和热情迎接我,让我再次意识到,我的工作以及整个 AI 生态本身,都是全球性的。

中国研究者的心态

正在构建语言模型的中国公司,可以说非常适合作为这项技术的「快速跟随者」。它们建立在中国长期以来的教育与工作文化传统之上,同时也有着与西方略有不同的技术公司建设方式。

如果只看产出,也就是最新、最大的模型,以及这些模型所支持的智能体式工作流;再看投入要素,比如优秀的科学家、大规模数据和加速计算资源,那么中国实验室和美国实验室看起来大体相似。真正长期存在的差异,出现在这些要素被如何组织、如何塑造之中。

我一直认为,中国实验室之所以非常擅长追赶并保持在前沿附近,一个原因在于它们在文化上与这项任务非常匹配。但在没有直接和人交流之前,我觉得自己不适合把这种直觉归因于某种重要影响。与中国头部实验室中许多优秀、谦逊且开放的科学家交谈之后,我的很多想法变得更加清晰了。

今天要构建最好的大语言模型,很大程度上取决于贯穿整个技术栈的细致工作:从数据,到架构细节,再到强化学习算法的实现。模型的每一个环节都有可能带来一些提升,而如何把这些提升组合在一起,是一个复杂过程。在这个过程中,一些非常聪明的个人所做的工作,可能必须被搁置,以便让整体模型在多目标优化中达到最大化。

美国研究者显然也非常擅长解决单个组件的问题,但美国更有一种「为自己发声」的文化。作为科学家,当你主动为自己的工作争取关注时,你往往会更成功;而当代文化也正在推动一种新的成名路径,也就是成为「头部 AI 科学家」。这会带来直接冲突。

外界广泛传闻称,Llama 组织曾在这些利益诉求嵌入层级化组织之后,因政治压力而崩塌。我也听其他实验室说过,有时可能需要「安抚」一位顶尖研究者,让他们停止抱怨自己的想法没有被纳入最终模型。无论这是否完全属实,意思都很清楚:自我意识和职业晋升欲望,确实会妨碍人们构建最好的模型。美国和中国之间,哪怕只是这种文化上的一个小幅方向性差异,也可能对最终产出产生有意义的影响。

其中一部分差异,和中国到底是谁在构建这些模型有关。在所有实验室里,一个很直接的现实是:核心贡献者中有很大比例是仍在读书的学生。这些实验室都相当年轻,这让我想起我们在 Ai2 的组织方式:学生被视为同伴,并被直接整合进大语言模型团队。

这和美国顶尖实验室非常不同。在美国,OpenAI、Anthropic、Cursor 等公司根本不提供实习机会。Google 等其他公司名义上会提供和 Gemini 相关的实习,但很多人都会担心,自己的实习会不会被隔离在真正核心工作之外。

概括来说,这种轻微的文化差异,可能通过以下方式提升模型构建能力:为了提升最终模型,人们更愿意去做那些不那么光鲜的工作;刚开始参与 AI 构建的人,可能不受此前几轮 AI 炒作周期的影响,因此能够更快适应新的现代技术方法。事实上,我交谈过的一位中国科学家非常明确地把这一点视为优势;较低的自我意识,让组织架构在一定程度上更容易扩展,因为人们较少试图「玩弄系统」;大量人才非常适合解决那些在别处已经有概念验证的问题,等等。

这种更有利于构建当下语言模型的能力倾向,与一种已知刻板印象形成对照:人们常认为,中国研究者较少产出那种更具创造性、能够开辟新领域的「从 0 到 1」的学术研究。

在此次行程中几次更偏学术的实验室访问里,许多负责人都谈到,他们正在培养这种更具雄心的研究文化。与此同时,我们交谈过的一些技术负责人则怀疑,这种科学研究方式的重塑在短期内是否可能实现,因为它需要重新设计教育体系和激励体系,而这个改造太大,很难在当前经济均衡下发生。

这种文化似乎正在训练出一批非常擅长「大语言模型构建游戏」的学生和工程师。当然,他们的数量也极其充足。

这些学生告诉我,中国也正在发生与美国类似的人才外流:许多此前考虑走学术道路的人,如今打算留在产业界。其中最有趣的一句话来自一位原本想当教授的研究者,他说自己想当教授,是因为希望接近教育系统;但他随后又评论说,教育已经被大语言模型解决了——「学生为什么还要来找我聊天!」

学生们带着新鲜眼光进入大语言模型领域,这是一个优势。过去几年里,我们看到大语言模型的关键范式不断变化:从扩展 MoE,到扩展强化学习,再到支持智能体。要把这些事情中的任何一件做好,都需要极其快速地吸收大量背景信息,既包括更广泛的文献,也包括所在公司内部的技术栈。

学生习惯于做这类事情,也愿意带着谦逊心态放下对「什么应该有效」的所有预设。他们一头扎进去,把人生投入其中,只为获得改进模型的机会。

这些学生也非常神奇地直接,并且没有一些会让科学家分心的哲学闲谈。当我问他们如何看待模型的经济影响或长期社会风险时,拥有复杂观点、并希望在这些议题上施加影响的中国研究者明显少得多。他们认为自己的角色就是构建最好的模型。

这种差异很微妙,也很容易被否认。但当你和一位优雅、聪明、能够用英语清晰表达的研究者进行长时间交谈时,它最容易被感受到:当你问起一些关于 AI 的更哲学层面的问题,这些基础问题会悬在空气中,而对方流露出一种简单的困惑。对他们来说,这是一种范畴错误。

甚至有一位研究者引用了 Dan Wang 的著名判断:相较于由律师主导的美国,中国是由工程师治理的。在谈到这些问题时,他用这个类比强调他们想要建设的愿望。在中国,并没有一种系统性路径,能够像 Dwarkesh 或 Lex 这类超级主流播客那样,培养中国科学家的明星影响力。

我试图让中国科学家评论由 AI 引发的未来经济不确定性、超越简单 AGI 能力的问题,或者模型应该如何表现的道德争论;这些问题最终都让我看到了这些科学家的成长背景和教育背景(已编辑 1)。他们极其专注于自己的工作,但他们成长于一个并不鼓励讨论和表达社会应如何组织、如何改变的体系。

把视角拉远看,尤其是北京,给我的感觉很像湾区:一个有竞争力的实验室,可能就在步行或打车几分钟之外。我下飞机之后,在去酒店的路上顺便去了阿里巴巴北京园区。接下来的 36 小时里,我们去了智谱 AI、月之暗面、清华大学、美团、小米和 01.ai。

在中国坐滴滴出行很方便。如果你选择 XL 车型,经常会被分配到带按摩椅的电动小型面包车。我们向研究者询问人才争夺战,他们说这和我们在美国经历的非常相似。研究者跳槽很正常,而人们选择去哪里,很大程度上取决于当下哪里的氛围最好。

在中国,大语言模型社区给人的感觉更像一个生态系统,而不是彼此交战的部落。在许多非公开对话中,我听到的几乎全是对同行的尊重。所有中国实验室都很忌惮字节跳动及其流行的豆包模型,因为它是中国唯一一家前沿闭源实验室。与此同时,所有实验室都非常尊重 DeepSeek,认为它是在执行层面最具研究品味的实验室。在美国,当你和实验室成员进行非公开交流时,火花往往很快就会四溅。

中国研究者的谦逊中,最让我印象深刻的一点是,他们在商业层面也经常耸耸肩,说那不是他们的问题。而在美国,似乎每个人都沉迷于各种生态层面的产业趋势,从数据卖方,到算力,再到融资。

中国 AI 产业与西方实验室的不同与相似之处

今天构建一个 AI 模型之所以如此有趣,是因为这已经不只是把一群优秀研究者聚在同一栋楼里、共同打造一个工程奇迹。过去确实更像这样,但为了维持 AI 业务,大语言模型正在变成一种混合体:它涉及构建、部署、融资,以及推动这一创造物被采用。

头部 AI 公司存在于复杂生态系统之中。这些生态系统提供资金、算力、数据以及更多资源,以便持续推动前沿向前发展。

西方生态系统中,围绕创造和维持大语言模型所需各种投入要素的整合方式,已经被相对充分地概念化和绘制出来。Anthropic 和 OpenAI 就是典型代表。因此,如果我们能发现中国实验室在这些问题上的思考方式有明显不同,就能看出不同公司可能在未来押注于哪些有意义的差异。当然,这些未来也会受到融资和/或算力约束的强烈影响。

我把与这些实验室交流后得到的几个最大「AI 产业层面」的收获整理如下:

第一,国内 AI 需求已经出现早期迹象。
有一种被广泛讨论的假设认为,中国 AI 市场会更小,因为中国公司通常不愿意为软件付费,因此永远无法释放一个足以支撑实验室的巨大推理市场。

但这个判断只适用于与 SaaS 生态相对应的软件支出。而 SaaS 生态在中国历史上一直很小。另一方面,中国显然仍然有一个庞大的云市场。

一个关键且尚未回答的问题是:中国企业在 AI 上的支出,到底会更像 SaaS 市场,也就是规模较小;还是更像云市场,也就是基础性支出。这个问题连中国实验室内部也在讨论。总体来看,我感觉 AI 正在更接近云市场,而没有人真正担心围绕新工具形成的市场无法增长。

第二,大多数开发者都深受 Claude 影响。
尽管 Claude 名义上在中国被禁用,但中国大多数 AI 开发者都非常迷恋 Claude,以及它如何改变了他们构建软件的方式。仅仅因为中国过去不太愿意购买软件,并不意味着我会认为中国不会出现一轮巨大的推理需求增长。

中国技术人员非常务实、谦逊且有动力。这一点给我的感觉,比任何「不花钱买软件」的历史习惯都更强。

一些中国研究者会提到他们使用自己的工具进行构建,比如 Kimi 或 GLM 的命令行工具,但所有人都会提到他们使用 Claude。令人意外的是,很少有人提到 Codex,而 Codex 在湾区显然正在迅速流行。

第三,中国公司有一种技术所有权心态。
中国文化正在与一个轰鸣运转的经济引擎结合,产生一些难以预测的结果。我留下的一个深刻感受是,数量众多的 AI 模型,反映的是这里许多技术企业在现实中的一种务实均衡。并不存在一个总规划。

这个产业由一种对字节跳动和阿里巴巴的尊重所定义。它们是被认为会凭借强大资源赢下许多市场的大型在位者。DeepSeek 是受到尊敬的技术领导者,但远不是市场领导者。它们设定方向,但并不具备经济上赢得市场的结构。

这就留下了像美团或蚂蚁集团这样的公司。西方人可能会惊讶于它们为什么也在构建这些模型。但实际上,它们显然把大语言模型视为未来技术产品的核心,因此它们需要一个强大的基础。

当它们对一个强大的通用模型进行微调时,开源社区对模型的反馈会让它们的技术栈更坚固,同时它们也可以为自己的产品保留内部微调版本。这个行业中的「开放优先」心态,很大程度上由务实主义定义:它能帮助模型获得强反馈,能回馈开源社区,也能赋能它们自身的使命。

第四,政府支持是真实存在的,但规模尚不清楚。
人们经常断言,中国政府正在积极帮助开放大语言模型竞赛。但这是一个由许多层级构成的、相对去中心化的政府体系,而每一层并没有一套清晰的操作手册,规定自己到底应该做什么。

北京不同街区之间会竞争,争取让科技公司把办公室设在那里。提供给这些公司的「帮助」,几乎可以肯定包括移除许可证等官僚流程中的繁文缛节。但这种帮助能走多远?政府的不同层级能否帮助吸引人才?它们能否帮助走私芯片?

在整个访问过程中,确实有许多关于政府兴趣或帮助的提及,但相关信息远远不足以让我以断言的方式报告细节,也不足以让我对政府究竟能如何改变中国 AI 发展轨迹形成一个自信的世界观。

当然,也完全没有迹象表明中国政府最高层在影响模型的任何技术决策。

第五,数据产业远不如西方发达。
我们此前听说,Anthropic 或 OpenAI 会为单个环境花费超过 1000 万美元,每年为了推动强化学习前沿而进行的累计支出达到数亿美元量级。因此,我们很想知道,中国实验室是否也在从美国公司购买同样的环境,或者是否有一个镜像式的国内生态在支持它们。

答案并不是完整意义上的「没有数据产业」,而是说,根据它们的经验,数据产业质量相对较差,因此很多时候更好的做法是内部自建环境或数据。研究者自己会花大量时间制作强化学习训练环境,而字节跳动、阿里巴巴等较大的公司,则可以拥有内部数据标注团队来支持这件事。这一切都呼应了前面提到的「自建而非购买」的心态。

第六,对更多英伟达芯片的渴求非常强烈。
英伟达算力是训练的黄金标准,而每个人的进展都受限于没有更多算力。如果供应充足,显然它们会购买。包括但不限于华为在内的其他加速器,在推理方面得到了正面评价。无数实验室都可以使用华为芯片。

这些要点描绘出一个非常不同的 AI 生态系统。如果快速把西方实验室的运作方式套用到中国同行身上,往往会造成范畴错误。关键问题在于,这些不同生态系统是否会产出有实质差异的模型类型;还是说,中国模型始终会被解释为类似于 3 到 9 个月前的美国前沿模型。

结论:全球均衡

在这次旅行之前,我对中国了解得太少;而离开时,我感觉自己才刚刚开始学习。中国不是一个可以用规则或配方来表达的地方,而是一个有着非常不同动力机制和化学反应的地方。它的文化如此古老、如此深厚,并且仍然与国内技术建设的方式完全交织在一起。我还有很多东西需要学习。

美国当前权力结构中的许多部分,都把它们现有的中国观当作决策中的关键心理工具。在我与中国几乎每一家头部 AI 实验室进行过正式或非正式的面对面交流之后,我发现中国有许多品质和本能,是西方决策方式很难建模的。

即便我直接询问这些实验室为什么要开放发布它们最强的模型,我仍然很难把「所有权心态」和「真诚支持生态」之间的交集完全串联起来。

这里的实验室非常务实,并不一定是开源方面的绝对主义者,并不是它们构建的每一个模型都会开放发布。但它们在支持开发者、支持生态,以及把开放作为进一步了解自身模型的方式上,有着很深的意图。

几乎每一家中国大型科技公司都在构建自己的通用大语言模型。我们已经看到,美团这样的平台型服务公司、小米这样的大型消费科技公司,都发布了开放权重模型。美国的同类公司通常只会购买服务。

这些公司构建大语言模型,并不是为了在热门新事物中刷存在感,而是出于一种深层且根本的愿望:控制自己的技术栈,并发展当下最重要的技术。当我从笔记本电脑上抬头,总能在地平线上看到一簇簇起重机时,这显然与中国更广泛的建设文化和建设能量相契合。

中国研究者身上的人情味、魅力和真诚温暖,非常令人感到亲近。在个人层面上,我们在美国习惯的那种残酷地缘政治讨论,完全没有渗透到他们身上。这个世界可以拥有更多这种简单的积极性。作为 AI 社区的一员,我现在更担心的是,围绕国籍标签,成员和群体之间正在出现裂缝。

如果我说自己不希望美国实验室在 AI 技术栈的每一个部分都成为明确领导者,那是在撒谎。尤其是在我投入大量时间的开放模型领域,我是美国人,这是一个诚实的偏好。

与此同时,我希望开放生态本身能够在全球范围内繁荣发展,因为这可以为世界创造更安全、更可访问、也更有用的 AI。而眼下的问题是,美国实验室是否会采取行动,占据这种领导位置。

在我写完这篇文章时,关于行政命令影响开放模型的更多传闻正在流传。这可能会进一步复杂化美国领导力与全球生态之间的协同关系——这并没有让我更有信心。

感谢我在月之暗面、智谱、美团、小米、通义千问、蚂蚁灵光、01.ai 以及其他机构中有幸交谈的所有优秀人士。每个人都如此热情,也如此慷慨地付出了自己的时间。随着我的想法逐渐成形,我会继续分享关于中国的观察,包括更广泛的文化层面,也包括 AI 领域本身。

显然,这些知识将与 AI 前沿发展正在展开的故事直接相关。

[原文链接]

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.