Litecoin

Cuộc phỏng vấn mới nhất của OpenAI Lianchuang: Sau khi tắt Sora, bước tiếp theo của ChatGPT là gì?

2026/04/03 02:54
🌐vi

OpenAI tập trung vào siêu ứng dụng, AGI chỉ là bước cuối cùng

Cuộc phỏng vấn mới nhất của OpenAI Lianchuang: Sau khi tắt Sora, bước tiếp theo của ChatGPT là gì?
Tiêu đề video: Chủ tịch OpenAI Greg Brockman: Chiến lược AI, AGI và Siêu ứng dụng
Tác giả video: Alex Kantrowitz
Biên soạn bởi: Peggy, BlockBeats

Lưu ý của người biên tập: Bài viết này được tổng hợp từ cuộc trò chuyện với Chủ tịch và đồng sáng lập OpenAI Greg Brockman trên Big Technology Podcast. Chương trình này từ lâu đã tập trung vào những thay đổi trong AI, ngành công nghệ và cơ cấu kinh doanh, đồng thời là cơ hội quan trọng để quan sát các nhận định tuyến đầu ở Thung lũng Silicon.

Trong cuộc trò chuyện này, Brockman đã không làm như vậy dừng lại ở khả năng của mô hình mà còn đưa vấn đề đi xa hơn: khi khả năng của AI đã được xác minh cơ bản, ngành sẽ chọn con đường, tái cấu trúc các dạng sản phẩm và chịu tác động hệ thống mà nó mang lại như thế nào? Cuộc trò chuyện xoay quanh chiến lược sản phẩm của OpenAI, các “siêu ứng dụng” sắp ra mắt và nhận định rằng AI đã bước vào “giai đoạn cất cánh”.

Cuộc trò chuyện này có thể được hiểu từ ba khía cạnh.

Đầu tiên là sự hội tụ của các con đường.
Từ việc tạo video đến các mô hình suy luận, từ tiến bộ đa dòng đến sự cân bằng tích cực, sự lựa chọn của OpenAI không phải là một đánh giá đơn giản về giá trị kỹ thuật mà là một phản ứng trước những hạn chế thực tế—sức mạnh tính toán đã trở thành nút thắt cốt lõi. Với tiền đề nguồn lực hạn chế, lộ trình kỹ thuật bắt đầu hội tụ theo hai hướng có lợi thế nhất: trợ lý cá nhân và giải quyết vấn đề phức tạp. Điều này cũng có nghĩa là logic cạnh tranh của AI đang chuyển từ “nó có thể làm gì” sang “phải làm gì trước”.

Thứ hai là việc xây dựng lại hình thức.
Đề xuất “siêu ứng dụng” thực chất là bước nhảy vọt về hình thức sản phẩm. AI không còn là tập hợp các công cụ rải rác mà là một cổng thống nhất: nó hiểu ngữ cảnh, gọi công cụ, thực hiện nhiệm vụ và tiếp tục tích lũy ký ức trong các tình huống khác nhau. Từ ChatGPT đến Codex, AI đang dần đảm nhiệm toàn bộ quy trình làm việc và vai trò của con người cũng thay đổi từ người thực thi sang người lập lịch trình - đặt mục tiêu, phân công nhiệm vụ và giám sát.

Thứ ba là sự thay đổi nhịp điệu.
Nếu hai năm qua là một giai đoạn leo thang về năng lực thì những gì đang diễn ra bây giờ là một cuộc "cất cánh". Một mặt, khả năng của mô hình đã tăng từ "hỗ trợ khoảng 20% ​​công việc" sang "bao gồm khoảng 80% nhiệm vụ", trực tiếp kích hoạt việc xây dựng lại quy trình làm việc; mặt khác, AI đang tham gia vào quá trình phát triển của chính nó (sử dụng AI để tối ưu hóa AI), áp dụng sự cộng tác giữa chip, ứng dụng và phía doanh nghiệp, tạo thành một vòng khép kín và tiếp tục tăng tốc. AI không còn là công nghệ điểm nữa và đang bắt đầu trở thành động cơ chính thúc đẩy tăng trưởng kinh tế.

Nhưng đồng thời, một loạt vấn đề khác cũng đang nổi lên: sự ngờ vực của công chúng, tình trạng việc làm không ổn định, tranh cãi do trung tâm dữ liệu gây ra cũng như ranh giới về an ninh và quản trị. Câu trả lời của Brockman không hoàn toàn nằm ở công nghệ. Ông nhấn mạnh thêm hai điểm: thứ nhất, rủi ro không thể được giải quyết thông qua “kiểm soát tập trung” và cơ sở hạ tầng xã hội tương tự như hệ thống điện cần được xây dựng xung quanh AI; thứ hai, khả năng của mỗi cá nhân đang thay đổi - điều thực sự quan trọng không còn là “liệu ​​bạn có thể sử dụng công cụ hay không” mà là “liệu ​​bạn có thể sử dụng AI để đạt được mục tiêu của mình hay không”.

Nếu câu hỏi trước đây là "AI có thể làm gì?", thì câu hỏi bây giờ đã trở thành, khi AI bắt đầu làm hầu hết mọi việc cho bạn, bạn còn cần phải làm gì nữa.

Sau đây là nội dung gốc (nội dung gốc đã được chỉnh sửa để dễ đọc, dễ hiểu):

TL;DR

AGI đã bước vào giai đoạn "đường dẫn rõ ràng": Greg Brockman (Đồng sáng tạo OpenAI) tin rằng mô hình suy luận dựa trên GPT có lộ trình rõ ràng đến AGI và dự kiến ​​sẽ triển khai trong vòng vài năm nữa, nhưng hình thức vẫn sẽ còn "lởm chởm".

Lưu ý: AGI (Artificial General Intelligence) dùng để chỉ trí tuệ nhân tạo nói chung, dùng để chỉ một hệ thống AI tương đương hoặc thậm chí vượt qua khả năng của con người trong hầu hết các nhiệm vụ nhận thức. Không giống như "AI chuyên dụng" hiện tại (chẳng hạn như nhận dạng hình ảnh, thuật toán đề xuất), AGI nhấn mạnh đến tính linh hoạt và khả năng chuyển giao giữa các tác vụ.

Sự hội tụ chiến lược: từ khám phá nhiều dòng đến hai ứng dụng cốt lõi:Dưới sức mạnh tính toán hạn chế, OpenAI tập trung nguồn lực vào "trợ lý cá nhân" và "giải quyết vấn đề phức tạp" thay vì phát triển tất cả các hướng cùng một lúc (chẳng hạn như tạo video).

"Siêu ứng dụng" sẽ trở thành hình thức đầu vào của AI: Trò chuyện, lập trình, trình duyệt và công việc tri thức sẽ được tích hợp vào một hệ thống thống nhất, AI sẽ được chuyển đổi từ một công cụ thành "lớp thực thi" và người dùng sẽ được chuyển đổi thành "người lập lịch".

Bước ngoặt quan trọng: AI bắt đầu đảm nhận quá trình làm việc thay vì hỗ trợ: Khả năng của mô hình đã nhảy từ “hoàn thành 20% nhiệm vụ” lên “có thể đảm nhiệm 80%”, buộc các cá nhân và doanh nghiệp phải xây dựng lại cách thức làm việc.

Sức mạnh tính toán đã trở thành nút thắt cốt lõi và là trọng tâm của sự cạnh tranh:Nhu cầu AI vượt xa nguồn cung. Giới hạn trong tương lai sẽ không phải là khả năng của mô hình mà tài nguyên máy tính, trung tâm dữ liệu và cơ sở hạ tầng đã trở thành những biến số quan trọng.

AI đang diễn ra quá trình "cất cánh": Khả năng tự tăng tốc công nghệ (AI tối ưu hóa AI) áp dụng sự hợp tác trong ngành (chip, ứng dụng, doanh nghiệp) để thúc đẩy AI từ một công cụ trở thành động cơ tăng trưởng kinh tế.

Rủi ro lớn nhất không nằm ở công nghệ mà nằm ở phương pháp quản trị và sử dụng: Các vấn đề an ninh không thể được giải quyết bởi một thực thể duy nhất và đòi hỏi hệ sinh thái mở và cơ sở hạ tầng xã hội phải cùng nhau thực hiện.

Năng lực cốt lõi của cá nhân đang thay đổi: Khả năng cạnh tranh trong tương lai không nằm ở việc "thực thi" mà ở việc "đặt mục tiêu + quản lý hệ thống AI". Việc sử dụng tích cực AI sẽ trở thành một khả năng cơ bản.

Tóm tắt cuộc trò chuyện:

Alex (người điều hành):
Hôm nay chúng tôi đã mời Greg Brockman, người đồng sáng lập và chủ tịch của OpenAI, để nói về những cơ hội tiềm năng nhất của AI, cách OpenAI sẽ nắm bắt những cơ hội này và ý tưởng về “siêu ứng dụng”. Hôm nay Greg cũng có mặt tại studio của chúng tôi.

Greg Brockman (OpenAI Lianchuang & Chủ tịch):
Rất vui được gặp bạn, cảm ơn bạn đã mời.

Tại sao lại tắt Sora? Không đủ sức mạnh tính toán

Alex:
Lúc này thật thú vị. OpenAI đang tạm dừng sự tiến bộ của việc tạo video và tập trung nguồn lực vào một "siêu ứng dụng" - nó sẽ tích hợp các kịch bản kinh doanh và lập trình. Nhìn từ bên ngoài (bao gồm cả tôi), có cảm giác như OpenAI đã dẫn đầu về phía người tiêu dùng và hiện đang điều chỉnh việc phân bổ tài nguyên của mình. Chuyện gì đã xảy ra thế?

Lưu ý: Vào tháng 3 năm 2026, OpenAI đã thông báo đóng cửa sản phẩm tạo video Sora (bao gồm các ứng dụng và API) và ngừng phát triển thương mại liên quan.

Greg Brockman:
Trong thời gian qua, chúng tôi đã phát triển công nghệ học sâu và muốn xác minh xem liệu nó có thực sự mang lại tác động tích cực mà chúng tôi luôn hình dung hay không - liệu nó có thể được sử dụng để xây dựng các ứng dụng thực sự giúp đỡ mọi người và cải thiện cuộc sống của họ hay không.

Đồng thời, chúng tôi cũng đang nghiên cứu một lĩnh vực khác: triển khai công nghệ này. Một mặt, nó nhằm hỗ trợ hoạt động kinh doanh, mặt khác cũng là để tích lũy trước kinh nghiệm thực tế và chuẩn bị cho thời điểm công nghệ thực sự trưởng thành.

Bây giờ, chúng ta đã đạt tới một giai đoạn mới. Chúng tôi thấy rằng công nghệ này hoạt động được. Chúng tôi đang chuyển từ "thử nghiệm điểm chuẩn" và một số minh họa khả năng trừu tượng sang một giai đoạn mới - chúng tôi phải đưa nó vào thế giới thực, để nó tham gia vào công việc thực tế và tiếp tục phát triển thông qua phản hồi của người dùng.

Vì vậy, tôi thiên về hiểu sự thay đổi này hơn vì: Đây là sự chuyển dịch chiến lược được thúc đẩy bởi những thay đổi trong các giai đoạn công nghệ.


Điều này không có nghĩa là chúng tôi đang chuyển từ "phía người tiêu dùng" sang "phía doanh nghiệp". Chính xác hơn, chúng ta đang đặt ra một câu hỏi: Khi nguồn lực có hạn, chúng ta nên ưu tiên những ứng dụng nào? Bởi vì chúng ta không thể làm được mọi thứ.

Những ứng dụng nào thực sự có thể được triển khai, phối hợp với nhau và mang lại tác động thực sự? Nếu bạn liệt kê tất cả các hướng, phía người tiêu dùng có thể được chia thành nhiều loại: chẳng hạn như trợ lý cá nhân, một hệ thống thực sự hiểu bạn, phù hợp với mục tiêu của bạn và có thể giúp bạn đạt được mục tiêu cuộc sống; và sáng tạo và giải trí; có rất nhiều khả năng khác. Về phía doanh nghiệp, nếu nhìn ở cấp độ cao hơn, nó thực sự có thể được tóm tắt thành một điều: bạn có một nhiệm vụ phức tạp, liệu AI có thể giúp bạn hoàn thành nó không?

Đối với chúng tôi, các ưu tiên hiện tại rất rõ ràng và chỉ có hai điều được đặt lên hàng đầu: thứ nhất là trợ lý cá nhân; thứ hai, AI có thể giúp bạn giải quyết các vấn đề phức tạp.

Vấn đề là: sức mạnh tính toán hiện tại của chúng ta thậm chí không thể hỗ trợ được hai thứ này. Một khi nhiều kịch bản ứng dụng được thêm vào, đơn giản là không thể bao quát hết tất cả. Vì vậy, đây thực sự là một nhận định thực tế: công nghệ đang trưởng thành nhanh chóng và tác động của nó sắp bùng nổ, và chúng ta phải đưa ra những lựa chọn và lựa chọn hướng đi quan trọng nhất để thực sự biến nó thành hiện thực.

Alex:
Trước đây, bạn đã đề cập đến một sự tương tự, nói rằng OpenAI hơi giống Disney: nó có khả năng cốt lõi mà sau đó có thể được mở rộng cho các tình huống khác nhau. Disney có Chuột Mickey và có thể làm phim, công viên giải trí và Disney+. "Cốt lõi" của OpenAI là mô hình, có thể được sử dụng để tạo video, trợ lý và ứng dụng doanh nghiệp.

Nhưng bây giờ có vẻ như bạn không còn đi theo con đường “mở rộng toàn diện” này nữa mà phải đưa ra lựa chọn?

Greg Brockman:
Thực ra, tôi nghĩ sự so sánh này bây giờ có giá trị hơn. Nhưng điểm mấu chốt là từ góc độ kỹ thuật, Sora (mô hình video) và GPT (mô hình suy luận) thực sự thuộc hai nhánh kỹ thuật khác nhau. Cách chúng được xây dựng là hoàn toàn khác nhau.

Vấn đề là ở giai đoạn này, rất khó để phát triển cả hai cây công nghệ cùng một lúc, đặc biệt là với nguồn lực hạn chế. Vì vậy, lựa chọn mà chúng tôi đưa ra là tập trung nguồn lực chính vào lộ trình GPT ở giai đoạn hiện tại.

Tất nhiên, điều này không có nghĩa là chúng tôi từ bỏ những hướng đi khác. Ví dụ, trong lĩnh vực robot, chúng tôi vẫn đang tiếp tục nghiên cứu liên quan. Nhưng bản thân robot vẫn còn ở giai đoạn sớm hơn và chưa bước vào giai đoạn trưởng thành của vụ nổ thực sự.

Ngược lại, trong năm tới chúng ta sẽ thấy AI thực sự phát triển trong lĩnh vực tri thức.


Và cần phải nhấn mạnh rằng các tuyến đường GPT không chỉ là "văn bản". Ví dụ: tương tác giọng nói hai chiều (lời nói thành giọng nói) cũng là một phần của lộ trình kỹ thuật này, điều này sẽ giúp AI trở nên hữu dụng và thiết thực hơn. Những khả năng này về cơ bản nằm trong cùng một hệ thống mô hình và được điều chỉnh theo những cách khác nhau.

Nhưng nếu chuyển sang hai nhánh kỹ thuật hoàn toàn khác nhau thì sẽ khó có thể duy trì lâu dài khi sức mạnh tính toán còn hạn chế. Sở dĩ sức mạnh tính toán bị hạn chế là do nhu cầu quá lớn. Với hầu hết mọi mẫu máy được ra mắt, mọi người đều muốn làm được nhiều hơn thế với nó.

Alex:
Vậy tại sao bạn không tập trung vào con đường “mô hình thế giới”? Ví dụ: mô hình video cần hiểu mối quan hệ giữa các đối tượng, điều này cũng rất quan trọng đối với robot. Và Sora thực sự đang tiến bộ rất nhanh. Tại sao cuối cùng bạn lại chọn đặt cược vào GPT?

Lưu ý: "Mô hình thế giới" tập trung vào nhận thức và trực giác vật lý. Cốt lõi là cho phép AI hiểu “cách thế giới hoạt động” thay vì chỉ học “mô hình bề mặt của dữ liệu”. Loại mô hình này thường được sử dụng để mô tả các hệ thống như Sora: nó không chỉ tạo ra hình ảnh hoặc video mà còn mô hình hóa mối quan hệ giữa các vật thể (như con người, ô tô, ánh sáng), những thay đổi liên tục về thời gian (tiến hóa giữa các khung hình) và các định luật vật lý cơ bản (chẳng hạn như chuyển động, tắc nghẽn và va chạm). Ngược lại, GPT là một mô hình ngôn ngữ và lý luận tập trung nhiều hơn vào khả năng nhận thức trừu tượng và thực thi nhiệm vụ.

Greg Brockman:
Vấn đề lớn nhất trong lĩnh vực này thực ra là có quá nhiều cơ hội.

Chúng tôi đã sớm phát hiện ra rằng tại OpenAI, miễn là ý tưởng phù hợp về mặt toán học thì ý tưởng đó thường hoạt động hiệu quả và tạo ra kết quả tốt. Điều này cho thấy khả năng cơ bản của deep learning là rất mạnh. Nó có thể trừu tượng hóa các quy tắc tạo từ dữ liệu và chuyển chúng sang các kịch bản mới. Bạn có thể sử dụng thứ này trong nhiều lĩnh vực khác nhau như mô hình hóa thế giới, khám phá khoa học, lập trình, v.v.

Nhưng điều quan trọng là: chúng ta cần phải đánh đổi.


Đã có một cuộc tranh luận trong quá khứ, mô hình văn bản có thể đi được bao xa? Nó có thực sự hiểu được thế giới không? Tôi nghĩ câu trả lời cho câu hỏi này bây giờ là các mô hình văn bản có thể chuyển sang AGI.

Chúng tôi đã nhìn thấy một con đường rõ ràng và những mô hình mạnh mẽ hơn sẽ xuất hiện trong năm nay. Trong OpenAI, một trong những vấn đề khó khăn nhất của chúng tôi là làm thế nào để phân bổ sức mạnh tính toán - vấn đề này sẽ chỉ trở nên tồi tệ hơn chứ không giảm bớt. Vì vậy, về cơ bản, vấn đề không phải là "con đường nào quan trọng hơn", mà là câu hỏi về thời gian và trình tự.


Giờ đây, một số ứng dụng mà trước đây chúng tôi tưởng là xa vời nay đã bắt đầu nằm trong tầm tay. Ví dụ, giải các bài toán vật lý chưa giải được. Gần đây chúng tôi gặp trường hợp một nhà vật lý đã nghiên cứu một vấn đề trong một thời gian dài, đưa vấn đề đó vào mô hình và 12 giờ sau, chúng tôi đã đưa ra giải pháp. Anh ấy nói rằng đây là lần đầu tiên anh ấy cảm thấy một người mẫu đang "suy nghĩ". Vấn đề này thậm chí có thể là điều mà con người sẽ không bao giờ có thể giải quyết được, nhưng AI đã làm được điều đó.

Khi bạn thấy điều gì đó như thế này, lựa chọn duy nhất của bạn là: nhân đôi số tiền đặt cược, nhân ba số tiền đầu tư của bạn. Bởi vì điều đó có nghĩa là chúng ta thực sự có thể khai phá được tiềm năng to lớn.


Vậy đối với tôi, đây không phải là cuộc cạnh tranh giữa các hướng khác nhau mà sứ mệnh của OpenAI là gì? Làm thế nào để chúng tôi mang AGI đến với thế giới? Làm thế nào để nó thực sự mang lại lợi ích cho mọi người? Và chúng tôi đã nhìn thấy con đường đó và chúng tôi biết cách tiến về phía trước.

Đặt cược vào GPT, không phải mô hình thế giới: Tùy chọn đường dẫn đến AGI

Alex:
Được rồi, tôi muốn quay lại mô hình thế hệ tiếp theo mà bạn vừa đề cập, nhưng tôi muốn hỏi câu hỏi này trước.

Tôi đã nói chuyện với Demis Hassabis của Google DeepMind vào đầu năm nay. Thật thú vị, anh ấy nói rằng đối với anh ấy, thứ gần gũi nhất với AGI thực sự là trình tạo hình ảnh của họ có tên Nano Banana.

Lưu ý: Demis Hassabis là một trong những nhân vật chủ chốt thúc đẩy AI từ nghiên cứu đến ứng dụng đột phá. DeepMind do ông sáng lập, phát triển AlphaGo và đánh bại nhà vô địch cờ vây thế giới năm 2016, trở thành sự kiện mang tính bước ngoặt trong lịch sử phát triển trí tuệ nhân tạo.

Lý do của anh ấy là: Dù là trình tạo hình ảnh hay trình tạo video, để tạo ra những hình ảnh và video như vậy, về cơ bản bạn phải hiểu được sự tương tác giữa các vật thể, ít nhất là có một mức độ hiểu biết nhất định về cách thế giới vận hành.

Vậy điều này có tiềm ẩn rủi ro không? Đó là một sự đánh cược lớn - nếu đúng như vậy, liệu OpenAI có thiếu sót điều gì khi tiếp tục tăng cường đầu tư vào cây công nghệ khác không?

Greg Brockman:
Nếu điều đó là sự thật thì sao? Tôi có hai câu trả lời.

Đầu tiên, tất nhiên là có thể. Lĩnh vực này là vậy, cuối cùng bạn phải đưa ra lựa chọn, bạn phải đặt cược. Và OpenAI đã làm điều này ngay từ đầu: chúng tôi phải đánh giá những gì chúng tôi tin là con đường dẫn đến AGI và sau đó tiến về phía trước theo con đường đó với mức độ tập trung cao độ. Cũng giống như việc cộng các vectơ ngẫu nhiên, kết quả cuối cùng có thể gần bằng 0; nhưng nếu bạn căn chỉnh tất cả các vectơ, chúng có thể đẩy bạn theo một hướng rõ ràng.


Nhưng điểm thứ hai là việc tạo hình ảnh thực sự là một khả năng rất phổ biến trong ChatGPT và chúng tôi vẫn đang tiếp tục đầu tư và ưu tiên nó. Lý do tại sao chúng ta có thể làm được điều này là vì nó thực sự không thuộc nhánh kỹ thuật của "mô hình thế giới" hay "mô hình phổ biến". Nó thực sự được xây dựng trên kiến ​​trúc GPT. Vì vậy, mặc dù nó phải đối mặt với sự phân phối dữ liệu khác nhau, nhưng ở tầng công nghệ lõi thấp hơn, nó thực sự là cùng một tập hợp.


Và đây chính xác là một trong những điều tuyệt vời nhất về AGI: đôi khi, các ứng dụng dường như rất khác nhau - lời nói thành lời nói, tạo hình ảnh, xử lý văn bản và ứng dụng chính văn bản trong các tình huống khác nhau như nghiên cứu khoa học, lập trình, thông tin sức khỏe cá nhân, v.v. - thực sự có thể được cung cấp trong cùng một khung kỹ thuật.

Vì vậy, từ góc độ kỹ thuật, một điều mà tôi và công ty đang suy nghĩ là làm thế nào để thống nhất phương hướng nỗ lực của chúng tôi nhiều nhất có thể. Bởi vì chúng tôi thực sự tin rằng công nghệ này sẽ mang lại những cải tiến tổng thể và thậm chí nâng cao toàn bộ hệ thống kinh tế.

Và quy mô của vấn đề này là quá lớn. Tất nhiên chúng ta không thể làm mọi thứ, nhưng chúng ta có thể làm phần việc của mình.

Alex:
Đây là ý nghĩa của từ "chung" trong Trí tuệ nhân tạo tổng hợp (AGI, trí tuệ nhân tạo nói chung).

Greg Brockman:
Đúng, đó là chữ G, ý nghĩa thực sự của nó là như vậy.

Alex:
Nói đến "sự thống nhất", siêu ứng dụng này sẽ trông như thế nào?

Greg Brockman:
Siêu ứng dụng theo hiểu biết của tôi là——

Alex:
Nó sẽ tích hợp trò chuyện, lập trình, trình duyệt và ChatGPT, phải không?

Greg Brockman:
Đúng vậy. Điều chúng tôi muốn làm là một ứng dụng dành cho người dùng cuối, để bạn có thể thực sự trải nghiệm sức mạnh của AGI, tức là "tính linh hoạt" của nó.

Nếu bạn nghĩ về các sản phẩm trò chuyện ngày nay, tôi nghĩ nó sẽ phát triển thành trợ lý cá nhân, API cá nhân của bạn, một AI thực sự nghĩ về bạn. Nó biết rõ về bạn, biết nhiều về bạn, phù hợp với mục tiêu của bạn, đáng tin cậy và có thể “đại diện” cho bạn ở một mức độ nào đó trong thế giới kỹ thuật số này.

Đối với Codex, bạn có thể nghĩ về nó như sau: nó vẫn là một công cụ được xây dựng chủ yếu cho các kỹ sư phần mềm, nhưng nó đang trở thành "Codex cho tất cả mọi người".

Bất kỳ ai muốn sáng tạo và xây dựng thứ gì đó đều có thể sử dụng Codex và để máy tính làm những gì họ muốn. Và nó không còn chỉ là “viết phần mềm” nữa mà nó giống như việc “sử dụng máy tính” hơn. Ví dụ: tôi sẽ yêu cầu nó điều chỉnh cài đặt máy tính xách tay cho tôi. Nhiều khi quên cách set up hot Corner nên nhờ Codex làm thì nó làm.

Một chiếc máy tính phải như thế này. Nó phải thích ứng với con người chứ không phải để mình thích nghi với nó.

Vì vậy, bạn có thể tưởng tượng một ứng dụng mà bạn có thể trực tiếp ra lệnh cho máy tính bất cứ điều gì bạn muốn nó làm. Sẽ có các khả năng "sử dụng máy tính" và "vận hành trình duyệt" tích hợp, cho phép AI thực sự vận hành các trang web và bạn cũng có thể giám sát những gì nó đang làm. Và cho dù hoạt động tương tác của bạn là trò chuyện, viết mã hay công việc kiến ​​thức chung thì tất cả các cuộc trò chuyện này đều được hợp nhất thành một hệ thống. AI sẽ có trí nhớ và hiểu bạn.

Đây là những gì chúng tôi đang xây dựng.

Nhưng thành thật mà nói, đây thực chất chỉ là phần nổi của tảng băng trôi, phần lộ ra trên mặt nước. Đối với tôi, điều thực sự quan trọng hơn là sự thống nhất của công nghệ cơ bản.

Chúng tôi đã đề cập đến việc thống nhất cấp độ mô hình cơ bản trước đây, nhưng điều thực sự đã thay đổi trong vài năm qua là vấn đề không còn chỉ là vấn đề của bản thân "mô hình" mà quan trọng hơn là "hệ thống vận chuyển". Đó là, làm thế nào để mô hình có được bối cảnh? Làm thế nào nó kết nối với thế giới thực? Nó có thể thực hiện những hành động nào? Cơ chế vòng lặp tương tác với người dùng hoạt động như thế nào khi các bối cảnh mới liên tục được nhập vào?

Trước đây, chúng tôi thực sự đã triển khai nội bộ nhiều tính năng này hoặc ít nhất là một số cách triển khai hơi khác nhau. Bây giờ chúng tôi đang hội tụ chúng thành một bộ. Cuối cùng, chúng ta sẽ có một lớp AI thống nhất và sau đó trỏ nó vào các kịch bản ứng dụng cụ thể khác nhau một cách rất đơn giản.

Tất nhiên bạn vẫn có thể tạo một plug-in nhỏ hoặc một giao diện nhỏ để phục vụ tài chính và luật, nhưng trong hầu hết các trường hợp, bạn thậm chí không cần đến nó, vì bản thân siêu ứng dụng này sẽ đủ rộng và đủ linh hoạt.

Alex:
Ứng dụng này có hướng đến cả kịch bản công ty và cá nhân không?

Greg Brockman:
Đúng, đây thực sự là cốt lõi của nó. Cũng giống như một chiếc máy tính, chẳng hạn như máy tính xách tay của bạn, nó dùng cho mục đích cá nhân hay công việc? Câu trả lời thực sự là: cả hai. Nó trước hết là thiết bị của bạn, là giao diện của bạn với thế giới kỹ thuật số. Và đó chính xác là những gì chúng tôi muốn làm.

Alex:
Từ góc độ phi thương mại, nếu tôi sử dụng siêu ứng dụng này trong cuộc sống cá nhân, tôi sẽ làm gì với nó? Cuộc sống của tôi sẽ thay đổi như thế nào?

Greg Brockman:
Tôi hiểu thế này: Trong cuộc sống cá nhân của bạn, trước tiên nó sẽ tiếp tục cách bạn sử dụng ChatGPT hiện nay.

Bây giờ bạn sử dụng ChatGPT như thế nào? Trên thực tế, mọi người đã sử dụng nó để hoàn thành những nhiệm vụ rất đa dạng và tuyệt vời. Đôi khi chỉ cần nói đơn giản là “Tôi muốn phát biểu tại một đám cưới, bạn có thể giúp tôi soạn thảo được không?” Hoặc “Bạn có thể giúp tôi xem xét ý tưởng này và cho tôi một số phản hồi được không?” Một ví dụ khác là: “Tôi đang điều hành một doanh nghiệp nhỏ, bạn có thể cho tôi một số ý tưởng được không?”

Những tình huống này mang tính cá nhân và một số đã bắt đầu xóa mờ ranh giới giữa cá nhân và công việc. Quan điểm của tôi là: tất cả những vấn đề như vậy phải được xử lý bởi các siêu ứng dụng.

Greg Brockman:
Nhưng nếu bạn nhìn lại quá trình phát triển của ChatGPT, bản thân nó đã thực sự phát triển.

Trước đây nó không có trí nhớ phải không? Đó là AI giống nhau dành cho tất cả mọi người, mọi lúc đều bắt đầu lại từ đầu, gần giống như nói chuyện với một người lạ. Nhưng nó sẽ mạnh mẽ hơn nhiều nếu nó có thể ghi nhớ những tương tác trong quá khứ của bạn. Nó cũng sẽ mạnh mẽ hơn nhiều nếu có quyền truy cập vào nhiều ngữ cảnh hơn.

Ví dụ: nó kết nối với email và lịch của bạn, thực sự hiểu sở thích của bạn, có bộ thông tin cơ bản sâu hơn về trải nghiệm trong quá khứ của bạn và sau đó sử dụng thông tin này để giúp bạn đạt được mục tiêu của mình. Một ví dụ khác là đã có một chức năng tên là Pulse trong ChatGPT. Nó sẽ chủ động đẩy nội dung mà bạn có thể quan tâm dựa trên những gì nó biết về bạn hàng ngày.

Vì vậy, ở cấp độ cá nhân, các siêu ứng dụng sẽ bao gồm tất cả những điều này, đồng thời sẽ sâu sắc và phong phú hơn.

Alex:
Khi nào bạn dự định ra mắt nó?

Greg Brockman:
Một cách hiểu chính xác hơn là trong vài tháng tới, chúng tôi sẽ từng bước đi theo hướng này. Tầm nhìn hoàn chỉnh mà chúng ta đang nói đến sẽ được cung cấp dần dần, nhưng nó sẽ không được đưa ra một cách tổng thể ngay lập tức. Nó sẽ xuất hiện theo từng giai đoạn.

Ví dụ: ứng dụng Codex ngày nay thực sự chứa hai lớp: một là khai thác tác nhân tổng hợp có thể sử dụng các công cụ; người còn lại là một đại lý giỏi viết phần mềm.

Hệ thống mang đa năng này thực sự có thể được sử dụng trong nhiều tình huống khác. Bạn cắm nó vào bảng tính, bạn cắm nó vào tài liệu Word và nó sẽ giúp bạn làm việc với kiến ​​thức.

Vì vậy, bước đầu tiên của chúng tôi là làm cho ứng dụng Codex trở nên dễ sử dụng hơn cho công việc kiến ​​thức tổng quát. Bởi vì chúng tôi đã thấy trong OpenAI rằng mọi người đều bắt đầu sử dụng nó theo cách này một cách tự nhiên.

Đây sẽ là bước đầu tiên và sẽ còn nhiều bước tiếp theo nữa.

Alex:
Khi tôi nói chuyện về Codex với một trong những đồng nghiệp của bạn ngày hôm qua, anh ấy đã đề cập rằng ai đó đang sử dụng Codex để chỉnh sửa video: anh ấy đã yêu cầu Codex xử lý video cho anh ấy. Codex thậm chí còn tạo một plugin cho Adobe Premiere, giúp chia video thành các chương và sau đó bắt đầu chỉnh sửa. Đây có phải là hướng bạn muốn đi?

Greg Brockman:
Tôi đặc biệt thích nghe về những trường hợp như thế này. Đây chính xác là cách chúng tôi muốn hệ thống này hoạt động. Và một điểm thú vị là ứng dụng Codex ban đầu được thiết kế dành cho các kỹ sư phần mềm nên khả năng sử dụng hiện tại của nó đối với những người không phải là lập trình viên thực tế là không cao. Vì trong quá trình cấu hình sẽ xảy ra nhiều vấn đề nhỏ.

Các nhà phát triển biết ý nghĩa của nó và cách khắc phục nó; chúng tôi đã quen với nó. Nhưng nếu bạn không phải là nhà phát triển, khi nhìn thấy cái này, bạn sẽ nghĩ: "Đây là cái gì? Tôi chưa bao giờ thấy nó trước đây."

Nhưng dù vậy, chúng ta vẫn thấy rằng nhiều người chưa từng viết chương trình đã bắt đầu sử dụng nó để xây dựng trang web hoặc làm những gì bạn vừa nói - tự động hóa sự tương tác giữa các phần mềm khác nhau và thu được hiệu ứng đòn bẩy rất lớn từ nó. Ví dụ: ai đó trong nhóm giao tiếp của chúng tôi đã kết nối nó với Slack và gửi email, cho phép nó xử lý một lượng lớn phản hồi và tạo ra một bản tóm tắt và tổng hợp rất tốt.

Vì vậy, điều đang xảy ra hiện nay là những người có động lực cao đã sẵn sàng vượt qua các ngưỡng này và nhận được lợi nhuận rất cao từ đó.

Theo một nghĩa nào đó, chúng tôi đã làm được phần khó khăn - chúng tôi đã tạo ra một AI thực sự thông minh, có khả năng thực sự có thể hoàn thành mọi việc.

Việc tiếp theo cần làm là phần tương đối "dễ dàng": làm cho nó thực sự hữu ích đối với công chúng và từng bước loại bỏ những rào cản gia nhập này.

Alex:
Nhìn vào bối cảnh cạnh tranh, Anthropic hiện cũng có các ứng dụng Claude, bao gồm chatbot và Claude Code. Ở một mức độ nào đó, họ đã có nguyên mẫu “siêu ứng dụng” của riêng mình.

Bạn nghĩ tại sao Anthropic lại đạt được điều này sớm hơn? Và bạn nghĩ OpenAI có khả năng bắt kịp như thế nào?

Greg Brockman:
Nếu bạn quay ngược thời gian về 12 đến 18 tháng trước, chúng tôi thực sự luôn coi "lập trình" là một lĩnh vực then chốt và chúng tôi luôn đạt được kết quả tốt nhất trong các bài kiểm tra "hoàn toàn dựa trên khả năng" chẳng hạn như các cuộc thi lập trình khác nhau. Nhưng có một điều chúng tôi chưa đầu tư đủ vào là tính khả dụng ở chặng cuối.

Nói cách khác, chúng ta chưa quan tâm đúng mức đến vấn đề này: AI vốn đã rất thông minh và có thể giải quyết nhiều vấn đề lập trình khó khăn khác nhau, nhưng nó chưa bao giờ nhìn thấy cơ sở mã trong thế giới thực - và cơ sở mã trong thế giới thực thường rất lộn xộn, khác xa với môi trường "sạch" mà nó quen thuộc.

Tại thời điểm này, chúng tôi thực sự đã bị tụt lại phía sau. Nhưng bắt đầu từ khoảng giữa năm ngoái, chúng tôi bắt đầu khắc phục vấn đề này một cách nghiêm túc. Chúng tôi thành lập một nhóm đặc biệt để xem tất cả những khoảng trống này nằm ở đâu, có những loại hỗn loạn và phức tạp nào trong thế giới thực mà chúng tôi chưa thực sự tiếp xúc trước đây.

Ví dụ: xây dựng dữ liệu huấn luyện như thế nào? Làm thế nào để thiết lập môi trường đào tạo? Hãy để AI thực sự trải nghiệm cảm giác "làm công nghệ phần mềm" - bị gián đoạn, gặp phải các vấn đề lạ, nhiều tình huống không lý tưởng khác nhau, v.v.

Tôi cảm thấy rằng đến thời điểm hiện tại, chúng ta đã bắt kịp. Khi người dùng thực sự so sánh chúng tôi trực tiếp với đối thủ cạnh tranh, nhiều người sẽ thích chúng tôi hơn.

Tất nhiên, chúng tôi cũng biết rằng mình vẫn còn những thiếu sót về trải nghiệm front-end và chúng tôi sẽ bù đắp phần này. Nhưng nhìn chung, đây là hướng đi của chúng tôi trong giai đoạn này: không chỉ làm mẫu và bổ sung thêm vỏ sản phẩm; nhưng hãy nghĩ về nó như một sản phẩm hoàn chỉnh ngay từ đầu. Trong khi nghiên cứu, chúng tôi cũng đã suy nghĩ: Cuối cùng nó sẽ được sử dụng như thế nào? Đây là một sự thay đổi đang diễn ra trong nội bộ OpenAI trong thời gian này.

Vì vậy, quan điểm của tôi là chúng ta sẽ có một làn sóng nâng cấp mô hình rất mạnh mẽ tiếp theo. Chỉ cần nhìn vào lộ trình năm nay thôi là tôi đã thấy háo hức lắm rồi. Thực sự có rất nhiều điều có thể được thực hiện.

Đồng thời, chúng tôi cũng rất tập trung vào việc cải thiện khả năng sẵn sàng của chặng cuối.

Alex:
Kể từ năm 2022, OpenAI đã được coi là người dẫn đầu không thể tranh cãi trong lĩnh vực này. Rõ ràng, sự cạnh tranh không còn chỉ là về điểm thi. Chính bạn vừa sử dụng cụm từ "chúng tôi đang bắt kịp".

Không khí trong công ty cũng thay đổi phải không? Nói cách khác, cảm giác vượt xa các sản phẩm như ChatGPT không còn như xưa mà thực sự đang bước vào một cuộc cạnh tranh đối đầu.

Một số báo cáo từ bên ngoài thực sự có thể thấy sự thay đổi này - ví dụ, công ty đã tổ chức một cuộc họp nội bộ, nhấn mạnh rằng OpenAI không còn bất kỳ "nhiệm vụ phụ" nào nữa và mọi người phải tập trung vào hướng đi cốt lõi này. Vậy môi trường và bầu không khí bên trong hiện nay đã thay đổi như thế nào?

Greg Brockman:
Đối với cá nhân tôi, thời điểm đáng lo ngại nhất đối với OpenAI là ngay sau khi chúng tôi phát hành ChatGPT.

Tôi nhớ mình đã tham dự một bữa tiệc nghỉ lễ của công ty và có cảm giác “chúng ta đã thắng”. Tôi chưa bao giờ cảm thấy như vậy trước đây. Phản ứng của tôi lúc đó là: Không, chúng tôi không phải là những người như vậy, chúng tôi là bên thiệt thòi.


Và chúng tôi đã luôn như vậy. Hầu hết các đối thủ trong lĩnh vực này đều đã thành lập các công ty lớn, có nhiều vốn hơn, nhiều nhân lực hơn, nhiều dữ liệu hơn và hầu như mọi nguồn lực đều dồi dào hơn.

Vậy tại sao OpenAI vẫn có thể cạnh tranh? Một phần, câu trả lời là thế này: chúng ta không bao giờ cảm thấy mình có thể nghỉ ngơi thoải mái. Chúng tôi luôn coi mình là người thách thức.

Trên thực tế, đối với tôi, việc thấy thị trường thực sự bắt đầu xuất hiện sự cạnh tranh như vậy là một điều rất lành mạnh và thấy các đối thủ khác bắt đầu xuất hiện và hoạt động tốt.

Bởi vì theo tôi, bạn không bao giờ có thể tập trung vào đối thủ cạnh tranh. Nếu bạn chỉ tập trung vào vị trí hiện tại của họ thì khi bạn đến đó, họ đã đi tiếp rồi.

Và tôi cảm thấy rằng trong khoảng thời gian vừa qua mọi chuyện thực sự đã diễn ra ngược lại: rất nhiều người đã nhìn chằm chằm vào vị trí của chúng tôi và chúng tôi đã có thể tiếp tục tiến về phía trước. Thay vào đó, điều này mang lại cho chúng ta cảm giác về sự liên kết và thống nhất nội bộ.

Tôi đã đề cập trước đó rằng trước đây chúng ta gần như coi "nghiên cứu" và "triển khai" là hai việc riêng biệt; nhưng bây giờ, chúng tôi thực sự muốn tích hợp chúng. Với tôi, đây là một điều rất tuyệt vời.

Vì vậy, tôi muốn nói rằng giai đoạn chúng ta đang ở hiện tại không phải là tôi cảm thấy trước đây chúng ta đã là "người chiến thắng chắc chắn" hay hiện tại chúng ta đột nhiên rơi vào khủng hoảng. Bạn biết đấy, đánh giá của thế giới bên ngoài về bạn thường không tốt như họ nói, cũng không tệ như họ nói.

Tôi nghĩ về tổng thể, chúng tôi đã rất ổn định. Về vấn đề cốt lõi của việc phát triển mô hình, tôi thực sự rất tin tưởng vào lộ trình và khoản đầu tư nghiên cứu mà chúng tôi đã thực hiện. Về mặt sản phẩm, tôi nghĩ hiện tại chúng tôi có nguồn năng lượng rất tốt và mọi người đang cùng nhau thực sự mang những thứ này đến với thế giới.

Alex:
Trước đây bạn đã đề cập nhiều lần rằng sẽ có một số mẫu xe mới mạnh mẽ sắp ra mắt. Chính xác thì đó là gì?

Thông tin báo cáo rằng bạn đã hoàn thành khóa đào tạo trước về "Spud"; and Sam Altman also told internal OpenAI employees that they should see a very strong model within a few weeks. That was said a few weeks ago. Inside the team, the idea is that it might even be a real boost to the economy, and things are moving faster than many expected.

So, what exactly is "Spud"?

Greg Brockman:
It's a good model. But I think the focus is not on a single model.

Our R&D process is roughly as follows: first is pre-training, which is to produce a new basic model. All further improvements will be based on this basic model. This step often requires huge efforts from many teams within the company. In fact, that's where I've spent most of my own time over the past 18 months: mainly around the GPU infrastructure, supporting the teams that are responsible for the training framework and actually getting these large-scale training tasks running.

Then comes the reinforcement learning stage. That is to say, let this AI, which has learned a lot of world knowledge, start to actually use this knowledge.

The next step is the post-training process. At this stage, you're really telling it - OK, now that you know how to solve the problem, go practice it in a variety of different situations.


Finally, there is the "last mile" phase about behavior and usability.

So, I would consider Spud as a new base, a new pre-trained model. And on it, it can be said that our research in the past two years or so has begun to really come to fruition. It will be very exciting.

I think what the outside world will eventually feel will be an overall improvement in capabilities. But for me, it’s never just a matter of one single release. Because once this version comes out, it is actually just an early version of our further progress. We will continue to do more in every aspect of this improvement process.

So I feel like we now have an accelerating engine of progress, and Spud is just a node on this road.

Alex:
What do you think it can do that today’s models can’t do?

Greg Brockman:
I think it will both solve more difficult problems and become more nuanced. It will understand the instructions better and it will understand the context better.

People sometimes talk about a feeling called "big model smell" - which means that you can clearly feel when the model is really smarter and more capable. It will be more in line with your intentions and more in line with your needs.

It’s still a frustrating feeling when you ask a question and the AI ​​doesn’t really understand you.你会忍不住想:这件事你明明应该能自己想明白。


所以我会说,从某种意义上讲,这会是很多「量变」累积起来带来的「质变」。一方面,各项指标上都会有很多提升;另一方面,也会出现一些全新的场景:以前你会因为 AI 不够可靠而懒得用它,现在你会不假思索地直接拿来用。

我觉得这会是一次全方位的变化。我尤其期待看到,它会如何继续抬高能力的上限。我们已经看到它在物理研究这类场景中的表现,我觉得接下来它会能够解决更多开放式问题、跨越更长时间跨度的问题。

同时,我也很期待看到它如何抬高能力的下限——也就是,不管你想做什么,它都会比今天更有用得多。

Alex:
但对普通用户来说,感受到这种变化有时候并不容易。比如 GPT-5 发布之前,外界其实已经有了很多预热和期待;可它真正出来的时候,公众最初的反应某种程度上反而有点失望。后来大家才慢慢发现,在某些具体任务上,它其实非常强。

那对接下来这一代模型,你觉得它会主要在某些职业场景里被明显感受到,还是说,它会成为一种对所有人都比较直观、普遍可感的提升?

Greg Brockman:
我觉得故事可能还是会类似。模型发布之后,一定会有人一上手就觉得:这和我以前见过的东西相比,完全是白天和黑夜的区别。但也会有一些应用场景,本来瓶颈就不在「智能」上。那如果你只是把模型变得更聪明,可能在这些地方,用户未必立刻就能感受到差异。

不过,随着时间推移,我觉得大家最终都会感受到变化。因为真正发生改变的是:你会在多大程度上开始依赖这个系统。

如果你想想我们现在和 AI 的互动方式,其实每个人脑子里都有一个关于「它能做什么」的心理模型。而这个心理模型变化得并不快。通常都是随着经验积累,它偶尔替你完成了一件很神奇的事,你才突然意识到:原来它竟然能做到这个,我以前根本没想到。


比如在医疗信息获取这样的场景里,我们已经看到了类似情况。我有一个朋友,就是用 ChatGPT 去了解自己癌症的不同治疗方案。医生此前已经告诉他,这是晚期,已经没有什么办法可做了。但他用 ChatGPT 去研究了很多不同思路,最后真的因此找到了治疗方案。

像这种情况,其实前提是:你得先对 AI 在这个场景里的帮助能力有某种程度的信任,你才会愿意投入那么多精力去从这个系统里挖出价值。

所以我觉得,接下来我们会看到的是:在任何类似的应用场景里,AI 能帮到你的这件事,会变得对所有人都更加显而易见。

因此,这既是技术本身在变强,也是我们对技术的理解正在变化、正在追上它。

Alex:
也就是说,你会越来越依赖它。在 OpenAI 内部,你们还在开发一个自动化 AI 研究员,据说会在今年秋天推出。 What exactly is that?

AI 已进入「腾飞」早期阶段

Greg Brockman:
我觉得,从整体趋势来看,我们现在正处在这项技术腾飞的早期阶段。

Alex:
「腾飞」是什么意思?

Greg Brockman:
腾飞,指的是 AI 在沿着指数曲线不断变强。而其中一部分原因在于:我们已经可以用 AI 去帮助我们改进 AI 本身,所以整个研发过程也在加速。


但我觉得,所谓「腾飞」也不仅仅是技术层面的事,它还意味着现实世界影响力的释放。很多技术的发展都像一条 S 曲线;而如果你把多条 S 曲线放在更长的时间维度上去看,它们最终会汇聚成一种近似指数级的增长。

我觉得我们现在正处在这样的阶段。也就是说,技术本身正在以越来越快的速度推进,这台进步引擎正在不断积累动能。

同时,在外部世界里,也有很多顺风因素在形成:芯片开发商正在获得更多资源投入;大量人在上层做各种应用,尝试把 AI 嵌入不同场景,寻找它与各种具体需求之间的契合点。

所有这些能量都在不断累积,共同把 AI 推入一个「腾飞期」,让它从一种边缘性的存在,逐渐变成推动经济增长的主要引擎。

而这件事,并不只是我们这几面墙之内发生的事情。它关乎整个世界、整个经济体系,如何一起推动这项技术,以及它的实用性不断向前发展。

Alex:
那这个「研究员」具体会做什么?

Greg Brockman:
所谓这个「研究员」,本质上是指:当 AI 能接管的任务比例越来越高之后,我们就应该允许它在更大程度上自主运行。

当然,这背后其实有很多需要仔细思考的地方。它并不意味着:我们把它放出去,让它自己跑一阵子,过会儿回来看看它有没有做出什么好结果。

我觉得,我们依然会非常深度地参与到它的管理之中。就像现在,如果你带一个初级研究员,你要是把他单独晾太久,他大概率会走到一条并没有太多价值的路径上去。但如果有一个资深研究员,或者说一个真正有方向感的人在带,他甚至未必要亲自掌握所有具体操作技能,也仍然可以对这个人产出的东西持续给出反馈、做审阅,并且提供方向上的引导:我到底希望你完成什么。

所以我理解中的这个系统,是我们正在构建的一套机制,它会大幅提升我们产出模型的速度,推动新的研究突破出现,也让这些模型在真实世界里变得更有用、更好用。而且,这一切都会以越来越快的速度发生。

Alex:
它具体会做什么?你会不会直接对它说:「去找到 AGI」,然后它就自己去尝试?

Greg Brockman:
某种程度上,我确实是这么理解的,至少在第一层意义上是这样。但如果从更实际的角度说,我会把它理解为:把我们一位研究科学家从头到尾完整的工作流程,尽可能搬到硅基系统里去执行。

Alex:
还有一种理解「腾飞」的方式是:AI 的进展会从渐进式提升,变成不断积累动能,最终演变成一种几乎无法阻挡的推进过程,朝着比人类更聪明的智能前进。

你会不会担心,就像事情可能朝好的方向发展一样,这种进展本身也可能失控、可能走偏?

Greg Brockman:
我觉得,当然会,这是毫无疑问的。我认为,想要获得这项技术带来的好处,就必须同时严肃地思考它的风险。

如果你看我们在技术开发上的做法,就会发现我们在安全性和防护上投入了很多。一个很好的例子就是 prompt injection(提示注入)攻击。如果你要做一个非常聪明、能力很强、还接入了大量工具的 AI,那你当然要确保,它不会因为别人给出一条奇怪的指令就被带偏、被操纵。

这就是我们投入很多精力去做的事,而且我觉得我们已经取得了非常不错的结果,也有一支非常强的团队在负责这部分工作。


有意思的是,这里面有些问题其实可以和人类做类比。人类同样会受到钓鱼攻击影响,也会被误导,也可能在不了解完整上下文的情况下做事。

我们会把这些类比带入自己的研发过程。每当我们发布一个模型、开发一个模型时,我们都会思考:怎样确保它真正与人类目标保持一致,怎样确保它确实能够帮上忙?这是我们非常在意的一件事。


当然,也还有一些更大的问题,涉及整个世界、整个经济:一切会如何变化?每个人要怎样才能从这项技术中受益?这些问题并不只是技术问题,也不是 OpenAI 单靠自己就能解决的。但没错,我确实会经常思考,不仅要推动技术前进,也要真正确保它能够带来与其潜力相匹配的积极影响。

Alex:
问题在于,这看起来像是一场竞赛。 OpenAI 总部这几面墙内发生的事,也会被很多开源玩家快速复制。而这些玩家在安全边界、防护措施上,往往要弱得多。

我记得你以前说过一句话,大意是:创造性的成果,需要很多人把很多事情都做对;但破坏性的结果,可能只需要一个怀有恶意的人。这也是我至少最担心的地方。因为这显然是一场竞赛,而且进展很快。你的很多同行都说过,如果所有人都同意停下来,他们也愿意停。但现在看起来,这场竞赛根本没有减速的迹象。


那这个回报,真的值得承担这样的风险吗?

Greg Brockman:

我认为,这个回报是值得的。但我也觉得,这样的回答还是太粗了,太一刀切了。

从 OpenAI 创立之初开始,我们一直在问:怎样的未来才算是一个好的未来?这项技术要怎样才能真正提升所有人的处境?

你可以把这个问题拆成两个角度。一种是「中心化」的视角:认为要让这项技术安全,最好的办法就是只有一个主体去开发它。这样一来,就没有竞争压力了,你可以慢慢地、谨慎地把事情做对,等准备好了,再决定怎么把它交付给所有人。这种想法当然可以理解,但某种程度上,它也是一个很难让人接受的方案。


而另一种路径,也是我们更倾向的路径,是从「韧性」出发去思考。也就是说,把它看成一个开放系统:有很多参与者都在推动这项技术发展,但重点不只是技术本身,更在于建设围绕这项技术而生的社会基础设施,让它能够被更稳妥地承接。

你可以想想电力的发展过程。电力也是由很多不同的人和机构来生产的,它本身同样有风险和危险性。可与此同时,我们也围绕它建立起了多层次的安全基础设施:有电力安全标准,有不同的使用规范,有不同规模下对应的监管方式。到了非常大的规模时,还会有专门的监管要求。很多人都能够以一种被民主化的方式去使用电力,同时还有检查员、还有一整套配套系统,围绕这种技术的特性逐渐建立起来。


而我觉得,AI 也是一样。我们真正看到的一点是:围绕 AI,必须有一场广泛的社会讨论。如果这项技术真的会到来,并且改变每一个人的生活,那人们就必须参与进来。它不能只是由某一个中心化的小团体,秘密地推进和决定一切。

所以,对我来说,这始终是一个非常核心的问题:这项技术到底应该以什么样的方式展开?而我们真正相信的,就是这样一个围绕技术发展逐渐形成的「韧性生态系统」。

Alex:
所以你的意思是,我们现在正处在「腾飞」的过程中,而我们所有人其实都已经身处其中。英伟达 CEO 黄仁勋最近说,他认为 AGI 已经实现了。 Do you agree?

Greg Brockman:
我觉得,AGI 对不同的人来说有不同的定义。而且确实会有不少人认为,我们今天手里的技术就已经算是 AGI 了。

这件事可以争论。但我觉得,真正有意思的地方在于:我们现在拥有的技术,其实仍然是非常「不平滑」的、带有明显断层感的。

在很多任务上,比如写代码之类的事情,它已经绝对是超人的了。 AI 就是能做到,而且它确实大幅降低了创造东西时的摩擦。但与此同时,也还有一些非常基础的事情,是人类能轻松做到、而 AI 仍然会吃力的。

所以你到底把分界线画在哪里?某种程度上,这更像是一种「感觉」,一种氛围判断,而不是一个在此刻可以被严格科学定义的问题。


所以对我自己来说,我觉得我们显然正在经历那个时刻。如果你五年前把今天的这些系统展示给我看,我会说:对,这就是我们当时说的那种东西。只是现实长出来的样子,和我们当初想象的非常不一样。它和我们曾经设想的任何形式都不太一样。

所以我觉得,我们需要相应地调整自己的心智模型。

Alex:
所以你的意思是,还没到?

Greg Brockman:
我会说,大概已经到了 70%、80% 吧。所以我觉得我们其实已经非常接近了。

而且我认为,有一件事已经极其清楚:在接下来的几年里,我们一定会迎来 AGI。它的表现可能仍然会有些「锯齿状」,不会是全面平滑、处处完美的。但它能完成任务的下限会被抬得非常高——几乎对于任何需要你在电脑上完成的智力任务,AI 都能做。

所以现在我必须给出一个稍微带点不确定性的回答,因为这里面确实有点像某种「不确定性原理」 ——你可以从不同定义去争论它。但按照我个人的定义,我觉得我们已经几乎到了。再往前迈一点点,就绝对到了。

关键转折:从 20% 到 80% 的工作接管

Alex:

2025 年 12 月到底发生了什么。因为那看起来像是一个转折点,「让机器不受打断地连续写几个小时代码」这件事,似乎突然从一个理论想法,变成了所有人都开始说:「我觉得我可以信任它,让它自己继续跑一阵子。」

所以那时候到底发生了什么?

Greg Brockman:
当时的新模型发布之后,AI 能完成的任务比例,大概是从你工作中的 20%,一下子提升到了 80%。这是一个极其巨大的转变。因为它不再只是「一个挺不错的小工具」,而是变成了:你必须围绕这些 AI 重新组织自己的工作流。

对我个人来说,我也有一个非常典型的体感时刻。这些年来,我一直有一个测试提示词:让 AI 为我搭一个网站。这个网站其实是我当年学编程时亲手做过的,花了我几个月时间。

而到了 2025 年的时候,这件事大概还是需要花四个小时、来回好几轮提示,才能做得比较像样。但到 12 月的时候,我只问了一次,AI 一次就做出来了,而且做得很好。

Alex:
那这些模型是怎么完成这种跃迁的?

Greg Brockman:
很大一部分原因,是基础模型本身变得更强了。 OpenAI 一直在持续提升自己的预训练技术。而在那个时间点上,我们第一次稍微看到了一点:今年余下时间里将会发生什么。但与此同时,它也不只是某一个单点突破的问题。更准确地说,是我们在所有创新维度上都在持续推进。

这些模型很有意思的一点是:某种意义上,你会感觉到它们出现了一次次「跳变」;但从另一个角度看,一切其实又是连续演化的。它并不是突然从 0% 跳到 80%,而是从 20% 提升到 80%。所以某种程度上,你也可以说,它只是变得更好了而已。

而且我觉得,这种进步其实在我们后续的每一个小版本更新里都还在继续。比如从 5.2 到 5.3,我有一位合作很紧密的工程师,原本他完全没法让模型去做他负责的那种底层、硬核的系统工程工作;但到了新版本之后,模型已经可以接过他的设计文档,真正去实现、加上指标监控和可观测性、跑 profiler 做性能分析,再持续优化,最后做到他原本希望自己亲手交付出来的那个结果。

所以我会说,这更像是一种「缓慢推进,然后突然到处都变了」的过程。但这一切,其实都已经由当下正在起作用的能力预示出来了。最迟一年之内,很多事情,有些甚至会快得多,都会变得极其可靠。

Alex:
这是不是也让你自己感到意外?因为我记得不久前你在一次采访里还说过,Codex 这种自动编程工具,本来只是给软件开发者用的。可在今天这场对话更早的时候,你又说,其实所有人都可以使用这类工具。

那是什么让你改变了看法?

Greg Brockman:
我之前其实一直把 Codex 放在「写代码」这个框架里来理解。毕竟它名字里就有 code,很自然会把它看成是给程序员用的工具。而且在 OpenAI 内部,很多人本身就是软件工程师,我们是在为自己造工具,所以按这种方式去想,也非常自然。


但随着这项技术不断进步,我们开始意识到一件事:我们真正做出来的底层技术,其实大部分根本不是关于「代码」的,它本质上是关于「解决问题」的。

它的核心,是管理上下文、搭建执行框架,并思考 AI 应该如何接入现实工作、如何真正把事情做完。而这件事一旦成立,哪怕是在编程场景里,突然之间也意味着任何人都能获得这种能力。因为你真正拥有的是一个可以替你执行工作的系统。只要你有一个愿景,有一个想完成的目标,你能把自己的意图描述清楚,AI 就可以去执行,可以把事情做出来。

但这也会让你开始反问,为什么我只盯着「非编程」或「编程」这种划分?其实还有大量工作,本质上都只是某种机械性技能。比如 Excel 表格、比如做演示文稿。这些事如果 AI 已经拥有足够的上下文,也具备足够的原始智能,它现在其实已经可以做得很好了。

所以,如果我们只是把它变得更容易接近、对人更友好,那它就会从「Codex 是给程序员的」,一下子变成「Codex 是给所有人的」。

Alex:
而在我们看到这波明显进步之后,硅谷很快又出现了另一个几乎悄无声息的现象,就是 Open Claw,对吧?或者更广义一点说,是整个技术圈开始以一种你刚才提到的方式去信任 AI——比如把桌面控制权交给一个 AI 机器人,或者弄一台 Mac mini,把邮件、日历、文件这些权限都给它,然后就让它某种程度上「接管生活」。

后来 OpenAI 又把 Open Claw 的创始人招进了公司。所以你能不能多讲一点这种「帮助你管理生活」的 AI?把 Open Claw 团队招进来,背后对应的就是这样一种愿景吗?

Greg Brockman:
我会说,这项技术最核心的一点在于:弄清楚它到底该如何变得有用,人们到底想怎么使用它,智能体的愿景究竟是什么,它会以什么方式进入人们的生活——这些本身都是很难的问题。

而我在这几代技术演进中反复看到的一件事是:那些真正愿意深度投入、充满好奇心、又有强烈想象力的人,这本身就是一种非常真实的能力,而且会成为新经济里越来越有价值的一种能力。

Open Claw 的创始人 Peter,在我看来就是这样的人,他有非常强的想象力,也有极强的创造冲动。所以从某种程度上说,这件事和某项具体技术有关;但从另一种程度上说,它又根本不只是技术问题。它真正关乎的是:我们怎样把这些能力嵌进人们的生活里,找到它们真正落位的地方。

所以,作为一个技术人,这当然令人兴奋;但作为一个真正关心如何把实用价值交付给用户的人,我们现在也在这件事上加大投入,投入得非常多。

Alex:
你最近关于这件事有一句挺有意思的话。你说,当你开始让这些自治 AI 智能体替你工作时,你会变成「成千上万个智能体组成的舰队的 CEO」,它们在替你完成你的目标、愿景和任务,而你自己不再深陷于各种具体问题是怎么被解决的细节里。

但你也说,从某种意义上讲,这种新的工作方式会让人感觉自己正在失去对问题本身的「脉搏感」。

Greg Brockman:
这到底是不是一件好事?我觉得,它是一个利弊并存的东西。

所以我认为,我们要做的是,一方面承认这些工具真正能带来的力量,另一方面也要尽量缓解它们带来的弱点。比如说,赋予人更大的杠杆、让人拥有更大的行动能力——如果你有一个愿景,有一件想完成的事,那你就可以调动一整支智能体舰队替你去做,这当然是很强大的。


但如果你想想这个世界的运行方式,到最后一定还是有一个需要负责的人。假设你在做一个网站,而你的智能体把事情搞砸了,最终影响到了用户,那严格来说,这并不是智能体的错,而是你的错。所以你必须在意这件事。

我觉得,任何想真正使用这些工具的人,都必须认识到:人的能动性、人的责任,是整个系统的核心组成部分。人如何使用 AI,这件事本身就是非常根本的。

所以我觉得最重要的一点是:作为这些智能体的使用者——我们在 OpenAI 内部也是这样——你不能放弃责任。你不能只是说:「AI 会自己把事情做好。」

Alex:
当然。但你刚才说的是「感觉自己正在失去对问题的脉搏感」,这和「责任」好像又不是一回事。

Greg Brockman:
对我来说,这两者其实是连在一起的。因为重点就在于:如果你是 CEO,但你离细节太远了——比如你在带一个团队、在运营一家公司,却已经失去了对一线状态的感知,那通常不会导向什么好结果。所以我刚才想表达的,不是说「人类终于可以什么都不用知道了」是一件值得追求的事。

当然,有些细节确实可以被放心交出去。就像你找一个总承包商帮你盖房子,有一大堆细节你大概不需要亲自去盯,因为你信任对方会处理好。但归根结底,如果某些关键细节出了问题,你还是应该在意,也还是应该知道。

所以这里有一个非常重要的细微差别:你不能只是盲目地说,「我愿意失去那种对问题的把握感」。相反,我们应该主动地说:我还是需要保有这种感知,去真正理解系统的强项和弱点。

而当你开始从一些更低层、更机械性的事务中抽离出来时,你之所以能这么做,应该是因为你已经与这个系统建立起了信任,确认它确实会把事情做好。

Alex:
关于模型,我最后再问一个问题。你刚才提到了一点模型演进的路径:从预训练,到微调,再到强化学习,让它更擅长一步一步地解决问题,并且能够去互联网上执行任务。

而现在我们已经进入了这样一个阶段:模型通过这个过程学会了使用工具。如果我没理解错的话,接下来这条演进路径的下一步会是什么?

Greg Brockman:
我觉得,我们现在所处的世界,是机器能力不断加深、不断扩展的世界。这里面一部分当然和工具使用有关,但与此同时,我们也需要真正把「工具」本身做得足够好。比如说,如果trí tuệ nhân tạo 已经能进行「电脑操作」,可以像人一样使用桌面系统,那从原则上讲,它就已经能做任何你能做的事情。

但与此同时,我们也必须为机器补上很多基础设施层面的东西。比如,在企业环境里,身份认证和权限管理怎么做?审计轨迹和可观测性怎么做?要追上模型底层能力的发展,还有大量配套技术需要被建出来。


而从整体方向上看,我觉得接下来会包括像「非常自然的语音界面」这样的东西。也就是说,你可以像现在这样自然地和电脑对话,它能真正听懂你,完成你需要它做的事,也能给出有价值的建议。

比如说,它会主动提醒你:你一直在推进的某件事现在卡住了,问题出在这里。或者你早上醒来时,它会对你说:这是你的每日简报,昨晚你的那些智能体一共推进了多少工作。

也许它甚至已经在替你经营一门生意了——我认为这会是这项技术的一个巨大应用场景。创业的民主化,绝对会发生。它会告诉你:这些地方出了问题;有一位客户现在很不满意,而且他想和一个真人聊一聊,你最好亲自去处理一下。这些事,都会发生。


然后,我觉得下一个阶段还包括:人类能够挑战的目标上限,也会被这项技术继续抬高。我们现在其实已经看到了这个趋势的前沿。最让我兴奋的一点,几乎可以拿 AlphaGo 的第 37 手来类比——那一步棋是人类从来不会下出来的,它带有创造性,而且改变了很多人对这项游戏的理解。

这种事会在每一个领域里发生。它会发生在科学、数学、物理、化学里;会发生在材料科学、生物学、医疗、药物发现里;甚至也可能发生在文学、诗歌,以及很多其他领域。它会以我们今天还无法想象的方式,解锁人类在创造性理解和构思上的新空间。

Alex:
可如果模型已经像你说得这么强,为什么这件事到现在还没有真正发生?

Greg Brockman:
我觉得,这里面存在一个「能力滞后差」——也就是模型真正具备的能力,和人们实际在怎么使用它之间,还有很大距离。某种程度上说,我们对模型里到底「装着什么」的理解,本身还在逐渐形成。

所以我认为,即便从现在开始技术不再继续进步,世界也依然会发生一次巨大的变化——由计算驱动、由 AI 驱动的经济,仍然会到来。

但同时,还有另一层原因:我们现在最擅长的,其实是把模型训练在那些「可以被衡量」的任务上。所以一开始,我们从数学题、编程题起步,因为这些任务有非常明确的验证器:答案对不对,可以非常清楚地判断。而过去这段时间里,我们之所以能把模型逐渐带向更开放式的问题,靠的也是不断扩大「什么东西可以被验证、被评估」的范围。

而 AI 本身其实也可以帮助完成这件事。如果 AI 足够聪明、足够理解任务,你给它一个评估标准,它就能逐步学习。但像创意写作这样的任务,比如「这首诗写得好不好」,就很难打分。

因此,我们过去在这类场景中,确实比较难让 AI 通过不断尝试和反馈来真正学会。不过这一切都正在改变,而我们对接下来的路径也已经看得相当清楚了。

Alex:
这倒挺有意思的。 Peter Thiel 之前说过一句话,大意是:如果你是一个擅长数学的人,那在这些模型面前,你受到的冲击可能反而比「擅长文字的人」更大。而你当年也是 Math Club 的成员。你不会担心这件事吗?

Greg Brockman:
我觉得,人总是更容易看见自己失去了什么,而不是看见自己得到了什么。因为我们对「我以前是怎么做这件事的」有很深的体验。比如我以前参加数学竞赛,现在trí tuệ nhân tạo 也能做数学竞赛了。但问题在于,这件事从来就不真正关乎「数学竞赛」本身,对吧?那并不是推动人类前进的核心东西。

如果你看看我们现在的工作方式——坐在一个盒子前面,对着另一个盒子打字——一百年前我们不是这样生活的。这不是一种自然状态,也不是我们被卷入的这个数字世界真正应有的样子。

那不是「做人」最本质的部分。真正重要的,是在场、是活在当下、是和其他人建立连接。

而我认为,我们即将看到的是:AI 会释放出大量时间,让人类有更多机会去加强彼此之间的连接,去建立更多人与人之间的纽带。

这一点让我非常兴奋。

Alex:
好。那当你们进一步转向这些更具 agent 特征的应用场景时,外界也开始讨论一个问题:未来是否还需要继续做那么大的训练任务?

尤其是,当模型已经足够好之后,你似乎可以让它直接进入真实世界,然后在很多并不依赖预训练的环节里,获得很大一部分提升。而那些真正需要超大数据中心支撑的,其实主要还是预训练。

你一直都在负责扩展规模、推动这件事。你怎么看这种说法?

Greg Brockman:
我觉得,这种说法忽略了技术演进中非常重要的一点。确实,模型生产流水线上的每一个环节,都会相互放大彼此的效果。所以你会希望所有环节都变得更强。


我们看到的是:一旦预训练变得更强,后面的每一个步骤都会容易得多。这其实很合理。因为模型一开始就更有能力了,所以它学得更快;它在尝试不同思路、从自己的错误中学习时,也会因为底子更强而推进得更快,犯的错更少。

所以,真正大的变化并不是说,我们从「训练一个纯粹封闭、自我推演的理性系统」,变成「只让它去真实世界里试错」。而是我们意识到,不仅要把模型本身做大、做强,也要让它去尝试事情,要理解人们在现实世界里是怎么使用它的,并把这些使用反馈重新接入训练过程里。但这并不会削弱继续推进那部分研究的价值,也不会削弱它的重要性。


我觉得还有一个变化是:过去我们主要关注预训练阶段原始能力的提升,但没有那么重视推理阶段、或者说推断阶段(inference)的能力。而在过去 24 个月里,一个很大的转变就是,我们开始意识到这两者之间需要平衡。

也就是说,你可以拥有一个底座能力非常强的模型,但它也必须在推断和实际运行时足够高效。因为你要做强化学习,要把它真正部署到现实世界里,这些都要求它具备很强的推断效率。

这也意味着,你不一定会把训练规模推到理论上能推到的最大,因为你还必须考虑到后续的大量使用场景。

你真正想要的是:在智能水平与成本之间,乘积最优的那个点。而不是只优化其中一个维度。

Alex:
如果未来主要转向 inference,你们是不是就不再那么需要 Nvidia 的 GPU 了?

Greg Brockman:
我们当然还是非常需要。

Alex:
为什么?

Greg Brockman:
原因有很多。


其中一个是:无论训练和推断之间的比例怎么变化,超大规模训练这件事,仍然只能通过把海量算力集中到一个问题上来完成,而这件事目前没有别的替代方式。

所以我觉得未来更可能发生的情况是:部署侧的算力占比会大幅上升;但与此同时,仍然会有一些时刻,你要进行某一轮特别巨大的预训练任务,那时你还是需要把大量算力集中起来。

而且我也觉得,Nvidia 的团队真的非常出色,他们做的工作非常惊人。所以,是的,我们和他们合作得非常紧密。

Alex:
那会不会有一天,人们开始说:「我们已经预训练得够多了,模型已经足够聪明了」?

Greg Brockman:
我觉得,这有点像是在说:等到人类把眼前所有问题都解决完了,也许我们就可以这么说了。但我认为,我们想实现的事情,它的上限其实高得多。

过去 50 年里,某种程度上,我们对很多目标的野心其实是退缩了的。比如说,有些问题看起来就非常明确——我们能不能让所有人都拥有医疗保障?而且不只是「出了问题再治疗」,而是真正做到预防式医疗,去关注生活方式,尽早帮助人们,在疾病发生之前就发现潜在风险。这类问题,我认为我们其实是可以借助更智能的模型去真正解决的。

当然,也许存在某个层级,在那个层级上,这个问题已经被彻底解决了,那时你可能会问:我还需要一个聪明两倍的模型吗?但与此同时,也一定会有其他问题要求更高层级的智能。

算力不是成本,而是收入引擎

Alex :
我们来聊聊建这些数据中心背后的数字。你们今年早些时候融资了 1100 亿美元。这里面的数学是怎么成立的?这笔钱会直接投向数据中心吗?你们又是怎么考虑未来如何把这笔钱回报给投资人的?聊聊这些计算逻辑。

Greg Brockman:
我觉得,这件事本质上非常简单:我们眼前最大的支出,就是算力。但你不能把算力只看成成本中心,它更像是收入中心。

你可以把它想象成招聘销售团队。你愿意雇多少销售?只要你的产品卖得出去,只要你有一套可以规模化销售这个产品的机制,那么你雇的销售越多,收入就越高。

而我们现在所处的世界就是,我们一再发现,我们根本没法把算力建得足够快,来跟上需求的增长。这一点,我现在就能非常具体地感受到。我们不得不做出非常痛苦的决定:哪些功能能上线,哪些功能暂时不能;算力优先给哪里,不给哪里。

而我认为,随着整个经济向 AI 驱动型经济转变,这种情况会在更广泛的层面上出现。


未来真正的问题会变成:哪些问题能获得那种海量算力?你要怎么扩展,才能让每个人都拥有一个属于自己的个人智能体?怎么让所有人都用上像 Codex 这样的系统?

现在这个世界上,根本就没有足够的算力去支撑这些事情。所以我们是在提前为这个问题做准备。

Alex:
但这毕竟是一个全新的类别,对吧?而且你们是在用一种非常强的确定性去下注——金额之大,几乎是世界从未见过的。当你在创造一个新类别时,你怎么能如此确定它最终会成立?

Greg Brockman:
我觉得,这里面有几个组成部分。

第一,现在其实已经有历史先例了。从 ChatGPT 发布那一刻起,我就记得自己和团队有过一段非常明确的对话。有人问我:我们应该买多少算力?我说:全部。别人又问:不是,认真说,到底买多少?我说:无论我们怎么建设,我都知道我们不可能跟上需求。

而从那之后的每一年,事实都证明了这一点。问题在于,这类算力采购通常都要提前 18 个月锁定,有时候是 24 个月,甚至更久。也就是说,在机器真正交付之前,你就必须先做出判断。这意味着你必须非常强地向前预判。


而我们正在走向的那个世界是:到目前为止,我们的大部分收入仍然来自消费者订阅,这一块未来也仍然会非常重要。当然,我们也在形成其他收入来源。

但现在正在浮现出来的、更大的机会,是知识工作。

而这一点,我们已经在非常具体地看到:几乎每一家企业都开始意识到,这项技术是真的有用,而且如果它们想保持竞争力,就必须采用它。你能看到那种非常自然的动力,大量软件工程师已经在用它了;然后现在又开始出现更广泛的扩散,人们在企业内部把它用到各种知识工作场景里。而这个行业里已经出现的付费意愿、以及你看到的收入增长,都是非常明确的。

这件事现在就正在发生。你只需要把它向前推演。而我们可能比外界多看到的一点是:我们能更清楚地看到这些模型接下来还会如何进步。


把这些因素放在一起,你就会发现:这个经济体本身是一个极其庞大的东西,大到几乎难以想象。而从今往后,这个经济体增长的最高位因素,会是 AI——你能多好地利用 AI,以及你手里拥有多少算力来驱动它。

Alex:
你刚才说,消费者订阅目前还是你们最大的收入来源。那你们的判断是不是,未来这件事会反过来,企业会成为最大的收入来源?

Greg Brockman:
我觉得,现在已经非常清楚地能看到,这个「企业端」正在快速增长。当然,「企业端」这个词本身也在变化。因为它真正指向的,其实是:人们在生产性的知识工作中使用 AI。

而从定价方式来看,我觉得分类未必会像过去那样清晰。比如现在 Codex 的使用方式就是:如果你有 ChatGPT 的消费者订阅,你其实就已经能使用 Codex。

所以我不觉得未来会是那种特别泾渭分明的 B 端、C 端区分。更可能的情况是:作为用户的你,会拥有一个统一的入口——就像你的笔记本电脑一样,它是你进入数字世界的门户。

而真正的收入,本质上也会来自这里。

Alex:
Dario 说过一句话,我觉得他可能是在说你们:有些玩家把风险刻度拉得太高了,而他对此非常担忧。我想他指的就是你们在基础设施上的大规模押注。你怎么看这种说法?

Greg Brockman:
我不同意。我觉得,我们一直都非常审慎,而且我们确实看到了接下来会发生什么。我认为,就算只看今年,所有真正参与进来的人,都会感受到「算力受限」这件事。

而我觉得,我们只是比其他人更早意识到了这一点,更早开始为这项技术将如何展开做准备。

我看到的情况反而是:其他很多参与者大概是到了去年年底才意识到这件事,于是开始慌忙去找算力;但那时其实已经几乎没有算力可买了。

所以我觉得,这种话说出来很容易。但现实是,大家现在都已经意识到:这项技术是可行的,它已经来了,它是真的。软件工程只是第一个清晰的例子而已。

而真正限制我们的,就是可用的计算能力。

Alex:
他还说过,如果他的预测只要偏差一点点,他的公司就有可能破产。你们也面临同样的风险吗?

Greg Brockman:
我觉得,这里面其实有更多「下车口」。如果你开始认真思考下行情形——而我觉得这完全是合理的问题——那你会发现,某种程度上,这个赌注本来就不是押在某一家公司身上的。

它真正押的是整个行业。押的是:你是否相信,这项技术能够被做出来,并且能够交付我们眼前所看到的这巨大价值。

我还是会回到那些最直接的证明点。比如软件工程——如果你不是软件工程师、没有真正用过 Codex,那很难通过阅读去理解这种体验到底有多不一样。那种差异其实很难描述。但我觉得,人们很快就会真正感受到。

六个月前,这种体感更多还只发生在我们内部;后来,外部也开始有了明显的证明点。而再过六个月,我觉得每个人都会感受到。而到那时,我们所有人都会感受到另一种痛感:有很棒的模型出现了,但你根本用不上,因为世界上没有足够的算力。

Alex:
是,但我们在节目里做 2026 年预测的时候,去年年底有一场讨论,Ranjan Roy 当时也在,他说2026 会是「人人都在使用智能体」的一年。而我当时的反应是:等我亲眼看到、自己也真的开始用上智能体时,我才会相信。

Greg Brockman:
那现在,我们不就已经到了这个时刻吗?你现在会拿它做什么?

Alex:
我会用它在内部搭一些工具,帮助和我一起工作的人更好地同步视频什么时候上线、缩略图应该怎么做之类的事情。我还会把 YouTube 上的一些数据接进来,这样我们就能根据缩略图等因素,对视频表现进行排序分析。某种程度上,这是一套我自己定制出来的软件,而如果按传统方式,我大概率根本不会花钱去买。

我觉得这正是当下很有意思的一点:软件本来是面向大众规模化生产的,但也正因为如此,它里面总会有很多地方并不是为你而做的。而也许 AI 带来的变化,就是它让我们终于可以用一种更自然的方式和软件打交道。

Greg Brockman:
我觉得,这正是关键所在。而且我一直反复在想的一件事是:我们今天构建电脑的方式,实际上把我们拉进了一个数字世界里。

你想想自己花了多少时间在手机上不停刷内容。再想想你花了多少时间在不停点各种按钮,想办法把这个系统连到那个系统上——为什么这些事非得由你自己来做? AI 真正应该做的,是把机器拉近到你身边,让它更贴合你、更理解你想完成什么。

我们的流行文化里一直都有这种想象:你可以直接和电脑说话,然后它替你把事办了。而现在,这件事开始变成现实了,开始真的变成一种你可以做到的事情。而这种变化到底有多惊人,很多时候你必须亲自试过,才能真正理解。所以我确实觉得,我们正处在一个非常特别的时刻。

Alex:
那我想知道,为什么 AI 在公众中的观感会这么差?比如 YouGov 的数据就显示,认为 AI 会给社会带来负面影响的美国人,是认为它会带来正面影响人数的三倍。

你觉得背后的原因是什么?你会担心 AI 的公众形象吗?

Greg Brockman:
我觉得,有一件事是我们必须真正做到的:让这个国家的人看到,AI 为什么对他们是有益的。而且不只是从宏观经济层面、不是只说它会带动 GDP 增长之类的大词,而是:它到底怎样具体改善他们的生活。

实际上,我每天都会听到很多非常具体的故事。比如有一个家庭,他们的孩子一直头疼,也有一些其他健康问题,但 MRI 检查一直没有获批。后来他们用 ChatGPT 去研究症状,意识到自己其实可以据此向保险公司提出一个更有力的申请理由。他们这么做了,结果发现孩子脑子里真的有肿瘤。也正因为他们通过 ChatGPT 获取到了正确的信息,最后孩子的命被救了下来。

这只是一个故事。类似的故事还有很多很多。人们的生活被这项技术深刻地改善,甚至被它救了一命。关键就在于,他们真的在现实中与这项技术建立了合作关系。


但我觉得,这样的故事其实并没有真正传出去。我认为,这种事情正在很多人的生活里发生,但不知为什么,它还没有真正变成主流叙事。

我还注意到,流行文化,尤其是从上世纪 90 年代延续下来的那套想象,对 AI 非常负面,总是在强调它可能出什么问题。可一旦人们真的开始使用 AI,他们会发现它是有实用价值的,是有帮助的。

所以我确实非常在意这样一件事:我们还没有真正成功地帮助人们理解,这一轮技术浪潮为什么会改善他们的生活,为什么会促进人类之间更紧密的连接。

这件事在我心里,是一个非常重要的关注点。而且如果你再把视角放大一点,去看 AI 为什么如此重要,我觉得它未来会成为经济实力和国家安全的重要来源。它会关系到一个国家的竞争力。而像中国这样的其他国家,在 AI 上呈现出的方向感几乎是完全相反的。

所以,是的,我觉得这件事非常重要。我们必须正视它,也必须真正想清楚,怎样让所有人都能分享到这项技术带来的好处。

Alex:
但我们现在也处在一个极不稳定的时刻。大家很担心工作。每次我跟别人聊 AI,他们几乎都会问:我的工作还能保住多久?

然后再说数据中心,公众对它的观感甚至比对 AI 本身还差。你看这些民调会发现,更多人认为数据中心会对环境、家庭能源成本,以及周边居民生活质量带来负面影响,而不是正面影响。

所以我们现在处在这样一个时刻,好工作本来就越来越难找,而人们又看到数据中心进入自己的社区,于是觉得这东西既不环保,也会推高能源成本,还会降低生活质量。

他们错了吗?

Greg Brockman:
我觉得,围绕数据中心,确实存在很多错误信息。

一个很典型的例子就是用水问题。如果你真的去看我们在阿比林(Abilene)的设施,那是世界上规模最大、或者至少是最大之一的超级计算机设施,它一整年的用水量,其实只相当于一个普通家庭一年的用水量。也就是说,用水量其实微乎其微。

但外界有很多错误信息,让人以为这些数据中心会消耗大量水资源。

电力也是类似的情况。我们已经承诺,会自行承担成本,不把电价上涨的压力转嫁给居民。这一点很重要,现在整个行业也都开始做出类似承诺,因为改善本地社区这件事确实非常重要。而当我们建设数据中心时,我们也会真正进入这些本地社区,了解当地发生了什么、我们能做什么来帮助当地。数据中心会带来税收,也会创造就业。它确实会带来很多好处。

所以我觉得,关键还是在于我们以什么方式出现,而这正是我们非常认真对待的一项责任。

Alex:
好,但如果居民电费不上涨,那你们总得把电接进来,而这就可能意味着更多污染。这难道不是一个问题吗?

Greg Brockman:
我觉得,这里面其实有很多更细的层次。

如果你看今天电网的运行方式,会发现其实存在大量「闲置电力」——也就是说,很多电力本来就在那里,却没有被真正利用。与此同时,输电系统本身也需要升级。而且,关键在于,这些升级成本应该由我们来承担,而不是由普通缴费用户来承担,这一点非常重要。还有很多地方,本身就有清洁能源,但这些电力实际上没有被充分利用,甚至某种程度上被白白浪费掉了。

所以,当数据中心的需求进入之后,反而会带来一种真实的动力,推动那些已经老化、过时的电网去升级。而这种升级,其实也会给社区带来真实收益。比如在北达科他州,我们就看到,当地的数据中心建设反而帮助改善了公用事业基础设施,结果居民电价还下降了。

Alex:
好,最后一个政治问题。你给 MAGA Inc. 捐了 2500 万美元,这是一个支持特朗普的政治行动委员会。

Greg Brockman:
你之前也和 Kara 聊过这件事。

注:Kara Swisher,美国知名科技记者,长期报道硅谷与互联网公司,以提问犀利、风格直接著称。

Alex:
对。你当时说:「任何有助于让这项技术真正惠及所有人的事,我都会去做。」如果这让你成了一个「单议题选民」或者「单议题捐款人」也无所谓。但我一直在想的是:对于这种「单议题阵营」来说,归根结底,难道不应该是「让这个国家变得更强」本身,才是任何政治行动最核心的北极星吗?

也就是说,即便某个候选人并不是百分之百支持你正在做的事,但如果他能让这个国家更强,那是不是也应该成为政治支持的重要标准?如果是这样的话,这也是你捐款考量的一部分吗?

Greg Brockman:
我是这样看的:那笔捐款是我和我妻子一起做出的决定。我们也向两党阵营的超级政治行动委员会都捐过款。

我觉得,这项技术来得非常快。未来几年里,它真的会改变一切,会成为整个经济的底层支撑。但它现在并不受欢迎。所以我们非常希望去支持那些真正愿意拥抱这项技术、认真理解这项技术的政治人物。

当然,从更大的层面讲,这项技术本身也确实是在提升我们这个国家的能力。某种意义上,我确实是一个「单议题选民」 ,因为我觉得这是我最能做出独特贡献的领域。但归根结底,这件事还是在表达一种支持:作为一个国家,我们应该主动拥抱这项技术。

未来的核心能力:不是使用 AI,而是「管理 AI」

Alex:
如果现在有一个对 AI 很害怕的人坐在你面前,他会觉得 AI 会抢走我的工作、会毁掉我的社区、会让世界变化得太快,你会对他说什么?

Greg Brockman:
我最想说的一点是:去亲自试试这些工具。因为只有真正体验过当下已经存在的 AI,你才会真正明白,它到底能为你做什么。

而我们今天已经看到了太多来自这项技术的机会、潜力和赋能。你刚才也说了你现在能拿它做什么,对吧?以前从来没做过网站的人,现在可以做网站了;如果你想做一门小生意,过去你可能会被各种后台流程、运营细节吓住,但现在 AI 已经可以帮你处理很多这类事情。

所以我觉得,对你自己的生活来说,你应该去想:它能不能帮助你管理健康?能不能帮助你照顾你爱的人?能不能帮你赚钱?能不能帮你省钱?这些都会是现实选项。

我觉得,人总是更容易看到「什么会改变」,却不那么容易看到「自己会获得什么」。但我认为,值得给它一个公平的机会,认真去理解天平两端到底各自是什么。

Alex:
顺便说一句,这也是民调里很少被讨论的一点。那些只是「听说过 AI」但自己从没真正用过的人,或者几乎没怎么用过 AI 的人,往往会更负面。而一旦你进入重度用户,甚至只是普通使用者的群体,他们对这项技术的看法通常就会积极得多。

Greg Brockman:
对我自己来说,我们已经思考这项技术很多年了。而现在我看到的现实展开方式,比我们曾经想象的还要更惊人、更有益,也会带来比我们预期更积极得多的影响。

Alex:
最后一个问题。如果有人问你:我该怎么为未来做准备?那你会怎么回答?

而且这个回答不能只是「去用工具」。因为我身边真的有朋友来问我:「我不知道我的工作会怎么样,不知道这个世界会怎么样,我只想知道现在到底该怎么办。」

Greg Brockman:
我还是觉得,第一件事就是去理解这项技术。我们已经看到,真正从这项技术里得到最多的人,往往是那些带着好奇心去接近它的人。他们会真的把它放进自己的工作流里尝试,会努力跨过最开始那道门槛——也就是面对一个空白输入框时,那种「我到底该拿它做什么」的茫然感。

你要逐渐培养出一种能动感:我可以做管理者;我可以设定方向;我可以委派任务;我可以做监督。而且要真正把这种能力发展出来,因为这会成为一个非常基础的能力。

我们打造这项技术,本来就是为了帮助人类、促进更多人类之间的连接,让人们有更多时间去做自己真正想做的事。所以问题最终会变成:你到底想要什么?而真正重要的,是把这件事想清楚,并借助这项技术去实现它。

Alex:
没错。非常感谢你来到节目。

Greg Brockman:

谢谢邀请。

Alex:
也谢谢大家的收听和观看,我们下期《Big Technology Podcast》再见。

[视频链接]

QQlink

ไม่มีแบ็คดอร์เข้ารหัสลับ ไม่มีการประนีประนอม แพลตฟอร์มโซเชียลและการเงินแบบกระจายอำนาจที่ใช้เทคโนโลยีบล็อกเชน คืนความเป็นส่วนตัวและเสรีภาพให้กับผู้ใช้

© 2024 ทีมวิจัยและพัฒนา QQlink สงวนลิขสิทธิ์