原名: 在動作之后
創作人:Dan Shipper,每個CEO
照片來自Peggy Block Beats

最近關於AI與工作的討論以一個問題為主:模型能力會繼續改善, 從代碼產生、自訂服務自動到內容製作, 設計基准的測試也使這種焦慮更加突出:模型在研究生的推理、實際經濟任務和重設工程師的先进代碼方面的表現似乎已接近「自動人的工作」的關鍵點。

但在這篇文章中,每個CEODan Shipper都提供相反的觀點:越是自动化,人就越是自动化. 每一個都是AI特工的深度使用者, 工具如 Codex, Claude Code, Slack Agent, 以及客服特工, 工程師不再只是寫作密碼, 而是評論、重組及設計系統; 編輯不再只是寫手稿, 而是評論哪些值得寫作。

這篇文章最有趣的不是「愛爾蘭人」能否完成某項任務, AI善於讓過去寄存的能力便宜化:代碼、文稿、縮圖、客戶服務回應、產品描述、研究等, 但當這些能力普及到所有人時, 意指「昨天人的能力」。

更需要他們參與。當操作者可以使用人工智能提交代碼時, 工程師需要決定哪些代碼值得整合; 當市場上的人可以在幾秒內制作縮圖, AI拓展了產品半徑和對質量控制的需求。

作者以參考法解釋了這個悖論。無論是高級工程基准或OpenAI的GDP-val, 模型分數不是抽象地用「智慧智慧本身」來測量, 即時的,任務的界限,評估標準,輸出格式都包含了大量的人類判断模型可以快速攀升到一個框架,但框架本身是人造的;當一個框架被模型攻擊時,人類將問題推向更複雜的新框架。

這也是對AGI焦慮最有趣的反應:即使模型越來越強大, AI可以實現目標、优化路徑、提升效率, 知識工作的未來並不是人從過程中消失。

人類工作的价值並未消失, AI讓「能做」更便宜。

原文如下:

在AI的核心。

我們在每場比賽中都盡量自動了我們正在使用 Codex 和 Claude 代碼, 不管它是密碼, 寫作, 設計, 客戶服務, 或者其他的例行公事. OpenAI, Anthropic, Google 的新型號在發行前也將可供α測試使用. 可以說,我們正在建立越快越深的浪潮提升模型的智能和自动化索引。

矛盾的是,對我們來說,人性似乎比以往有更多的工作要做。每個人目前都是近30人的團隊, 我們沒有因為特工而解雇我們的員工; 我們沒有放棄SaaS的工具, 我們仍會招募人類。

然而,工作模式确实发生了巨大变化。我們差點就停止手寫密碼了如果你在Slack @某人, 不管他們是人類還是特工, 有時很難判斷。工程師開始直接面對客戶。最近幾周, 我95%的工作信都被AI回應了。我的收件箱幾乎總是乾淨的。

也就是說未來看起來很奇怪但很熟悉。

這麼熟悉真令人意外因為CEO、智商和投資者似乎都日益相信同樣的事情。

Anthropic CEODario Amodei警告說,AI可以消除一半的低級白領工作。 Meta最近減少800人, 並開始在美國員工電腦上安裝軟體。

連Citadel的創始人Ken Griffin 也似乎很震惊他最近表示:「這些不是中低階的白領帖子

各种基准測試似乎也支持了此确定。随着新一代模型的繼續出版,模型能力指标以接近索引的速度上升。在《人類最後考試》中, 在GDPval是衡量實際經濟能力和比對人類性能的第一線模型, 今年五月。

我們似乎正處於一個關鍵點:一個比任何人都聰明的人工智能。

然而,矛盾仍然存在。如果你能與AI業業務工作者或該業外的第一批人通訊。

這是否只是轉變的狀態? 下一個模型釋放會是取代所有人的時候嗎? 我們看看基准測試曲線我們興奮緊張我們擔心會有轉折。

但我不認為有這樣的"關閉點" 突然出現, 翻覆一切和大规模消失。新現實正好相反:自动化程度越高,要求人類專家参与的工作就越多。

因為人工智能正在商业化那些可以清晰表示、訓練和复制的人類專業能力。可以寫成規則、結構成流程、轉換成訓練資料的知識, 因此,普通模型的產值迅速下降,而市場開始更強烈地要求那些不同的事物。

「不同」的需求, 即使我們接近通用人工智能這也不會消失。

要了解原因,不仅要看基线測試曲線,而且要注重模型参数和能力。我們必須回到現實現場,看看今天的AI是如何使用的. 只有這樣,這個悖論及其背后的答案才能真正被理解。

我們怎麼到這裡的

自2022年起我們一直在觀察特工對未來工作的影響。

三年前我寫了一篇"分配經濟"的文章我的判斷是, 使用人工智能工具, 總有一天會變得越來越像人類經理的工作, 許多人仍然認為。

2025年中,公司Eve,几乎完全"Claude Code". 科拉公司總經理基蘭·克拉森突然發現他可以放棄手寫的密碼整天用自然語言向程序員提供指示這種工作方式迅速傳播到全公司. 12個月前,我在Lenny的《Podcast》裡說 Claude Code 是知識工作最受低估的工具。

我提到這點是因為過去的一些最准确的判斷來自於早期領養人實驗室的觀察許多新的工作模式將出現在我們心中。

而現在,新的改變正在我們體內發生。

與代理商的兩種合作模式

依據創用CC授權使用。

第一個是先前AI討論中更准确預測的方向:將特工視為員工。此類的特工可以指定。有些特工住在Slack,有自己的名字和職責,你可以直接做到@;另一些特工嵌入在執行中的工作流程中,例如客戶服務系統,作為重复工作的24/7的項目和过滤器。

第二种模式更异形但在我的經驗中更重要指和特工合作的人比如Codex 克勞德 Code 克勞德 Work 這些工具不僅是交接工作的地方, 而且它們正在成為工作本身的操作系統: 你和特工在相同的工作環境下合作, 使用相同的電腦, 完成非常複雜, 原始的工作, 特工不能直接交付到不同的一步。

在兩種模型中,你可以自动化並分配你大部分的工作。但是要讓兩個模特都好好工作你或是另一個人仍然需要。

員工

所谓的代理員就是你給的那個讓你有实时參與提出答案行動報告初稿或分流。

這類特工至少有兩種形式:一种是"同事型特工",一种是"嵌入型特工"。

代理

探員說你可以在Slack叫出來像 @一個同事,讓它做一個工作。它總是在這裡,需要的時候可以叫它 OpenClaw, 或 Plus One, 我們在內部發展, 屬於這種類型。

克勞迪婭

Claudia是我們在顧問團隊里用的同事特工也追蹤計畫待辦事宜。

安迪

安迪是我們在編輯團隊裡用到的同事它從公司內的Slack收集那些值得進一步發展的「材料」。

維克多

Viktor是普通特工公司內有跨部门工作我們將用它來收集增長指示數, 分析使用者研究的結果。

2. 嵌入阿根廷

嵌入剂存在于特定的產品流中。他們不如同事灵活。

芬是最清楚的例子。它嵌入了我們的一個客人平台,它可以通过聊天和信件來做很多服務。

今年五月一周, Fin參與了所有202位客人的65%的談話。

這類嵌入式特工可以讓我們的客戶端經理Waqqas Mir 少花點時間回應基本的工作命令。

人与AI的合作

同事型的特工和嵌入型的特工其後的樣式一致: 代理員正在接管更穩定,重复和清晰的工作。

但是,在人的参与下,仍有许多工作要做。我們再三發現只要任務夠複雜, 才能取得真正高品质的結果, 最好的方式不是全由AI來做。

這是 Codex 、 Claude 和 Cowork 等工具的價值。它們允許您在多個聊天線中啟動一個或多個代理, 並指派工作給他們。這些特工可以存取你的電腦以及所有相關資料來源你可以看到每個探員都在做什么他的想法隨時可以打斷它。

你仍得負責管理這些特工:在每次任務的開始, 基蘭稱此角色為人類的「粉碎麵包」。

"人肉面包". 资料来源:每份。

最典型的例子是密碼寫作. 工程師几乎整天都和特工合作他們一起計劃新的功能或修復蟲子。

但這種合作遠不止於編碼。

新的知識工作操作系統

Codex和Claude Code正在成為新的工作操作系統我几乎一整天都在編碼器里運行SaaS工具通過它內置的瀏覽器它允許我帶探員到每個場景達到我一個人不能完成的工作水平。

寫入

我在Codex內置瀏覽器裡寫的這篇文章 Codex會看我寫的什麼可以啟動孩子特工做我需要的寫出一款的第一稿, 尋找下一部份的大小寫, 或編輯和顏色。

在 Codex 中寫下這篇文章。资料来源:每份。

信件

我對信件也一樣 Cora是我的郵件客戶端, 我會在 Codex 的內置瀏覽器中打開它, 同时瀏覽信箱, 剩下的會交給Codex和Cora完成。

有一次,科拉打掃完收件箱了资料来源:每份。

每個特工都需要一個人類

在這些自動設計中, 你可能已經看到人類真正工作的地方。每個情況下特工都需要人參與所以工作本身就能真正工作。

必須指出正確的問題, 判斷輸出是否夠好。

越遠的特工越遠越遠的特工越遠越遠的特工在最初的內部展覽中我們有每個員工都配有特工但很快我們又讓特工為某個團隊或整個公司而不是個人效力。

原因很简单特工需要很多維修個人特工一旦使用者放棄了追蹤很快就會廢棄和廢棄我們有一個AI工程組致力于确保這些特工以穩定而高效的方式工作我們仍需要這支隊伍在可预见的未來即使像「自動產生的PowerPoint」這樣的簡單任務, 我們的PowerPoint自動處理程式包括24個技術和18個文稿。

這是特工為人性創造更多工作的第一件事。

但有第二層。

為什麼自动化會讓人更工作

如果你看看過去幾年人工智能能力的成倍增长, 他們在不停地創造更多的人的工作。

AI使昨天的人的能力便宜

目前大語言型號已受訓於人體能力的明顯痕跡:代碼、文章、照片、乘客名單、產品规格檔案等等。他們吸收這些元素, 這些是成功任務留下的「尾巴」。

例如提交程式碼公關、製作YouTube缩略圖、撰寫新聞簡介等。

便宜的電力很快就會用上

供應量迅速增加。

我們一直在看這個變化經營商和客戶開始寫作代碼,提交脈搏;銷售商開始製作YouTube縮圖;工程師和產品工員也開始寫文章、指南和登陸頁首稿。

此變化也發生在 Every 之外。在OpenClaw案中,截至2026年5月16日,OpenAgent專案共收到44,469份,其中12,430份来自4月1日,3,990份来自5月1日。其數惊人. 相形之下, Kubernetes是全球最受歡迎的開源計畫之一。

浓缩帶來同化:舊專家能力被商品化

因為所有人都可以使用同樣的模型。

這不是一個具体的錯誤。這並不意味著破折片使用過多, 它是指一种可见的,反复的和無聊的同源性。

當不同環境的人類使用同一套工具, 當每個人都有同樣的取向與預設型態的「專家」時。

當操作員能提交完整清單時, 市場商能在幾秒內產生YouTube縮圖, 工程師也開始寫作產品指南。

當同化變得太豐富時,它很快就成為商品。

同源化造成差异需求

人們很快就能辨識出「AI」水線的內容, 任何工作都可能突然傳達到世界上的其他人, 一旦有太多事情看起來一樣我們很快就會發現一些事情。

這意味著當你第一次看到一個新模型的力量時,你會被震撼,甚至害怕. 但幾個月後這些能力就會變得很普通不是模型變弱而是你的標準變化。

我們不再滿足任何反應應用程式或任何研究我們想要的是真正適合特定個人特定公司特定場景的東西它需要精准,活,特定,不便宜,泛泛,和模板化. 我們希望它的製造成本,不管是時間或是錢, 都大大高于我們的消耗成本。

我們想要的是有地位感的東西人們總是善於創造符合新權限的新狀態遊戲。

當工作變得太滿, 到處都一樣, 那些不符合既定模式的人就成了少數、珍貴和地位高的人。

需要分化主要是對專家的新要求

因為語言模型的結構性, 也因為它們被廣泛地傳播到幾乎所有人。

現代模型只知道發生了什麼,已經做了。人性所知道的正是此刻需要做的事。

一旦文字恢復特定情況, 人與特定時刻、特定客戶端、特定密碼寄存器、特定對話, 這"生活"狀態不僅僅是更新資料。我們以自己的位置進入時刻, 改變了我們所看到的, 模式在被啟動後可以進入這個视角。

這是我們在一開始提到的悖論:使專家的工作更便宜, 更需要專家判斷。

您需要一位工程師來檢查操作員是否通過 AI 提交完整檔案。

當市場上的人做YouTube縮圖時你需要設計師來磨磨它。

當工程師開始寫文章時, 您需要作者和編輯把第一稿變成真正可以讀取的, 可以出版的内容。

人體專家兩面走。

有些專家會使用人工智能設置系統來吸收和利用這項附加工作的洪流:評估排隊、評估系統、操作框架、碼庫規則、克勞德與 Codex 指令文件、連續整合(CI)、能力管理以及工作流程。

另一群人會用人工智能做更多更有趣的工作, 例如,在像MacOS這樣的操作系統中找到漏洞通常需要數周或數月. 然而,一家叫Calif的小型保安公司使用Mythos Preview of Anthropic,在5天內發現了苹果M5硬件的第一個開放的macOS內核泄漏。

因此,實際上,AI並沒有取消專家知識工作. 它真正帶來的是工作量大增。而這些新的工作只有在人類參與後才能變得不同和有價值。

我不是說AI會為所有工作创造更多工作經濟系統很複雜, 許多公司都依據新科技重組。

但我想強調,不管你今天做什么工作, 都有一種工作形式, 知識工作的未來將來。

指数增長的基准測試呢

最明顯的反驳是:看看指数進步的基准測試。你現在說的都是暫時的等一下,模特兒會追上你。

但這是個需要警惕的陷阱你可以稱之為「圖象迷幻」:如果你繼續觀察METR的時界預測, 讀取「AI 2027」, 並完全依靠微积分曲線的推測。

然而,最好的回應方式不僅是想像未來模式會變成什麼樣。當然,它是分析的一部分。更重要的是看看這些基准測試是如何設計的只有這樣, 才能更准确地理解他們到底說了什麼。

我們會找到一個結構特征: 所有基准測試都在一個框架內進行. 要測量某種東西,你必須將一個問題冻结成一個靜態的,可測量的形式. 一旦框架被建模,需要稍微修改框架才能再次降分. 當然,這個模式會在新框架內繼續進步。

因此,基准測試的索引進度是真實的;然而,只要對測試框架做簡單的修改,此進度似乎就再小一些。這個與基准測試相關的「分解」特性。

我們可以看到這個机制是如何在真實世界中通過基准測試而起作用的。

基准測試是如何設計的

我們在裡面做了一個標準測試叫做"高级工程師基准" 根據定義,它被用来測試前線模型在高级工程師層面的編碼工作能力,例如大型的重設工作。

這個測試會讓Agent得到一個程式化的製作代碼庫,它失控了. 我先用氣象編碼寫成的, 之後我要求一位高級工程師來修復。

探員得到修复前的密碼圖書館,他得到的指令就像你給高级工程師的:"這是一堆氣溫編碼產品. 請重寫第一原則"

這是個很好的標準考驗, 因為它不僅看重重編碼的能力, 也看同時, 也保留了兩位资深人類工程師的重寫版本。

這對編程特工來說很困難必須找出問題的根源, 必須有勇氣移除大型的密碼庫這正是Agent通常要避免的行為。

但從實施期間, 他們常常只是繼續修補原始問題, 而不是徹底解決。

直到GPT-5.5出現。

在其中一次最好的測試中,GPT-5.5得到62/100分,比Opus 4.7高30分左右。

GPT-5.5顯示, 不只是一個助手, 不只是一個工具, 在這次測試中,高级人造工程師通常得分80到90分. 也就是說,如果模型增加约30分鐘,它就會達到高级人類工程師的水平。

這就是基准測試數據如何影響人類的想像力: 它把能力一個奇怪的質量變化压缩成一個清潔的數字用它來說出一個強大的甚至可怕的故事。

下一站是"圖瘋了"。

我猜,在下一年,模型的分數在這個基准測試中將進入80分甚至90分。但要想理解這分數意味著什麼首先必須理解它到底包含什麼 62分不只是模型自身能力的衡量。

它以特定框架衡量模型的性能:即它如何响应特定提示。

基准考核衡量框架内的工作

要標準模型,你得先趕緊不迅速, 模型就是一個近乎无限可能性的靜態集合。

提示會建立一個小宇宙: 並將所有可能的模型压缩成一項具体的行動。所謂的"自我"模式的表演方式并不严格。我們能真正觀察到的是模型是如何對不同的提示做出反應的, 以及它們是如何變成答案背后的一些底部機理的。

一旦被輸入,模型會在短時間內"存活",把靜态的可能性降低到對接下來會發生什么的具体預測。

在Señor Engineering Basic中,我們建議模型修補程式碼文庫, 如果測試框架本身沒有內置的目標功能, 我們也會執行一個自動的"關注程序"。

我們用一個非常簡單的即時來做初始的測試框架它被設計成一個氣象代碼, 它可能對編程特工說: 沒有堆積技術名詞。

「這個密碼倉庫是一堆氣候編碼產品, there有 something, there有s, there有 something,'有 something. 我覺得問題在於一堆氣氛編碼垃圾如果我們從零開始, 特别是從实时文件開始, 如果我們想在第一播放原理的基础上做一個清潔的結構重寫, 而不是考慮哪些服務應該對齊, 组织结构是什么? 我們在整個密碼庫中要堅持哪些變數? 」

高级工程基准的即時性似乎很普遍, 如果我們改變框架,模型顯示的能力水平會改變。

例如,這項啟動明确要求「根據第一原理重寫建構」, 指出問題可能在于「文件合作」部分。

如果移除此特定信息, 模型得分會下降。如果按鍵被完全取代, 只有模型"解決所有將發生的錯誤"才能得分接近零。而不是退一步。

我也能輕而易舉地增加模特數量如果我要求它刪除大量代碼, 并清楚告訴它該精简哪些文件, 或者我要求它在宣布完成之前檢查工作結果。

在設計基准測試時, 您需要一個足夠的快速度以讓目前模型的實驗不足, 但是它必須足夠接近模型的现有能力爬上沿著那條路的斜坡, 這樣您就能看到進步正在進行。

所以,當我們看一個基准測試, 我們真正看到的是,模型在我們所選擇的特殊問題框架上變得越來越好。那當模特兒從60分鐘到90分鐘甚至100分鐘在這次測試中會怎樣

廉價框架刺激了新的需求

如果GPT-6能用一個金鑰重寫密碼庫, 更多人會開始試圖從第一個原則重寫密碼庫。

必須由资深工程師領導重寫第一個原則。

破碎的內部工具不再修复,而只是重寫; SaaS 產品不復存,而是克隆;舊的 Rails 應用程式、混亂的反應儀表板、客戶服務工具、後台管理面板和資料管道都是"重寫"的參考者。

重新寫作的專案數量將大增。但大部分的重寫還是會被打碎的因為在按下重寫按鈕前, 要考慮數千個變數。當每個人都能做到的時候這些變數就會變得更明確。

顯然誰會被召來解決問題。

新的需求仍需要專家

基礎測試中的工作越來越便宜。市場對專家的需求會增加, 因為這項新造的廉价產品。

使用人工智能的高级工程師需要判斷很多細節, 是否有必要重新寫作

我們現在要重寫它晚點再重寫嗎? 应包括什么? 目前的密碼庫中要儲存什麼 ? 架构、數據庫、缓存伺服器和主機服務提供商是否要繼續或完全取代? 我們應該先看看有多少人使用這個損失的功能, 誰來評論最後結果? 什么條件? 后退計劃是什麼? 如何處理现有的資料

這些問題會繼續無數的維度。

高級工程師會進入這個空洞有些人會為這些中断而心煩;有些人會建立系統阻擋這種要求;有些人會利用這些新模型重寫主要原理。

循环會再發生

而當目前的高级工程基准被模型攻擊時,我們會改變框架,把分數重新放低。

下一個基准測試不僅會問「你能重寫這個應用程式嗎? 」它說:「你們能判決它什麼時候需要改寫嗎?」你能選擇正確的範圍嗎? 我們能保持正确的不變嗎? 我們能管理移民嗎? 可以判斷結局是否足夠好

高級工程師開始使用AI解決這些問題。

我們將陷入恐慌:看來模特兒現在可以決定是否要重寫了! 他們似乎能盡力而為

但隨即,新的邊界將出現這是以前不明确的邊界。我們將再次重設基准測試。

此模式可以在每個基准測試中看到

這不僅是高工程師基准的問題仔細看幾乎每個基准測試都能看到相同的機制。

例如, 它評估了AI對各行各業的專家工作。

OpenAI研究顯示, 在40.6%的任務中, GPT-5已經達到或超過人類專業水平。克勞德·奧普斯4.1的表演比49%的任務中的人類專家更加惊人。

後來出現了一系列的標題. 例如Axios寫道:「OpenAI工具顯示AI正在追蹤人類的工作」

这些成果确实令人印象深刻。但讓我們看看這些任務的用處:

府治府治.

人們首先將問題設置成可以完成的模型。

GDPval並未估量的人類辛勤工作, 必須檢視和考驗這一套指标的精確性。

該模式確實能完成專業工作。但看看如果是你我建議模特兒做同樣的事它會做什麼

但若我看錯這些案例, 所展示的不是少人的工作, 這些成就背后有很多智慧

如果你看一看你會發現這些事背后有個AI版本的ZINO悖論。

AI的ZINO悖論

在齊諾悖論中,一只烏龜在比賽中擊敗了希腊跑得最快的阿基里斯。

因為烏龜很慢它留下了一段距離當阿基里斯跑到原位時,烏龜向前一點;當阿基里斯追上新位子時,烏龜再次移動. 不管阿喀琉斯跑多快總有距離可以抓住缺口會重生。

在AI的ZINO悖論中我們人類是烏龜在數百萬年的進化和文化學習中,我們比AI早50碼。人工智能高速經過這一切開始接近我們的腳跟。

至少過去幾年來我們一直保持領導地位。

那AGI呢

儘管AGI真的來了。

AGI 的定义

首先我們需要給AGI一個操作定義。

我曾經提議過當一個特工在經濟上合理時 AGI已經到了也就是說,當我有了一個永久的系統, 我愿意支付它7x24小時的持續思考,學習和動作, 我想這正是我所想的。

我們離那很遠連技術上可以被稱為OpenClaw的系統。

我喜歡這個定義, 因為它可以衡量: 我們要么繼續運作, 要么就不會。同時,它也包含了很多难以直接衡量的能力. 值得運作的模式必須能繼續學習。

在AGI世界裡, 這實在是對一切努力的重大威脅。

框架不是框架

但即使這個強大的AGI版本也無法解決「框架問題」。

這個AGI可以選擇和重新選擇一個框架, 但是它仍在追求既定目標, 优化刺激, 或是回應一個訊號, 目標可以非常具体,如"提高登陸頁面的轉換率"或非常抽象,如"尋找新的科學想法"。

即使模型能在框架之間流動我們一直追蹤的缺口也會在更高層重新出現 AGI裡仍有一個設計器。

因為框架不是框架, 相同的模型將被重複:AI會使昨天設計的能力便宜;人們會用它來做更多場景;結果會變得極富;專家會移到新的邊緣。

當我們看到AI做新的事情時,那種恐慌感總是會回到同樣的事情上:我們設置一個框架,我們看著模型爬升,然後我們把這個框架,或者可以爬升到框架上的東西,我們誤會了它。

當我們看一個基准測試把它和人的能力比對, 我們實際上把"框架"和"框架者"混淆了。這不代表模型已經成為了我們。

這正是恐慌背后的範圍錯誤我們指出我們剛畫的邊界, 然後,當模特兒爬上這邊境時, 我們認為它會追上我們。但這只是一個框架,而不是一個框架。

錯誤是我們總是想要一些特定的東西我們想說智慧是基准考驗但問題是,一旦某件事情具有可辨別性,它就足以被优化和爬升。

框架是必要的。它能讓我們抓住世界處理它但框架也是被封鎖和本地化的,肯定可以优化。

框中。陷害者仍然和被陷害者放棄的東西有聯繫也就是他每時每刻出現的情況。

完全情況是什麼? 當你開始談論整個情況時你已經打開了另一個框架你不能完全說出它是什麼但它存在是因為你存在。

沒有主題

目前為止我們製造的特工以及人工智能建造的特工有兩個相關的概念常常是混合的:代理,指独立行事的能力;代理,指代表他人行事的个人或事物. 目前為止。

儘管這項任務可能會持續數小時甚至數天, 但他們仍然是达到人類目標的手段整個業務都在投資數十億美元, 這正是讓他們更好: 實現我們給他們的目標。

除非有一天, 它們本身會變成目的, 追求自己的目標, 不管他們有多進步他們都是。

如果你和一個年輕的孩子共度10分鐘顯然即使是最強大的模特兒也沒什么实质。

在我們關心的几乎所有任務中, 年輕人不寫密碼、不總結工作表、不起草战略備忘錄, 但從另一個角度來看, 因為年幼的孩子有自己的目的。

孩子們想碰那個紅氣球他想把紅氣球放在風扇前看看會發生什麼他想用叉子插上紅氣球、又要插在窗戶外 . 又想看你們能笑、發怒、或與他同在他繼續發明遊戲把世界變成實驗室他不等候一個速率、也不优化基准考驗、除非在他眼前是值得的。

你當然可以給他點提示但祝你有預期的輸出幼儿生活在渴望、關注、挫折、幸福、恐懼、模仿和玩耍的空間。

現任特工在追逐目標方面技術越來越強即使我們已經宣佈了目標他們也能幫助我們完善目標他們也有類似孩子的行為。

它們將被壓制到無法為人類服務的目的。

所以"特工"這個詞很容易被誤解這個模式的自主行動能力日益增强。但從人類的觀點來看事由不只是行動也意味著自己渴望和玩樂而模式的服从和有用性根本上與主观相冲突因此,即使模型繼續進展,模型和人類之间的差距仍然存在。

复至 Ze野

這就是AI的澤諾悖論開始瓦解的原因這實際上是個令人困惑的意識實驗我們設下了一個比喻:AI正在和我們一起賽跑,咬我們的腳跟。

你讓模特兒快點它開始執行一個遊戲你過去一個人完成。模特兒動作很快它很堅固,很不疲倦,有一種奇怪的有机感覺。這會讓這遊戲對你更重要你不跟車一起比賽但不像這東西讓你覺得自己很親近。

你坐在那里,看符號排出, 幾乎催眠。然後你開始認為你在遊戲中到處跑鬼魂的自我被超過在賽道上: 有時在模特面前,有時在模特旁。

模型就在前面你開始流汗了。

然後比賽結束了。

你幾乎能感覺到肌肉開始收縮面對這個你認識的每個人以及整個人類的機械复制品他們似乎毫無用處一個鬼追著另一個,贏了。

但後來發生了一些怪事模特兒輪到你了在空白的文字框中,游標會以期望來閃耀。

正在等待。

結束

拉比·哈諾赫曾講過一個非常愚蠢的人的故事他每天早上起床都找不到自己的衣服他害怕在晚上上床前上床。

注:"Rabbi"是猶太教的教師,法律解釋者和精神导師,類似猶太傳統中的"老師"或"宗教领袖"。

一天晚上,他終于決定把紙和筆取出來。

次日早晨、他甚喜悅的拿了字記、開始念、說、他照樣行、就把字寫在頭上、在那裡穿著好了根據筆記,他穿成一片。

"沒事的" 他說 "現在我在哪?"

"我在哪里?"

他找它很久了但沒用他找不到自己。

「我們也是。

[ 笑 ]原始链接]

自动化悖論:越強的AI,人类就越忙碌

我們怎麼到這裡的

與代理商的兩種合作模式

員工

人与AI的合作

新的知識工作操作系統

每個特工都需要一個人類

為什麼自动化會讓人更工作

AI使昨天的人的能力便宜

便宜的電力很快就會用上

浓缩帶來同化:舊專家能力被商品化

同源化造成差异需求

需要分化主要是對專家的新要求

指数增長的基准測試呢

基准測試是如何設計的

基准考核衡量框架内的工作

廉價框架刺激了新的需求

新的需求仍需要專家

循环會再發生

此模式可以在每個基准測試中看到

AI的ZINO悖論

那AGI呢

AGI 的定义

框架不是框架

沒有主題

复至 Ze野

結束

関連記事

ビルブライト証券の禁止後、新しい治療法はチェーンで株式を購入しますか

ファイナンシャル・スタッキングの5層からHyperliquidを分解します

初期Bitcoinアーキテクトアダムバック:BTCは失敗しません、痛みは成長の価格でした

Hasharate指数: 2026年にボリビアでの採掘の現状

製品

法律とサポート

友達リンク

自动化悖論:越強的AI,人类就越忙碌

我們怎麼到這裡的

與代理商的兩種合作模式

員工

人与AI的合作

新的知識工作操作系統

每個特工都需要一個人類

為什麼自动化會讓人更工作

AI使昨天的人的能力便宜

便宜的電力很快就會用上

浓缩帶來同化:舊專家能力被商品化

同源化造成差异需求

需要分化 主要是對專家的新要求

指数增長的基准測試呢

基准測試是如何設計的

基准考核衡量框架内的工作

廉價框架刺激了新的需求

新的需求仍需要專家

循环會再發生

此模式可以在每個基准測試中看到

AI的ZINO悖論

那AGI呢

AGI 的定义

框架不是框架

沒有主題

复至 Ze野

結束

関連記事

ビルブライト証券の禁止後、新しい治療法はチェーンで株式を購入しますか

ファイナンシャル・スタッキングの5層からHyperliquidを分解します

初期Bitcoinアーキテクトアダムバック:BTCは失敗しません、痛みは成長の価格でした

Hasharate指数: 2026年にボリビアでの採掘の現状

製品

法律とサポート

友達リンク

需要分化主要是對專家的新要求