Tại sao nhiều Đại lý AI không có năng suất cao hơn?

2026/06/01 01:09
🌐vi

Thiết kế sự chú ý của bạn giống như một hệ thống

Tại sao nhiều Đại lý AI không có năng suất cao hơn?
Tiêu đề gốc: The Orchestration Tax
Tác giả gốc: Addy Osmani
Biên soạn bởi: Peggy

Lưu ý của biên tập viên: Khi các Đại lý AI trở nên rẻ hơn và dễ gọi hơn, quá trình phát triển phần mềm đang bước vào một giai đoạn mới: câu hỏi không còn là liệu nó có thể bắt đầu nhiều Đại lý hơn hay không mà là liệu con người có còn không có đủ sự quan tâm để quản lý, đánh giá và kết hợp đầu ra của mình.

Bài viết này đưa ra một khái niệm rất sáng tỏ - "Thuế tổ chức". Chi phí bắt đầu Đại lý rất thấp, chỉ cần một Lời nhắc hoặc một cú nhấp chuột; nhưng điều thực sự tốn kém là các bước tiếp theo: kiểm tra xem kết quả có chính xác hay không, hiểu tác động của nó đối với kiến ​​trúc hệ thống, xử lý xung đột giữa các Tác nhân khác nhau và cuối cùng là quyết định mã nào có thể vào nhánh chính. Những nhiệm vụ này không thể dễ dàng thực hiện song song và vẫn có cùng một nguồn tài nguyên nối tiếp: sự phán xét của con người.

Tác giả so sánh các nhà phát triển với "GIL" trong hệ thống AI Agent, tức là khóa đơn luồng giới hạn thông lượng cuối cùng của hệ thống đồng thời. Nhiều Tác nhân có thể chạy cùng lúc, nhưng ngay khi bước vào giai đoạn đánh giá kiến ​​trúc, xem xét mã và hợp nhất xung đột, chúng phải đi qua bộ não của nhà phát triển một lần nữa. Vì vậy, nhiều Đại lý hơn không nhất thiết có nghĩa là sản lượng cao hơn. Nó cũng có thể khiến hàng đợi nhiệm vụ được xem xét lâu hơn, khiến các nhà phát triển rơi vào tình trạng chuyển đổi ngữ cảnh thường xuyên hơn và mệt mỏi về nhận thức.

Đây cũng là một điểm dễ bị bỏ qua trong cơn sốt các công cụ lập trình AI hiện nay: cảm giác về hiệu quả và năng suất thực tế không phải lúc nào cũng giống nhau. Bảng thông tin Tác nhân chạy toàn màn hình sẽ tạo ảo giác về "năng suất cao"; nhưng nếu các nhà phát triển không thực sự hiểu, xem xét và tích hợp những thay đổi này, hệ thống cuối cùng có thể tích lũy không phải năng suất mà là nợ kỹ thuật và nhận thức.

Do đó, điều mà bài viết này thực sự thảo luận không phải là "làm thế nào để sử dụng nhiều tác nhân hơn" mà là "làm thế nào để thiết kế lại quy trình làm việc xoay quanh sự chú ý của con người". Trong kỷ nguyên Tác nhân, khả năng quan trọng không chỉ là đặt câu hỏi và giao nhiệm vụ mà còn là biết nhiệm vụ nào có thể được giao cho máy để xử lý song song và nhiệm vụ nào phải dành cho con người phán đoán; khi nào nên xem xét theo đợt và khi nào nên ngừng điều phối và tập trung lại vào vấn đề cốt lõi.

AI đang mở rộng khả năng xử lý đồng thời của sản xuất phần mềm, nhưng sự chú ý của con người vẫn là nguồn tài nguyên khan hiếm nhất và không thể tái tạo nhất trong hệ thống. Một quy trình làm việc của Tác nhân thực sự trưởng thành không chuyển tất cả nhiệm vụ vào máy mà cẩn thận thiết kế kiến ​​trúc chú ý của riêng nó giống như thiết kế một hệ thống sản xuất.

Sau đây là nội dung gốc:

Giờ đây, việc khởi chạy thêm nhiều Tác nhân AI đã trở nên dễ dàng. Nhưng nhiều Agent chạy cùng lúc không có nghĩa là có nhiều “bạn” hơn. Băng thông nhận thức của bạn không thể song song được. Tất cả những đánh giá thực sự được sử dụng để hướng dẫn họ, đánh giá kết quả và kết hợp các sửa đổi cuối cùng vẫn phải trải qua cùng một bộ xử lý nối tiếp - tức là chính bạn.

Cái gọi là "thuế tổ chức" thực chất là cái giá bạn phải trả sau khi quên điểm này. Giải pháp thực sự duy nhất là bắt đầu thiết kế sự chú ý của riêng bạn, giống như bất kỳ hệ thống đồng thời nào.

Tôi đã tham gia cuộc thảo luận bàn tròn tại Google I/O với Richard Seroter, Aja Hammerly và Ciera Jaspan về công nghệ phần mềm hiện nay trông như thế nào và nó có thể phát triển như thế nào trong tương lai. Ở phần cuối, Richard hỏi chúng tôi: Điều quan trọng nhất mà các nhà phát triển nên rút ra và thay đổi sau khi nghe điều này là gì?

Tôi đã nói điều gì đó mà tôi đã nói nghĩ về những tháng vừa qua: cảm thấy bận rộn không có nghĩa là tôi thực sự làm việc hiệu quả. Bạn có thể điều hành 20 Đặc vụ cùng lúc và cảm thấy như mình đang bận rộn. Nhưng điều này không có nghĩa là bạn đã giao khối lượng công việc tương ứng với 20 Đại lý.

Trước đó trong cuộc trò chuyện đó, Richard đã đặt tên cho vấn đề. Anh ấy nói: "Điều anh vừa nói thực chất là lập kế hoạch thuế. Anh không thể quản lý thành công 20 Đại lý trong đầu mình được."

Anh ấy hoàn toàn đúng. Tôi muốn chia nhỏ khái niệm này một cách trọn vẹn hơn, vì đây không phải là vấn đề về kỷ luật tự giác mà là vấn đề về kiến ​​trúc.

Có một điều tôi đã nói gần như tình cờ trong cuộc bàn tròn đó và nó luôn in sâu trong tâm trí tôi: điều hành nhiều Đặc vụ không có nghĩa là có thêm một bạn trên thế giới.

Sự bất đối xứng mà mọi người không tính tới

Có sự bất đối xứng tiềm ẩn trong quy trình làm việc của Đại lý.

Bắt đầu một Đại lý rất rẻ. Tất cả những gì bạn cần làm là chạm vào bàn phím hoặc viết lời nhắc. Nhưng việc hoàn thành vòng khép kín của Agent không hề rẻ chút nào. Ai đó phải kiểm tra xem kết quả mà nó trả về có chính xác hay không và đối chiếu nó với những thay đổi do các tác nhân khác thực hiện.

Người này chính là bạn. Và bạn chỉ có một.

Tháng trước, tôi đã viết về một phần của vấn đề này trong "Giới hạn trên của tác nhân song song của bạn", chủ yếu thảo luận về mối lo ngại về môi trường: bạn không biết luồng song song nào đang âm thầm thất bại. Bài viết này muốn nói về cấu trúc đằng sau chi phí này.

Khi bạn bắt đầu coi việc phát triển Tác nhân như một hệ thống song hành, bạn sẽ nhận ra rằng bản thân con người chỉ là một thành phần trong hệ thống này. Một thành phần nối tiếp rất chậm.

Bạn là tài nguyên đơn luồng

Nếu bạn đã viết mã đồng thời, bạn đã có trực giác để hiểu vấn đề này. Chỉ là trước đây bạn đã sử dụng trực giác này không đúng chỗ.

Python có khóa thông dịch toàn cầu, còn được gọi là GIL. Bạn có thể tạo bao nhiêu luồng tùy thích, nhưng chỉ một luồng có thể thực thi mã byte Python cùng lúc, vì tất cả chúng đều phải lấy khóa trước.

Bạn là GIL của Tác nhân AI.

Tất cả đều có thể chạy đồng thời. Nhưng miễn là công việc của họ đòi hỏi sự hiểu biết thực sự về kiến ​​trúc hệ thống hoặc nhu cầu giải quyết xung đột hợp nhất, thì trước tiên họ phải có được khóa này. Chỉ có một ổ khóa duy nhất và nó là của bạn.

Định luật Amdahl quy định điều này rất chính xác: giới hạn trên của tốc độ tăng tốc do song song hóa mang lại phụ thuộc vào phần công việc vẫn phải được hoàn thành nối tiếp. Nếu một phần lớn quy trình của bạn không thể song song thì cho dù bạn có đầu tư bao nhiêu lõi vào nó thì cuối cùng bạn cũng sẽ đạt đến giới hạn cứng.

Trong quá trình phát triển Đại lý, phần nối tiếp này là sự phán xét.

Bắt đầu 8 Đại lý sẽ không đẩy nhanh thời gian phán đoán của bạn. Nó chỉ làm cho hàng đợi chờ đợi của bạn lâu hơn mà thôi.

Đây là một thực tế cũ trong kỹ thuật hiệu suất, nhưng nhiều người vẫn ngạc nhiên về nó: việc tối ưu hóa các bộ phận không bị tắc nghẽn sẽ không cải thiện được thông lượng tổng thể. Bạn chỉ đang chất thêm những công việc còn dang dở trước nút cổ chai mà thôi.

Tính năng bổ sung Tối ưu hóa tác nhân là phần ngay từ đầu không phải là hạn chế. Hạn chế thực sự là liên kết xem xét và thông lượng của toàn bộ hệ thống hoàn toàn bằng thông lượng của liên kết này.

Thuế điều phối là khoảng cách về cấu trúc giữa năng lực sản xuất của Tác nhân và nội dung mà bạn thực sự có thể kết hợp. Điều này xảy ra khi bạn để tài nguyên đơn luồng quản lý một hệ thống đồng thời.

Nỗ lực mạnh mẽ cũng không thể giải quyết được giới hạn trên của cấu trúc

Tại bàn tròn đó, tôi đã nói đôi điều: Tôi chưa bao giờ cảm thấy công cụ của mình hiệu quả như bây giờ, nhưng tôi cũng chưa bao giờ mệt mỏi đến thế.

Cả hai cảm xúc đều hoàn toàn có thật và đều xuất phát từ cùng một lý do.

Sự mệt mỏi này có một nguồn gốc rất cụ thể: đó là cảm giác khi đẩy bộ xử lý nối tiếp lên 100% liên tục mà không có bất kỳ khoảng trống nào.

Mỗi khi bạn nhìn lại một Tác nhân đã khiến bạn mất tập trung, bạn phải trả một khoản chi phí chuyển đổi ngữ cảnh. Bạn phải giải tỏa tâm trí của mình và tải lại từ đầu với một bối cảnh khác.

CPU có thể thực hiện việc này trong một phần triệu giây và thậm chí sau đó, các kiến ​​trúc sư vẫn cố gắng tránh chuyển đổi thường xuyên. Và bạn phải mất vài phút để làm điều đó và bối cảnh không bao giờ được khôi phục hoàn hảo.

5 Tác nhân không có nghĩa là khối lượng công việc gấp 1 lần lặp lại 5 lần. Đó là 5 lần tải lại bối cảnh khởi động nguội, cộng với một quá trình não chạy ngầm liên tục lo lắng về việc bạn nên kiểm tra Tác nhân nào bây giờ.

Bạn không thể giải quyết giới hạn về mặt cấu trúc bằng cách "cố gắng hơn nữa". Thuế này luôn phải được trả.

Nếu bạn cố gắng thực hiện nó, cuối cùng nó sẽ xuất hiện dưới một hình thức khác: hoặc việc xem xét mã ngày càng trở nên nông cạn hơn hoặc bạn rơi vào trạng thái "đầu hàng nhận thức" - vì việc hình thành phán đoán của riêng bạn tiêu tốn quá nhiều sự chú ý, bạn chỉ cần chấp nhận mã do Tác nhân viết.

Hoặc bạn phải trả khoản thuế này hoặc bạn cho phép nó dần dần phá hủy sự hiểu biết của bạn về hệ thống của mình trong bóng tối.

Thiết kế sự chú ý của bạn giống như một hệ thống

Vì vậy, bạn phải coi sự chú ý của mình như một nguồn tài nguyên nối tiếp khan hiếm.

Bạn sẽ không thiết kế một hệ thống phân tán mà không xem xét đến các nút thắt cổ chai. Vâng, hãy tôn trọng bộ não của bạn như vậy.

Dưới đây là một số phương pháp thực sự hiệu quả với tôi:

Mở rộng nhóm Đại lý bằng khả năng đánh giá chứ không phải bằng khả năng giao diện người dùng.

Một hệ thống xử lý đồng thời tốt sẽ sử dụng cơ chế tạo áp lực ngược để ngăn hàng đợi phát triển vô thời hạn. Nhà sản xuất cần phải chậm lại để phù hợp với sức mạnh xử lý của người tiêu dùng.

Số lượng Đại lý của bạn là nhà sản xuất và khả năng đánh giá của bạn là người tiêu dùng. Số tác nhân song song chính xác phải là số mà bạn có thể hoàn thành việc xem xét mã một cách nghiêm túc. Đối với hầu hết mọi người, đây thường là các chữ số đơn thấp.

Tất nhiên công cụ AI sẽ vui lòng cho phép bạn bắt đầu 20 Đại lý, nhưng đó chỉ là chức năng giao diện người dùng và không có nghĩa là bạn thực sự có khả năng quản lý chúng.

Nhiệm vụ danh mục.

Tôi đã đề cập đến phương pháp này khi Richard hỏi tôi sẽ xử lý việc này như thế nào. Tôi sẽ chia nhiệm vụ thành hai chồng.

Đợt đầu tiên là công việc tương đối độc lập và tôi sẵn sàng giao nó cho Tác nhân chạy trên nền tảng đám mây. Những tác vụ này có thể được thực thi không đồng bộ và thường chỉ yêu cầu tôi kiểm tra vào phút cuối.

Nhóm thứ hai là những nhiệm vụ phức tạp. Bản thân công việc thực sự là sự phán xét. Ví dụ, một lỗi rất lạ hoặc một thiết kế kiến ​​trúc.

Sai lầm lớn nhất là cố gắng song song hóa loại nhiệm vụ thứ hai. Việc xử lý song song nhiều tác vụ phức tạp sẽ không mở rộng kết quả đầu ra của bạn mà chỉ khiến khóa đó liên tục bị cạnh tranh và cuối cùng mọi kết quả sẽ tệ hơn.

Đánh giá hàng loạt.

Mỗi lần chuyển đổi ngữ cảnh đều khiến bạn tốn rất nhiều chi phí. Việc ngồi xuống và xem xét kết quả của 4 Đặc vụ cùng một lúc sẽ rẻ hơn nhiều so với việc xem xét một tác nhân trước, làm việc khác và sau đó quay lại với khởi đầu lạnh lùng để nhìn vào tác nhân kia.

Cung cấp cho Đại lý một sợi dây xích dài hơn. Hãy để công việc tích lũy một chút và sau đó xử lý chúng theo đợt.

Chỉ sử dụng khóa này để phán xét.

Đừng lãng phí bộ não của bạn vào những thứ mà máy móc có thể tự xác minh. Hãy để Tác nhân viết các bài kiểm tra vượt qua hoặc tạo ảnh chụp màn hình.

Hãy để họ chứng minh 80% nhàm chán nhưng có thể kiểm chứng được. Bằng cách này, sự chú ý khan hiếm của bạn chỉ cần dành cho 20% thực sự đòi hỏi sự phán xét của con người.

Bảo vệ thời gian nối tiếp của bạn.

Nút thắt cổ chai đòi hỏi thời gian tốt nhất của bạn chứ không phải khoảng thời gian rời rạc mà bạn còn lại giữa các lần kiểm tra nhân viên.

Đôi khi, hành động có hiệu quả cao nhất là ngừng lập trình hoàn toàn: tắt máy tính chứa đầy Tác nhân, chỉ tập trung vào một vấn đề và giữ nguyên khóa đó trong suốt quá trình.

Tổ chức không phải là công việc thực sự. Đó chỉ là chi phí chung bao quanh công việc.

Aja chỉ ra rằng năng lực kiến ​​trúc hiện đã trở thành kỹ năng cấp thiết nhất: bạn cần biết nhiệm vụ nào phù hợp với một đại lý và nhiệm vụ nào quá lớn đối với nhân viên đó.

Tôi cũng muốn nói thêm: bản thân bạn cũng là một thành phần trong hệ thống này. Trọng tâm của bạn có thông lượng nối tiếp thấp, đã biết. Hệ thống sẽ tôn trọng con số này hoặc sẽ lách nó bằng cách âm thầm hạ thấp tiêu chuẩn của bạn.

Bận rộn không đồng nghĩa với năng suất

Điều này rất quan trọng vì bạn gần như không nhìn thấy được trạng thái thất bại này.

Hai mươi Đại lý đang hoạt động sẽ cho bạn cảm giác “năng suất vượt trội”. Bảng điều khiển đầy đủ và mọi thứ đang chuyển động. Nhưng cảm giác này không liên quan đến việc thực sự hợp nhất mã chất lượng cao vào nhánh chính.

Bạn có thể làm việc chăm chỉ nhất có thể với kết quả thực tế rất ít. Từ trải nghiệm bên trong, cả hai gần như giống hệt nhau.

Ciera đề cập đến nghiên cứu của Margaret-Anne Storey về nợ. Chúng tôi đã nói về nợ kỹ thuật và chúng tôi cũng nói về nợ nhận thức.

Thuế sắp xếp chưa thanh toán cho phép bạn tích lũy cả hai loại nợ.

Bạn đã kết hợp những điều bạn chưa đọc kỹ. Mô hình tinh thần của bạn về cơ sở mã đã hoàn toàn lỗi thời. Những câu hỏi này sẽ không xuất hiện trên bảng điều khiển ngày hôm nay. Chúng biểu hiện khi môi trường sản xuất gặp sự cố - khi bạn nhìn vào hệ thống và chợt nhận ra rằng bạn không còn biết nó thực sự hoạt động như thế nào nữa.

Vì vậy, kết luận thực sự là: việc thành lập một Đại lý không phải là một khả năng. Bất cứ ai cũng có thể chạy 20.

Khả năng thực sự là thiết kế hệ thống xung quanh các tài nguyên nối tiếp không thể sao chép hoặc song song.

Tài nguyên này là sự chú ý của bạn.

Thiết kế nó giống như bất kỳ thành phần quan trọng nào mà nó phụ thuộc vào trong môi trường sản xuất.

[Liên kết gốc]

QQlink

ไม่มีแบ็คดอร์เข้ารหัสลับ ไม่มีการประนีประนอม แพลตฟอร์มโซเชียลและการเงินแบบกระจายอำนาจที่ใช้เทคโนโลยีบล็อกเชน คืนความเป็นส่วนตัวและเสรีภาพให้กับผู้ใช้

© 2024 ทีมวิจัยและพัฒนา QQlink สงวนลิขสิทธิ์