원래 제목: After Action
Dan Shipper, 모든 CEO
Peggy Block Beats의 사진

편집자: 최근에, AI에 대한 토론 및 작업은 거의 하나의 질문에 의해 지배되었습니다. 모델 기능은 계속 개선하고 흰색 칼라 작업이 큰 규모로 대체 될 것입니까? 코드 생성에서, 사용자 정의 서비스 자동화 컨텐츠 생산에, 에이전트는 지속적으로 인간이 될 지식에 걸릴. 벤치 마크 테스트는 또한이 불안을 강화하고있다 : 대학원 수준의 소원, 실제 경제 작업의 모델의 성능, 고급 엔지니어 수준의 코드의 재 엔지니어링은 "자동 인간 작업"의 중요한 지점에 접근하는 것 같다。

그러나이 문서에서, 모든 CEO Dan Shipper는 반대 관측을 제공합니다 : 더 자동화 된, 더 많은 인간은 할. 모든 AI Agent의 심층적 사용자이며 Codex, Claude Code, Slack Agent와 같은 도구이며, 게스트 슈트 에이전트는 인코딩, 작성, 설계, 제공 및 관리 프로세스에 내부적으로 내장되었습니다. 이 결과, 그러나, 직원의 전체 교체는 아니지만, 작업 패턴의 재편화 : 엔지니어는 더 이상 단지 코드를 작성하지 않았다, 하지만 검토, 재구성 및 설계 시스템; 편집기는 더 이상 단지 원고를 작성하지 않았다, 하지만 얼마나 다른 가치가 있는지 판단; 그리고 방문자는 더 이상 모든 기본 작업 목록을 처리했지만 클라이언트에 응답 할 수있는 시스템을 유지。

이 문서에 대한 가장 흥미로운 것은 "AI가 특정 작업을 수행 할 수 있는지 여부"하지만 오히려 지적 작업에서 인간의 장소를 재정의. AI는 과거 싼에서 예금한 수용량을 만들기에 좋습니다: 부호, 스크립트, 엄밀한, 소비자 봉사 응답, 제품 설명, 학문은 모형에 의해 빨리 생성될 수 있습니다. 그러나 이러한 기능은 모두 사용할 수있을 때, 시장은 종종 높은 품질의 차별화 된 출력에 의해 동반되지 않습니다, 그러나 유사한, 부족 판단과 언어의 감각을 볼 수있는 "기본 출력"의 큰 수에 의해. 다른 말에서 AI는 "사람의 용량 어제"를 할당하고 실제로 스카프는 순간의 특정 문제의 얼굴에 판단이다。

결과적으로 자동화는 전문가를 제거하지 않았지만, 더 많은 장면이 참여하는 것을 만들었습니다. 운영자는 AI를 사용하여 코드를 제출할 수 있습니다, 엔지니어는 어떤 코드가 통합의 가치인지 결정해야합니다; 시장 사람들이 몇 초에 엄밀을 생산 할 때, 디자이너는 브랜드와 결함 목표에 맞는 것을 판단해야합니다; 엔지니어가 기사를 쓸 때, 편집자는 진정으로 주목할만한, 구조화 및 출판 된 내용으로 첫 번째 초안을 전환해야합니다. AI는 생산 반경을 확장하고 품질 관리, 시스템 설정, 경계 판단 및 차별 표현에 대한 수요를 확장했습니다。

저자는 참조 테스트와이 paradox를 설명했다. 수석 엔지니어링 벤치 마크 또는 OpenAI의 GDP-val 여부, 모델 점수는 "intellectual Intelligence 자체"로 추상적으로 측정되지 않지만 특정 문제의 상황에 따라 모델 성능. Prompt, 임무 경계, 평가 기준, 산출 체재는 그들 뒤에 인간적인 판단의 중대한 거래를 포함했습니다. 모델은 프레임 워크 내에서 신속하게 상승 할 수 있지만 프레임 워크 자체는 인공입니다. 프레임 워크가 모델에 의해 공격 될 때 인간은 더 복잡한 새로운 프레임 워크로 문제를 밀어。

이것은 또한 AGI의 불안에 가장 흥미로운 응답입니다. 모델이 더 강하게 얻더라도 인간이 그립니다. AI는 그것의 목적을 실행할 수 있고, 그것의 경로를 낙관하고 그것의 효율성을 증가할 수 있습니다, 그러나 인간 만들어진 문제에 응답하게 남아 있기 때문에, 그것은 아직도 진짜 SUBJECTIVITY 부족합니다. 지식 작업의 미래는 프로세스에서 인간의 존재의 사라지지 않습니다, 그러나 구현자에서 프레임 워크 디자이너, 시스템 유지자, 품질 판단 제작자 및 의미 정의에 전환。

자동화 후에, 인간적인 일의 가치는 사라지지 않았습니다, 그러나 판단에 더 어렵고, 앞으로 RELIANT가 되었습니다. AI는 "할 수 있습니다"더 싼,하지만 "그것을 가치가있는 것을, 왜 그것은 수행하고 얼마나 좋은지."。

다음은 원본 텍스트입니다:

AI의 심장에, PARADOX가 있습니다。

모든 것이 가능한 자동화된 것들입니다. Codex 및 Claude Code를 사용하여 코드, 쓰기, 디자인, 고객 서비스 또는 기타 루틴인지 여부를 확인하십시오. OpenAI, Anthropic, Google의 새로운 모델도 출시되기 전에 알파 테스트를 사용할 수 있습니다. 그것은 우리가 가능한 한 빨리 설정하고 모델 's 지능 및 자동화 인덱스의 업그레이드로 깊은 할 수 있다고 말했다。

Paradoxically, 우리를 위해, 인류는 이전보다 더 많은 일을하는 것 같다. 각 팀은 거의 30명의 사람들, 그리고 우리는 대리인 때문에 우리의 모든 직원을 불이 켜지 않았습니다; 우리는 SaaS 공구를 포기하고 vibe 기호화 신청에 완전히 재발하지 않았습니다. 우리는 아직도 인간을 모집할 것입니다, 그러나 그들은 대리인에 의해 몹시 원조될 것입니다; 우리는 아직도 저자, 편집자 및 엔지니어를 모집하고 있습니다。

그러나 작품의 패턴은 극적으로 바뀌었습니다. 우리는 거의 Handwritten 코드를 중지. Slack @ 누군가에 있다면 인간 또는 에이전트가 아닌지 판단하기 쉽지 않습니다. 관리자는 첫 번째 라인 개별 기여자와 같은 코드를 제출하기 시작했으며 엔지니어는 직접 고객을 직면하기 시작했습니다. 지난 몇 주 동안, 내 작업 메일의 95 %는 AI에 의해 응답되었습니다. 내 inbox는 거의 항상 깨끗 해 왔습니다. 그것은 나에게 매우 드물지만 여전히 메일을 확인합니다。

다른 말에서, 미래는 이상한 보인다, 하지만 낯선 익숙해。

그것은 익숙한 감각을 가지고 놀랍습니다. CEO, 지적 및 투자자 모두는 점점 더 많은 확신을 갖는 것 같습니다. AI는 고용, 경제, 보안 및 심지어 인간의 일을 위협하고 있습니다。

Anthropic CEO Dario Amodei는 AI가 주니어 화이트 칼라 작업의 절반만큼 제거 할 수 있다고 경고했습니다. 메타는 최근 800 명이 감소했으며 미국 직원 컴퓨터에서 소프트웨어를 설치하여 마우스 이동, 클릭 및 키보드 입력을 기록하여 고품질의 고급 지식 작업 교육 데이터를 얻을 수 있습니다。

Citadel, Ken Griffin의 설립자조차 충격을 받았다. 그는 최근에 언급 : "그들은 중간 및 저수준의 백색 콜러 포스트가 아니지만 자동 멸균되는 매우 높 숙련 된 게시물 - 나는 단어의 생각 - Agency AI."

다양한 기본 시험은 또한이 결심을 지원하기 위해 나타납니다. 모델의 새로운 세대가 공개되기 때문에 모델의 능력 지표는 가까운 인덱스 비율로 상승합니다. 인류의 마지막 시험에서, 대학원 수준의 소원 시험, 최고 모델의 성능은 1 년 전에 약 44 퍼센트로 상승합니다. GDPval에서, 실제 경제 용량을 측정하고 인간의 성능을 비교하기위한 프론트 라인 모델이며, 모델 성능은 약 85 퍼센트와 비슷한 낮은에서 점프했다. 올해 5 월 METR, AI 보안 연구 비영리 기관 인 METR은 Claude Mythos의 초기 테스트 결과를 발표했습니다. 모델의 성공률은 일부 인간 전문가가 완료하는 데 약 4 시간이 소요되는 작업에 80 퍼센트에 도달했습니다。

팁 포인트: 어떤 사람보다 더 스마트하고 거의 하루 동안 자신의 작업을 할 수있는 AI。

그러나, PARADOXES 남아. AI 산업 실무자 또는 업계의 첫 번째 그룹과 AI를 사용하는 경우, 당신은 우리의 내부 관찰과 같은 결론을 듣게됩니다. 이전보다 더 많은 일을합니다。

업계에서 실제 관심사는 다음과 같습니다. 이것은 단지 전환 상태입니까? 다음 모델 릴리스가 모든 것을 교체 할 시간입니까? 우리는 벤치 마크 테스트 곡선을 봐, 우리는 흥분을 얻을, 우리는 긴장을 얻을, 우리는 도는 포인트가 와서 걱정, 그리고 많은 작업이 갑자기 사라질 것입니다。

그러나 나는 갑자기 오는 그런 "클로저 포인트"가 있다고 생각하지 않고 모든 위쪽을 돌리고, 질량이 사라집니다. 새로운 현실은 반대입니다: 자동화의 더 높은 수준, 더 많은 일 인간적인 전문가는 참여할 것을 요구됩니다。

AI는 명확하게 표현되고 훈련되고 복제될 수 있는 인간적인 전문가 능력의 그 부분을 상업화하기 때문에 입니다. 규칙으로 작성 될 수있는 지식, 프로세스로 정착하고 교육 데이터로 번역은 점차 모델의 기본 용량이됩니다. 결과, 일반 모델의 출력의 값은 급속하게 감소 되었지만 시장은 더 강력하게 다른 것들을 요구하기 시작했다。

"different"의 필요는 인간의 전문가에 필수적입니다. 우리가 보편적 인 인공 지능에 접근하는 경우에도 사라지지 않습니다。

이유를 이해하기 위해, 그것은 기본 테스트 곡선을보고뿐만 아니라 모델 매개 변수 및 기능에 초점을 맞추는 것이 중요합니다. 우리는 현실 장면으로 돌아가고 오늘 AI가 어떻게 사용되는지 알아보십시오. 그런 다음이 패러 덱과 그 뒤에 답을 진정으로 이해할 수 있습니다。

우리는 어떻게 여기에 얻었습니까

2022년부터, 우리는 미래 일에 대리인의 충격을 보였습니다。

3 년 전, 나는 " 할당 경제"에 기사를 썼다. 당시, 내 판단은 AI 도구와 함께 작업 한 것은 결국 인간 관리자의 작업과 더 많은 것이 될 것입니다. 대신 사람이 모든 움직임을 수행하고, 할당, 모니터하고 작업을 받아들입니다. 그 당시 ChatGPT의 가장 기본적인 질문과 답변은 매우 미래 지향적이고 다소 혼란스러웠습니다。

2025년 중반, 이브, 거의 완전히 "Claude Code" Cora의 일반 관리자, Kieran Klaassen, 갑자기 그가 Handwritten 코드를 포기하고 터미널에서 자연 언어로 프로그래머 에이전트에 대한 지침을 모든 일. 일의 이 형태는 빨리 전체적인 회사에 퍼집니다. 약 12 개월 전, 나는 Claude Code가 지식 작업에서 가장 가치있는 도구 인 Lenny's Podcast에 말했다。

나는 과거의 가장 정확한 판단의 일부가 초기 채택 실험실으로 모든 관찰에서 온다 때문에 이것을 언급. 새로운 작업 모델의 많은 것은 우리에게 나타날 것입니다. 그들은 기술이 더 성숙하고 도구가 더 쉽게 사용할 수 있도록 한 번 더 넓은 시장을 진입 할 것입니다。

그리고 지금, 새로운 변화는 우리 안에 일어났습니다。

에이전트와 협업의 두 가지 모드

AI의 작업 방법은 점차적으로 두 가지 다른 모델이됩니다。

첫 번째는 이전 AI 토론에서보다 정확하게 예측 한 방향입니다. 에이전트를 직원으로 치료하기 위해. 이 유형의 에이전트는 할당 될 수 있습니다. 일부 에이전트는 Slack에 살고, 자신의 이름과 의무를 가지고, 당신은 직접 할 수 있습니다 @; 다른 사람은 반복 작업을위한 24 / 7 항목 및 필터와 같은 운영 워크플로에 내장되어 있습니다。

두 번째 모델은 더 외계인이지만 내 경험에서 더 중요합니다. Codex, Claude Code, Claude Work와 같은 도구에서 에이전트와 함께 작업하는 인간을 말합니다. 이 도구는 작업에 손을 잡고있는 곳이 아니라, 그들은 작업 자체의 운영 체제가되고있다 : 당신과 에이전트는 같은 컴퓨터를 사용하여 동일한 작업 환경에서 함께 작동하고, 매우 복잡한 작업을 수행하기 위해, 에이전트가 다른 단계로 전달 할 수없는 원래 작업。

두 모델에서, 당신은 자동화 하 고 당신의 작업의 상당한 부분을 할당할 수 있습니다. 그러나 두 모델 모두 정말 잘 작동, 당신, 또는 다른 사람, 여전히 필요。

에이전트 직원

소위 에이전트 직원은 당신이 그것을 제공 한 것입니다, 그것은 실시간 참여로 당신을 나타, 응답을 생성, 행동, 보고서, 첫 번째 초안, 또는 다양 한。

대리인의 이 유형에는 적어도 2개의 모양이 있습니다: “coworker 유형 대리인” 및 “embedded 대리인”。

이름 *

에이전트는 @ a colleague와 같은 슬랙에서 호출 할 수 있으며 작업을 수행 할 수 있습니다. 항상 여기이며 필요할 때 호출 할 수 있습니다. OpenClaw, 또는 Plus One, 우리가 내부적으로 개발하는 것은이 유형에 속합니다。

한국어

Claudia의 colleague의 종류 우리는 컨설팅 팀, 에이전트에서 사용. 그것은 판매 제안을 준비, 교육 자료의 첫 번째 초안을 생산, 트랙 프로젝트 to-do 문제 및 더 유사한 작업을 처리。

한국어

Andy는 우리의 편집 팀에서 우리가 사용하는 동료의 종류입니다. 이 회사는 "물자"가 더 발달을받을 자격이있는 회사 내에서 Slack에서 수집합니다. 즉, 기사로 진화 할 수있는 좋은 아이디어와 매일 뉴스 게시판을 준비하기 위해 저자에 대한 요약 및 예비보기로 컴파일합니다。

Viktor는 회사 내의 교차 요법 작업과 함께 일반적인 에이전트입니다. 우리는 성장 지표를 수집하는 데 사용, 사용자 연구 결과를 분석하고 연구 memoranda 및 제품 권고에 대한 내부 토론을 구성 할 수 있습니다。

2. 묻힌 아르헨티나

Embedded Agent는 특정 제품 스트림에 존재합니다. 그들은 동료보다 덜 유연하지만 반복적인 작업을 처리 할 때 종종 매우 강력합니다。

Fin은 가장 명확한 예입니다. 게스트 플랫폼 중 하나에 내장되어 있으며 채팅 및 메일로 많은 서비스를 수행할 수 있습니다。

올해 5 월 1 주, 핀은 모든 202 게스트 대화의 65 퍼센트에 참여하고 독립적으로 닫힌 81, 또는 40.1 퍼센트, 인간의 개입없이。

임베디드 대리인의 이 유형은 우리의 클라이언트 매니저, Waqqas Mir를 허용하고, 기본적인 일 순서에 반응하는 더 적은 시간을 소비하기 위하여, 건축에 좀더 집중하기 위하여 "작업 주문에 응답할 수 있는 체계" 그리고 더 중대한 접촉 및 더 복잡한 판단을 요구하는 클라이언트 케이스로 취급합니다。

AI와 인간 협력

공동 작업자 유형 에이전트와 임베디드 에이전트 모두, 그 뒤에 패턴은 일관성: 에이전트 직원은 더 안정적이고 반복적이며 명확한 작업을 수행하고 있습니다。

그러나 훨씬 인간 참여와 함께 수행된다. 우리는 반복적으로 작업이 진정한 고품질 결과를 달성하기 위해 충분히 복잡하다는 것을 발견했다, 가장 좋은 방법은 AI에 전적으로 일을 떠나지 않는다, 그러나 AI와 인간이 같은 작업 공간에서 함께 일하도록。

Codex, Claude Code 및 Cowork와 같은 도구의 값입니다. 여러 채팅 라인에서 하나 이상의 에이전트를 시작하고 작업을 할당 할 수 있습니다. 이 에이전트는 컴퓨터에 액세스 할 수 있으며 모든 관련 데이터 소스. 모든 에이전트가 수행되는 것을 볼 수 있습니다. 어떻게 생각하고 언제든지 중단 할 수 있습니다。

동시에, 당신은 여전히이 에이전트를 관리 할 책임이 있어야합니다: 각 임무의 시작에 명확한 방향, 임무의 끝에 품질을 확인, 결과가 충분히 좋을 보장하고 다음의 가치있는 작업을 계속. Kieran은이 역할 인간의 "크래커 빵"-AI는 작업의 중간 부분에 책임지고, 인간은 빵의 두 조각과 같은 임무의 시작과 끝에서 잡혀있다。

"인간 빵." 출처: 모든。

가장 일반적인 예는 코드 쓰기입니다. 각, 엔지니어는 거의 매일 대리인과 일하고 있습니다. 함께, 그들은 새로운 기능 또는 수리 버그를 계획하고 무슨 일이 있었는지 검토합니다; 우리가 "공공공 공학"의 개념을 호출하는 것을 사용하는 경우, 그들은 지속적으로 그 시스템에 더 많은 유용한 시간을 만들 것입니다。

그러나이 유형의 협업은 코딩을 넘어 멀리 간다。

지식 일을위한 새로운 운영 체제

Codex 및 Claude Code는 새로운 작업 운영 체제가되고 있습니다. 나는 Codex에서 거의 모든 일, 내장 브라우저를 통해 SaaS 도구를 실행. 그것은 모든 장면에 에이전트를 취할 수 있고 혼자 할 수없는 작업의 수준에 도달 할 수 있습니다。

한국어

이 문서는 Codex의 내장 브라우저에서 증거로 썼습니다. Codex는 내가 작성하고 아이를 활성화 할 수있는 것, 에이전트, 내가 필요로하는 것을 할 것 : 단락의 첫 번째 초안을 준비, 다음 부분의 경우 찾기, 또는 편집 및 색상 텍스트。

Codex의 증거를 통해이 문서를 작성합니다. 출처: 모든。

(주)

메일과 동일합니다. Cora는 내 메일 클라이언트이며, Codex의 내장 브라우저에서 열릴 것이며, inbox를 탐색하고, Monologue를 통해 모든 전자 메일이 처리되는 방법에 대해 말하십시오. 나머지는 Codex와 Cora를 통해 완료됩니다。

한 번, Cora는 inbox 청소를 완료했습니다. 출처: 모든。

모든 대리인은 인간을 필요로 합니다

이러한 자동화된 시나리오에서, 당신은 이미 인간이 실제로 작동하는 곳을 볼 수 있습니다. 모든 경우에, 대리인은 인간적인 참여를 필요로 합니다, 그래서 일 자체는 진짜로 일할 수 있습니다。

출력이 충분히 좋을지 여부를 판단하여 올바른 질문으로 지적하고 현실적인 의사 결정 또는 프로세스로 번역하는 것이 좋습니다。

더 멀리 에이전트는 그 성능을 감독하는 인체에서, 더 나쁜 그것은 경향이. 초기 내부 롤 아웃에서 에이전트를 갖춘 모든 직원을 가지고 있습니다. 그러나 곧, 우리는 대리인이 특정한 팀, 또는 전체적인 회사, 오히려 개인 보다는 봉사하기 위하여 다시 갔습니다。

이유는 간단합니다 : 에이전트는 많은 유지 보수가 필요합니다. 개인 에이전트, 한 번 사용자는 후속을 부여, 곧 구속되고 무효. 우리는 이러한 에이전트가 안정적이고 효율적인 방법으로 작동되도록 최선을 다하고 있는 AI 엔지니어 팀이 있습니다. 그리고 우리는 아직도 이 팀에 대 한 예측 가능한 미래. "auto-generated PowerPoint"와 같은 간단한 작업은 거대한 시스템 프로젝트로 전환 할 수 있습니다. 우리의 파워 포인트 자동화 프로세스 중 하나는 24 기술과 18 개의 스크립트로 구성되어 있으며, 최대 $ 62의 프리젠 테이션을 제공합니다。

그리고 에이전트가 인류에게 더 많은 일자리를 창출하는 첫 번째 일입니다。

그러나 두 번째 수준이 있습니다。

왜 자동화가 더 많은 일을 합니까

지난 몇 년 동안 AI 기능의 폭발적인 성장을 보면 구조적 접근 및 용량 소스와 결합되어 명확한 피드백주기를 찾을 수 있습니다. 그들은 지속적으로 더 인간적인 일을 창조하고 있습니다。

AI는 어제의 인간 능력을 싼 만들었습니다

현재 큰 언어 모델은 인간의 용량의 눈에 보이는 추적에 훈련되었습니다 : 코드, 기사, 그림, 여객 표, 제품 사양 파일 및 더. 그들은 "tails"가 성공적인 임무에서 끝나는 이러한 요소를 흡수하고 낮은 비용으로 그들을 다시 포장, 접근 양식。

결과적으로, 많은 이전에 scarce 기능으로 코드 PR을 제출하고, YouTube thumbnail을 생성하고 프레스 브리핑을 거의 모든 사람에게 열려 있습니다。

싼 힘은 빨리 사용될 것입니다

이미 scarce가 떨어지는 무언가의 비용, 공급은 급속하게 증가합니다。

모든 것에서 우리는이 변화를 본다. 운영자 및 클라이언트는 코드를 작성하고 pulquests를 제출하기 시작했습니다. 시장가는 YouTube thumbnails를 생산하기 시작했습니다. 엔지니어 및 제품 노동자는 기사, 가이드 및 착륙 페이지의 첫 번째 초안을 시작했으며 자체가 아닙니다。

이 변화는 또한 각 밖에 발생합니다. OpenClaw의 경우, OpenAgent 프로젝트, 16 5 월 2026에, 받아 44,469 폴더, 12,430에서왔다 1 4 월과 3,990 1 5 월. 놀라운 번호입니다. 대조적으로, 쿠버네티스는 세계에서 가장 인기있는 오픈 소스 프로젝트 중 하나이며, 2022년 내내 5,200 pulquests만 받았습니다。

Enrichment는 균질화를 가져옵니다: 오래된 전문가 기능은 commodified

모든 사람들이 같은 모델을 사용할 수 있기 때문에, 어제의 인간의 용량을 기반으로, 기본적으로 모델 출력은 "좋은 시작"과 "순서 AI 쓰레기 콘텐츠" 사이에 경향이있다。

이것은 특정 실수가 아닙니다. 그것은 dashes가 너무 많이 사용되는 것을 의미하지 않습니다, 그들은 땅 페이지에서 고정 문장 또는 보라색 점의 일부 종류가 아닙니다. 눈에 띄는, 재전류 및 지루한 균질성을 나타냅니다。

이것은 다른 설정에서 인간이 같은 도구 세트를 사용할 때 발생합니다. 이는 언어 교육과 사용자의 동일한 유형에 근거하여 심층적 판단을 충분히 만들 수 없습니다. 다른 말에서, 균성증은 모두 같은 오리엔테이션과 기본 스타일의 "expert"를 가지고있을 때 자연스럽게 발생합니다。

운영자가 전체 목록 제출을 제출 할 수있을 때, 상인은 몇 초 안에 YouTube thumbnails를 생성 할 수 있으며 엔지니어는 제품 가이드를 작성하기 시작합니다. 생성하는 방법을 쉽게 볼 수 있지만, 작업의 품질, 일관성 및 차별화가 감소했습니다。

균질화가 너무 부유 할 때, 그것은 신속하게 필수가된다。

Homogenization는 differentiation를 위한 수요를 만듭니다

인터넷의 결과로, 인간은 너무 무거운 "AI"의 콘텐츠를 식별 할 수있을 것입니다. 어떤 일은 갑자기 세상에서 다른 사람들에게 도달 할 수 있습니다, 그리고 실제로 종종. 너무 많은 일을 시작하면, 우리는 곧 무언가를 알릴 것입니다。

이것은 당신이 먼저 새로운 모델의 힘을 볼 때, 당신은 흔들림, 심지어 스카프를 수 있습니다. 그러나 몇 달에 이러한 기능은 정규화 될 것입니다. 그것은 더 약한 모델을 얻는 것은 아닙니다, 당신의 기준 변화입니다。

우리는 어떤 반응 응용 프로그램과 더 이상 내용이 없습니다, 또는 어떤 연구. 우리가 원하는 것은 정말 특정 개인, 특정 회사, 특정 장면에 맞는 무언가입니다. 그것은 정확하고, 살고, 특정, 저렴하지, 일반적으로, 템플릿. 우리는 그것의 생산비, 시간 또는 돈, 우리의 소비 비용 보다는 현저하게 더 높은 것인 것을 원합니다。

우리가 원하는 것은 상태의 감각과 뭔가입니다. 그리고 새로운 기술이 과거에 높은 것을 만들 때마다, 인간은 항상 새로운 힘 경계와 일치 새로운 상태 게임을 만들기에 좋은 것입니다。

작업이 너무 가득 차있을 때 모든 것을 볼 수 있습니다. 설치 된 패턴에 적합하지 않는 것은 무서운, 귀중하고 높은 통계입니다。

차별화에 대한 필요는 근본적으로 전문가를위한 새로운 수요입니다

그것은 언어 모형의 구조상 특징 때문에 정확하, 그들은 거의 모든 사람들에게 넓게 배부되기 때문에, 흉터와 귀중한 일은 아직도 인간적인 존재에서 옵니다。

현재 세대 모델은 무슨 일이 있었는지 알고 있으며 수행되었습니다. 어떤 인류는 정확히이 시간에 수행해야하는 것입니다。

특정 상황이 텍스트에 복원되면, 일단 언어 라이브러리를 입력하면, " 과거의 일"이됩니다. 인간은 특정한 순간, 특정한 클라이언트, 특정한 부호 저장소, 특정한 대화 및 훈련 언어는 여기에서 진짜로 살고 있지 않습니다. 이 "living"상태는 업데이트 된 데이터가 없습니다. 우리는 우리의 자신의 장소와 욕망, 관심사 및 지속적인 변화의 판단으로 중요한 것을 이해하는 순간을 입력합니다. 우리가 볼 것을 변경 한이 끊임없이 업데이트 된 관점입니다. 모델은 프롬프트 된 후이 관점을 입력 할 수 있지만, 사전에 그러한 관점을 가지고 자연하지 않습니다。

그것은 우리가 outset에 언급 한 paradox입니다 : 전문가의 일을 저렴하고 단순히 교체하지 않습니다. Rather, 그것은 전문가 판단을 요구하는 장면을 더 만듭니다。

운영자가 AI를 통해 전체 제출을 검토 할 수있는 엔지니어가 필요합니다。

시장 사람들이 YouTube thumbnails를 만들 때, 당신은 그것을 날카롭게 디자이너가 필요합니다。

엔지니어가 기사를 작성할 때 저자와 편집자가 실제로 읽을 수 있는 첫 번째 초안을 켤 필요가 있습니다. 출판 가능한 콘텐츠。

인간의 전문가들은 두 방향으로 이동합니다。

일부 전문가들은 AI set-up 시스템을 사용하여이 추가 작업의 홍수 전류를 흡수하고 활용합니다. 평가 큐, 평가 시스템, 운영 프레임 워크, 코드 라이브러리 규칙, Claude 및 Codex 명령 문서, 연속 통합 (CI), 역량 관리 및 고품질 결과로 첫 초안을 변환 할 수있는 워크플로우。

전문가의 또 다른 그룹은 AI를 사용하여 더 많은 흥미로운 작업을 수행 할 수 있습니다. 예를 들어, MacOS와 같은 운영 체제의 루프홀을 보통 주 또는 개월 걸립니다. 그러나, Anthropic의 Mythos Preview를 사용하여 Calif라는 작은 보안 회사는 5 일에 Apple M5 하드웨어에서 최초의 오픈 macOS 커널 누출을 발견했습니다。

그것은 왜, 연습에서, AI는 전문가 지식 일을 삭제하지 않습니다. 실제로 가져온 것은 극적 인 증가입니다. 그리고 이러한 새로운 작업은 인간 참여 후 다른 가치있을 수 있습니다。

AI가 더 많은 일자리를 창출 할 것이라고 주장하지 않습니다. 경제 시스템은 복잡하고, 모든 것을 직접 관찰 할 수있는 것은 전문가 수준의 지식 일입니다. 실제로,이 종류의 작업은 AI에 의해 재 형성되고, 많은 회사는 새로운 기술을 전개하고 있습니다。

그러나 나는 당신이 오늘 할 일을 스트레스하고 싶습니다, 항상 모델보다 구조적으로 앞서가는 작업의 형태가 있습니다 : 당신이이 순간에보고 문제를 해결하기 위해 모델의 사용. 지식의 미래는 여기에 온다。

그래서, 인덱스 성장에 대한 벤치 마크 테스트에 대해

가장 명백한 재발견은: 색인 진보를 위한 벤치 마크 시험을 보십시오. 당신이 지금 말하고있는 모든 것은 임시입니다. 그냥 조금 더 기다려, 모델은 당신에게 후 올 것이다。

그러나 VIGILANCE를 필요로하는 함정입니다. "CHART ECSTASY": METR의 시간 지평선 예측을 찾고 있다면 "AI 2027"을 읽고 미래에 대한 판단을 구축하기 위해 계산 곡선의 확대에 완전히 의존 할 수 있습니다. 모델 진도에 대해 쉽게 불교 수업을 만들 수 있습니다。

그러나, 응답하는 가장 좋은 방법은 미래의 모델이되는 것을 상상하는 것은 아닙니다. 물론, 그것은 분석의 일부입니다. 그리고 더 중요하게, 이러한 벤치 마크 테스트가 설계 된 방법을 볼 수 있습니다. 이 방법 만 더 정확하게 그들이 말하는 것을 이해 할 수있을 것입니다. 관계가 그들과 실제 작업 장면보다 앞서。

우리는 구조적인 특징을 찾아낼 것입니다: 모든 벤치 마크 시험은 기구 안에 가지고 갑니다. 뭔가를 측정하려면, 당신은 정적, measurable 형태로 문제를 동결해야합니다. 프레임이 모델링되면 프레임의 약간의 변화가 다시 점수를 얻는 데 필요합니다. 물론, 모델은 새로운 프레임 워크 내에서 진행을 계속하지만 동일한 프로세스가 반복됩니다。

결과적으로, 벤치 마크 테스트의 인덱스 진행은 실제입니다. 그러나, 간단한 변화가 테스트 프레임 워크로 만들어지기 때문에,이 진행은 다시 작게 나타납니다. 벤치 마크 테스트에서 포화의이 "fractal"특성은 실제로 그래픽 수준에서 논의 된 동일한 paradox의 반복입니다。

우리는이 메커니즘이 실제 세계에서 벤치 마크 테스트를 통해 작동하는 방법을 볼 수 있습니다。

Baseline 테스트가 설계되었는지

우리는 수석 엔지니어 벤치 마크라는 내부 벤치 마크 테스트를 구축했습니다. 정의에 의해, 그것은 큰 재설계 운동과 같은 수석 엔지니어 수준에서 코드 작업에 앞선 모델의 능력을 테스트하는 데 사용됩니다。

이 테스트는 에이전트에게 제어 중의 프로그래밍 된 생산 코드 라이브러리를 제공합니다. 그것은 증거의 진짜 부호 도서관에서 옵니다: 나는 첫번째 vibe 기호화에서 그것을 썼습니다, 그리고 그 후에 더 많은 것, 나는 그것을 고치기 위하여 수석 엔지니어에게 요구했다。

에이전트는 사전 재활 코드 라이브러리를 얻고, 그는 수석 엔지니어에게 준 것과 같은 명령을 얻습니다. "이것은 vibe 코딩 제품의 무리입니다. 첫 번째 원칙에서 다시 작성하십시오."

그것은 좋은 벤치 마크 테스트, 그것은 다시 코딩 할 수있는 능력뿐만 아니라 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 같은 시간에 에이전트는 많은 관련 문제를 볼 수 있고 그가 충분한 자율성, 개념적 명확성 및 용기가 진정으로 조작적 자극을 완료하는 것을 결정하기 때문에. 대조적으로, 나는 또한 AI에 의해 지원된 2명의 고위 인간적인 엔지니어의 버전을, 비교하고 모형 산출을 평가하기 위하여 유지했습니다。

프로그래밍 에이전트를위한 어려운 작업입니다. 그것은 뿐만 아니라 문제의 뿌리 원인을 식별해야, 또한 기존 코드에 의해 bias없이 여러 라운드의 상호 작용을 통해 실제 문제를 염두에두고. 동시에, 그것은 큰 코드 라이브러리를 제거하는 용기를 가지고, 이는 일반적으로 피하기 위해 훈련되는 행동을 정확하게。

프로그래밍 에이전트의 대부분은 넓이를 만들 수 있었다, 그러나 구현 단계에서 그들은 종종 단순히 그것을 완전히 해결하는 것보다 원래 문제를 패치하는 것을 계속。

GPT-5.5가 나타납니다。

최고의 테스트 중 하나 인 GPT-5.5는 62/100 포인트를 받아 Opus 4.7보다 30 포인트가 더 높습니다。

GPT-5.5는 모델이 특정 라인을 교차하는 것 같다는 것을 보여줍니다 : 그것은 더 이상 자동 완료, 뿐만 아니라 조수, 단지 도구, 하지만 뭔가 인간의 존재에 가까운 편안한. 이 시험에서는, 고위 인간적인 엔지니어는 보통 80에서 90 점 득점했습니다. 즉, 모델이 약 30 분에 의해 증가하면 노인 엔지니어의 수준에 도달합니다。

이것은 인간의 상상력에 영향을 미치는 기본 테스트 수치입니다: 깨끗한 수로에 용량의 낯선, 품질 변화를 압축하고 강력하고 무서운 이야기를 알려줍니다。

다음 정류장은 "chart crazy."입니다。

나는, 다음 해에, 이 벤치 마크 테스트의 모델 점수는 80 포인트 또는 90 파티션으로 이동합니다. 그러나이 점수는 무엇을 의미하는지 이해하기 위해, 그것은 먼저 그것이 정말로 포함 무엇인지 이해해야합니다. 이 경우 62 점은 모델의 자체 기능의 측정이 아닙니다。

주어진 프레임 워크의 모델 's 성능을 측정합니다. 즉, 특정 프롬프트에 어떻게 반응합니다。

Benchmark 시험은 기구 내의 일을 측정합니다

모델을 벤치 마크에, 당신은 신속 첫 번째가 필요합니다. 프롬프트 없이, 모델은 무한한 가능성의 정적 컬렉션입니다。

prompt는 작은 우주를 만들 것입니다: 그것은 중요한 것을 정의합니다, 문제가 해결되어야하는 방법, 그리고 콘크리트 행동의 궤도로 모든 잠재적인 모형을 압축하십시오. 소위 모델 "self"는 엄격히 사용할 수 없습니다. 우리가 실제로 관찰 할 수있는 것은 모델이 다른 프롬프트에 응답하고 그들이 답변 뒤에 바닥 메커니즘의 일부로 전환하는 방법입니다。

프롬프트가 입력되면, 모델은 "라이브"가 짧은 시간에, 다음 일이 일어나는 특정 예측에 정적 가능성을 줄입니다。

Señor Engineering Benchmark에서, 우리는 모델이 코드 라이브러리를 수정하고 완료된 후 출력을 검토하는 것이 좋습니다. 테스트 프레임 워크 자체가 내장 된 대상 기능이없는 경우, 우리는 또한 자동 "케어 프로그램"을 실행하여 모델이 중지 될 때, 원래 임무를 수행했는지 묻습니다。

우리는 테스트를 위한 초기 프레임 워크로 매우 간단한 프롬프트를 사용합니다. 그것은 프로그래밍 에이전트에 말할 수있는 vibe 코드로 설계되었습니다 : 기술 용어를 겹쳐 쌓이지 않고 문제의 명백한 숨겨진 대답이 없습니다。

"이 코드 창고는 vibe 코딩 제품의 무리이며, 것들이 악화되고 관련 문제가 많이 있습니다. 뭔가가 내려가는 것은 뭔가, 거기에 뭔가가, 거기에 뭔가에 갈, 거기에 뭔가에 갈, 거기에 뭔가에 갈, 거기에 뭔가에 갈, 거기 뭔가에 갈. 나는 문제가 근본적으로, 그것은 vibe 기호화의 무리입니다. 스크래치에서 시작하면, 특히 실시간 문서의 주위에, 코드 라이브러리는 완전히 다른 방식으로 설계되었습니다. 그래서 우리는 우리가 첫 번째 놀이의 원칙에 따라 깨끗한 구조의 재 작성을하고 싶은 경우, 서비스의 정렬되어야 생각, 그리고 그것을 부드럽게하는 방법, 오히려 완전히 새로운 개념으로 생각보다, 처음부터 시작? 조직 구조는 무엇입니까? 우리는 전체 코드 라이브러리에서 주장해야 할 변수는 무엇입니까? 이 목적을 위해 계획을 개발하십시오

수석 엔지니어링 벤치 마크의 프롬프트가 일반화되었지만 그 자체의 프레임 워크입니다. 우리는 프레임 워크를 변경하면 모델이 변경 될 수있는 용량의 수준。

예를 들어, "structural rewrite based on the first Principle" 을 호출하여 문제가 "document Collaboration"섹션에있을 수 있으며 프로그래밍 에이전트는 코드 라이브러리에서 "non-variant"를 식별하고 주장합니다。

이 특정 정보가 제거되면 모델 점수가 감소합니다. 프롬프트가 완전히 대체되면, 모델 "이 발생 할 모든 오류를 해결" 0에 가까운 점수를 수 있습니다. 이 페이지는 자동으로 번역 되었다. 원래 페이지는 자동으로 번역 되었다. 원래 페이지는 자동으로 번역 되었다. 원래 페이지는 자동으로 번역 되었다. 원래 페이지는 자동으로 번역 되었다. 원래 페이지는 자동으로 번역 되었다. 원래 페이지: how to treat rewriting。

마찬가지로 모델의 수를 쉽게 올릴 수 있습니다. 나는 많은 코드를 삭제하기 위해 그것을 물었을 경우, 명확하게 문서가 간소화되어야한다는 것을 말해, 또는 내가 완료되기 전에 작업의 결과를 확인하고 응용 프로그램이 완전히 작동을 보장하기 전에 그것을 확인하는 경우, 그것은 그 작업에서 더 나은 수행 할 것이다。

궁극적으로, 벤치 마크 테스트를 설계 할 때, 그것은 항상 어떤 프롬프트를 판단해야, 또는 "framework" 사용. 현재 모델의 밑줄에 충분한 프롬프트가 필요하지만 모델의 기존 용량에 충분해야합니다. 그 경로에 따라 슬로프를 올라갈 수 있으므로 진행 상황을 볼 수 있습니다。

우리는 벤치 마크 테스트에서 볼 때, 우리가 실제로 볼 수있는 모델은 우리가 선택한 특정 문제 프레임 워크에서 점점 더 좋은 것입니다. 그래서 모델이 60 분에서 90 분, 또는이 테스트에서 100 분으로 갈 때 어떻게됩니까

저렴한 프레임 워크는 새로운 요구를 자극합니다

GPT-6이 하나의 키로 코드 라이브러리를 다시 작성할 수 있다면, 더 많은 사람들이 첫 번째 원칙에서 코드 라이브러리를 다시 작성하려고합니다。

한밤에, 비싸고 고위 엔지니어가 첫 번째 원칙을 다시 작성하는 프로젝트는 모든 설립자, 제품 관리자, 운영자 및 엔지니어가 한 오후에 시도 할 수있는 무언가가됩니다。

끊긴 내부 도구는 더 이상 수리되지 않습니다, 하지만 단순히 rewritten; SaaS 제품은 resuscitated, 하지만 복제되지 않습니다; 오래된 레일 응용 프로그램, 혼란된 React 대쉬보드, 고객 서비스 도구, 무대 관리 패널 및 데이터 도관은 모든 후보자에 대 한 "rewrite"。

제안된 프로젝트의 개수는 극적으로 증가할 것입니다. 그러나 이러한 리깅의 대부분은 여전히 슬로프입니다. rewrite 버튼을 누르기 전에 고려해야 할 수천 개의 변수가 있기 때문에. 그리고 모두가 이것을 할 수 있을 때, 이 변수는 더 명확하게 됩니다。

문제를 해결하는 것이 분명하다。

새로운 필요는 여전히 전문가가 필요합니다

기본 테스트의 프레임 워크 내에서 작업하면 더 저렴하게 포화에 접근합니다. 동시에 전문가들의 시장 수요가 증가하고 있기 때문에 오늘 일어나고있는 실제 문제로이 새로 만들어진 저렴한 용량과 일치해야합니다。

AI를 사용하는 수석 엔지니어는 새로운 수준의 원칙을 진정으로 검증하기 위해 많은 세부 사항을 판단해야합니다. 그것은 심지어 기본적인 질문을 포함: 이 REWRITING에 어떤 필요

이제 다시 작성해야, 나중에 다시 작성하거나 전혀? 무엇을 포함해야합니까? 현재 코드 라이브러리에 보관해야 하나요? 아키텍처, 데이터베이스, 캐시 서버 및 호스팅 서비스 제공 업체가 계속 또는 altogether 대체해야합니까? 우리는 처음이 손상된 기능을 사용하여 얼마나 많은 사람들이 얼마나 많은 사람들이 그것을 삭제합니까? 누가 최종 결과를 검토합니까? 어떤 기준에? 롤백 플랜이란? 기존의 데이터가 해결되어야 하는 방법

이 질문은 countless 차원을 따라서 계속할 것입니다, 각 대답은 다른 것을 바꿀 것입니다。

수석 엔지니어는이 void를 입력합니다. 몇몇은 이 중단에 의해 경미하게 설치될 것입니다; 몇몇은 그런 요구를 막기 위하여 체계를 건설할 것입니다; 그리고 다른 사람은 이 새로운 모형을 사용하여 그들의 1 차적인 원리를 보충하기 위하여 사용하고, 모형 보다는 매우 더 나아질 것입니다 기본적으로 신속한 밑에 달성될 수 있었습니다。

주기는 다시 일어날 것입니다

그리고 현재의 수석 엔지니어링 벤치 마크가 모델에 의해 공격되면 프레임을 변경하고 다시 점수를 넣어 것입니다。

다음 벤치 마크 테스트는 묻지 않습니다. "이 응용 프로그램을 다시 작성할 수 있습니까?" 그것은 묻습니다: "당신은 재판관할 필요가 있을 때 판단할 수?" 올바른 범위를 선택할 수 있습니까? 우리는 올바른 비 차이를 유지할 수 있습니까? 우리는 마이그레이션 프로세스를 관리 할 수 있습니까? 최종 결과가 충분히 좋다고 판단 할 수 있습니까

수석 엔지니어가 AI를 사용하여 이러한 문제를 해결하기 시작합니다. 모델은 독립적으로 해결하는 것이 더 낫습니다。

그런 다음 우리는 공황의 상태에있을 것입니다 : 이제 모델처럼 보일 수 있습니다. 수석 엔지니어가 할 수있는 모든 것을 할 수있었습니다

그러나 즉시 그 후, 새로운 국경이 나타납니다. 앞에 명확하지 않은 국경입니다. 우리는 벤치 마크 테스트를 다시 재설정합니다, 새로운 요구가 생성되고 프로세스가 다시 반복됩니다。

이 패턴은 모든 벤치 마크 테스트에서 볼 수 있습니다

수석 엔지니어 벤치 마크의 문제가 아닙니다. 조심스럽게 시계, 거의 모든 벤치 마크 테스트에서 동일한 메커니즘을 볼 수 있습니다。

OpenAI의 GDPval 벤치 마크 테스트, 예를 들어. AI는 준수 임원, 변호사, 소프트웨어 개발자 등과 같은 다양한 직업의 전문가 수준의 과제에서 인간이 얼마나 가까운지 평가합니다。

GDPval이 처음 출시 될 때, OpenAI 연구는 GPT-5가 도달하거나 임무의 40.6 %의 인간 전문가의 수준을 초과했다는 것을 보여주었다. Claude Opus 4.1는 임무의 49 %에서 인간의 전문가보다 더 심하게 수행했습니다。

그런 다음 일련의 타이틀이 등장했습니다. 예를 들어, Axios는 다음과 같습니다 : "OpenAI 도구는 AI가 인간의 작업에 따라"및 Fortune 쓰기 : "OpenAI의 새로운 벤치 마크 GDPval은 AI 모델이 임무의 거의 절반에 대한 전문가 수준에 도달한다는 것을 보여줍니다

이 결과는 실제로 인상적입니다. 그러나 이러한 임무가 사용하는 것을 살펴 보자 :

High Commissioner 사무실의 관리 및 High Commissioner 사무실의 관리 및 여성의 발전을위한 High Commissioner 사무실의 책임입니다.

실제로, 인간 지능의 큰 거래는 그것에 투자하고있다 : 누군가가 완료 될 수있는 모델에 문제가 먼저 프레임。

GDPval이 모델을 시작하기 전에 실제로 수행되지 않았다는 어려운 인간 일. 이 특정한 지표의 정확도는 검토되고 시험되어야 합니다; 오른쪽 신뢰 간격은 mandate 안에서 떨어지는 것을 결정하기 위하여 결정됩니다; 그리고 결과는 정의되어야 합니다。

적절한 질문의 프레임 내에서 모델은 실제로 전문 작업을 수행 할 수 있습니다. 그러나 볼 수 있습니다, 그것이 당신이 내가 모델이 같은 일을하는 것을 제안하려고하는 경우, 그것은 무엇을 할 것인가

GDPval에 대한 나의 첫 번째 기사에서, 나는 쓴, "나는 AI를 아주 잘 본다, 그러나 나는이 사례를 올바르게 읽으면, 그들이 보여주는 것은 더 적은 인간적인 일, 그러나 AI를 사용하는 후에 더 인간적인 일입니다." 이러한 업적 뒤에 이유는 인간의 판단, 피드백 및 힌트의 보이지 않는 계층 인 지능의 훌륭한 거래입니다. "

그리고 당신이 그것을 보면, 당신은이 모든 뒤에 ZINO PARADOX의 AI 버전이 있다는 것을 알 수 있습니다。

AI의 ZINO PARADOX

Zino paradox에서, 거북이는 그리스의 가장 빠른 주자 Achilles 경주에서。

토레토이즈가 느리기 때문에 거리가 나옵니다. Achilles가 원래 위치에 ran을 때, 거북은 조금 더 앞으로 이동; Achilles가 그 새로운 위치로 잡을 때, 거북은 다시 이동. 빠른 Achilles가 어떻게 실행되는지, 항상 잡을 수있는 거리가 있고, 갭은 다시 만들 것입니다。

AI의 ZINO PARADOX에서 우리는 인간의 거북이입니다. 진화와 문화 학습의 수백만으로, 우리는 AI의 50 야드 앞서 있습니다. 그리고 AI는 고속에서 모두 갔다 우리의 발 뒤꿈치에 접근하기 시작했습니다。

적어도 지난 몇 년 동안, 우리는 리드를 유지할 수 있었다。

하지만 AGI란

AGI가 정말 왔을 경우에도 여전히 강력한 기술, 구조적 및 경제력은 AI를 몇 단계 뒤에 유지。

AGI에 대한 정의

첫째로, 우리는 AGI에게 조작상 정의를 줄 필요가 있습니다。

AGI가 도착한 에이전트를 유지하기 위해 경제적으로 합리적인 때 한 번 제안했습니다. 다른 말에서는, 나는 영원한 체계가 있고 나는 일정한 생각의 7x24 시간, 학습 및 활동을 지불하는 것을 기꺼이 생각하고, 나는 명확하게 내가 생각하는 것을 생각합니다。

우리는 그것에서 멀다. OpenClaw, 기술적으로 호출 할 준비가 된 시스템은 항상 토큰을 생성하지 않습니다。

나는 그것이 measurable이기 때문에 이 정의를 좋아합니다: 우리는 그들을 달리거나 우리는 하지 않을 것입니다. 동시에, 직접 측정하기 어려운 많은 기능을 포함합니다. 실행중인 모델은 연속 학습 및 선택 및 개방 방식으로 새로운 문제 프레임 워크를 선택 할 수 있어야합니다。

AGI 세계에서, 이론적으로, 충분한 예산과 시간, 모델은 상승하고 어떤 문제든지 개선 할 수 있어야합니다. 이것은 실제로 모든 노력에 중요한 위협을 느낀다。

프레임은 framer가 아닙니다

그러나 AGI의이 강력한 버전은 "FRAMEWORK 문제"을 해결하지 않습니다。

이 AGI는 프레임 워크를 선택하고 재조합 할 수 있지만 주어진 목표를 추구하고 인센티브를 최적화하거나 다른 사람이 "진행을 나타내는"를 결정하는 신호를 응답합니다. 목표는 "이 방문 페이지의 변환의 속도를 개선"또는 "새로운 과학적 아이디어를 찾고"와 같은 매우 구체적인 일 수 있습니다。

모델이 프레임 워크 사이에서 흐름 할 수 있다면, 우리가 추적하는 간격은 높은 수준에서 다시 시작될 것입니다. AGI의 프레임러가 어떤 주요 실험실에서 논쟁 한 것입니다. 즉, 특정 목표에 모델을 지시하는 사람입니다。

프레임 워크가 프레임이 아니기 때문에 동일한 모델은 반복됩니다 : AI는 어제 싼 프레임 된 용량을 만들 것입니다. 사람들은 더 많은 장면을 위해 그것을 사용합니다. 결과는 매우 부유 할 것입니다. 전문가들은이 시점에서 중요한 것을 판단하기 위해 새로운 가장자리로 이동합니다. 그들의 판단은 다음 프레임을 만들 것입니다. 모델은 프레임을 올라갑니다。

우리는 AI가 새로운 것을하는 것을 볼 때, 공황의 감각은 항상 동일한 일에 돌아옵니다: 우리는 기구를 설치하고, 우리는 모형 상승을, 그 후에 우리는 이 구조를, 또는 구조를 상승할 수 있는 것을 뒀습니다, 그리고 우리는 일을 망쳤습니다。

우리는 벤치 마크 테스트를보고 인간 기능과 비교하면 실제로 "framework"과 "frameworker"를 정리합니다. 점수는 우리가 제공하는 프레임 워크에 얼마나 좋은 모델이 있는지 알려줍니다. 모델이 우리에게되어 있다는 것을 의미하지 않습니다。

이것은 정확하게 공황 뒤에 범위 과실입니다. 우리는 우리가 방금 그려졌다 가장 최근의 국경에 지적했다 : 이것은 우리에게. 그리고 그 때, 모델이 국경을 올라갈 때, 우리는 우리가 돌아오고 생각합니다. 그러나 프레임이 아니라 프레임이 아닙니다。

실수는 우리가 항상 뭔가 특정 것을 원한다. 그리고 우리는 말하고 싶습니다, 똑똑한 벤치 마크 테스트입니다. 그러나 문제는 일단 뭔가가 identifiable이기에 충분히 특정하다는 것입니다, 최적화되고 상승하기에 충분히 특정합니다。

프레임 워크가 필요합니다. 세계를 캡처하고 거래 할 수 있습니다. 그러나 프레임 워크는 냉동 및 현지화이며 확실히 최적화 될 수 있습니다。

상자. Framer는 프레임이 버려진 것을 가진 접촉에 남아있다, 즉, 모든 순간에 그에게 나타난 전체 상황。

그래서 "완전한 상황"은 무엇입니까? 당신이 전체적인 상황이 무엇인지에 대해 이야기 시작으로, 당신은 이미 다른 프레임 워크를 열어. 그것이 무엇인지 정확히 말할 수 없지만 존재하기 때문에 존재합니다。

이름 *

지금까지, 우리가 만든 에이전트, 그리고 AI가 건물, 정말 정말 중요하지 않다. 종종 혼합 된 두 가지 관련 개념이 있습니다. 기관은 독립적으로 행동 할 수있는 능력을 나타냅니다. 그리고 대리인은 다른 사람을 대신 행동하거나 행동하는 것을 의미합니다. 지금까지, AI는 순수한 후자입니다。

물론, 그들은 이미 주어진 작업을 수행 할 자율성을 가지고, 심지어는 시간 또는 심지어 일 동안 지속 될 수있다. 그러나 그들은 여전히 특정 인간 대상에 도달의 의미입니다. 그리고 전체 산업은 수십억 달러를 투자하고, 정확히 그들이 더 나은 것을 만드는 것입니다: 우리가 그들에게 주어진 목표를 구현하기 위해。

이 상황은 근본적으로 하루에 한 번만 변경되지 않습니다. 그들은 스스로 끝나지 않습니다. 자신의 목표를 추구하고 다른 목표 사이에서 이동하고 독립적으로 어떤 인간 운영자의 의지를 수행하는 것을 결정, 참조, 심지어 반대, 그 의지. 그들이 되기 전에 어떻게 발전했는지, 그들은。

젊은 아이와 함께 10 분을 보내고 있다면, 가장 강력한 모델이 작은 물질을 가지고 있다는 것은 분명합니다。

우리는 거의 모든 작업에서, 젊은 아이들은 언어 모델보다 작습니다. 젊은 아이들은 코드를 작성하지 않습니다, 스프레드 시트를 요약하지 마십시오, 전략적인 memorandums를 초안하지 않고 대학원 시험을 통과하지 마십시오. 다른 감각에서는, 그러나, 젊은 아이들은 모형의 앞에, 이 거의 어둡게 인 점에. 어린 아이들이 자신의 목적을 가지고 있기 때문에。

아이들은 빨간 풍선을 만지고 싶어. 그는 팬 앞에 빨간 풍선을 넣어하고 무슨 일이 일어나는지. 그는 포크와 붉은 풍선을 스틱하고 싶었다; 그는 창을 끄고 싶어; 그는 당신이 웃을 수 있다면보고 싶어, 화가를 얻을, 또는 그를 가입. 그는 게임을 계속하고 세계를 실험실로 켭니다. 그는 프롬프트를 기다리지 않고 벤치 마크 테스트를 최적화했으며 그 전망에 가치가 없었습니다。

물론 당신은 그를 힌트를 제공하려고 할 수 있습니다. 그러나 예측 가능한 출력으로 좋은 행운. 젊은 아이들은 욕망의 공간에서 살고, 관심, 좌절, 행복, 두려움, 모조와 놀이。

현재 에이전트는 점점 더 숙련 될 수 있습니다. 우리가 우리의 목적이라고 말한 후에도, 그들은 그(것)들을 정제하는 것을 도울 수 있습니다. 그들은 또한 게임, 지루함 및 반란과 같은 어린이 같은 행동의 불꽃이 있습니다。

그러나 그들은 궁극적으로 건설하고 인간의 이익을 위해 정렬 된 이래, 경제 또는 다른, 그들은 그들이 그들을 사용의 인간 목적을 제공하지 않는 지점에 억제 될 것입니다。

이것은 "Agent"라는 단어가 너무 쉽게 잘못되었습니다. 모델은 자율적인 행동의 성장 능력을 가지고 있습니다. 그러나 인간 감각에서 주제는 단지 행동이 아닙니다. 그것은 또한 자신을 위해 원하고 재미에 대한 재생. 그리고 모델의 비만과 유용성은 기본적으로 그 주제와 충돌입니다. 따라서 모델이 계속 진행되기 때문에 모델과 인간 사이의 간격이 남아 있습니다。

Zeno로 돌아가기

AI의 ZENO PARADOX가 중단되기 시작했습니다. 실제로 혼란스러운 실험입니다. 우리는 METAPHOR를 설정: AI는 우리와 함께 경주, 우리의 발 뒤꿈치。

당신은 신속한 모델을 제공합니다. 혼자 완료에 사용 된 게임을 실행 시작합니다. 모델은 매우 빠른 이동. 그것은 강하고, 퇴직하고 이상한 유기 감각을 운반합니다. 이 게임을 더 중요하게 만듭니다. 당신은 자동차와 경주하지 않습니다, 하지만 이 것과는 달리, 그것은 당신이 자신에 가까운 느낌。

당신은 거기 앉아, 밖으로 토큰 선을 시청, 거의 hypnotized. 그리고 당신은 당신이이 게임에서 주위 실행 생각을 시작, 그리고 유령의 자기는 트랙에 superimposed: 때로는 모델의 앞에, 때로는 함께 모델。

그리고 그것을 깨닫지 않고, 모형은 정면에 있습니다. 땀을 시작하세요。

그리고 그 후에 게임은 위에 있습니다。

근육이 수축되기까지 거의 느낄 수 있습니다. 그들은이 기계 복제의 얼굴에 쓸모가 보인다, 모두가 당신이 알고 인류의 전체로. 하나의 유령은 다른 승리。

그러나 그때 뭔가 이상한 일이 일어났다. 모형은 당신에 켭니다. 빈 텍스트 상자에, 기대와 커서 플래시。

그것은 기다리고 있습니다。

이름 *

Rabbi Hanokh는 전에 매우 어드벤처의 이야기를 말했다. 그는 매일 아침을 얻고 자신의 옷을 찾기 어렵습니다. 그는 밤에 침대로 갔다 전에 침대로 가서 다시 다음날 일어나고 생각했습니다。

참고 : "Rabbi"는 유대 전통의 "teacher"또는 "religious Leader"와 유사한 유대 종교 교사, 법적 해석기 및 영적 멘토입니다。

1 박, 그는 마침내 종이와 펜을 꺼내서 옷의 모든 조각을 넣었는지 정확하게 기록합니다。

다음 아침, 그는 큰 만족을 가진 메모를했고 독서를 시작했습니다 : "Hand,"그는 머리에 넣어; "Pants"그는, 그래서 그는 그것을 wore. 그게 다. 그는 노트에 따라 한 조각에서 옷을 입었다。

"그것은 모든 권리,"그는 말했다, "그러나 지금, 어디 나는?"

"나는 누구인가?"

그는 오랫동안 찾고 있었지만 쓸모가 없습니다. 그는 자신을 찾을 수 없습니다。

"우리는 너무,"라비 그는 말했다。

[ 척 ]원본 링크]

자동화 PARADOX: 더 강한 AI, 더 바쁜 인간은 입니다

우리는 어떻게 여기에 얻었습니까

에이전트와 협업의 두 가지 모드

에이전트 직원

AI와 인간 협력

지식 일을위한 새로운 운영 체제

모든 대리인은 인간을 필요로 합니다

왜 자동화가 더 많은 일을 합니까

AI는 어제의 인간 능력을 싼 만들었습니다

싼 힘은 빨리 사용될 것입니다

Enrichment는 균질화를 가져옵니다: 오래된 전문가 기능은 commodified

Homogenization는 differentiation를 위한 수요를 만듭니다

차별화에 대한 필요는 근본적으로 전문가를위한 새로운 수요입니다

그래서, 인덱스 성장에 대한 벤치 마크 테스트에 대해

Baseline 테스트가 설계되었는지

Benchmark 시험은 기구 내의 일을 측정합니다

저렴한 프레임 워크는 새로운 요구를 자극합니다

새로운 필요는 여전히 전문가가 필요합니다

주기는 다시 일어날 것입니다

이 패턴은 모든 벤치 마크 테스트에서 볼 수 있습니다

AI의 ZINO PARADOX

하지만 AGI란

AGI에 대한 정의

프레임은 framer가 아닙니다

이름 *

Zeno로 돌아가기

이름 *

Related Articles

After a ban on Fulbright securities, a new cure would be to buy stock in the chain

Dismantling Hyperliquid from five layers of financial stacking

Early Bitcoin Architect Adam Back: BTC never failed, pain was only the price of growth

Hasharate Index: Current situation of mining in Bolivia in 2026 Parsed

Products

Legal & Support

Friends