원래 제목 : "Opus 4.7는 가장 강한 모델이 될 필요가 없습니다 : 당신은 Anthropic로 유지 할 수 없습니다"

본래 근원: 실리콘 Starman Pro

4 월 16, 2026, Anthropic 공식적으로 Claude Opus 4.7을 발표, Opus의 마지막 세대에서 2 개월 이상 4.6。

최근에는 집중적이고 미성적인 제품 및 모델 업데이트의 파가 끝난 후, 새로운 모델이 자연적으로 사람들의 감각을 제공합니다. 그리고 당신은 "최고의 강력한 모델"로 Opus 4.7을 참조하는 첫 번째 모델 보고서를 많이 본 -- "사람은 죽은"과 "실업 경고" 등。

그러나 Anthropic이 스스로 보냈습니다。

이 릴리스의 톤은 정말 정상적이지 않습니다。

Anthropic은 Opus 4.7가 Claude Mythos Preview보다 적은 용량을 가지고있는 Bulletin에서 직접 작성하고 Mythos는 Apple, Google, Microsoft, Nvidia와 같은 몇 가지 파트너에만 열려 있으며 일반 개발자 및 사용자에게는 사용할 수 없습니다。

동시에, 류토닉보다 더 흥미로운 것은 전설처럼 Mythos보다 약한 것이 아니라 이전 세대의 모델보다 약한 것입니다. 또한 주요 기능 중 일부。

Opus 4.7, 자신의 runout에서 특별한 번호 :MRCR v2@1M 에서 78.3% 의 Opus 4.6 아래로 32.2%예리한 쇠퇴의 46 % 포인트。

매우 몇 주력 모델은 에이스가 될 수있는 능력의 절반을 차단 할 수 있습니다。

그리고 그 선택이다。

그래서, 당신은 당신의 두뇌가없는 관성으로 계속, 그것을 불어 모든 모델은 가장 강한, 그것은 Anthropic의 자신의 리듬을 유지하지 않습니다

이 세차를 고정하는 데는 걱정하지 마세요

Opus 4.7는 이전 헤드 모델 제조업체의 다양한 아이디어와 다른 "정밀 칼"스타일 릴리스 인 "최강의 모델"- 명확한 거래 오프 인 "정확한 칼"-스타일 릴리스 인 "최강의 모델 제조업체의 다양한 아이디어와 오늘날의 머리 제조업체가 명확하게 모델의 "큰 도약"이 더 이상 지속되지 않다는 것을 느끼게 할 수있는 새로운 방향이 이미 있습니다. Anthropic은 Apple, Microsoft 및 기타 제품의 마케팅 전략과 일치합니다。

그것은 아마 어디 4.7 정말 중요。

I. 프로그래밍 능력: 숫자 뒤에 진짜 개선

이 변경을 이해하는 가장 좋은 방법은 자연적으로이 시간을 실제로 수행하는 것을 더 가까이 봐。

여기에서 Opus 4.7이 출시 된 완벽한 정보 콤보입니다 -- 진행이 이루어지는 곳, 그것이 파괴 된 곳, 개발자의 첫 번째 손 피드백은 무엇입니까。

공식 게시판:https://www.antropic.com/news/claude-opus-4-7

Opus 4.7의 프로그래밍 업적은이 릴리스의 주요 축이었다。

SWE-bench 인증(500 실제 GitHub 문제, 모델은 Opus 4.6에서 87.6%의 80.8%에서 테스트를 통과하는 패치를 작성해야, 7 퍼센트 포인트에 가까운, 현재 공개적으로 사용할 수있는 모델의 첫 번째입니다. Gemini 3.1 Pro 80.6%와 비교하여 격차가 중요합니다。

SWE-bench 프로4개의 프로그래밍 언어에서 완전한 엔지니어링 흐름 라인을 포함하는 더 어려운 버전입니다. Opus 4.7는 53.4%에서 64.3%, 11의 비율 점에서 뛰어납니다. GPT-54의 57.7 퍼센트, Gemini 3.1 Pro의 54.2 퍼센트, Opus 4.7이 벤치 마크보다 명확합니다。

커서 벤치커서의 필드 기반 벤치 마크입니다. 특히 실제 IDE 환경에서 모델의 프로그래밍 지원 품질을 측정합니다. Opus 4.6는 58%, Opus 4.7는 70%, 12의 비율 점에 뛰어납니다. 커서의 공동 설립자 인 Michael Truell은 "이는 어려운 문제를 해결하기 위해 더 창의적인 이유와 용량에 대한 의미있는 도약입니다."

파트너 측정:

라쿠텐:Opus 4.7는 Opus 4.6로 많은 생산 작업으로 3 번 해결했으며 코드 품질 및 테스트 품질에서 이중 자리 증가

• 사실:미션 성공률은 센트 당 10-15 증가, 모델의 수는 크게 감소

• 규제(회사 뒤에 있는 Devin): 모델 "줄을 잃지 않고 시간 동안 작업."

• CodeRabbit:리콜 비율은 10 % 이상 증가, "GPT-5.4 xhigh보다 약간 빠른"

• 볼트:더 긴 응용 프로그램 빌더 임무에서 Opus 4.7은 4.6입니다

나는 모른다 맨끝 벤치 2.0:Opus 4.7 이전에 Claude Model (또는 경쟁자)에 의해 관리되지 않은 세 가지 작업을 해결했습니다. 복잡한 코드 라이브러리를 통해 필요한 멀티 파일 이유 중 하나는 경쟁 조건을 수리합니다 (자세한 상태)

이 데이터는 한 방향으로 집중합니다. Opus 4.7는 장기적이고 교차 문서화되어 컨텍스트 일관성을 필요로하는 복잡한 프로그래밍 작업에서 명확하게 개선되었습니다. 그리고 사용자가 마지막 2 개월에서 가장 많이 떨어졌는지 정확히 점이다 -- 작업이 반길을 수행 할 때, 그들은 여러 파일을 만날 때, 그들은 잃을 때。

Visualization: 출시의 가장 낮은 개선

시각적인 정확도 benchmarkXBOW는 54.5%에서 98.5%로 뛰어납니다。이것은 점차 개선이 아니지만 재건의 수준에서 도약합니다。

특정한 명세 변화:

나는 모른다최대 이미지 해상도는 약 1.15 만 픽셀 (긴 가장자리 1,568 픽셀)에서 약 3.75 만 픽셀 (긴 가장자리 2,576 픽셀)로 증가했으며, 이전 세대보다 3 배 증가했습니다

나는 모른다모델 좌표 및 실제 픽셀 달성1:1 문의작업의 앞에는 스케일링 요소의 수동 변환이 필요합니다. 이 단계는 사라집니다

나는 모른다CharXiv Visual reasoning 벤치 마크: 도구 없음 82.1%, 도구 91.0%

어떤 종류의 장면이에 실제 영향을 미칠 수 있습니까

제품 팀을 위해, 이 향상은 결정될 수 있었습니다. Opus 4.6-era 컴퓨터 사용은 "capable but scar to produce"-- 너무 높은 오류율을 예측합니다. 센트 당 98.5의 시각적인 정확도는 첫번째로 이 기능에는 믿을 수 있는 배치를 위한 문턱이 있다는 것을 의미합니다. 평가에서, 기술 블로거의 수는 썼다 : "Opus 4.6 오류의 고주파 때문에 컴퓨터 사용 제품 프로그램을 설정하면 4.7이 장벽을 제거했습니다。

Reddit에 대한 첫 번째 손 의견(r/ClaudeAI): UXPA(사용자경험전문가협회)는 제품 및 서비스 UX를 리서치, 디자인, 평가하는 인력을 지원한다

컴퓨터 사용 외에도 스캔 문서 분석 (더 작은 글꼴을 읽고 더 정교한 차트 세부 정보를 식별), 증폭 이해, 대시 보드 유형 응용 프로그램, 복잡한 PDF 처리。

주의를 요구하는 비용 문제:높은 해상도 이미지는 더 많은 토큰을 소비합니다. 신청 장면은 상세한 그림을 요구하지 않는 경우에, 그것은 그들이 업로드하기 전에 표본이 가지고 있다는 것을 추천합니다。

III. 가장 큰 설정 : 긴 컨텍스트가 붕괴되었습니다

MRRR의 v2@1M( 토큰 컨텍스트 메모리 테스트의 방사):

나는 모른다4.6:7.3% 할인

나는 모른다4.7의:32.2 퍼센트

46 퍼센트 포인트의 붕괴, 거의 80 퍼센트에서 세 번째로。

이 드롭은 주력 모델의 역사에 약간의 precedent있다. MRCR v2는 Anthropic의 능력으로 Opus 4.6 시대에 강조 될 수 있습니다. Anthropic은 "모델이 실제로 작동하는 컨텍스트 질량 규모에서 qualitative 변화라고 불렀습니다." 4.7에 의해, 이 "매우 변화"는 사라졌습니다。

왜? Tokenizer 변경。

오푸스 4.7 새로운 Tokenizer로, 동일한 입력 텍스트가 생성됩니다1.0-1.35년 더블토큰 수, 내용 유형에 따라 달라지는 수。

직접적인 사슬 반응은:

나는 모른다200K/1M을 위한 컨텍스트 창은 여전히 명목상 기간에서 유효합니다, 그러나 동일한 원본은 더 적은 적재됩니다

나는 모른다실제 토큰 소비는 긴 할당량에 대해 약 35 퍼센트로 증가했습니다

나는 모른다가격 변동 ($ 5, 출력 $ 25 백만 토큰)하지만 실제 사용 비용 증가

Anthropic의 공식 버전은 새로운 Tokenizer가 "텍스트 처리의 효율성을 높일뿐만 아니라 벤치 마크 데이터는 긴 컨텍스트의 상황에 표시된 회귀를 보여줍니다。

검색 기능은 다음과 같습니다

나는 모른다BrowneComp (웹 심층 액세스) : Opus 4.6의 83.7%

나는 모른다GPT-5.4 프로 점수 89.3%, Gemini 3.1 프로 점수 85.9%, Opus 4.7 현재 주요 경쟁 모델 하단에

검색 및 긴 텍스트는 많은 비즈니스 사용자를위한 가장 일반적인 장면입니다。

Hacker News 개발자의 첫 번째 피드백 (포스터 275, 댓글 215, 소스: HN 토론):

" 공격적인 사고를 끄고 상단에 작업을 수동으로 끌어 기지로 돌아갑니다. "우리의 내부 평가는 좋을 것"은 충분하지 않으며, 모두가 동일한 문제를 볼 수 있습니다. "4.7 과태는 더 이상 인간 읽기 쉬운 이유가 포함되어 있지 않습니다, 이는 리가 디스플레이를 요청하여 반환해야합니다. "

이들은 실제 사용자가 반영한 문제입니다. 그러나 이것은 또한 Anthropic은 자신의 이니셔티브에 만들었습니다。

IV. 새로운 행동 특성 : 자체 유효성 및 더 많은 문자 그대로 지침

오푸스 4.7 공식 발표는 다음과 같은 단일 진술을 포함합니다:모델은 결과를보고하기 전에 출력을 확인합니다。

Hex의 기술 팀은 시험에 특정한 케이스를 준: 자료가 누락될 때, Opus 4.7 보고는 자료가 존재하지 않는 경우에, 그러나 적당한 그러나 실제로 fictional 보이는 대답을 주기 보다는 오히려 -- 후자는 Opus 4.6 족답한 pit입니다. 금융 기술 플랫폼, 블록, 말한다에 대 한, "그것은 계획 단계에 자신의 논리 오류를 감지할 수 있습니다, 그것의 구현을 가속화, 오래된 클로드 모델을 outpace."

그러나 자체 인증은 다른 관련 행동 변화로 가져옵니다 : Opus 4.7의 명령의 해석은 더 말 그대로입니다。

이것은 중요한 이동 위험입니다. 주의 깊게 그려진 프롬프트가 있다면, Opus 4.6의 4.7, 아마 "읽기"는 4.6, 그러나 당신이 쓴 것에 따라 엄격하게 수행됩니다. Anthropic은 공식 이민 가이드에서 이것을 명시 적으로 언급했으며, 열쇠가 온라인 4.7을 가기 전에 회귀를 위해 시험된다는 것을 제안합니다。

Hex에 있는 CTO에서 기능적인 참고 수:낮은 노력을위한 Opus 4.7, 성능은 중간 노력을위한 Opus 4.6와 거의 동일합니다。

v. elimination control mechanisms: xheigh, 작업 버그 및 /ultrareview

오푸스 4.6 사용자의 신뢰에 영향을 미치는 이벤트가 있었습니다. 2월 9일은 적응 사고를 위한 기본 모델로, 3월 3일은 “지능, 지연, 비용 사이 균형”의 지상에 있는 Claude Code의 기본 소원 깊이를 변화시킵니다. 이 문제는 사용자에 의해 "통제 게이트"로 불리고 GitHub의 수석 이사의 질문은 널리 전송되었습니다。

Opus 4.7는 사용자에게 더 많은 visibly 이유의 깊이를 제어하여 응답했습니다。

xhigh 노력: 본래 높고 최대 사이 힘의 새로운 수준. Claude Code는 이제 모든 계획된 기본 슬롯을 xheigh로 업데이트했습니다。

그러나 개발자 커뮤니티는 xheigh에 대한 직접 질문을 가지고 있으며 Reddit 사용자의 원래 단어는 다음과 같습니다. "Opus 4.6 기본값은 중간, 4.7 기본값은 xheigh입니다. 이 결정 뒤에가는 것을 알고 싶습니다. 노력 파일의 증가가 더 많은 토큰 소비로 이어질 것이라고 명백했기 때문입니다

다른 말에서 사용자는 "사용자의 반환 제어" 수정을 보았지만, 기본 파일이 실제로 제기되었지만, 동일한 작업이 더 많은 토큰을 태울 것을 의미한다. tokenizer 변경을 추가하면 두 배의 비용이 증가합니다。

작업 버그긴 임무를위한 토큰 예산 제어 메커니즘. 개발자는 전체 토큰 예산 (최소 20K)을 설정합니다, 이는 모델이 구현 중에 나머지 금액을 볼 수 있도록, 할당 된 자원에 의해, 토큰 오버스펜 때문에 반으로 멈추고 불필요한 컴퓨팅 폐기물을 방지하기 때문에。

Claude Code는 /ultrareview 명령을 추가합니다특별 코드 검토 세션, 버그 검색 및 디자인 문제에 초점을 집중하는 심층적 인 리뷰를 실행, 및 프로 및 최대 사용자는 3 무료 시간을 제공합니다。

자동 모드는 최대 사용자에게 열려 있습니다기업 프로그램에서만, 이제 최대 사용자는 그것을 사용할 수 있습니다. Claude는 결정을 내리고 사용자가 쿼리의 수를 줄일 수 있습니다. 클로드 코드 팀 리더 Boris Cherny는 말했다, "Give Claude 임무, 그를 실행, 다시 와서 무슨 일을 볼 수 있습니다."

VI. RUN : 승리 할 곳, 잃을 곳

다음은 현재 사용할 수있는 주요 기본 데이터입니다 (출처 : Anthropic 공식 시스템 카드 및 파트너 평가)。

프로그래밍 및 엔지니어링 (Opus 4.7 리드)

비주얼 및 멀티 모듈 (최대 4.7)

지식 작업 (Opus 4.7 리드)

종합 평가 (중간 4.7 명확하게)

일반 소원 (3 개의 기본 평평)

이 벤치 마크 포화하고 더 이상 효과적인 경쟁적인 watershed 없습니다。

연구 과제 (GPT-54 리드, Opus 4.7 리treat)

긴 콘텍스트 (Opus 4.7 Substantial 회귀)

선택 논리를 요약 : 프로그래밍, 엔지니어링 에이전트, 시각, 금융 법률 임의, Opus 4.7 명확한 장점이 있습니다; 연구 집중 임무 및 웹 검색 GPT-5.4가 강하다; 그리고 맥락의 맥락에서, Opus 4.7는 그것의 전임자보다 훨씬 적은, 가장 경고 포인트。

VII. 안전 담: Mythos의 paved 돌

이 부분은 릴리스의 "security routine 문"로 쉽게 사용할 수 있지만 Anthropic의 현재 전략을 이해하는 열쇠입니다。

4월 7일, Anthropic은 Project Glasswing을 발표했습니다. Claude Mythos Preview를 Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JP Morgan Chase 및 Broadcom 9 파트너가 집중 사이버 보안 시나리오에 전념했습니다。

Mythos는 지금까지 Anthropic의 가장 강력한 모델이며 Hacker News에 따르면 자체에 Zero-day 구멍을 감지하고 주요 운영 체제 및 브라우저의 수천을 알 수 있습니다. 그러나, 정확하게이 능력 때문에, 그것은 또한 학대의 상당한 위험을 수행하고 공개적으로 사용할 수 없습니다。

Opus 4.7는 이 선에 첫번째 시험 표본이었습니다。훈련 단계에서 Anthropic은 모델 's cybersecurity attack 기능 (최대의 방어 기능으로 유지해야 함)을 줄이고 실시간 감시 시스템을 사용하여 온라인을 읽었으며 높은 위험 네트워크 보안 요청을 차단합니다. Bulletin의 텍스트 : "우리는 울타리의 효과에 대해 Opus 4.7의 실제 배포에서 배우고 Mythos로 확장 할 것인지 결정합니다."

다른 말에서 Opus 4.7을 사용하는 모든 개발자는 Anthropic이 보안 울타리를 파괴하도록 돕습니다。

Gizmodo의 평가:출시는 "Bold Marketing Strategy - 플래그쉽 릴리스에서 드문 다른 옵션보다 더 적은 일반 기능이있는 새로운 모델의 적극적인 프로모션을 채택했습니다。

법적인 침투 테스트, 갭 연구 또는 적 팀 테스트에 대 한 Opus 4.7를 사용 해야 하는 안전 실무자 Cyber Verification 프로그램에 적용。

사이트맵 가격 및 마이그레이션 : 명목상 조건에서 변경 없음, 실제 증가

가격 :$ 5 백만 토큰을 입력, $ 25 / 백만 토큰을 출력, Opus 4.6와 동일. API 모델 ID는 claude-opus-4-7입니다. 사용 가능한 플랫폼에는 Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundation, GitHub Copilot도 있습니다。

그러나 이전에 언급 한 것과 같이, tokenizer는 대략 동일한 입력을 만듭니다1.0-1.35년토큰의 수를 두 배로, 더 높은 기본은 노력 슬롯 토큰의 밑에 생각긴 임무 angent workstream에 대한 실제 비용은 Opus 4.6의 동일한 설정을 2-3 번 할 수 있습니다。

Anthropic은 1 시간에서 5 분까지 Claude Code의 캐시를 감소시켰습니다 -- 이것은 5 분 이상 컴퓨터에 컴퓨터를두고 다시 와서, 컨텍스트 캐시가 실패, 당신은 다시로드해야, 그리고 토큰은 빨리 소비됩니다. Reddit 커뮤니티는 이미 많은 사용자를 가지고 있습니다 "떨어져보다 빠릅니다."。

기존 Opus 4.6 사용자의 파괴적인 변화 목록:

Extended Thinking Budgets Parameters 제거, 다시 보내 400 오류, 고급 생각 모드로 변경해야합니다

2. 온도 (온도)와 같은 표본 추출 모수, 톱 p, 최고 k는 출력의 제거되고 통제는 신속한에 의해 요구됩니다

Stricter text-based command following - Opus 4.6에 대한 수정된 프롬프트는 재시험되고 줄에 모델 ID로 직접 교체할 수 없습니다

4. tokenizer는 토큰 카운트 변경에서 결과를 변경하고 전체 마이그레이션 전에 실제 트래픽에서 샘플을 실행하는 것이 좋습니다

default output no longer include reasoning token summary and require 가시적 설정이 다시 가져옵니다

실제적인 권고:Anthropic 공식 마이그레이션 가이드는 토큰 소비 및 임무 품질에 대한 결정하기 전에 공식 스위치가 Opus 4.7을 실행하는 것이 좋습니다。

정확한 칼을 방출하는 가장 스카프 방법입니다

Opus 4.7는 명확한 목표 방향과 명확한 비용으로 업그레이드됩니다. 그리고 이들은 모두 Anthony의 디자인, 당신은 큰 범위에 그들을 지불해야。

이 모형의 진보적인 측에:

나는 모른다SWE-bench의 87.6%, SWE-bench Pro의 64.3%, Cursor Bench의 70 %, 라쿠텐의 3 배 작업 - 이들은 생산 환경에서 느꼈던 프로그래밍 가능한 개선입니다

나는 모른다Visual redevelopment (XBOW 54.5% 98.5%, 해결책 3배, 화소 1:1)는 믿을 수 있는 배치를 위한 처음 문턱을 허용하

나는 모른다xhigh, tsk 단추, /ultrareview는, "tructure"에 가한 응답입니다

나는 모른다BigLaw 90.9 퍼센트, 금융 당국 64.4 퍼센트, 금융 법과 같은 전문 지식에 명확한 리드

측을 포기하십시오:

나는 모른다MRCR v2@1M from 78.3% to 32.2%, 거의 절반 컨텍스트 능력

나는 모른다Brownecomp는 83.7%에서 79.3%로 떨어졌으며 검색 기능은 GPT-54 및 Gemini 3.1 Pro에 의해 두 배 교차되었습니다

나는 모른다tokenizer 변경 + 기본 노력 높은 + 캐시 TTL 짧은 = 트리플 보이지 않는 가격 증가

나는 모른다Mythos는 여전히 Anthropic이 더 큰 카드를 가지고 있지만 그것을 할 수 없습니다

이 시간, 실제 것은 "강력한 모델"또는 "강력한 오픈 모델"이 아니라:명확한 거래 오프 하나。

최신 뉴스는 2 월에 Claude Code의 연간 소득이 2.5 억 달러에 도달 한 것입니다. Opus 4.7 이 선에 다음 베팅입니다。

프로그래밍 및 시각화가 추가되고, 긴 컨텍스트 및 검색이 감소되고, 가격은 공평하지만 청구서가 상승합니다. Anthropic은 Opus 4.7과 함께 균형 - Opus 4.6에서 왼쪽 신뢰 손상을 복구하고 Mythos-class 모델의 더 큰 미래를위한 보안 울타리의 필드 운동을 수행합니다. 그리고, 더 중요하게, 그것은 지도의 가득 차있는 이점을 가지고 갈 필요가 있습니다 오늘, 그들이 불완전하고 있는 경우에, 그리고 그 후에 사과 같이 움직일 수 있고는 및 불쾌한 사용자 viscerality를 건설하고, 진정으로 상업적으로 귀중한 생태 ecology。

원본 링크

클로드 Opus 4.7 : 가장 강한 모델입니까

I. 프로그래밍 능력: 숫자 뒤에 진짜 개선

Visualization: 출시의 가장 낮은 개선

III. 가장 큰 설정 : 긴 컨텍스트가 붕괴되었습니다

IV. 새로운 행동 특성 : 자체 유효성 및 더 많은 문자 그대로 지침

v. elimination control mechanisms: xheigh, 작업 버그 및 /ultrareview

VI. RUN : 승리 할 곳, 잃을 곳

VII. 안전 담: Mythos의 paved 돌

사이트맵 가격 및 마이그레이션 : 명목상 조건에서 변경 없음, 실제 증가

相关文章

USDD 2026 年第一季度业绩全面提速：收入与利润显著增长，总金库余额升至 1391 万美元

重回AI牌桌后，扎克伯格第一个动作是裁员？

头部加密 VC 集体缩水：a16z 加密基金管理规模暴跌 40%，Multicoin 腰斩

机构接入预测市场，卡在了第三阶段

产品

法律与支持

友情链接