2026년은 지금까지 에이전트형 AI의 해였습니다. 모델 개선으로 개인 AI 비서부터 코딩 에이전트까지 에이전트 작업을 위한 다양한 도구가 등장했습니다. 이 분야의 주요 플레이어는 Google의 Gemini, OpenAI의 GPT 시리즈, 그리고 개발자들이 선호하는 Anthropic의 모델들이었습니다.
이 글에서는 Claude Opus 4.7과 Gemini 3.1 Pro를 벤치마크와 가격을 포함해 비교합니다. 마지막에는 어떤 모델이 워크플로에 가장 적합한지 결정하는 데 사용할 수 있는 기준을 제시하겠습니다.
Claude Opus 4.7이란?
우리의 Opus 4.7 소개 글에서 다루었듯이, Claude Opus 4.7은 Anthropic의 최신 플래그십 모델로, 이전 버전인 Claude Opus 4.6의 업데이트입니다. 복잡한 에이전트형 워크플로와 다단계 추론을 위해 설계되었으며, 에이전트형 코딩, 시각적 추론, 도구 사용에서 더 뛰어난 성능을 보입니다.
Claude Opus 4.7의 주요 기능과 역량
Opus 4.7의 핵심 기능 중 하나는 작업 예산으로, 에이전트가 작업당 사용할 수 있는 토큰 수에 재정적 제한을 둘 수 있습니다. 이 기능은 에이전트가 자율적으로 실행될 때 최적화를 강제하고 예산 내에 머물도록 하여 예기치 않은 비용을 방지합니다.
Claude Opus 4.7은 100만 토큰의 컨텍스트 윈도와 128K 출력 토큰을 제공합니다. 즉, 작업의 전체 컨텍스트를 유지하면서 장기간 작업을 실행할 수 있습니다. 이는 특히 대규모 코드베이스를 탐색할 때 유용합니다.
또한 모델의 비전 능력이 향상되어 최대 3.75메가픽셀 이미지를 지원합니다. 그 결과, Opus 4.6보다 시각적 추론에서 더 나은 성능을 보이며, 고해상도 차트에서 데이터 추출과 같은 작업에 적합한 모델이 되었습니다.
Opus 4.7에는 high와 max 사이에 위치한 새로운 xhigh reasoning effort가 도입되어 코딩 및 에이전트 작업에서 최고의 결과를 제공합니다. 약간 낮은 사고 강도를 원한다면 high thinking effort를 사용할 수도 있습니다. Anthropic은 또한 Claude Code에 코드 변경 사항에 대한 코드 리뷰를 실행하고 버그를 잡는 /ultrareview를 도입했습니다.

몇몇 분들께 놀라울 수 있는 점은 Adaptive Thinking이 이제 기본적으로 사고 응답을 생략한다는 것입니다. thinking.display를 summarized로 설정하면 요약된 버전의 추론을 복원할 수 있습니다.
벤치마크 기준으로, Opus 4.7은 다음과 같은 점수를 기록했습니다.
- SWE-bench Verified 87.6%
- 더 어려운 SWE-bench Pro 변형에서 64.3%
- 자율적 컴퓨터 사용을 측정하는 OSWorld에서 78%
- 멀티툴 워크플로 오케스트레이션을 측정하는 MCP Atlas에서 77.3%
Claude Opus 4.7이 출시되었을 당시, Artificial Analysis Intelligence Index에서 57점으로 최상위권에 올랐습니다. 또한 GDPval-AA로 측정한 실제 업무형 에이전트 작업에서도 1,753 Elo로 선두에 있었습니다. 그 사이에 GPT-5.5가 두 지표 모두에서 이를 앞질렀습니다.
Opus 4.7의 자기비판 메모리가 실제로 코딩 성능을 개선하는지 high, xhigh, max 노력 수준 전반에서 테스트하는 Streamlit 벤치마크 애플리케이션 만드는 방법은 우리의 Claude Opus 4.7 실전 벤치마크 튜토리얼에서 확인하세요.
Claude Opus 4.7의 장단점
Anthropic의 모델은 코딩에 가장 강력한 모델로 잘 알려져 있으며, Opus 4.7의 벤치마크가 이를 입증합니다. 다만 Opus 계열은 가격이 저렴하지 않기 때문에, 특히 장시간의 에이전트형 워크플로를 운영하는 분들께 작업 예산 기능은 유용한 추가 사항입니다.
이 모델은 Amazon Bedrock, Google Vertex AI, Microsoft Foundry 등 다양한 클라우드 제공업체를 통해서도 사용할 수 있습니다. 덕분에 기존 제공업체를 통해 손쉽게 통합할 수 있습니다.
Opus 4.7은 새로운 토크나이저를 도입해 이전 Opus 모델과 실제 비용을 비교하기가 다소 어려워졌습니다. 그러나 Artificial Analysis Intelligence에 따르면, 지수를 실행하는 데 Opus 4.7은 Opus 4.6보다 출력 토큰을 약 35% 더 적게 사용했습니다.

Anthropic의 최고 공개 모델인 Claude Opus 4.7의 역량을 익히고, 차트를 원시 데이터로 변환하는 데이터 사이언스 도구를 만들어 보려면 우리의 Claude Opus 4.7 API 튜토리얼을 확인하세요.
Gemini 3.1 Pro란?
Gemini 3.1 Pro는 Transformer 기반 전문가 혼합(MoE) 구조를 갖춘 Google DeepMind의 최신 플래그십 추론 모델입니다. Gemini 3.1 Pro가 출시되었을 때 Opus 4.6을 4점 차로 앞서며 Artificial Analysis Intelligence Index를 선도했고, 현재는 57점으로 Opus 4.7과 동률을 이루고 있습니다.
Gemini 3.1 Pro에 대해 더 알아보려면, Gemini 3.1 Pro로 프로덕션급 앱을 구축하는 방법을 다룬 Building with Gemini 3.1 Pro 글을 확인하세요.
Gemini 3.1 Pro의 주요 기능과 역량
두 단계였던 Gemini 3 Pro와 달리, Gemini 3.1 Pro는 3가지 사고 레벨(low, medium, high)을 제공합니다. low는 속도와 토큰 최적화에 최적입니다. medium은 균형 잡힌 접근을 제공합니다. high는 더 많은 사고 토큰을 생성하고 가장 느린 응답을 내므로, 복잡한 추론이 필요한 작업에 사용해야 합니다.
Gemini 3.1 Pro 역시 입력에 대해 100만 토큰의 컨텍스트 윈도를 제공하지만, 출력은 약 65K 토큰으로 더 작습니다. 오디오, PDF, 텍스트, 이미지까지 지원하는 멀티모달 모델입니다.
벤치마크를 살펴보겠습니다. Gemini 3.1 Pro가 두드러지는 영역은 다음과 같습니다:
- ARC-AGI-2에서 77.1%로 선두입니다.
- 멀티툴 워크플로 조정을 측정하는 MCP Atlas에서 73.9%를 기록했습니다.

Artificial Analysis Intelligence에 따르면, Gemini 3.1 Pro Preview는 토큰 효율이 높아, 동일 지수를 실행하는 데 Opus 4.6 대비 약 5,700만 토큰을 사용했습니다.
Gemini 3.1 Pro는 Artificial Analysis의 Coding Index에서 Opus 4.7을 앞서지만, Agentic Index에서는 뒤처집니다.
Gemini 3.1 Pro의 장단점
Gemini 3.1 Pro의 가격은 특히 많은 토큰이 필요한 작업에 매력적입니다. Google은 배치 가격 모델로 50% 할인을 제공하여 실시간 결과가 필요하지 않을 때 이상적인 선택이 됩니다.
반면, Gemini 3.1 Pro의 65K 출력 윈도는 Opus 4.7(128K)의 절반 수준에 불과합니다.
Claude Opus 4.7 vs Gemini 3.1 Pro 정면 비교
각 항목을 살펴보기 전에 참고용 요약입니다.
|
Claude Opus 4.7 |
Gemini 3.1 Pro |
|
|
출시일 |
2026년 4월 16일 |
2026년 2월 19일 |
|
컨텍스트 윈도 |
100만 토큰 |
100만 토큰 |
|
최대 출력 |
128K 토큰 |
65K 토큰 |
|
SWE-bench Verified |
87.6% |
80.6% |
|
SWE-bench Pro |
64.3% |
54.2% |
|
ARC-AGI-2 |
68.8% |
77.1% |
|
GPQA Diamond |
94.2% (동률) |
94.3% (동률) |
|
MCP Atlas |
77.3% |
73.9% |
|
OSWorld |
78.0% |
공개 점수 없음 |
|
비전 |
2576px / 3.75MP |
멀티모달(비디오, 오디오, PDF) |
|
입력 가격 |
$5/백만 토큰 |
$2/백만 토큰 |
|
출력 가격 |
$25/백만 토큰 |
$12/백만 토큰 |
에이전트형 작업 및 컴퓨터 사용 성능
Opus 4.7은 에이전트형 작업에서 매우 강력한 모델입니다. 특히 에이전트가 사용할 수 있는 토큰 수를 제어할 수 있기 때문입니다. 이 시스템은 Gemini 3.1 Pro에는 없으며, 토큰 사용량을 제어하려면 사고 레벨을 사용해야 합니다.
Opus 4.7은 OSWorld 자율 컴퓨터 사용 벤치마크에서 78%를 기록했습니다. 이는 GPT 5.5의 78.7%와 비슷한 강력한 결과이며, Gemini 3.1 Pro는 OSWorld 점수가 공개되지 않았습니다. MCP Atlas에서는 Opus 4.7이 77.3%로 Gemini의 73.9%를 앞섭니다. 이러한 수치는 Opus 4.7이 프로덕션 에이전트 시스템에 적합한 선택임을 보여줍니다.
코딩 벤치마크
이제 사용 가능한 벤치마크, 특히 실제 GitHub 이슈를 테스트하는 SWE-bench Verified 기준으로 어떤 모델이 프로그래밍에서 더 뛰어난지 확인해 보겠습니다.
Opus 4.7은 87.6%를 기록했고, Gemini 3.1 Pro는 80.6%입니다. 더 어려운 SWE-bench Pro에서는 Opus 4.7이 64.3%, Gemini는 54.2%(GPT 5.5는 58.6%)를 기록했습니다. 이 수치는 현재 Opus 4.7이 세계에서 가장 강력한 코딩 모델임을 보여줍니다.
터미널에서의 코딩 능력을 테스트하는 Terminal-Bench 2.0에서의 성능도 보겠습니다. Opus 4.7은 69.4%, Gemini Pro는 68.5%, 새로운 GPT 5.5는 82.7%를 기록했습니다. 이 벤치마크에서는 GPT-5.5가 명확한 우승자이며, 두 모델은 비슷한 수준입니다.
추론 및 과학 과제
추론과 과학 과제에 가장 적합한 모델은 무엇일까요? 알아보겠습니다. 모든 모델이 만점을 받는 GPQA Diamond는 사용하지 않겠습니다. 대신, 유동적 지능, 즉 이전에 보지 못한 추상적 추론 문제를 해결하는 능력을 측정하는 ARC-AGI-2를 보겠습니다.
Gemini 3.1 Pro는 77.1%, Opus 4.7은 75.8%, GPT 5.5는 85.0%를 기록했습니다. 이 항목에서는 GPT 5.5가 명확한 우승자이며, 그다음이 Gemini 3.1 Pro입니다.
과학, 수학, 인문학 전반의 대학원 수준 추론을 측정하는 Humanity's Last Exam에서는, 도구 사용 여부와 관계없이 Opus 4.7이 Gemini 3.1 Pro를 앞섭니다:
- 도구 미사용: Opus 4.7이 46.9%로 1위, 그다음이 Gemini 3.1 Pro(44.4%), GPT 5.5 Pro(43.1%)입니다.
- 도구 사용: GPT 5.5 Pro가 57.2%로 1위, 그다음이 Opus 4.7(54.7%), Gemini 3.1 Pro(51.4%)입니다.
비용과 토큰 효율
Opus 4.7은 백만 입력 토큰당 $5, 백만 출력 토큰당 $25입니다. 반면 Gemini 3.1 Pro는 백만 입력 토큰당 $2, 백만 출력 토큰당 $12입니다. Gemini가 훨씬 저렴하며, 50% 배치 가격 할인을 적용하면 많은 토큰이 필요한 작업에 매우 경쟁력 있습니다.
또한 Opus 4.7의 새로운 토크나이저로 인해 이전 Opus 모델과의 비용 비교가 다소 어렵다는 점도 언급할 필요가 있습니다.
컨텍스트 윈도와 출력 용량
두 모델 모두 100만 입력 토큰을 지원해, 단일 프롬프트로 전체 코드베이스와 긴 연구 문서를 소비할 수 있습니다.
출력 토큰의 경우, Opus 4.7은 128K 토큰을, Gemini 3.1 Pro는 65,536 토큰을 지원합니다. 더 많은 출력 토큰 생성이 필요한 워크플로에는 Opus가 더 적합합니다.

Opus 4.7과 GPT 5.4를 비교한 Opus 4.7 vs. GPT-5.4 튜토리얼에서 코딩, 에이전트형 워크플로, 장기 컨텍스트 작업을 기준으로 두 모델을 비교하고 벤치마크를 분석했습니다.
Claude Opus 4.7이 Gemini 3.1 Pro보다 더 나을까요?
이제 질문으로 돌아가 보겠습니다. 두 모델 중 어떤 것을 선택해야 할까요?
다음에 해당한다면 Claude Opus 4.7을 선택하세요...
- 프로덕션에서 SWE-bench Pro 10포인트 격차가 곧바로 실패 실행 감소로 이어지는 에이전트형 코딩 파이프라인을 구축 중입니다.
- 외부 모니터링 로직을 추가하지 않고도 긴 자율 루프의 예측 가능성을 높이기 위해 작업 예산이 필요합니다.
- 파이프라인이 긴 출력을 생성하며, Gemini 3.1 Pro의 거의 두 배인 128K 토큰 상한이 중요합니다.
- 복잡한 에이전트형 워크플로를 위해 MCP Atlas에서 가장 강력한 멀티툴 오케스트레이션 점수가 필요합니다.
- 이미 Claude Code, Amazon Bedrock, Claude API 등 Anthropic 생태계를 사용 중이며 전환 비용이 가격 차이를 상쇄합니다.
다음에 해당한다면 Gemini 3.1 Pro를 선택하세요...
- 토큰 사용량이 커서 입력 비용 2.5배 차이가 크게 작용합니다. 월 5억 토큰이라면 매월 $1,500 차이가 납니다.
- 별도의 전처리 단계 없이 단일 API 호출로 비디오, 오디오, PDF 입력을 네이티브로 처리해야 합니다.
- Google 인프라 위에서 구축하며 Vertex AI를 통한 단일 벤더 관계를 원합니다.
- 추상적 시각 추론이 주요 사용 사례입니다. ARC-AGI-2에서 Opus는 75.8%로 Gemini의 77.1%에 뒤처집니다.
마무리
Claude Opus 4.7과 Gemini 3.1 Pro는 모두 강력한 모델입니다. 어떤 모델을 사용할지는 예산과 수행하려는 작업에 달려 있습니다. 에이전트형 작업에서는 Opus가 우세하지만, 예산을 초과한다면 Gemini 3.1 Pro도 특히 더 저렴한 토큰과 50% 배치 가격 할인을 고려할 때 유력한 대안입니다.
Anthropic은 최고의 코딩 모델 분야에서 우위를 유지하고 있어, 복잡한 추론과 프로그래밍이 필요한 에이전트형 작업에 잘 맞습니다. Google은 Anthropic 대비 상당히 낮은 가격으로 최전선의 추론 모델을 제공합니다. 두 회사와 OpenAI 같은 다른 대형 플레이어 간의 경쟁은 최고의 에이전트형 모델을 제공하면서도 범용성까지 갖추는 데 초점이 맞춰져 있습니다.
Opus 계열 모델의 높은 가격을 고려하면 작업 예산 기능의 도입은 반가운 변화입니다. 다른 제공업체들도 향후 릴리스에서 이를 통합할 가능성이 높아 보입니다. 이는 장기간 에이전트 작업 실행 비용을 더 예측 가능하게 만드는 데 도움이 될 것입니다.
AI 도구 활용에 대해 더 알아보려면 우리의 최고의 무료 AI 도구 가이드를 확인하세요. 더 넓은 범위의 AI 코딩 역량을 원하신다면, 개발 워크플로에서 AI 비서를 더 신뢰할 수 있는 파트너로 만드는 기술을 익히는 AI-Assisted Coding for Developers 코스를 수강해 보세요.
마지막으로, 우리의 Developing LLM Applications with LangChain 코스에서 LLM, 프롬프트, 체인, 에이전트를 활용해 AI 기반 애플리케이션을 만드는 방법을 알아보실 수 있습니다.