courses
2026년 상반기는 에이전틱 워크플로우, 특히 코딩에서 두드러졌습니다. 단일 프롬프트를 받아 작업을 끝까지 수행하는 모델들입니다. 경쟁은 이제 동시에 세 축에서 전개됩니다: 성능, 속도, 가격. Anthropic과 Google은 확연히 다른 선택을 했습니다.
이 글에서는 최근 공개된 두 모델을 비교합니다. Google I/O에서 발표된 Google의 Gemini 3.5 Flash와 5월 28일 출시된 Anthropic의 Claude Opus 4.8입니다. 두 모델은 같은 급이 아닙니다. 하나는 빠르고 저렴한 일꾼형 모델, 다른 하나는 프리미엄 플래그십입니다. 이 간극이 비교의 의미를 만듭니다. 언제 순수 성능에 비용을 지불할 가치가 있는가라는 질문을 던지기 때문입니다.
이 글에서는 벤치마크, 비용, 속도를 비교한 뒤 어떤 작업에 어떤 모델이 맞는지 정리합니다. 심층 분석은 Gemini 3.5 Flash 개요와 Claude Opus 4.8 리뷰에서 확인하실 수 있습니다.
한눈에 보기
- Opus 4.8이 전반적으로 더 강력한 모델입니다. Artificial Analysis Intelligence Index(61.4), GDPval-AA(1,890 Elo), Humanity's Last Exam에서 선두입니다.
- Gemini 3.5 Flash는 훨씬 저렴하고 빠릅니다: 백만 토큰당 $1.50/$9로 Opus 4.8의 $5/$25 대비 저렴하며, 출력 속도는 192.2 토큰/초로 66.8 대비 빠릅니다.
- Gemini 3.5 Flash는 멀티모달 입력(비디오, 오디오, PDF)을 지원하고, Opus 4.8은 텍스트와 이미지 입력만 지원합니다.
- 작업 품질과 환각 리스크에 실질적 비용이 따른다면 Opus 4.8을, 대량, 멀티모달, 비용 민감 파이프라인에는 Gemini 3.5 Flash를 권장합니다.
Claude Opus 4.8이란?
Claude Opus 4.8은 Anthropic의 플래그십 모델로, Opus 4.7의 후속작입니다. 복잡한 추론과 장기 지평의 에이전틱 코딩을 위해 설계되었으며, 현재 Artificial Analysis Intelligence Index에서 61.4점으로 1위를 기록하고 있습니다.
또한 다양한 직종의 실제 업무를 기반으로 모델을 평가하는 GDPval-AA 리더보드와, 저장된 사고 스냅샷에서 Kubernetes 사고의 근본 원인을 진단하는 능력을 측정하는 새로운 ITBench-AA 벤치마크에서도 선두에 있습니다.
주요 기능과 성능
핵심 사양은 다음과 같습니다.
- 100만 토큰 컨텍스트 윈도우, 최대 128K 출력 토큰
- 유일하게 지원되는 사고 모드로서의 어댑티브 씽킹
- Claude Code를 포함한 전역에서 기본값이 높음으로 설정된 effort 파라미터
Opus 4.8에는 빠른 모드가 추가되었습니다. 현재 리서치 프리뷰로, 출력 토큰/초를 최대 2.5배까지 높이며, 백만 입력/출력 토큰당 $10/$50에 제공됩니다. 표준 Opus 4.8 가격의 두 배지만, Opus 4.7의 빠른 모드 대비 가격은 3분의 1 수준입니다.
Messages API는 이제 messages 배열 내부에 system 항목을 허용합니다. 대화를 재시작하지 않고도 작업 도중 Claude의 지침을 업데이트할 수 있습니다. 권한, 토큰 예산, 환경 컨텍스트를 프롬프트 캐시를 깨뜨리지 않고 푸시할 수 있습니다.
캐시 가능한 최소 프롬프트 길이는 Opus 4.7의 4,096 토큰에서 1,024 토큰으로 낮아져, 더 짧은 프롬프트도 이제 캐시할 수 있습니다.
Artificial Analysis에 따르면, Opus 4.7 대비 향상은 여러 벤치마크에서 확인됩니다.
- Terminal-Bench Hard: +6.6점
- 기술 지원 시나리오를 시뮬레이션하는 τ²-Bench Telecom: +5.8점
- 정밀한 지시 수행을 측정하는 IFBench: +3.6점
또한 Humanity's Last Exam에서도 도구 없이 49.8%, 도구 사용 시 57.9%로 1위를 기록합니다.
장단점
에이전틱 작업 측면에서 Opus 4.8은 이 비교에서 가장 강력한 선택입니다. 프로그래밍 같은 작업을 포함하는 Artificial Analysis Agentic Index에서 1위를 차지합니다.
대신 비용이 문제입니다. 가격은 Opus 4.7과 동일하게 백만 입력/출력 토큰당 $5/$25로, 대량 작업에는 부담이 큽니다. 샘플링 제어 역시 여전히 불가합니다. temperature, top_p, top_k를 설정하면 오류가 발생합니다.
Gemini 3.5 Flash란?
Gemini 3.5 Flash는 Google의 최신 모델로, 거의 최전선급 품질에서 속도를 목표로 설계되었습니다. 자세한 내용은 Gemini 3.5 Flash 개요에서 다룹니다. Terminal-Bench 2.1에서 76.2%, GDPval-AA에서 1,656 Elo를 기록했습니다.
주요 기능과 성능
Flash는 텍스트, 이미지, 비디오, 오디오, PDF 입력을 수용하며, 전체 사고 수준을 지원합니다. 핵심 기능은 다음과 같습니다.
- 약 100만 토큰 입력 컨텍스트(1,048,576 토큰), 출력 한도 65,536 토큰
- 배치 API와 프롬프트 캐싱
- 코드 실행과 함수 호출
- 검색 그라운딩과 구조화된 출력
벤치마크에서는 멀티툴 에이전틱 조정 능력을 측정하는 MCP Atlas에서 83.6%, 멀티모달 이해를 평가하는 CharXiv Reasoning에서 84.2%를 기록합니다. Flash급 모델치고는 이례적으로 강력하며, Artificial Analysis Intelligence Index 7위, Agentic Index 6위(Opus 4.7에 근접)입니다.
Gemini 3.5 Flash는 Antigravity 멀티 에이전트 하니스도 네이티브로 지원합니다. 이번 릴리스에서 Antigravity 인터페이스는 OpenAI Codex와 Cursor 앱을 연상시키도록 재작업되었습니다.
장단점
Flash의 강점은 비용 대비 지능입니다. Artificial Analysis Intelligence Index에서 55점을 기록하면서 입력 백만 토큰당 $1.50, 출력 백만 토큰당 $9로, 가격 대비 성능이 이례적으로 좋습니다.
또 다른 장점은 네이티브 멀티모달 입력 지원입니다. 비디오와 오디오를 포함합니다. 최소/낮음/보통/높음의 네 단계 사고 시스템도 Opus 4.8의 단일 effort 설정보다 비용과 성능을 더 세밀하게 제어할 수 있게 해줍니다.
그러나 가장 돋보이는 것은 에이전틱 도구 사용입니다. Flash는 MCP Atlas에서 83.6%로, 이 비교에서 최고의 멀티툴 조정 점수이며 Opus 4.8의 82.2%도 앞섰습니다. Flash급 모델이 Anthropic의 최신 플래그십을 해당 벤치마크에서 앞서는 일은 보통 등급 구분을 넘어서는 이례적인 결과입니다.
주의할 점도 두 가지 있습니다. Intelligence Index 실행에서 Flash는 평균 35M 대비 73M 토큰을 생성해 장문 경향이 있으며, 이는 출력 과금에 영향을 줍니다. 첫 토큰까지 시간이 18.88초로 동급 대비 높습니다. 유사 모델들은 약 2초 수준입니다.
OpenAI의 플래그십과의 비교는 Gemini 3.5 Flash vs. GPT-5.5 글에서 다룹니다.
Claude Opus 4.8 vs Gemini 3.5 Flash: 정면 비교
세부 항목별로 살펴보기 전에 빠른 참고표입니다.
| 속성 | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| 출시일 | 2026년 5월 28일 | 2026년 5월 19일 |
| 컨텍스트 윈도우 | 100만 토큰 | 100만 토큰 |
| 최대 출력 토큰 | 128K | 65,536 |
| Intelligence Index (AA) | 61.4 | 55 |
| GDPval-AA Elo | 1,890 | 1,656 |
| 출력 속도 | 66.8 토큰/초 | 192.2 토큰/초 |
| 입력 모달리티 | 텍스트, 이미지 | 텍스트, 이미지, 비디오, 오디오, PDF |
| 입력 가격 | $5 / 100만 토큰 | $1.50 / 100만 토큰 |
| 출력 가격 | $25 / 100만 토큰 | $9 / 100만 토큰 |
| 사고 모드 | 어댑티브 전용 | 최소 / 낮음 / 보통 / 높음 |
에이전틱 및 코딩 성능
Opus 4.8이 더 강한 에이전트지만, Flash는 급에 비해 격차가 크지 않습니다. Opus 4.8은 GDPval-AA에서 1,890 Elo로 Flash의 1,656을 앞서, 지식 작업에 더 적합합니다.
MCP Atlas에서는 의외의 결과가 나옵니다. Flash가 이 멀티툴 조정 벤치마크에서 83.6%를 기록해 Opus 4.8의 82.2%를 근소하게 앞섰습니다. Flash급 모델이 Anthropic의 최신 플래그십을 에이전틱 도구 사용에서 앞서는 것은 진정으로 예상 밖이며, 이 비교에서 Flash를 선택할 가장 명확한 근거입니다.
SWE-bench Pro는 반대입니다. 실제 소프트웨어 엔지니어링 티켓 해결 능력을 평가하는 이 벤치마크에서 Opus 4.8은 69.2%로 Anthropic 내부의 Mythos Preview 다음으로 높습니다. Flash는 55.0%로, 급 차이를 고려하면 Opus에 뒤지지만 자체적으로도 의미 있는 성과입니다. Gemini 3.1 Pro의 54.2%를 앞서, 이번 Flash 릴리스가 이전 세대 Pro급을 따라잡았음을 보여줍니다.
Terminal-Bench Hard에서는 Opus 4.8이 58.3%, Flash가 40.9%를 기록해, 터미널 기반 소프트웨어 엔지니어링, 시스템 관리, 데이터 처리 작업에는 Opus 4.8이 더 적합합니다. Flash는 병렬 코딩 루프를 돌리고 속도와 비용이 정밀도보다 중요할 때 빛을 발합니다.
추론 및 과학 작업
학술적 추론에서는 Opus 4.8이 확실히 앞섭니다. Humanity's Last Exam에서 Opus 4.8은 57.9%, Flash는 40.25%를 기록해, 수학·과학·인문 분야 작업에서 유리합니다.
멀티모달 입력 지원
이 부분은 Flash의 완승입니다. Opus 4.8은 텍스트와 이미지만 읽을 수 있고, Flash는 비디오, 오디오, PDF까지 처리합니다. 파이프라인에서 이 형식들을 다룬다면 두 모델 중 이를 지원하는 것은 Flash뿐입니다.
속도와 지연
Flash는 출력 기준으로 약 3배 빠릅니다. Artificial Analysis는 Flash 192.2 토큰/초, Opus 4.8 66.8 토큰/초로 측정했습니다.
비용과 토큰 효율
격차는 출력 토큰에서 크게 느껴집니다. Opus 4.8은 백만 토큰당 $25, Flash는 $9로, Opus가 약 2.8배 비쌉니다. 대량 파이프라인에서는 이 차이가 빠르게 누적됩니다.
컨텍스트 윈도우와 출력 용량
두 모델 모두 100만 입력 토큰을 처리하므로 차이는 출력 측면에 있습니다. Opus 4.8은 한 번에 최대 128K 토큰을, Flash는 65,536 토큰을 작성해 거의 두 배의 여유가 있습니다. 장문의 코드 합성, 문서 생성, 대용량 단일 패스 출력을 내는 에이전틱 루프에서는 이 여유가 중요합니다.
어떤 모델을 선택해야 할까요?
핵심은 성능에 비용을 지불하는지, 처리량에 비용을 지불하는지입니다. 다음과 같이 구분하겠습니다.
다음 경우 Claude Opus 4.8을 선택하세요…
- 작업 완성도의 품질이 곧바로 결과에 영향을 줍니다. GDPval-AA 1,890 Elo와 AA-Omniscience에서 Google·OpenAI 모델 대비 낮은 환각률 덕분에 고정밀 지식 작업에 더 안전한 선택입니다.
- 대용량 단일 패스 생성을 위해 128K 출력 토큰이 필요합니다. 이는 Flash의 65,536의 거의 두 배입니다.
- 이미 Claude Code나 API 등 Anthropic 생태계에서 개발 중이며 전환 비용이 큽니다.
- 에이전틱 루프가 길게 돌아 대화 중간의 시스템 메시지가 중요합니다. 이제 Messages API가 프롬프트 캐시를 깨지 않고 작업 도중 권한, 토큰 예산, 컨텍스트를 업데이트합니다.
다음 경우 Gemini 3.5 Flash를 선택하세요…
- 파이프라인이 비디오, 오디오, PDF를 수집합니다.
- 출력 물량이 중요하며, 백만 토큰당 $9 대 $25의 차이가 계산을 바꿉니다.
- 가장 강력한 멀티툴 조정 점수가 필요합니다. Flash는 MCP Atlas에서 83.6%로, Opus 4.8의 82.2%도 앞섭니다.
- Antigravity나 Vertex AI 등 Google 인프라 위에서 구축하며 단일 벤더를 원합니다.
- 정교한 비용 제어가 중요합니다. Flash의 4단계 사고는 Opus 4.8의 단일 effort 설정보다 유리합니다.
Flash와 플래그십 모델의 다음 단계
이번 Flash 모델은 이전 Flash 릴리스보다 훨씬 비싸며, 이 점에 대해 Google은 비판을 받았습니다. Flash와 Opus 급 간 지능 격차는 여전히 상당해, 플래그십에 근접한 가격을 Flash에 지불해야 할 명분을 약화시킵니다. 더 흥미로운 경쟁은 Cursor의 Composer 2.5 수준의 저렴한 가격대를 유지하면서도 코딩과 에이전틱 작업에 진짜로 능한 소형 모델입니다.
Anthropic의 빠른 모드는 에이전틱 코딩에서 주목할 만하지만, 가격이 발목을 잡을 수 있습니다. $10/$50이라면 장시간 루프를 돌리는 개발자에게 매력적이지 않고, 채택 여부는 Anthropic이 가격을 재고하는지에 달려 있습니다.
Anthropic은 코딩에 집중해 왔으므로, 당분간 Google을 따라 비디오·오디오 입력을 쫓지는 않을 것으로 보입니다. 이는 Google에 기회를 제공하지만, Opus를 에이전틱 작업에서 능가하는 Flash 또는 플래그십을 내놓을 수 있을 때에 한합니다. 아직까지는 그렇지 않습니다.
마무리
작업 품질과 환각 리스크에 실질적인 비용이 따르는 금융이나 의료 같은 영역에서는 Opus 4.8이 적합합니다. 처리량, 비용, 멀티모달 입력을 최적화하려면 Gemini 3.5 Flash가 더 잘 맞습니다.
제 판단으로는, 두 모델은 실제로 같은 일을 두고 경쟁하지 않습니다. 대부분의 팀은 업무를 한두 문장만 설명해도 자신들이 어느 쪽에 속하는지 알 것입니다. 더 어려운 질문은, Google이 Flash의 가치를 만드는 가격 경쟁력을 잃지 않으면서 성능 격차를 줄일 수 있느냐입니다. Google은 이미 내부적으로 Gemini 3.5 Pro를 운영하고 있으며, Opus 4.8에 실질적 압박을 가할 가능성이 큰 것은 Flash가 아니라 이 Pro 릴리스일 것입니다.
자신의 워크플로우에서 AI 도우미의 신뢰도를 높이는 기술을 다듬고 싶다면 AI-Assisted Coding for Developers 코스부터 시작해 보세요. 프롬프트, 체인, 에이전트를 활용해 LLM 애플리케이션을 만들고자 한다면 Developing LLM Applications with LangChain 코스가 좋은 다음 단계입니다.
Claude Opus 4.8 vs Gemini 3.5 Flash 자주 묻는 질문
Claude Opus 4.8이 전반적으로 Gemini 3.5 Flash보다 낫나요?
전반적 지능 벤치마크에서는 그렇습니다. Opus 4.8은 Artificial Analysis Intelligence Index에서 61.4점을 기록했고, Flash는 55점입니다. 하지만 더 낫다는 것은 용도에 따라 달라집니다. Flash는 더 빠르고 저렴하며, Opus 4.8이 지원하지 않는 비디오, 오디오, PDF 입력을 지원합니다.
Gemini 3.5 Flash는 어떤 입력 형식을 지원하나요?
Gemini 3.5 Flash는 텍스트, 이미지, 비디오, 오디오, PDF 입력을 지원합니다. Claude Opus 4.8은 텍스트와 이미지 입력만 지원합니다.
두 모델의 가격은 어떻게 비교되나요?
Claude Opus 4.8은 백만 입력 토큰당 $5, 백만 출력 토큰당 $25입니다. Gemini 3.5 Flash는 백만 입력 토큰당 $1.50, 백만 출력 토큰당 $9입니다. 캐시 히트 과금은 Opus 4.8이 백만 토큰당 $0.50, Flash가 $0.15입니다.
GDPval-AA란 무엇이며, Opus 4.8과 Gemini 3.5 Flash와 어떤 관련이 있나요?
GDPval-AA는 실제 지식 작업 기반의 에이전틱 성능을 Elo로 평가하는 Artificial Analysis의 주요 벤치마크입니다. Opus 4.8이 1,890 Elo로 Flash의 1,656을 앞섭니다. 실제 운영 환경의 에이전틱 맥락에서 모델을 평가할 때 전통적 벤치마크보다 더 유용합니다.
어떤 모델이 더 큰 출력 창을 갖고 있나요?
Claude Opus 4.8은 최대 128K 출력 토큰을 지원해, 65,536 토큰 창을 가진 Gemini 3.5 Flash의 두 배입니다. 장문 문서 생성, 대형 코드 파일 작성, 대용량 단일 패스 출력이 필요한 워크플로우에는 Opus 4.8이 더 적합합니다.
Gemini 3.5 Flash는 사고 모드를 지원하나요?
예. Flash에는 최소, 낮음, 보통, 높음의 네 가지 사고 수준이 있으며, 기본은 보통입니다. Claude Opus 4.8은 어댑티브 사고만 사용하며, 확장 사고 예산은 지원하지 않습니다.