본문으로 바로가기

Claude Fable 5 vs GPT-5.5: 벤치마크, 가격, 그리고 선택 가이드

Claude Fable 5는 순수 역량 벤치마크에서 앞서지만, GPT-5.5는 접근성, 가격, 더 적은 분류기 개입에서 우위입니다. 선택 방법을 안내합니다.
업데이트됨 2026년 6월 10일  · 11분 읽다

프로덕션 워크플로우에서 Claude Fable 5와 GPT-5.5 중 무엇을 선택할지 고민한다면, 벤치마크 표가 분명한 방향을 제시합니다. 수치상으로 Fable 5는 코딩과 추론에서 큰 격차로 더 강력한 모델입니다. 하지만 출력 토큰당 비용이 두 배이고, 요청을 더 약한 모델로 조용히 재라우팅할 수 있는 분류기 시스템이 있으며, 일부 엔터프라이즈 고객에게는 전면 차단이 되는 30일 데이터 보관 요구 사항을 둡니다.

이 글에서는 Fable 5와 GPT-5.5를 다섯 가지 측면에서 비교합니다: 코딩 및 에이전틱 성능, 장문 컨텍스트 작업, 안전성 분류기와 접근 마찰, 지식 작업과 추론, 그리고 가격. 각 모델에 대한 심층 내용은 Claude Fable 5GPT-5.5 단독 가이드를 참고하세요.

AI 동향을 놓치지 마세요. 한 주의 핵심 이슈를 정리하는 무료 금요일 뉴스레터 The Median을 구독하세요. 주당 몇 분이면 충분합니다.

Claude Fable 5란?

Claude Fable 5는 2026년 6월 9일에 공개된 Anthropic의 첫 번째 Mythos급 일반 접근 모델입니다. Mythos는 Anthropic 모델 계층에서 Opus 위에 위치한 새로운 역량 등급입니다. Fable 5는 기본적으로 Claude Mythos 5와 동일한 모델이지만, 특정 민감 쿼리를 Claude Opus 4.8로 라우팅하는 안전성 분류기가 활성화되어 있습니다. 명칭 구분은 중요합니다. Fable은 대중에게 공개된 버전이고, Mythos는 Project Glasswing 파트너에게만 제공되는 제한 없는 버전입니다.

Anthropic은 Fable 5가 거의 모든 테스트 벤치마크에서 최첨단 성능을 보이며, 특히 소프트웨어 엔지니어링, 지식 작업, 비전, 장기 에이전틱 작업에서 강점을 보인다고 밝힙니다. 작업이 길고 복잡할수록 이전 Claude 모델 대비 격차가 커집니다. Stripe는 Fable 5가 5천만 줄 규모의 Ruby 코드베이스 마이그레이션에서 수개월의 엔지니어링 작업을 며칠로 단축했다고 보고했습니다.

Fable 5의 역량과 벤치마크 상세 분석은 Claude Fable 5 가이드를, 제한된 Mythos 5 변종은 Claude Mythos 5 글에서 확인하세요.

GPT-5.5란?

GPT-5.5는 OpenAI가 2026년 4월 공개한 모델로, 현재까지 자사의 가장 강력한 에이전틱 코딩 모델로 소개되었습니다. OpenAI는 더 높은 정확도의 GPT-5.5 Pro 변종도 함께 선보였습니다. 이 모델은 NVIDIA GB200 및 GB300 NVL72 시스템에 맞춰 공동 설계·서빙되며, 실제 서빙 환경에서 토큰당 지연 시간은 GPT-5.4와 유사하면서도 유의미하게 높은 지능 수준을 보인다고 합니다.

GPT-5.5의 핵심 아키텍처 포인트는 장문 컨텍스트 신뢰성입니다. GPT-5.4는 MRCR 벤치마크에서 대략 128K 토큰을 넘어서며 붕괴했지만, GPT-5.5는 그렇지 않습니다. 512K~100만 토큰 구간에서 GPT-5.5는 MRCR v2에서 74.0%를 기록하며, 동일 구간에서 GPT-5.4의 36.6%를 크게 앞섰습니다. 이는 단순한 소폭 개선이 아니라 모델 활용 범주의 질적 변화입니다.

GPT-5.5의 벤치마크와 실사용 결과에 대한 전체 분석은 GPT-5.5 가이드에서 확인하세요. 또한 Claude Opus 4.8 vs GPT-5.5 비교도 진행했습니다.

Claude Fable 5 vs GPT-5.5: 정면 비교

세부 내용으로 들어가기 전, 각 모델의 현황을 간단히 요약합니다.

Feature Claude Fable 5 GPT-5.5
SWE-Bench Pro 80.3% 58.6%
Terminal-Bench 2.1 88.0%* 83.4% (Codex CLI)
Humanity's Last Exam (with tools) 64.5% 52.2%
MRCR v2 at 512K-1M tokens Not published 74.0%
OSWorld-Verified 85.0% 78.7%
API input pricing (per 1M tokens) $10 $5
API output pricing (per 1M tokens) $50 $30
Safety classifier fallback Yes (routes to Opus 4.8) No silent fallback
Data retention requirement 30 days mandatory Standard policy
General availability Limited (extra credits necessary after June 22) Yes (ChatGPT + API)

코딩 및 에이전틱 성능

두 모델의 격차가 가장 크고 의사결정에 직접적인 영역입니다. 실제 GitHub 이슈 해결을 평가하는 SWE-Bench Pro에서 Fable 5는 80.3%, GPT-5.5는 58.6%를 기록했습니다. 22포인트 차이입니다. 참고로 Claude Opus 4.7도 이미 이 벤치마크에서 64.3%로 GPT-5.5를 앞섰기 때문에, Fable 5 등장 전부터 저장소 단위 코딩에서 GPT-5.5는 뒤처지고 있었습니다.

프로덕션 코드베이스 기준을 충족하며 어려운 코딩 과제를 통과할 수 있는지를 평가하는 Cognition의 FrontierCode에서도, Fable 5는 중간 노력 수준에서도 프런티어 모델 중 최고 점수를 기록했습니다. Cursor의 CEO Michael Truell은 Fable 5를 FrontierBench에서 최고 득점 모델로 평가하며, 장기 추론과 낯선 도구에 대한 범용화 능력에서 탁월하다고 밝혔습니다.

Fable 5는 보고된 88.0%*로 Terminal-Bench 2.1에서도 선도하는 것으로 보이며, GPT-5.5의 83.4%를 앞섭니다. 별표는 Fable 5와 Mythos 5 간의 수치 불일치를 감안해야 한다는 의미입니다. 해당 경우에는 항상 Fable이 더 낮게 측정되므로, Fable 5가 GPT-5.5와 비슷하거나 소폭 앞선다고 보는 편이 합리적입니다.

GPT-5.5는 여전히 터미널 중심 DevOps와 셸 자동화에는 최선의 선택이지만, SWE-Bench Pro 격차는 의미 있는 신호입니다. 주요 사용 사례가 저장소 수준의 엔지니어링이라면, 순수 역량만으로는 Fable 5가 명확한 선택입니다. 관건은 2배 출력 토큰 비용과 분류기 마찰을 특정 업무에서 감수할 가치가 있는지입니다.

장문 컨텍스트 성능

이 부분은 GPT-5.5의 진정한 차별점이며, 중요하게 볼 가치가 있습니다. GPT-5.4는 MRCR v2에서 대략 128K 토큰을 넘어서면 붕괴했습니다. GPT-5.5는 그렇지 않습니다. 512K~100만 토큰 구간에서 GPT-5.5는 MRCR v2 74.0%를 기록하며, 동일 구간에서 GPT-5.4의 36.6%를 크게 앞섰습니다. 이는 미미한 개선이 아니라 역량 등급의 변화입니다.

Anthropic은 Fable 5가 수백만 토큰에 걸친 장기 작업에서도 집중력을 유지하고, 자체 노트를 활용해 출력을 개선한다고 주장합니다. Slay the Spire 메모리 테스트에서는 파일 기반 지속 메모리가 Fable 5의 성능을 Opus 4.8 대비 세 배 더 향상시켰습니다. 하지만 512K~100만 토큰 범위에서 Fable 5의 MRCR 스타일 점수는 공개되지 않아, 동일 조건의 직접 비교는 불가능합니다.

법률 문서 검토, 대규모 코드베이스 분석, 과학 논문 종합 등 수십만~백만 토큰 컨텍스트를 활용하는 사용자의 경우, GPT-5.5의 공개 장문 컨텍스트 점수가 더 강력한 근거입니다. 자체 테스트에서도 GPT-5.5는 30만 토큰 바늘 찾기 테스트를 통과했고, GPT-5.4가 붕괴했던 256K 이후에도 MRCR 점수가 유지되었습니다. Fable 5도 동일하게 강력할 수 있으나, 비교 가능한 형식의 데이터가 공개되어 있지 않습니다.

안전성 분류기와 접근 마찰

이는 Fable 5의 실무적 이슈 중 가장 덜 보도되었지만 주목할 가치가 큽니다. Fable 5는 이단계 분류기 시스템을 운영합니다. 프로브가 모든 트래픽의 내부 활성화를 모니터링하고, 플래그된 요청은 최종 결정을 내리는 별도의 학습된 LLM 분류기로 승격됩니다. 요청이 차단되면 Claude Opus 4.8로 재라우팅되며, 어느 모델이 처리했는지 사용자가 통지받습니다.

Anthropic에 따르면 분류기는 평균적으로 세션의 5% 미만에서 트리거됩니다. 적용 도메인은 세 가지입니다:

  • 사이버보안: 익스플로잇 개발, 공격적 사이버 작업, 에이전틱 해킹 워크플로우는 차단됩니다. 분류기가 활성화된 상태에서 Fable 5는 4개 사이버 벤치마크 모두에서 0.0%를 기록했으며, 기본 Mythos 모델은 Firefox 익스플로잇 개발에서 88.4%를 기록했습니다.
  • 생물학 및 화학: 이 도메인의 대부분 요청은 Opus 4.8로 폴백됩니다. Anthropic의 자체 평가에서 기본 모델이 AAV(아데노연관바이러스) 설계 작업에서 전문가 수준에 근접했기 때문에 적용 범위가 넓습니다.
  • 증류(distillation): 경쟁 모델 학습을 위해 Claude의 역량을 추출하려는 시도로 플래그된 요청은 재라우팅됩니다.

폴백 메커니즘은 역량 문제만이 아니라 에이전틱 파이프라인의 신뢰성 문제이기도 합니다. Fable 5가 Opus 4.8로 라우팅되면 Opus 4.8 요율로 과금되지만, 작업 도중 전혀 다른(물론 매우 우수한) 모델을 받게 됩니다. 전 구간에서 Fable 5의 추론 깊이를 전제로 하는 파이프라인에서는 세션 중간의 조용한 전환이 출력 품질 가정을 깨뜨릴 수 있습니다.

GPT-5.5도 잠재적 사이버 위험에 대한 더 엄격한 분류기를 포함한 자체 안전장치를 갖추고 있습니다. 그러나 더 약한 모델로의 조용한 폴백은 없습니다. OpenAI의 접근 방식은 단계적 신뢰 접근으로, 검증된 디펜더는 chatgpt.com/cyber에서 더 적은 제한의 확장 접근을 신청할 수 있습니다. 이 경로는 여전히 소수 파트너에 한정된 Anthropic의 Project Glasswing보다 접근성이 높습니다.

또 하나 명시할 차단 요인이 있습니다. Fable 5와 Mythos 5는 Covered Model로 분류되어, 이전에 무보관 정책이었던 엔터프라이즈조차 모든 트래픽에 대해 30일 데이터 보관이 의무입니다. Anthropic은 이 데이터가 학습에는 사용되지 않는다고 명시하지만, 보관 요구 자체가 규제 산업에는 절대적 차단 요소입니다. 이 정책 때문에 Fable 5를 전혀 사용할 수 없는 엔터프라이즈 고객도 있습니다.

지식 작업과 추론

이 영역에서는 두 모델 모두 강력하며, 코딩만큼의 큰 차이는 아닙니다. Fable 5는 고급 추론을 위한 Hebbia의 Finance Benchmark에서 선두를 달리며, 문서 기반 추론, 차트 해석, 문제 해결에서 최고 점수를 기록했습니다. IMC는 Fable 5가 근본 원인 분석과 기대값 분석을 포함해 전반적인 트레이딩 분석 평가를 상회했다고 밝혔습니다.

GPT-5.5는 FrontierMath 4단계에서 35.4%로 Fable 5의 공개 점수를 앞섰습니다. 44개 직종에서 에이전트를 평가하는 GDPval에서는 84.9%를 기록합니다. 도구를 활용한 Humanity's Last Exam에서는 Fable 5가 64.5%로 GPT-5.5의 52.2%를 앞서며, 다학제적 추론 작업에서 의미 있는 격차를 보입니다.

가격 및 가용성

가격 격차는 현실이며 규모가 커질수록 누적됩니다. Fable 5는 입력 100만 토큰당 $10, 출력 100만 토큰당 $50입니다. GPT-5.5는 입력 $5, 출력 $30입니다. 대량 워크로드에서는 100%/67% 증가가 빠르게 부담됩니다.

구독 접근성도 Fable 5에는 변수입니다. Pro, Max, Team, Enterprise 구독자는 6월 22일까지 무료로 사용할 수 있었습니다. 그 이후에는 기존 구독에 더해 사용 크레딧이 필요합니다. Anthropic은 용량이 허용되면 Fable 5를 표준 구독 기능으로 복원하겠다고 밝혔지만, 확정 일정은 없습니다. GPT-5.5는 출시 첫날 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 제공됐고, 곧이어 API도 열렸습니다.

알아둘 만한 가격 세부사항: 분류기 때문에 Fable 5 쿼리가 Opus 4.8로 폴백되면, 과금은 Fable 5가 아니라 Opus 4.8 요율(입력 $5 / 출력 $25)로 적용됩니다.

Claude Fable 5 vs GPT-5.5: 언제 무엇을 선택할까

결정은 세 가지 변수로 압축됩니다. SWE-Bench Pro 격차가 업무에 얼마나 중요한지, 도메인이 Fable 5의 분류기를 트리거하는지, 256K 토큰을 넘는 안정적 성능이 필요한지입니다.

Use case Recommended Why
저장소 수준 소프트웨어 엔지니어링 Claude Fable 5 SWE-Bench Pro 80.3% vs 58.6%는 복잡한 코드베이스에서의 실제 역량 차이를 반영하는 22포인트 격차입니다
보안 도구, 침투 테스트, 공격적 보안 연구 GPT-5.5 Fable 5 분류기가 대부분의 작업을 차단 또는 재라우팅합니다. GPT-5.5의 단계적 신뢰 접근이 더 접근성 높습니다
50만+ 토큰의 법률 문서 검토 또는 과학 문헌 종합 Either 512K~100만 토큰 MRCR 공개 점수(74.0%)로 GPT-5.5는 GPT-5.4가 붕괴한 구간에서 버팁니다. Fable 5는 동급 성능을 약속하지만 비교 가능한 공개 데이터는 없습니다
복잡 문서를 다루는 금융 및 지식 작업 Claude Fable 5 Hebbia 금융 벤치마크와 도구 기반 Humanity's Last Exam에서 선도(64.5% vs 52.2%)
비용이 중요한 대량 API 워크로드 GPT-5.5 출력 100만 토큰당 $30 vs $50. 규모가 클수록 격차가 커집니다
생의학 연구 파이프라인 GPT-5.5 (또는 Fable 5 신뢰 접근 대기) Fable 5의 생물학 분류기가 신뢰 접근이 열릴 때까지 대부분의 생의학 쿼리를 Opus 4.8로 재라우팅합니다
제로 데이터 보관이 필요한 규제 산업 GPT-5.5 Fable 5의 30일 의무 보관 정책은 일부 엔터프라이즈에 절대적 차단 요소입니다

이럴 때는 Claude Fable 5

  • 주요 사용 사례가 저장소 수준 소프트웨어 엔지니어링이며, 22포인트 SWE-Bench Pro 격차가 2배 출력 토큰 비용을 정당화합니다.
  • 업무가 사이버보안, 생물학, 화학 인접 도메인이 아니어서 세션에서 분류기가 트리거될 가능성이 낮습니다.
  • 금융 벤치마크와 다학제 추론 등에서 두 자릿수로 앞서는 복잡 분석 작업의 최고 상한이 필요합니다.
  • API를 사용하며 역량 향상을 위해 출력 100만 토큰당 $50 비용을 감당할 수 있습니다.

이럴 때는 GPT-5.5

  • 보안 인접 도메인에서 빌드하며, 파이프라인 도중 요청이 조용히 재라우팅되지 않는 모델이 필요합니다.
  • 엔터프라이즈 데이터 정책이 제로 보관을 요구하며, Fable 5의 Covered Model 지위로는 불가능합니다.
  • 구독 상단에 추가 사용 크레딧 없이 예측 가능한 API 접근이 필요합니다.
  • 비용 효율이 중요하며, 출력 토큰 $30 vs $50 격차가 사용량에서 의미 있습니다.

마무리

핵심 벤치마크에서 Fable 5가 더 강력합니다. SWE-Bench Pro 격차(80.3% vs 58.6%)는 우연이 아니며, 도구 기반 Humanity's Last Exam 우위(64.5% vs 52.2%)는 추론 깊이의 실제 차이를 반영합니다. 순수 역량만 본다면 Fable 5가 승자입니다.

하지만 Fable 5 점수의 별표는 현실입니다. 해당 수치는 기본 Mythos 모델을 반영합니다. Fable 5는 Mythos 위에 분류기를 얹은 형태이며, 사이버보안·생의학·일부 이중용도 쿼리에서는 Opus 4.8이 대신 동작합니다. 에이전틱 파이프라인에서는 역량 문제를 넘어 신뢰성 문제이기도 합니다. 전 구간 Fable 5의 추론 깊이를 기대하는 파이프라인은 작업 중 모델이 조용히 전환되면 깨질 수 있습니다. 여기에 30일 의무 데이터 보관까지 더하면, 일부 엔터프라이즈에 Fable 5는 아직 선택지가 아닙니다.

세 번째 선택지도 있습니다. Fable 5의 가격이 부담되고 GPT-5.5의 장문 컨텍스트 강화가 사용 사례에 중요하지 않다면, Claude Opus 4.8은 아쉬운 대안이 아닙니다. 이미 SWE-Bench Pro에서 69.2%로 GPT-5.5(58.6%)를 앞서고, 100만 토큰당 $5/$25로 비용이 낮으며, Fable 5의 분류기 마찰이 없습니다. Opus 4.8 vs GPT-5.5 결정은 Claude Opus 4.8 글에서 자세히 다룹니다.

프로덕션에서 프런티어 모델을 다루는 방법을 빠르게 익히고 싶다면, AI Fundamentals 스킬 트랙부터 시작해 보세요.

주제

DataCamp으로 AI를 학습하세요!

tracks

ChatGPT 기초

3
ChatGPT와 프롬프트 엔지니어링의 핵심을 살펴보세요. ChatGPT의 기능을 극대화하는 프롬프트 작성법을 익히세요.
자세히 보기Right Arrow
강좌 시작
더 보기Right Arrow