tracks
Sakana는 Fugu가 Fable 5에 필적한다고 홍보하지만, 자사 벤치마크 표에서는 Fable 5를 제외합니다. 그래서 가능한 범위 내에서 두 모델을 최대한 나란히 비교해 보겠습니다.
배경은 이렇습니다. 미국 정부는 Anthropic이 Claude Fable 5를 출시한 지 사흘도 채 안 되어 대중 접근을 중단시켰습니다. Fable 5는 Anthropic의 가장 강력한 모델로 소개되었습니다. 그로부터 2주 후, 도쿄의 Sakana AI가 큰 주장을 내세우며 Fugu를 출시했습니다. 특히 화제가 된 주장은 다음과 같습니다. Sakana AI는 Fugu Ultra가 업계에서 가장 까다로운 엔지니어링, 과학, 추론 벤치마크에서 "Fable 5 및 Mythos Preview 같은 선도 모델과 어깨를 나란히 한다"고 말하며, 수출 통제 리스크도 없다고 합니다. CEO David Ha는 X에서, 교체 가능한 에이전트 풀을 오케스트레이션하면 Fable 같은 제한된 프런티어 모델에 필적할 수 있음을 Fugu가 증명한다고 밝혔습니다.
다만 확인이 쉽지는 않습니다. Fable 5가 Fugu의 벤치마크 표에 전혀 없기 때문입니다. 공개적으로 접근할 수 없다는 이유로 Sakana가 제외했기 때문이죠. 그래서 우리가 할 수 있는 범위에서 진행합니다. 두 연구소가 공개한 표에서 공통으로 등장하고 기준선이 일치하는 소수의 벤치마크를 확인했습니다. 마지막으로 가격과 접근성도 짚겠습니다.
두 시스템 각각의 배경이 궁금하시다면 아래 글을 참고하세요. Claude Fable 5 분석과 Sakana Fugu 소개가 있습니다.
Sakana Fugu란?
Sakana Fugu는 통상적인 의미의 단일 학습 모델이 아닙니다. 오케스트레이터, 즉 요청을 받고 직접 답변할지 전문 모델 풀에 위임할지 결정하고, 검증과 통합을 관리한 뒤 단일 OpenAI 호환 API를 통해 응답을 반환하는 모델입니다. 외부에서는 하나의 엔드포인트를 호출하지만, 내부에서는 조율된 프런티어 모델 집합이 작업을 수행합니다.
두 가지 변형으로 제공됩니다. Fugu는 낮은 지연 시간과 품질의 균형을 맞추며, 코딩, 리뷰, 상호작용형 서비스의 일상적 기본값으로 포지셔닝됩니다. Fugu Ultra는 더 깊은 전문가 에이전트 풀을 조정하며, 논문 재현, 사이버보안 분석, Kaggle 스타일 데이터 과학, 특허 조사 등 난이도 높은 다단계 문제에서 최대한의 답변 품질을 목표로 튜닝되어 있습니다.
핵심 아이디어는 두 가지입니다.
- 첫째, 학습된 오케스트레이션: 수작업 파이프라인 대신, 언제 위임하고 어떻게 출력을 결합할지 코디네이터를 학습시킵니다.
- 둘째, 교체 가능한 에이전트 풀: 새 프런티어 모델이 공개되면 Sakana는 약 2주 내에 통합할 수 있다고 봅니다. (이 글의 나머지와 관련해 중요합니다: Fable 5는 공개적으로 접근할 수 없기 때문에 해당 풀에 포함되지 않습니다.)
Claude Fable 5란?
Claude Fable 5는 Anthropic이 Opus 등급 위에 위치시키는 Mythos 등급 모델로, 일련의 분류기를 통해 일반 사용에 적합하도록 안전성이 확보되었습니다. Claude Mythos 5와 동일한 기반 모델이며, 차이는 Fable 5는 안전 분류기가 활성화된 상태로 실행(되었)하고, Mythos 5는 일부가 해제되어 Project Glasswing 파트너와 일부 생물학 연구자에게만 제한적으로 제공된다는 점입니다.
Anthropic은 Fable 5가 자사가 추적하는 거의 모든 벤치마크에서 최첨단이며, 과제가 길고 복잡할수록 격차가 더 벌어진다고 주장했습니다. 실무적으로 중요한 점은, 쿼리가 사이버보안, 생물/화학, 모델 증류에 걸치면 2단계 분류기가 응답을 Claude Opus 4.8로 라우팅하고 그렇게 했음을 사용자에게 알린다는 것입니다.
Sakana Fugu vs. Claude Fable 5: 벤치마크
Sakana가 공개한 비교 표는 Fable 5와 Mythos Preview를 제외합니다. 공개적으로 접근할 수 없어 Fugu의 풀에 포함될 수 없다는 이유에서입니다. 따라서 Fugu의 공식 수치는 Opus 4.8, GPT-5.5, Gemini 3.1 Pro와의 비교이며, 아래 표에서 확인할 수 있습니다. 11개 중 10개 벤치마크에서 앞섭니다.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent 스캐폴딩. † 제공업체 보고 기준선. 모든 Fugu 점수는 Sakana가 보고했으며 아직 제3자에 의해 재현되지 않았습니다.
Fable 5를 비교에 포함하기 위해 Anthropic과 Sakana의 표에 공통으로 등장하는 벤치마크를 대조하고, 공유 기준선이 일치하는지 확인했습니다. SWE-Bench Pro와 Humanity's Last Exam(도구 없음)의 경우, Opus 4.8, GPT-5.5, Gemini 3.1 Pro 수치가 양쪽 소스에서 동일합니다. 즉, 이 두 비교는 조건이 깔끔합니다. 두 시스템만 놓고 보면, 정면 대결은 다음과 같습니다.
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Leader |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (no tools) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ 두 연구소는 TerminalBench에 대해 서로 다른 기준선과 스캐폴드를 사용하므로 조건이 동일하지 않습니다.
이 세 가지가 두 연구소의 공개 표에서 기준선이 일치하는 유일한 벤치마크입니다. 그래서 나머지 비교는 정성적일 수밖에 없습니다. 세 항목 모두에서 Fable 5가 앞섭니다.
즉, 나란히 비교가 가능한 모든 벤치마크에서 Fable 5가 Fugu Ultra를 약 6–9점 정도 앞섭니다. 이는 Fable 5가 승부를 보는 지점과도 일치합니다. 최종 산출물로 채점되는 장기 과제에서는, 더 강한 단일 모델이 누적 오류를 덜 쌓기 때문입니다.
정리하면:
- 모든 Fugu 수치는 자체 보고치이며, 아직 제3자 리더보드에 나타나지 않았습니다.
- Sakana는 Fugu를 Fable 5 및 Mythos Preview와 "어깨를 나란히 한다"고 표현합니다. 위 격차를 감안하면 방어 가능한 해석이지만, 다소 후한 표현입니다. "가깝지만 뒤처짐"이 더 정확합니다.
- 비교 집합은 부분적으로만 겹칩니다. Fable 5는 비전에서 앞섭니다(스크린샷만으로 웹앱 소스를 재구축할 수 있음). Fugu는 Anthropic 표에 없는 장문 맥락 및 뱅킹 벤치마크를 게시합니다. 즉, 서로 다소 다른 작업 형태에 최적화되어 있습니다.
Sakana Fugu vs. Claude Fable 5: 가용성과 접근성
Claude Fable 5는 현재 중단 상태입니다. Anthropic은 미국 정부의 수출 통제 지침에 따라 6월 12일 Fable 5와 Mythos 5에 대한 접근을 철회했으며, 가능한 한 빨리 복구하겠다고 밝혔습니다. Opus 4.8 같은 다른 모델은 여전히 이용 가능합니다.
Sakana Fugu는 지금 이용 가능합니다. OpenAI 호환 API를 갖춘 console.sakana.ai에서 사용할 수 있습니다. 다만 EU와 EEA에서는 GDPR 준수를 진행하는 동안 제공을 일시 중단했습니다. 정확한 일정은 확인하지 못했습니다.
현재로서는 유럽 팀이 두 모델 모두를 사용하지 못할 수 있습니다.
마무리 생각
표면적으로는 두 철학 간의 치열하지만 박빙의 대결입니다.
Anthropic은 확장성에 집중합니다. 즉, 병렬 분류기 체계가 필요할 만큼 강력한 하나의 Mythos급 모델입니다.
Sakana는 조정 능력에 베팅합니다. 교체 가능한 풀 위에 학습된 오케스트레이터를 두면, 단일 프런티어 모델에 근접한 성능을 유지하면서 더 저렴하고, 더 탄력적이며, 공급자에 구애받지 않을 수 있다는 가설입니다.
있는 그대로 받아들인 벤치마크는, 비교 가능한 테스트에서는 Anthropic의 선택이 더 강력한 성과물을 내고, Sakana의 접근은 더 가용성이 높고 저렴하다는 점을 보여줍니다.
Sakana Fugu vs. Claude Fable FAQs
Sakana Fugu가 Claude Fable 5보다 낫나요?
나란히 비교가 가능한 벤치마크(SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench)에서는 Fable 5가 Fugu Ultra를 약 6–9점 정도 앞섭니다.
왜 Fugu의 벤치마크 표에 Fable 5가 없나요?
Sakana는 Fable 5와 Mythos Preview가 공개적으로 접근할 수 없어 Fugu의 에이전트 풀에 포함될 수 없다는 이유로 제외합니다. 공식 비교 대상은 Opus 4.8, GPT-5.5, Gemini 3.1 Pro이며, 이들 11개 벤치마크 중 10개에서 Fugu Ultra가 앞섭니다.
어느 쪽이 더 저렴한가요?
Fugu Ultra는 입력 $5/M, 출력 $30/M으로, Fable 5의 입력 $10/M, 출력 $50/M 대비 대략 절반 가격입니다. 두 모델 모두 $20/$100/$200 월 구독 티어를 제공합니다.
Fable 5는 다시 제공되나요?
Anthropic은 Fable 5와 Mythos 5의 접근을 가능한 빨리 복구하겠다고 밝혔지만, 구체적 일정을 공개하지는 않았습니다. 그동안 Opus 4.8을 포함한 다른 모델은 계속 이용 가능합니다.
Fugu는 실제로 Fable 5 중단을 우회하나요?
직접적으로는 아닙니다 — Fable 5는 Fugu의 풀에 포함된 적이 없으므로, Fugu가 그 고유 능력을 복구할 수는 없습니다.