tracks
Google은 5월 19일 I/O 2026에서 Gemini 3.5 Flash를 발표했습니다. 이 모델은 에이전틱 및 코딩 벤치마크에서 Gemini 3.1 Pro를 능가하면서, 동일 등급의 다른 프런티어 모델 대비 출력 속도(초당 토큰)가 4배 빠릅니다.
이번 출시는 AI 업계의 경쟁 초점이 에이전틱 성능으로 옮겨간 시점에 나왔습니다. 코딩 에이전트, 다단계 워크플로 자동화, 장기 과제 실행이 주 전장이 되었고, Google은 이에 대한 해답으로 3.5 Flash를 제시하고 있습니다.
데이터 사이언티스트, ML 엔지니어, 개발자 등 모든 실무자에게 중요한 이유는 3.5 Flash가 지금(또는 곧) Gemini 앱과 검색의 AI 모드에서 기본 모델이 되며, 오늘부터 Gemini API를 통해 이용할 수 있기 때문입니다. 이 글에서는 발표 내용, 주목할 점, 벤치마크 수치, 그리고 업무에 어떤 의미가 있는지 살펴보겠습니다.
Gemini 3.5 Flash의 새로운 점
Gemii 3.5 Flash의 핵심 주장은 프런티어 수준의 성능과 속도의 결합입니다. Google은 3.5 Flash가 초당 출력 토큰 기준으로 다른 프런티어 모델보다 4배 빠르면서, 에이전틱 작업에서 가장 중요한 벤치마크에서 Gemini 3.1 Pro를 능가한다고 밝혔습니다.
Terminal-Bench 2.1에서 76.2%, GDPval-AA에서 1,656 Elo, MCP Atlas에서 83.6%를 기록했습니다. 멀티모달 이해와 관련해 CharXiv Reasoning에서는 84.2%를 달성했습니다.
요약하면, AI의 ‘빠름, 저렴함, 똑똑함 중 두 개만 고르라’는 오래된 법칙이 덜 적용된다는 뜻입니다. 높은 지연 없이도 복잡한 다단계 에이전트 워크플로를 처리할 수 있는 경량 모델이 등장했습니다.
Google에 따르면 이 모델은 오늘부터 Google AI Studio, Gemini API, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise 전반에서 일반 제공되며, 전 세계적으로 Gemini 앱과 검색의 AI 모드에서 새로운 기본 모델이 되었습니다.
Google은 또한 Gemini 3.5 Pro가 개발 중이며 이미 내부 사용 중이고 다음 달 출시될 예정이라고 발표했습니다. 3.5 Flash 출시는 에이전틱 실행을 중심으로 한 새로운 모델 군(패밀리)의 시작입니다.
Gemini 3.5 배경
Gemini 3 시리즈는 프런티어 모델 경쟁에서 Google의 현재 위치를 확립했습니다. 2026년 2월 출시된 Gemini 3.1 Pro는 출시 당시 Artificial Analysis Intelligence Index를 선도했으며 ARC-AGI-2에서 77.1%를 기록해, 같은 벤치마크에서 Gemini 3 Pro의 31.1%를 두 배 이상 상회했습니다.
저희가 진행한 GPT-5.5 vs Gemini 3.1 Pro 비교에서 다뤘듯, Gemini 3.1 Pro의 강점은 복잡한 시각적 추론과 멀티모달 과제였습니다.
Gemini 제품군에서 Flash라는 명명은 늘 속도 최적화 모델을 의미했습니다. 3.5 Flash의 차별점은 품질을 희생하지 않고 Flash 속도에서 프런티어 수준의 지능을 주장한다는 점입니다. Artificial Analysis 지수는 3.5 Flash를 우상단(Google에 따르면)에 배치하며, 이는 높은 지능과 높은 출력 속도를 동시에 의미합니다.
Antigravity 하니스는 협업 서브에이전트 배포를 위한 Google의 프레임워크로, 3.5 Flash의 포지셔닝에 핵심적입니다. 단독 모델이라기보다 Google이 모델과 함께 구축해온 멀티에이전트 아키텍처의 구성 요소입니다.
Gemini 3.5의 핵심 기능
발표에서 특히 흥미로운 정보를 정리했습니다.
벤치마크 성능
Google의 3.5 Flash 벤치마크 주장은 구체적이며 직접 살펴볼 가치가 있습니다. 이 모델은 다음 항목에서 Gemini 3.1 Pro를 능가합니다.
- Terminal-Bench 2.1: 76.2% (Gemini 3.1 Pro는 당사 이전 보도 기준 Terminal-Bench 2.0에서 68.5%)
- GDPval-AA: 1,656 Elo (Claude Opus 4.7은 출시 당시 1,753 Elo로 이 벤치마크를 선도, 자세한 내용은 Claude Opus 4.7 vs Gemini 3.1 Pro 리뷰 참조)
- MCP Atlas: 83.6% (이전 테스트에서 Gemini 3.1 Pro는 MCP Atlas에서 73.9%)
- CharXiv Reasoning: 멀티모달 이해에서 84.2%
속도 주장도 주목할 만합니다. 초당 출력 토큰 기준으로 다른 프런티어 모델 대비 4배 빠르다는 것입니다. 연구 노트에서 어떤 모델과 비교했는지 구체적으로 밝히지 않았으므로, 이 수치는 정밀한 일대일 비교라기보다 방향성을 나타내는 지표로 보는 편이 좋습니다.
에이전틱 아키텍처와 Antigravity
3.5 Flash는 Google의 협업 서브에이전트 실행 프레임워크인 Antigravity 하니스와 함께 작동하도록 설계되었습니다. Antigravity를 통해 모델은 여러 서브에이전트를 병렬로 배포하고, 다단계 워크플로를 실행하며, 장기 과제에서도 성능을 유지할 수 있습니다.
Google의 예시에는 AlphaZero 논문을 요약·종합하고 두 개의 에이전트를 사용해 6시간 만에 완전한 플레이 가능한 게임을 코딩한 사례, 레거시 코드베이스를 Next.js로 변환한 사례가 포함됩니다. 이는 단순 데모가 아닙니다. 에이전틱 시스템이 이제 맡게 된 며칠짜리 개발 과제를 반영합니다.
실제 엔터프라이즈 배포
이미 여러 엔터프라이즈가 3.5 Flash를 프로덕션 또는 파일럿 환경에서 운영 중입니다. 구체적 사례는 모델의 에이전틱 강점이 적용되는 지점을 잘 보여줍니다.
- Shopify: 상점 성장 예측을 위해 장기간에 걸친 복잡한 데이터를 분석하도록 서브에이전트를 병렬 실행
- Macquarie Bank: 100+ 페이지 문서를 빠른 지연으로 추론해 고객 온보딩 파일럿
- Salesforce: Agentforce에 통합해 다중 서브에이전트 기반 엔터프라이즈 작업 자동화 및 멀티턴 도구 호출
- Xero: 소규모 기업의 1099 세금 양식 준비 등 수주에 걸친 워크플로를 관리하는 에이전트 배포
- Databricks: 에이전틱 워크플로로 실시간 정보 모니터링, 문제 진단, 대규모 데이터셋 전반의 해결책 제안
- Ramp: 멀티모달 이해와 과거 패턴에 대한 추론을 결합해 복잡한 청구서의 OCR 정확도 향상
Gemini Spark와 소비자 이용 가능성
3.5 Flash는 24/7로 실행되며 사용자 대신 행동하는 Google의 새로운 개인 AI 에이전트 Gemini Spark를 구동하는 모델이기도 합니다. Google은 현재 신뢰할 수 있는 테스터에게 Spark를 배포 중이며, I/O 발표 다음 주에 미국 내 Google AI Ultra 구독자를 대상으로 베타를 계획하고 있습니다.
이 모델은 Gemini 앱과 검색의 AI 모드를 통해 전 세계 수십억 명의 사용자에게 오늘부터 제공되며, 이는 Gemini 모델로서는 소비자와 개발자 대상의 가장 광범위한 동시 출시 중 하나입니다.
안전과 세이프가드
Google은 3.5 Flash가 Frontier Safety Framework 하에 개발되었으며, 사이버 및 CBRN 세이프가드가 강화되었다고 밝혔습니다. 회사는 응답 전 모델의 내부 추론을 점검하는 해석 가능성 도구를 사용해 유해 출력과 안전한 질의에 대한 과도한 거부를 모두 줄이는 것을 목표로 합니다.
데이터 및 AI 실무자를 위한 Gemini 3.5
가장 즉각적인 실무적 시사점은 3.5 Flash를 Google AI Studio의 Gemini API를 통해 곧바로 사용할 수 있다는 점입니다. 에이전틱 파이프라인을 구축 중이라면 MCP Atlas 점수(83.6%)와 Antigravity 멀티에이전트 하니스의 조합을 현재 사용 중인 모델과 비교 테스트해 볼 가치가 있습니다.
GDPval-AA 1,656 Elo는 이전 리뷰에서의 Claude Opus 4.7의 1,753 Elo에 못 미치지만, 지연 시간 요구사항에 따라서는 3.5 Flash의 속도 우위가 더 중요할 수 있습니다.
장기 워크플로를 운영하는 팀에는 Xero와 Shopify의 배포 사례가 가장 유의미한 신호입니다. 수주에 걸친 워크플로를 자동화된 에이전트 실행으로 압축하는 것이 Google이 최적화하는 사용 사례이며, 이를 가능하게 하는 인프라 레이어가 Antigravity 하니스입니다. 아직 멀티에이전트 오케스트레이션 패턴에 익숙하지 않다면, 지금이 따라잡기에 좋은 시점입니다.
주의 깊게 볼 점 하나: Google은 3.5 Flash가 유사한 작업에서 다른 프런티어 모델 대비 절반 이하의 비용이라고 말합니다. 이는 워크로드에 크게 좌우되지만, 실제로 성립한다면 대규모 에이전틱 시스템 운영의 경제성을 바꿉니다. 다음 달로 예상되는 3.5 Pro는 가장 무거운 추론 작업을 하는 팀에게 더 흥미로운 비교 지점이 될 것입니다.
마무리 생각
Gemini 3.5 Flash는 Google이 플래그십뿐 아니라 성능-속도 곡선의 양 끝에서 모두 경쟁하겠다는 의지를 보여줍니다. 에이전틱 벤치마크에서 Gemini 3.1 Pro를 능가하면서도 Flash 속도로 구동된다는 점은 의미 있는 변화이며, Shopify, Macquarie, Salesforce의 엔터프라이즈 배포는 모델이 통제된 벤치마크 밖에서도 견고함을 시사합니다.
더 넓게는 Google이 Antigravity, Gemini Spark, 3.5 Flash로 대표되는 에이전틱 인프라에 큰 베팅을 하고 있다는 그림입니다. 그 베팅의 성패는 다음 달 도착할 3.5 Pro의 성능과, 실제 개발자 워크플로에서 Antigravity 하니스가 경쟁 멀티에이전트 프레임워크와 어떻게 맞붙는지에 달려 있습니다.
에이전틱 AI 개념과 이런 모델로 빌드하는 방법을 빠르게 익히고 싶다면 DataCamp의 AI Agent Fundamentals 스킬 트랙을 확인해 보세요.