Pular para o conteúdo principal

Claude 3.7 Soneto: Recursos, acesso, benchmarks e muito mais

Saiba mais sobre a abordagem híbrida do Claude 3.7 Sonnet de combinar o modo de raciocínio e o modo generalista, os principais benchmarks e como acessá-lo via Web ou API.
Actualizado 25 de fev. de 2025  · 8 min de leitura

A Anthropic acaba de fazer seu maior anúncio dos últimos tempos com o lançamento do Claude 3.7 Sonnet. Apesar de o número da versão sugerir apenas um progresso incremental, acreditamos que essa é uma atualização significativa em relação ao Claude 3.5 Sonnet.

Em primeiro lugar, o Claude 3.7 Sonnet apresenta o Thinking Mode, que nos permite ver o processo de pensamento do modelo. Isso significa que o Anthropic está finalmente entrando na arena dos modelos de raciocínio e, com base nos benchmarks, é um concorrente à altura do o3-mini da OpenAI, DeepSeek-R1e o Grok 3.

Em segundo lugar, o Claude 3.7 Sonnet pode alternar entre o modo de raciocínio e o modo generalista com o toque de um botão (falaremos mais sobre isso daqui a pouco). Embora a Anthropic afirme que tem "uma filosofia diferente", essa mudança reflete uma tendência crescente de unificação da experiência do usuário em LLMs baseados em bate-papo. O Grok 3 já funciona dessa forma, e Sam Altman anunciou recentemente que o ChatGPT seguirá uma direção semelhante.

O que achamos decepcionante é que o Thinking Mode está bloqueado por um acesso pago. Considerando que os modelos de raciocínio estão se tornando mais comuns, é difícil justificar essa decisão quando você já pode acessar versões gratuitas, embora às vezes limitadas, por meio do Grok, DeepSeek, Qwen e até mesmo do ChatGPT.

Vamos descobrir os aspectos essenciais do Soneto de Claude 3.7.

Aprimoramento de IA para iniciantes

Aprenda os fundamentos da IA e do ChatGPT do zero.
Aprenda IA de graça

O que é o Soneto de Claude 3.7?

O Claude 3.7 Sonnet é o modelo de IA mais recente da Anthropic, posicionado como um grande avanço no raciocínio, na codificação e na solução de problemas do mundo real. A maior mudança é que o Claude 3.7 Sonnet agora oferece suporte ao Thinking Mode, o que nos permite ver o processo de raciocínio passo a passo do modelo. Vamos ver como isso funciona:

Os modelos de raciocínio estão se tornando mais importantes e comuns, e podemos ver por quê. Se você observar o gráfico abaixo, verá que 37,2% dos usuários confiam no Claude para questões de codificação e matemática, de acordo com o Índice Econômico Antrópico. Isso me diz uma coisa: modelos de raciocínio sólidos podem trazer um valor comercial real, especialmente porque a adoção da IA em ambientes corporativos continua baixa.

índice econômico antrófico

Fonte: Índice econômico antrófico

Ao mesmo tempo, o Claude 3.7 não é apenas um modelo de raciocínio - é um híbrido. Podemos alternar entre o Modo de Pensamento (para tarefas de raciocínio estruturado) e um modo de bate-papo padrão para conversas gerais, redação e resumo.

Claude 3.7 Soneto vs. Claude 3.5 Soneto

O Claude 3.7 Sonnet é uma atualização muito maior do que o número da versão sugere. Os dados de benchmark confirmam que ele supera o desempenho do Claude 3.5 Sonnet em raciocínio, codificação e execução de tarefas no mundo real.

Desempenho da engenharia de software

O Claude 3.7 Sonnet mostra uma clara vantagem em engenharia de software, com uma pontuação de precisão de 62,3% no SWE-bench Verified, um salto significativo em relação aos 49,0% do Claude 3.5 Sonnet. Ao usar um scaffold personalizado (um prompt estruturado ou contexto adicional que ajuda a orientar a resposta do modelo para uma solução mais precisa), essa precisão aumenta para 70,3%, tornando-o o modelo com melhor desempenho nessa categoria.

swe-bench verificou que mede o soneto claude 3.7

Fonte: Antrópico

Uma melhoria de quase 13% na precisão entre as versões do modelo não é apenas um pequeno refinamento. Isso sugere que o Claude 3.7 Sonnet foi otimizado para melhor compreensão e execução de tarefas relacionadas à programação. Para os usuários que dependem do Claude para engenharia de software, depuração ou automação, a atualização faz uma diferença tangível.

Uso de ferramentas de agência

O desempenho no uso da ferramenta agêntica é outra área em que o Claude 3.7 Sonnet supera seu antecessor. Em tarefas relacionadas ao varejo, ele atinge 81,2% de precisão, acima dos 71,5% do Claude 3.5 Sonnet. Em tarefas relacionadas a companhias aéreas, a pontuação é de 58,4%, uma melhoria de quase dez pontos em relação à versão anterior.

benchmarks de uso de ferramentas autênticas para o soneto claude 3.7

Fonte: Antrópico

Referências gerais

Em todos os benchmarks, os maiores ganhos vêm do modo de raciocínio estendido, que permite que o Claude 3.7 tenha um desempenho muito superior em tarefas de raciocínio complexas. Os usuários que dependem da IA para fluxos de trabalho estruturados, codificação ou solução de problemas verão uma clara diferença entre o Claude 3.5 e o Claude 3.7, especialmente ao usar o pensamento estendido.

claude 3.7 benchmarks gerais

Fonte: Antrópico

A maior parte desse progresso vem do pensamento estendido de Claude, portanto, vamos descobrir mais sobre isso.

O pensamento estendido de Claude

Quando ativado, o modo de raciocínio estendido aumenta o número de etapas de raciocínio que o Claude executa antes de finalizar uma resposta. Os desenvolvedores podem ajustar esse processo definindo um orçamento de raciocínio, que define quantos tokens o modelo pode usar ao resolver um problema. Conforme mostrado no gráfico de desempenho do AIME 2024 abaixo, a precisão melhora à medida que mais tokens são alocados, seguindo uma tendência logarítmica.

desempenho do soneto claude 3.7 no aime 2024 à medida que mais tokens são usados

Fonte: Antrópico

Essa abordagem reflete o esforço cognitivo humano: para tarefas simples, respostas rápidas são suficientes, mas para tarefas complexas, uma análise mais profunda leva a melhores resultados. Agora, o Claude pode decidir quando fazer uma pausa, reavaliar e refinar seu raciocínio, em vez de optar por respostas imediatas.

Um dos aspectos mais interessantes do modo de pensamento estendido é que o processo de raciocínio do Claude é visível para o usuário. No entanto, esse recurso apresenta alguns desafios. Embora forneça informações sobre o raciocínio da IA, o processo de pensamento exibido pode nem sempre estar perfeitamente alinhado com a forma como o modelo realmente toma decisões. O "problema da fidelidade" - se os pensamentos relatados por uma IA representam com precisão sua mecânica interna - ainda é uma questão de pesquisa em aberto.

Claude 3.7 A capacidade do Sonnet de se envolver em raciocínio iterativo de longo prazo é testada em avaliações como OSWorld e jogabilidade do Pokémon Red. No Pokémon Red, por exemplo, o Claude 3.7 Sonnet alcança uma progressão muito maior no jogo do que as versões anteriores, passando por vários marcos, enquanto os modelos anteriores ficam presos no início do jogo.

claude 3.7 desempenho do soneto sobre como jogar pokemon

Fonte: Antrópico

Claude 3.7 Benchmarks de soneto

Já vimos o desempenho do Claude 3.7 Sonnet em relação à sua versão anterior, mas como ele se compara ao o3-mini da OpenAI, ao DeepSeek-R1 ou ao Grok 3?

Analisando os benchmarks atualizados, o Claude 3.7 Sonnet se posicionou como um dos modelos de melhor desempenho, especialmente em tarefas de raciocínio pesado, codificação e uso de ferramentas agênticas.

Raciocínio e matemática

No raciocínio em nível de pós-graduação (GPQA Diamond), o Claude 3.7 Sonnet pontua 68,0% no modo padrão e 84,8% no modo de pensamento estendido, o que o torna um dos modelos mais fortes nessa categoria. Ele supera o o1 da OpenAI (78,0%) e o DeepSeek-R1 (71,5%) em uma quantidade significativa e o Grok 3 Beta (84,6%) por apenas uma pequena margem.

Benchmark

Claude 3.7 Soneto (padrão)

Claude 3.7 Soneto (Pensamento estendido)

OpenAI o1

OpenAI o3-mini (alto)

DeepSeek R1

Grok 3 Beta

GPQA Diamond (raciocínio em nível de graduação)

68.0%

84.8%

78.0%

79.7%

71.5%

84.6%

AIME 2024 (competição de matemática do ensino médio)

23.3%

80.0%

83.3%

87.3%

79.8%

93.3%

Resolução de problemas matemáticos (MATH 500)

82.2%

96.2%

96.4%

97.9%

97.3%

-

O benchmark AIME 2024, que testa problemas de competição de matemática do ensino médio, mostra uma tendência semelhante. O Claude 3.7 Sonnet dá um grande salto em relação às versões anteriores, com 80,0% de pontuação com o pensamento estendido ativado. Embora supere o DeepSeek-R1 (79,8%) por uma pequena margem, ele ainda fica atrás do o3-mini da OpenAI (87,3%) e do Grok 3 Beta (93,3%).

Na resolução de problemas de matemática (MATH 500), o Claude 3.7 Sonnet atinge 96,2%, ficando muito próximo do o3-mini da OpenAI (97,9%) e do DeepSeek R1 (97,3%).

Codificação e uso de ferramentas agênticas

Claude 3.7 O Sonnet obtém seus maiores ganhos em benchmarks de codificação. No SWE-bench Verified (que avalia modelos de IA em tarefas de engenharia de software), o Claude 3.7 Sonnet obteve 62,3% de pontuação, aumentando para 70,3% com um scaffold personalizado. Isso o coloca muito à frente do o1 (48,9%) e do o3-mini (49,3%) da OpenAI, bem como do DeepSeek R1 (49,2%), que foi projetado com a codificação em mente. Isso confirma que o Claude 3.7 é agora um dos melhores models de IA para tarefas relacionadas à programação.

Benchmark

Claude 3.7 Soneto (padrão)

Claude 3.7 Soneto (andaime personalizado)

OpenAI o1

OpenAI o3-mini (alto)

DeepSeek R1

SWE-bench Verificado (Codificação)

62.3%

70.3%

48.9%

49.3%

49.2%

TAU-bench Retail (uso de ferramentas)

81.2%

-

73.5%

-

-

TAU-bench Airline (uso de ferramentas)

58.4%

-

54.2%

-

-

Além da codificação, o Claude 3.7 Sonnet é líder no uso de ferramentas agênticas, o que o torna uma excelente opção para automação e execução de fluxo de trabalho. No TAU-bench (que testa a capacidade da IA de interagir com ferramentas externas em ambientes estruturados), o Claude 3.7 obteve uma pontuação de 81,2% em tarefas relacionadas ao varejo, superando o OpenAI o1 (73,5%). Em tarefas relacionadas a companhias aéreas, o Claude 3.7 atinge 58,4%, superando novamente o OpenAI o1 (54,2%).

Isso sugere que o Claude 3.7 é adequado para aplicativos de negócios e fluxos de trabalho estruturados, o que o torna uma boa opção para usuários corporativos que desejam integrar a IA em seus processos operacionais e de tomada de decisões.

Como acessar o Claude 3.7 Sonnet

O Claude 3.7 Sonnet está disponível por meio de vários canais, incluindo a interface da Web do Anthropic, a integração do Claude em vários aplicativos e o acesso à API para desenvolvedores. Embora o modelo seja uma atualização significativa, sua disponibilidade vem com algumas limitações - especialmente se você quiser usar o Modo Pensamento, que atualmente está bloqueado em um nível pago.

Acesso à Web e a aplicativos

Para usuários em geral, o Claude 3.7 Sonnet pode ser acessado pelo site oficial do Anthropic (claude.ai) e do aplicativo Claude. Ele está disponível no nível gratuito, mas com restrições:

  • Os usuários gratuitos podem acessar o Claude 3.7 Sonnet para tarefas básicas, como redação, resumo e perguntas e respostas gerais, mas o Modo de reflexão está desativado.
  • Os usuários do Claude Pro (o plano pago de US$ 20/mês) têm acesso total ao Thinking Mode, além de limites mais altos de mensagens e acesso prioritário durante os horários de pico de uso.

Para ativar o Thinking Mode, você precisa clicar em Estendido no menu suspenso do modelo:

como ativar o modo de pensamento no soneto de claude 3.7

Claude 3.7 Acesso à API do Sonnet

Os desenvolvedores podem integrar o Claude 3.7 Sonnet em seus aplicativos usando a API do Anthropic, que pode ser acessada pelo portal do desenvolvedor do Anthropic. A API oferece suporte a um modelo de preço pago conforme o uso, com base no uso do token.

Aqui você encontra uma visão geral das ofertas de API do Anthropic:

Recurso

Claude 3.7 Soneto

Claude 3.5 Soneto

Claude 3.5 Haiku

Claude 3 Opus

Claude 3 Haiku

Descrição

Nosso modelo mais inteligente

Nosso modelo mais inteligente anterior

Nosso modelo mais rápido

Modelo avançado para tarefas complexas

O modelo mais rápido e compacto para uma capacidade de resposta quase instantânea

Pontos fortes

O mais alto nível de inteligência e capacidade com pensamento estendido alternável

Alto nível de inteligência e capacidade

Inteligência em alta velocidade

Inteligência, fluência e compreensão de alto nível

Desempenho direcionado rápido e preciso

Multilíngue

Sim

Sim

Sim

Sim

Sim

Visão

Sim

Sim

Sim

Sim

Sim

Pensamento ampliado

Sim

Não

Não

Não

Não

Nome do modelo da API

claude-3-7-sonnet-20250219

Versão atualizada: claude-3-5-sonnet-20241022

Versão anterior: claude-3-5-sonnet-20240620

claude-3-5-haiku-20241022

claude-3-opus-20240229

claude-3-haiku-20240307

Latência comparativa

Rápido

Rápido

Mais rápido

Moderadamente rápido

Mais rápido

Janela de contexto

200K

200K

200K

200K

200K

Saída máxima

Normal: 8192 tokens

Pensamento estendido: 64.000 tokens

8192 tokens

8192 tokens

4096 tokens

4096 tokens

Custo (entrada/saída por MTok)

$3.00 / $15.00

$3.00 / $15.00

$0.80 / $4.00

$15.00 / $75.00

$0.25 / $1.25

Corte de dados de treinamento

Outubro de 2024

Abril de 2024

Julho de 2024

Agosto de 2023

Agosto de 2023

Fonte: Antrópico

Certifique-se de sempre verificar os preços mais recentes da API.

Conclusão

A Anthropic acaba de fazer sua maior mudança nos últimos tempos com o Claude 3.7 Sonnet, um modelo que finalmente a leva para o espaço da IA de raciocínio. Com base nos benchmarks, podemos ver que ele é um concorrente legítimo do o3-mini, do DeepSeek-R1 e do Grok 3 da OpenAI, com forte desempenho em codificação, resolução de problemas estruturados e uso de ferramentas agênticas.

A capacidade de alternar entre os modos generalista e de raciocínio o torna mais versátil, mas o fato de o Thinking Mode ser pago parece um passo em falso, especialmente com alternativas gratuitas disponíveis. Ainda assim, o Claude 3.7 é um grande avanço.


Josef Waples's photo
Author
Josef Waples

Perguntas frequentes

O que é o Código Claude e como ele se compara ao Soneto Claude 3.7?

O Claude Code é um modelo separado otimizado para o desenvolvimento de software, diferente do Claude 3.7 Sonnet. Embora o Claude 3.7 seja um LLM de uso geral com fortes habilidades de codificação, o Claude Code é ajustado especificamente para tarefas de programação, depuração e uso de ferramentas agênticas.

Como o Claude 3.7 Sonnet lida com contextos mais longos em comparação com os modelos anteriores?

Claude 3.7 O Sonnet mantém uma janela de contexto de 200 mil tokens, mas o raciocínio estendido permite que ele raciocine com mais eficiência em documentos longos. Enquanto outros modelos (como o Gemini 2.0) anunciam recursos de contexto mais longos, o Anthropic enfatiza o raciocínio estruturado em vez do comprimento da memória bruta.

O Claude 3.7 Sonnet oferece suporte à entrada multimodal?

Sim, o Claude 3.7 Sonnet inclui recursos multimodais, o que significa que ele pode processar e analisar imagens. 

Que melhorias de segurança foram feitas no Claude 3.7 Sonnet?

A Anthropic expandiu os testes de estresse de alinhamento e refinou os princípios constitucionais de IA, garantindo melhores proteções contra preconceitos, desinformação e uso indevido. No entanto, as tentativas de jailbreak ainda são uma área de preocupação, pois o modo de pensamento visível pode expor vulnerabilidades.

Existe um aplicativo móvel do Claude?

Sim, você pode acessar o Claude tanto no iOS quanto no Android.

Temas

Aprenda IA com estes cursos!

programa

AI Business Fundamentals

11hrs hr
Accelerate your AI journey, conquer ChatGPT, and develop a comprehensive Artificial Intelligence strategy.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

Avaliação do LLM: Métricas, metodologias, práticas recomendadas

Saiba como avaliar modelos de linguagem grandes (LLMs) usando métricas importantes, metodologias e práticas recomendadas para tomar decisões informadas.
Stanislav Karzhev's photo

Stanislav Karzhev

9 min

tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Ajuste fino do Llama 3.1 para classificação de textos

Comece a usar os novos modelos Llama e personalize o Llama-3.1-8B-It para prever vários distúrbios de saúde mental a partir do texto.
Abid Ali Awan's photo

Abid Ali Awan

13 min

Ver maisVer mais