Pular para o conteúdo principal
InicioBlogInteligência Artificial (IA)

O que é o soneto de Claude 3.5? Como funciona, casos de uso e artefatos

O Claude 3.5 Sonnet supera o GPT-4o e o Gemini Pro 1.5 em vários benchmarks e apresenta um novo recurso interessante: Artefatos.
Actualizado 29 de jul. de 2024  · 8 min leer

O GPT-4o e o Gemini 1.5 Pro têm uma concorrência séria: Claude 3.5 Soneto.

A Anthropic anunciou o Claude 3.5 Sonnet como parte da família Claude 3.5, que será completada ainda este ano, com o lançamento do Claude 3.5 Haiku e do Claude 3.5 Opus.

O Claude 3.5 Sonnet não apenas supera o GPT-4o e o Gemini 1.5 Pro em vários benchmarks, mas também apresenta um novo recurso incrível chamado Artifacts.

Se você quiser ler mais sobre o Claude 3.5 Sonnet, recomendo estas publicações do blog:

Estou animado para mostrar a você como o recurso Artifacts é legal, então vamos começar!

Claude 3.5 Soneto: Primeiras impressões

Fiquei intrigado com os resultados do benchmark, então fui direto para o Claude.ai para testar o novo modelo Claude 3.5 Sonnet.

Primeiro, pedi ao Claude 3.5 Sonnet que criasse um gráfico usando os dados da tabela abaixo:

Figura 3.5 Resultados do benchmark Sonnet

Acho que não me esforcei muito para pensar no prompt que usei - Gerarum gráfico para esta tabela -, mas o modelo gerou esse gráfico de barras agrupadas interativo:

Claude 3.5 O Sonnet gera gráficos interativos.

Claude 3.5 A Sonnet implementou o gráfico como um componente React usando a biblioteca Recharts. Você pode ver e copiar o código alternando para a guia Code (Código ) no canto superior direito:

Claude 3.5 Visualização do código do Sonnet

Um aspecto que me incomodou no gráfico de barras gerado é que a legenda de cores na parte inferior se sobrepõe aos rótulos do eixo x. Você pode ver o gráfico de barras em um gráfico de barras. Além disso, há muitas informações a serem consumidas em um único gráfico. Achei que seria uma boa ideia ter um infográfico separado para cada benchmark, por isso, solicitei ao Claude 3.5 Sonnet que fizesse isso:

Para o benchmark de código, gere um infográfico no qual você adiciona uma breve explicação sobre o que é o benchmark e o que ele mede, além de um pequeno gráfico de comparação ao lado para mostrar como cada LLM se classifica nesse benchmark

Devo dizer que o resultado foi bastante impressionante, considerando o quão ruim era meu prompt:

Infográfico do Soneto do Claude 3.5

O infográfico é bem organizado, com uma boa escolha de cores e propriedades de fonte. Já estou vendo muitas aplicações aqui - com instruções detalhadas, poderíamos adaptar o design às nossas necessidades e adicionar personalizações específicas da marca, por exemplo.

Se você ainda não experimentou o Claude 3.5 Sonnet, talvez esteja se perguntando o que é esse componente da interface do usuário que mostra o gráfico e o código. Você pode entrar em Artifacts.

Artefatos: Novo recurso do Claude AI

Não faz sentido eu explicar o que são artefatos quando o vídeo oficial faz isso muito melhor. O motivo pelo qual incentivo você a assistir a esse vídeo é que ele mostra como criar um jogo de rolagem lateral em HTML 5 em um minuto:

Os artefatos são tão dinâmicos!

À primeira vista, o recurso Artifacts pode parecer apenas mais uma janela ou guia na interface. No entanto, a Anthropic não está apenas adicionando outra maneira de exibir informações - ela está oferecendo uma nova maneira de interagir com sua IA.

Os artefatos vão além das interações tradicionais baseadas em texto, introduzindo uma camada dinâmica e interativa. Isso nos permite visualizar e manipular diretamente os resultados da IA, em vez de apenas lê-los.

Essa mudança é um desenvolvimento notável. Isso sugere uma mudança em direção a um relacionamento mais colaborativo com a IA, em que podemos nos envolver ativamente e refinar o resultado da IA.

Será interessante ver como esse recurso evolui e como ele afeta a maneira como utilizamos a IA no futuro.

E o que me entusiasma é a promessa da Antrophic de projetá-lo para a colaboração em equipe:

É apenas o começo de uma visão mais ampla para o Claude.ai, que em breve se expandirá para dar suporte à colaboração em equipe. Em um futuro próximo, as equipes - e, eventualmente, organizações inteiras - poderão centralizar com segurança seus conhecimentos, documentos e trabalhos em andamento em um espaço compartilhado, com o Claude atuando como um colega de equipe sob demanda.

Anthropic AI

Como ativar e usar artefatos

Para acessar o Claude Artifacts, você precisará habilitá-lo nas configurações. Primeiro, clique nas iniciais de sua conta e, em seguida, clique em Feature Preview.

Ativação de artefatos do Claude

Em seguida, ative os artefatos alternando o botão para Ligado.

Ativação de artefatos do Claude

Depois de ativado, você pode acionar o recurso solicitando ao Claude que gere conteúdo que possa ser exibido em um artefato, como código, visualizações de dados ou até mesmo maquetes.

Quando o Claude cria um artefato, ele aparece em um painel separado na interface, dividido nas guiasCódigo e Visualizar. A guia Code exibe a saída bruta gerada pelo Claude, enquanto a guiaPreview fornece uma representação visual ou interativa dessa saída.

Usando artefatos do Claude

Como acessar o Claude 3.5 Sonnet

A maneira mais direta de acessar o Claude 3.5 Sonnet é acessar o site Claude.ai e se divertir com a interface gráfica de usuário amigável:

Interface gráfica do usuário Claude AI

Você pode usar o Claude 3.5 Sonnet gratuitamente no Claude.ai, mas preciso mencionar que atingi o limite de uso muito rapidamente (após cerca de dez solicitações).

Cláusula 3.5 Limites de uso do soneto

Se você quiser usar o Claude 3.5 Sonnet regularmente, não há dúvida de que precisará comprar uma assinatura Pro.

O Claude 3.5 Sonnet também está disponível por meio da API Anthropic, do Vertex AI do Google Cloud e do Amazon Bedrock.

Como o Claude 3.5 Sonnet funciona e atua

Embora a Anthropic não tenha divulgado os detalhes técnicos completos, sabemos que o Claude 3.5 Sonnet foi desenvolvido com base em seu modelo anterior, o Claude 3 Opus. É um modelo de linguagem grande, o que significa que foi treinado em um conjunto de dados massivo de texto e código, permitindo que ele entenda e gere linguagem semelhante à humana.

O que diferencia o Claude 3.5 Sonnet é seu desempenho aprimorado. Ele foi ajustado e otimizado, resultando em melhorias em várias áreas.

Figura 3.5 Resultados do benchmark Sonnet

Há muito tempo, o raciocínio em nível de pós-graduação é considerado uma marca registrada da inteligência humana, uma fronteira em que a IA tradicionalmente tem se esforçado para acompanhar o ritmo.  Embora ainda haja muito trabalho a ser feito, o Claude Sonnet 3.5 demonstra um progresso significativo.

Em relação à matemática, o Claude 3.5 Sonnet fica ligeiramente atrás do GPT-4o, que lidera com uma pontuação de 76,6%. Mas a pontuação de 71,1% do Claude 3.5 Sonnet ainda é notavelmente alta. Esse desempenho sugere que o Claude 3.5 Sonnet tem uma sólida compreensão de conceitos matemáticos, fórmulas e raciocínio lógico, o que o torna uma ferramenta promissora para tarefas que exigem conhecimento matemático.

O benchmark BIG-Bench-Hard se concentra na avaliação da capacidade dos modelos de IA de lidar com problemas multifacetados, demonstrar raciocínio avançado e aplicar conhecimento em vários domínios. O Claude 3.5 Sonnet supera significativamente o desempenho de outros modelos nesse benchmark, alcançando uma pontuação de 93,1%. Isso indica que o Claude 3.5 Sonnet possui um alto nível de proficiência em lidar com tarefas complexas, raciocinar com eficácia em diferentes áreas e aplicar seu conhecimento de forma flexível a situações novas.

Quando se trata de recursos visuais, o Claude 3.5 Sonnet se destaca particularmente no raciocínio visual matemático, com 67,7% de pontuação no teste MathVista, uma vantagem significativa em relação aos outros modelos. Claude 3.5 O Sonnet também apresenta bom desempenho em respostas a perguntas visuais (MMMU) e em perguntas e respostas visuais de documentos (pontuação ANLS), demonstrando sua capacidade de compreender e processar informações visuais de forma eficaz.

Embora seu desempenho em diagramas científicos e gráficos de perguntas e respostas seja ligeiramente inferior ao do GPT-4o e do Gemini 1.5 Pro, ele ainda mantém uma alta taxa de precisão acima de 90%. De modo geral, os resultados destacam a forte capacidade do Claude 3.5 Sonnet de compreender dados visuais e textuais, tornando-o uma ferramenta promissora para vários aplicativos que exigem compreensão multimodal.

Cláudio 3.5 Casos de uso do Sonnet

O Claude 3.5 Sonnet é o modelo de visão mais forte do Anthropic, e não é de surpreender que ele se saia tão bem em tarefas que exigem raciocínio visual, como interpretar e criar gráficos. No entanto, ele também é comercializado como um excelente parceiro de codificação ou escrita, portanto, vamos dar uma olhada mais de perto.

Apresentações visuais

Se você tiver dados que precise apresentar visualmente, o Claude 3.5 Sonnet parece ser capaz de fazer mágica.

No exemplo do Anthropic, um professor de biologia solicita ao modelo dois gráficos e pede ao Claude que extraia informações relevantes para criar uma apresentação baseada em Javascript que use o reveal-js, uma estrutura popular para criar apresentações em HTML. Vamos ver se a professora conseguiu os slides que queria:

Parceiro de codificação

Digamos que você seja um engenheiro de software que tenta escrever testes e corrigir bugs em um código que corta imagens em círculos (para que os usuários possam ter belas imagens de perfil). O Claude 3.5 Sonnet pode ajudar com isso? Vejamos:

Parceiro de redação

O Anthropic também apresenta o Claude 3.5 Sonnet como parceiro de escrita, mas seu exemplo não poderia estar mais distante de um caso de uso no mundo real - os romances geralmente não são sobre "caranguejos carregados de sarcasmo que vivem em recifes agitados". No entanto, o genograma que Claude cria é incrível e, mais uma vez, mostra suas incríveis habilidades visuais.

Comparação de preços: Soneto vs. GPT-4o vs. Gemini Pro 1.5

Vamos ver como os preços do Claude 3.5 Sonnet se comparam aos da OpenAI e do Google. É claro que essa é uma boa oportunidade para você pedir ao Claude 3.5 Sonnet que crie um gráfico:

Comparação de preços do Claude AI com o Open AI e o Google

Para uso pessoal, todas as três plataformas cobram cerca de US$ 20/mês.

Conclusão

Nos últimos anos, vimos tantas notícias e descobertas no espaço da IA que ficou mais difícil ficar empolgado com os novos lançamentos, especialmente com tantos exemplos escolhidos a dedo em vídeos de demonstração.

No entanto, estou realmente empolgado com os recursos visuais e o recurso Artifacts do Claude 3.5 Sonnet. Pessoalmente, vou experimentá-lo no trabalho e ficarei de olho em seu desenvolvimento.

Perguntas frequentes

O Claude 3.5 é gratuito?

Embora o Claude.ai ofereça acesso gratuito limitado, o uso regular do Claude 3.5 Sonnet normalmente requer uma assinatura Pro. O acesso por meio da API Anthropic, do Amazon Bedrock ou do Vertex AI do Google Cloud incorre em custos baseados no uso.

O que é o Soneto de Claude 3.5?

O Claude 3.5 Sonnet é o modelo mais recente da Anthropic, projetado para melhorar o desempenho, especialmente em raciocínio, codificação e segurança. Ele supera os modelos anteriores e os concorrentes em vários benchmarks.

Como o Claude 3.5 Sonnet é diferente dos outros modelos?

O Sonnet se destaca por seus recursos avançados de raciocínio, fortes habilidades de codificação e recursos de segurança aprimorados. Ele também apresenta um novo recurso chamado "Artifacts", que permite o manuseio mais eficiente dos dados.

O que são artefatos no Claude 3.5 Sonnet?

O Artifacts é um novo recurso do Claude 3.5 Sonnet que permite que você interaja e manipule os resultados do modelo, como código, texto ou dados, diretamente na interface de bate-papo.

Como posso usar artefatos no Claude 3.5 Sonnet?

Você pode ativar os artefatos nas configurações de visualização de recursos da interface de bate-papo do Claude.ai. Uma vez ativado, você pode interagir com os resultados gerados, como a edição de código ou a visualização de dados diretamente no chat.

Temas

Aprenda IA com estes cursos!

Track

AI Business Fundamentals

11hrs hr
Accelerate your AI journey, conquer ChatGPT, and develop a comprehensive Artificial Intelligence strategy.
See DetailsRight Arrow
Start Course
Ver maisRight Arrow
Relacionado

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

Tudo o que sabemos sobre o GPT-5

Prever como será a próxima evolução da tecnologia de IA da OpenAI e quais avanços o modelo GPT-5 poderá ter.
Josep Ferrer's photo

Josep Ferrer

10 min

tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

11 min

tutorial

DeepSeek-Coder-V2 Tutorial: Exemplos, instalação, padrões de referência

O DeepSeek-Coder-V2 é um modelo de linguagem de código de código aberto que rivaliza com o desempenho do GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B ou Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

8 min

See MoreSee More