Pular para o conteúdo principal

Tutorial da API do Gemini 1.5 Pro: Como começar a usar o LLM do Google

Para se conectar à API do Gemini 1.5 Pro, obtenha sua chave de API do Google AI for Developers, instale as bibliotecas Python necessárias e envie solicitações e receba respostas do modelo Gemini 1.5 Pro.
Actualizado 30 de jul. de 2024  · 8 min de leitura

O Gemini 1.5 Pro representa um avanço significativo na família Gemini. Ele apresenta o raciocínio de contexto longo, que nos permite trabalhar com conjuntos de dados maciços em várias modalidades (texto, vídeo e áudio).

Neste tutorial, você aprenderá a se conectar à API Gemini 1.5 Pro. Aprenderemos a executar tarefas como recuperação, resposta a perguntas de documentos longos e vídeos, reconhecimento automático de fala (ASR) de contexto longo e aprendizado no contexto.

Se você quiser saber mais sobre o Gemini, confira este artigo sobre O que é o Google Gemini.

A família Gêmeos

O Gemini AI engloba uma série de modelos de IA generativa desenvolvidos em colaboração por várias equipes do Google, incluindo o Google Research e o Google DeepMind.

Esses modelos, equipados com recursos avançados para tarefas multimodais de uso geral, foram projetados para avaliar os desenvolvedores em tarefas de geração de conteúdo e resolução de problemas. Cada variante de modelo é otimizada para casos de uso específicos, garantindo o desempenho ideal em diversos cenários.

O Gemini AI aborda o equilíbrio entre recursos computacionais e funcionalidade, oferecendo três tamanhos de modelo:

Modelo

Tamanho

Recursos

Casos de uso ideais

Gemini Ultra

Maior

Mais capaz, lida com tarefas altamente complexas

Aplicativos exigentes, projetos de grande escala, solução de problemas complexos

Gemini Pro

Médio

Versátil, adequado para uma ampla gama de tarefas, escalável

Aplicativos de uso geral, adaptáveis a diversos cenários, projetos que exigem um equilíbrio entre potência e eficiência

Gemini Nano

Menor

Leve e eficiente, otimizado para ambientes no dispositivo e com recursos limitados

Aplicativos móveis, sistemas incorporados, tarefas com recursos computacionais limitados, processamento em tempo real

pen_spark

Nosso foco principal será o Gemini 1.5 Pro, o primeiro modelo lançado da série Gemini 1.5.

Recursos do Gemini 1.5 Pro

O Gemini 1.5 Pro, com sua grande janela de contexto de até pelo menos 10 milhões de tokens, pode enfrentar o desafio de compreender contextos longos em um amplo espectro de aplicativos em cenários do mundo real.

Uma avaliação abrangente das tarefas de dependência longa foi realizada para avaliar completamente os recursos de contexto longo do modelo Gemini 1.5 Pro. O modelo Gemini 1.5 Pro lidou habilmente com a desafiadora tarefa "agulha em um palheiro", alcançando uma recuperação quase perfeita (>99%) da "agulha", mesmo em meio a palheiros com vários milhões de tokens em todas as modalidades, incluindo texto, vídeo e áudio.

Esse desempenho de recuperação foi mantido de forma notável, mesmo com tamanhos de palheiro chegando a 10 milhões de tokens na modalidade de texto.

O modelo Gemini 1.5 Pro superou todos os modelos concorrentes, inclusive os que foram ampliados com métodos de recuperação externos, especialmente em tarefas que exigem uma compreensão das interdependências entre várias evidências que abrangem todo o conteúdo longo, como instâncias de perguntas e respostas (QA) de longa dependência.

O Gemini 1.5 Pro também demonstrou sua notável capacidade, possibilitada por textos muito longos, de aprender tarefas no contexto, como a tradução de um novo idioma a partir de um único conjunto de documentação linguística.

Esse avanço no desempenho do Gemini 1.5 Pro em contextos longos é digno de nota, pois não compromete os recursos multimodais fundamentais do modelo. Em comparação com seu antecessor (1.0 Pro), ele melhorou substancialmente em várias áreas (+28,9% em matemática, ciências e raciocínio).

Ele supera até mesmo o modelo topo de linha 1.0 Ultra em mais da metade dos benchmarks, destacando-se especialmente em tarefas de texto e visão (conforme mostrado na tabela abaixo). Isso é alcançado apesar de exigir menos recursos e ser mais eficiente em termos de computação.

Gemini Pro 1.5 Comparação com 1.0 Pro e 1.0 UltraDatasource.

Para obter informações mais detalhadas, recomendo que você consulte o relatório técnico: “Gemini 1.5: Desbloqueio do entendimento multimodal em milhões de tokens de contexto"para obter insights mais detalhados.

Aplicativos Gemini 1.5 Pro

Com a capacidade de processar vários milhões de tokens, surgem novos aplicativos práticos.

O Gemini 1.5 Pro pode ser amplamente utilizado na engenharia de software. Com o contexto de toda a base de código JAX de 746.152 tokens, o Gemini 1.5 Pro pode identificar o local específico de um método de diferenciação automática principal.

Com acesso a um livro de gramática de referência e a uma lista de palavras bilíngue (total de ∼250k), o Gemini 1.5 Pro pode traduzir do inglês para o Kalamang com uma qualidade comparável à de um ser humano que estudou usando os mesmos recursos.

A disponibilidade limitada de dados on-line para o Kalamang (menos de 200 falantes) força o Gemini 1.5 Pro a depender exclusivamente do contexto fornecido em cada prompt para entender e traduzir o idioma. Essa descoberta sugere oportunidades promissoras para a utilização de LLMs com habilidades contextuais ampliadas para ajudar a preservar e reviver idiomas ameaçados de extinção e promover a comunicação e a compreensão entre diferentes comunidades linguísticas.

O Gemini 1.5 Pro também pode responder a uma consulta de imagem com o texto completo de Les Misérables (1382 páginas, 732 mil tokens). Por ser nativamente multimodal, o modelo pode identificar uma cena famosa a partir de um esboço desenhado à mão.

Dado um filme mudo de 45 minutos "Sherlock Jr." (2.674 quadros a 1FPS, 684 mil tokens), o Gemini 1.5 Pro recupera e extrai informações textuais de um quadro específico e fornece o registro de data e hora correspondente. O modelo também pode identificar uma cena do filme a partir de um esboço desenhado à mão.

API do Gemini 1.5 Pro: Como usá-lo

Agora que você já conhece os recursos e os aplicativos do Gemini 1.5 Pro, vamos aprender como se conectar à sua API.

Etapa 1: Gerar uma chave de API

Primeiro, precisamos obter uma chave de API na página Google AI for Developers (certifique-se de que você esteja conectado à sua conta do Google). Você pode fazer isso clicando no botão Obter uma chave de API:

Google AI para desenvolvedores

Em seguida, precisamos estabelecer o projeto e produzir a chave de API.

Google AI para desenvolvedores

Etapa 2: Importar a biblioteca da API para o Python

Primeiro, vamos instalar o pacote Gemini Python API usando pip.

%pip install google-generativeai

Em seguida, iniciaremos nosso notebook Jupyter e importaremos as bibliotecas Python essenciais necessárias para nosso projeto.

import google.generativeai as genai
from google.generativeai.types import ContentType
from PIL import Image
from IPython.display import Markdown
import time
import cv2

Etapa 3: Fazer uma chamada de API

Vamos começar preenchendo nossa chave de API na variável GOOGLE_API_KEY e configurá-la:

GOOGLE_API_KEY = ‘your-api-key-goes-here’
genai.configure(api_key=GOOGLE_API_KEY)

Antes de chamar a API, vamos primeiro verificar os modelos disponíveis por meio da API gratuita.

for m in genai.list_models():
	if 'generateContent' in m.supported_generation_methods:
    	print(m.name)
models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash-latest
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision

Vamos acessar o modelo gemini-1.5-pro-latest:

model = genai.GenerativeModel('gemini-1.5-pro-latest')

Agora, vamos fazer nossa primeira chamada à API e ativar o Gemini 1.5 Pro!

response = model.generate_content("Please provide a list of the most influential people in the world.")
print(response.text)

O modelo forneceu uma resposta clara e detalhada com apenas algumas linhas de código.

O Gemini AI pode produzir várias respostas chamadas de candidatas para um prompt, permitindo que você selecione a mais adequada.

API do Gemini 1.5 Pro: Prompting de imagem

Nesta seção, aprenderemos como aproveitar o Gemini 1.5 Pro para automatizar a extração de uma lista de livros de uma imagem!

Primeiro, vamos considerar esta imagem:

Uma imagem de uma estante com vários livros empilhados sobre ela.

Primeiro, vamos instruir o modelo a identificar e listar os títulos dos livros na imagem seguindo uma ordem específica:

text_prompt = "List all the books and help me organize them into three categories."

Em seguida, abriremos nossa imagem "bookshelf.jpeg" usando a classe Image, preparando-a para a análise do modelo.

bookshelf_image = Image.open('bookshelf.jpeg')

Vamos colocar text_prompt e bookshelf_image em uma lista e solicitar ao modelo:

prompt = [text_prompt, bookshelf_image]
response = model.generate_content(prompt)

Para evitar que você tenha a saída no formato Markdown, vamos usar a ferramenta IPython Markdown.

Markdown(response.text)

O modelo conseguiu categorizar com sucesso todos os livros presentes na imagem carregada em três categorias diferentes.

Conclusão

Neste tutorial, apresentamos o Gemini 1.5 Pro, a primeira versão da família Gemini 1.5. Além de seus recursos multimodais e de sua eficiência, o Gemini 1.5 Pro expande a janela de conteúdo em comparação com a série Gemini 1.0 de 32 mil para vários milhões de tokens.

Seja trabalhando com texto, imagens, vídeo ou áudio, a API Gemini 1.5 Pro oferece a flexibilidade necessária para lidar com vários aplicativos, desde a recuperação de informações e resposta a perguntas até a geração de conteúdo e tradução.

Se você quiser saber mais sobre IA, confira este programa de seis cursos de habilidades AI Fundamentals.

Perguntas frequentes sobre o Gemini

A API do Gemini 1.5 Pro está disponível?

Sim, a API Gemini 1.5 Pro está disponível em visualização pública em mais de 180 países. Você pode acessá-lo por meio da plataforma Vertex AI do Google Cloud.

O Gemini tem uma API?

Sim, os modelos Gemini estão disponíveis por meio da API Gemini, que permite que os desenvolvedores integrem os recursos do Gemini em seus aplicativos.

Quais são as principais diferenças entre o Gemini Ultra, o Gemini Pro e o Gemini Nano?

Esses modelos diferem principalmente em tamanho e recursos de computação. O Gemini Ultra é o maior e mais potente, projetado para tarefas complexas. O Gemini Pro é uma opção versátil adequada para uma ampla gama de aplicações. O Gemini Nano é o menor e mais eficiente, ideal para cenários no dispositivo ou com recursos limitados.

Qual é o limite de API do Gemini Pro?

Os modelos Gemini Pro têm limites de uso baseados na cota do seu projeto do Google Cloud. Esses limites podem variar de acordo com seu plano específico e padrões de uso. Você pode encontrar mais detalhes sobre os limites e as cotas da API na documentação do Google Cloud.

Como posso começar a usar a API Gemini 1.5 Pro em meus projetos?

Comece obtendo as credenciais de API necessárias (chave ou token) na plataforma Gemini Pro 1.5. Em seguida, instale a biblioteca oficial do cliente para a linguagem de programação que você preferir, a fim de simplificar as interações com a API. Você pode encontrar exemplos de código e tutoriais na documentação da API para orientá-lo no processo de implementação.

Temas

Saiba mais sobre os LLMs!

programa

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

tutorial

Como criar aplicativos LLM com o tutorial LangChain

Explore o potencial inexplorado dos modelos de linguagem grandes com o LangChain, uma estrutura Python de código aberto para criar aplicativos avançados de IA.
Moez Ali's photo

Moez Ali

12 min

tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

11 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Como treinar um LLM com o PyTorch

Domine o processo de treinamento de grandes modelos de linguagem usando o PyTorch, desde a configuração inicial até a implementação final.
Zoumana Keita 's photo

Zoumana Keita

8 min

tutorial

Criando agentes LangChain para automatizar tarefas em Python

Um tutorial abrangente sobre a criação de agentes LangChain com várias ferramentas para automatizar tarefas em Python usando LLMs e modelos de bate-papo usando OpenAI.
Bex Tuychiev's photo

Bex Tuychiev

14 min

Ver maisVer mais