Curso
Imagem do autor
Passamos da fase de aprimoramento dos modelos de linguagem de grande porte (LLMs) e agora estamos concentrados em usá-los para criar aplicativos de IA que ajudem as empresas. É nesse ponto que entram as ferramentas de operações de modelos de linguagem de grande porte (LLMOps), que simplificam o processo de criação de sistemas totalmente automatizados para criar e implementar soluções de LLM na produção.
Neste artigo, examinaremos diferentes ferramentas, como APIs LLM, estruturas de ajuste fino, ferramentas de rastreamento de experimentos, ecossistema de integração LLM, ferramentas de pesquisa de vetores, estrutura de fornecimento de modelos, plataformas de implantação e ferramentas de observabilidade. Cada ferramenta é excelente no que faz e foi projetada para resolver problemas específicos relacionados aos LLMs.
O que é LLMOps?
O LLMOps é um campo emergente que se concentra no gerenciamento operacional de grandes modelos de linguagem em ambientes de produção. Basicamente, trata-se de MLOps (operações de aprendizado de máquina) especializados em linguagem e outros modelos multimodais.
Faça o curso Master Large Language Models (LLMs) Concepts para saber mais sobre aplicações de LLMs, metodologias de treinamento, considerações éticas e as pesquisas mais recentes.
O LLMOps abrange todo o ciclo de vida de grandes modelos de linguagem, incluindo coleta de dados, treinamento ou ajuste fino de modelos, teste e validação, integração, implantação, otimização, monitoramento e manutenção e colaboração. Ao estruturar projetos e automatizar processos, o LLMOps ajuda você a reduzir erros e dimensionar aplicativos de IA com eficiência, garantindo que os modelos sejam robustos e capazes de atender às demandas do mundo real.
Em resumo, as ferramentas de LLMOps ajudam você a criar um sistema automatizado que coleta dados, ajusta o modelo com base neles, acompanha o desempenho do modelo, integra-o com dados externos, cria o aplicativo de IA, implanta-o na nuvem e observa as métricas e o desempenho do modelo na produção.
O curso de habilidade Developing Large Language Models consiste em 4 cursos que ajudarão você a construir uma base sólida sobre como o LLM funciona e como você pode ajustar os LLMs pré-treinados.
Agora, vamos explorar as principais ferramentas de LLMOps disponíveis atualmente.
API
Acesse a linguagem e os modelos de incorporação usando chamadas de API. Você não precisa implantar o modelo nem manter o servidor; basta fornecer uma chave de API e começar a usar os modelos de última geração.
1. OpenAI API
A OpenAI oferece acesso à API para modelos LLM avançados, como GPT-4o e o1. Esses modelos podem ser usados por meio de um pacote Python ou de um comando CURL.
A API é uma solução ideal para startups sem uma equipe técnica para ajustar ou implementar modelos na produção. Ele fornece acesso a modelos de linguagem, modelos multimodais, chamadas de função, saídas estruturadas e opções de ajuste fino. Além disso, você pode usar modelos de incorporação para criar seu próprio banco de dados vetorial. Em resumo, ele oferece um ecossistema de IA abrangente e de baixo custo.
Saiba como usar a API OpenAI Python para acessar LLMs de última geração seguindo o tutorial da API GPT-4o: Primeiros passos com a API da OpenAI.
Código de início rápido da API da OpenAI. Fonte da imagem: Tutorial de início rápido - API OpenAI
2. API antrópica
A API Anthropic é semelhante à API OpenAI, oferecendo acesso a vários modelos de linguagem e incorporação. Esses modelos podem ser usados para criar aplicativos RAG, integrar ferramentas, recuperar páginas da Web, utilizar modelos de visão e desenvolver agentes de IA. Com o tempo, a Anthropic pretende fornecer todas as ferramentas necessárias para criar e implantar aplicativos de IA totalmente funcionais.
Como a API OpenAI, ela inclui proteções para segurança e ferramentas de avaliação para monitorar o desempenho do modelo.
Saiba como usar a API do Claude para acessar os LLMs de melhor desempenho seguindo o tutorial da API do Claude Sonnet 3.5 em : Primeiros passos com a API do Anthropic.
Código de início rápido da API Anthropic. Fonte da imagem: Configuração inicial - Antrópico
Ajuste fino
Usando Python, faça o ajuste fino dos modelos básicos de linguagem grande em um conjunto de dados personalizado para adaptar o estilo, a tarefa e a funcionalidade do modelo para atender a requisitos específicos.
3. Transformadores
Transformers by Hugging Face é uma estrutura bem conhecida na comunidade e no setor de IA. Ele é amplamente usado para acessar modelos, ajustar LLMs com recursos limitados e salvar modelos. Ele oferece um ecossistema abrangente para tudo, desde o carregamento de dados até a avaliação de LLMs.
Com os Transformers, você pode carregar conjuntos de dados e modelos, processar dados, criar modelos com argumentos personalizados, treinar modelos e enviá-los para a nuvem. Posteriormente, você pode implementar esses modelos em um servidor com apenas alguns cliques.
Faça o curso Introdução aos LLMs em Python para conhecer o cenário dos LLMs, a arquitetura do transformador, os LLMs pré-treinados e como integrar os LLMs para resolver problemas do mundo real.
Código de início rápido de Transformers. Fonte da imagem: Tour rápido (huggingface.co)
4. IA sem sloth
O Unsloth AI é uma estrutura Python para ajuste fino e acesso a grandes modelos de linguagem. Ele oferece uma API simples e um desempenho duas vezes mais rápido em comparação com o Transformers.
Criado com base na biblioteca Transformers, ele integra ferramentas adicionais para simplificar o ajuste fino de grandes modelos de linguagem com recursos limitados. Um recurso de destaque do Unsloth é a capacidade de salvar modelos em formato compatível com vLLM e GGUF com apenas uma linha de código, eliminando a necessidade de instalar e configurar bibliotecas como llama.cpp
, já que ele lida com tudo automaticamente.
Código de inferência sem sloth. Fonte da imagem: Inferência | Documentação sem slots
Rastreamento de experimentos
Acompanhe e avalie o desempenho do modelo durante o treinamento e compare os resultados.
5. Pesos e vieses
O Weights & Biases permite que você acompanhe o desempenho do modelo durante e após o ajuste fino para avaliar a eficácia. Ele também oferece suporte ao rastreamento de aplicativos RAG e ao monitoramento e depuração de LLMs.
A plataforma se integra perfeitamente a várias estruturas e ferramentas, incluindo Transformers, LangChain, PyTorch e Keras. Uma das principais vantagens de usar o Weights & Biases é seu painel altamente personalizável, que permite que você crie relatórios de avaliação de modelos e compare diferentes versões de modelos.
Saiba como estruturar, registrar e analisar seus experimentos de aprendizado de máquina usando Weights & Biases seguindo o tutorial Machine Learning Experimentation: Uma introdução aos pesos e vieses.
Métricas do modelo LLM. Fonte da imagem: wandb.ai
Integração do LLM
Integrar o LLM com banco de dados externo, banco de dados privado e pesquisa na Web. Você pode até mesmo criar e servir todo o aplicativo de IA usando essas estruturas. Em resumo, essas ferramentas são essenciais para a criação de aplicativos complexos baseados em LLM que você pode implantar na nuvem.
6. Langchain
O LangChain é uma ferramenta popular para criar aplicativos de IA usando LLMs. Com apenas algumas linhas de código, você pode desenvolver chatbots RAG com reconhecimento de contexto diretamente em notebooks Jupyter.
A LangChain agora oferece um ecossistema LLM completo:
- Integração: Ele oferece suporte à integração com várias APIs de IA, modelos de bate-papo, modelos de incorporação, carregadores de documentos, armazenamentos de vetores e ferramentas.
- LangChain: Ele orquestra várias ferramentas de integração e LLMs para criar aplicativos de IA.
- LangGraph: Ele foi projetado para criar aplicativos de múltiplos atores com LLMs modelando etapas como bordas e nós em um gráfico.
- LangGraph Cloud e LangSmith: Esses produtos comerciais permitem que você use serviços gerenciados para criar e implementar aplicativos baseados em LLM.
O LangChain simplifica o desenvolvimento de aplicativos com LLM, fornecendo ferramentas, componentes e interfaces que agilizam o processo.
Conclua o curso Developing LLM Applications with LangChain para entender como criar aplicativos com tecnologia de IA usando LLMs, prompts, cadeias e agentes no LangChain.
O ecossistema LangChain. Fonte da imagem: Introdução | 🦜️🔗 LangChain
7. LlamaIndex
O LlamaIndex é semelhante ao LangChain, mas oferece uma abordagem mais simples para a criação de aplicativos RAG. Com apenas algumas linhas de código, você pode criar aplicativos RAG com histórico.
O LlamaIndex oferece integrações abrangentes de API e armazenamento de vetores, permitindo o desenvolvimento de aplicativos LLM complexos e de última geração. Ele também apresenta um serviço gerenciado chamado LlamaCloud, que permite a hospedagem fácil de aplicativos de IA.
Saiba como ingerir, gerenciar e recuperar dados privados e específicos de domínio usando linguagem natural seguindo o LlamaIndex: Uma estrutura de dados para os aplicativos baseados em modelos de linguagem grandes (LLMs) tutorial.
Guia RAG avançado do LlamaIndex. Fonte da imagem: RAG avançado com LlamaParse - LlamaIndex
Pesquisa de vetores
As ferramentas de pesquisa vetorial oferecem recursos robustos de armazenamento e recuperação, que são essenciais para a criação de aplicativos RAG (Retrieval-Augmented Generation). Essas ferramentas permitem a conversão de vários tipos de dados, como texto, imagens e áudio, em embeddings, que são armazenados em bancos de dados vetoriais.
8. Chroma
O Chroma é um banco de dados vetorial de código aberto nativo de IA. Ele facilita a criação de aplicativos LLM, permitindo que conhecimentos, fatos e habilidades sejam facilmente integrados.
Se você quiser criar um aplicativo RAG básico que permita armazenar seus documentos como embeddings e depois recuperá-los para combiná-los com prompts a fim de fornecer mais contexto ao modelo de linguagem, não precisará do LangChain. Tudo o que você precisa é de um Chroma DB para salvar e recuperar os documentos.
Diagrama do Chroma DB. Fonte da imagem: Chroma Docs (trychroma.com)
9. Qdrant
O Qdrant é um popular banco de dados de vetores de código aberto e um mecanismo de pesquisa de similaridade que lida com vetores de alta dimensão. Ele oferece soluções locais, em nuvem e híbridas, o que o torna versátil para várias necessidades de implementação.
O Qdrant é particularmente eficaz em aplicativos como geração aumentada de recuperação, detecção de anomalias, pesquisa avançada e sistemas de recomendação. Sua API robusta permite fácil integração e gerenciamento de dados de texto, tornando-o uma ferramenta poderosa para desenvolvedores que desejam implementar recursos de pesquisa baseados em vetores.
Confira Os 5 melhores bancos de dados vetoriais para seu caso de uso específico. Eles oferecem uma API simples e desempenho rápido.
Exemplo de introdução ao Qdrant. Fonte da imagem: Início rápido local - Qdrant
Servindo
Um componente essencial para o seu aplicativo é um mecanismo de inferência e veiculação de alto rendimento para LLMs que seja compatível com uma ampla variedade de recursos de computação, incluindo GPUs, TPUs, XPUs e muito mais. Essas ferramentas também são compatíveis com servidores compatíveis com OpenAI, permitindo que você use a API do OpenAI para acessar o modelo servido sem problemas.
10. vLLM
O vLLM é uma biblioteca robusta de código aberto projetada para a inferência e o fornecimento eficientes de modelos de linguagem de grande porte. Ele aborda os desafios da implantação de LLMs, como o alto consumo de memória e os custos computacionais, usando técnicas inovadoras de gerenciamento de memória e estratégias dinâmicas de agrupamento.
Um dos melhores recursos do vLLM é o algoritmo PagedAttention, que aumenta significativamente a taxa de transferência e reduz o desperdício de memória. Ele oferece uma taxa de transferência até 24 vezes maior do que as soluções tradicionais, como os Hugging Face Transformers.
Exemplo de início rápido do vLLM. Fonte da imagem: Início rápido - vLLM
11. BentoML
O BentoML é uma biblioteca Python para criar e servir LLMs, oferecendo mais opções de personalização para o desenvolvimento de aplicativos de IA do que o vLLM. Inclui o BentoCloud, um serviço gerenciado que permite a fácil implementação e monitoramento de modelos na nuvem, com um nível gratuito disponível para você começar.
O BentoML automatiza muitas etapas complexas na implementação de modelos, reduzindo significativamente o tempo necessário para a transição de modelos do desenvolvimento para a produção.
Código de início rápido do BentoML. Fonte da imagem: Quickstart - BentoML
Implantação
Você pode implantar seu LLM diretamente na nuvem ou criar um aplicativo de IA integrado e, em seguida, implantá-lo. Para isso, você pode optar por qualquer grande provedor de serviços em nuvem. No entanto, as ferramentas abaixo foram criadas especialmente para LLMs e implantação de IA, proporcionando um recurso de implantação mais fácil e eficiente.
12. Pontos finais de inferência
Se você é fã do ecossistema do Hugging Face, vai adorar os pontos finais de inferência do Hugging Face. Esse serviço de implantação permite que você sirva qualquer modelo do hub de modelos da Hugging Face, incluindo modelos privados, para uso em produção. Basta selecionar o provedor de serviços em nuvem e o tipo de máquina de computação e, em minutos, seu modelo estará pronto para ser usado.
O Inference Endpoints tem um painel dedicado que permite que você crie endpoints e monitore modelos em produção, fornecendo uma solução segura e eficiente para a implantação de modelos de aprendizado de máquina.
Implementando um modelo usando o ponto de extremidade Hugging Face Inference. Fonte da imagem: Criar um ponto de extremidade (huggingface.co)
13. Anyscale
O Anyscale usa o Ray Serve no back-end para oferecer inferência de modelo rápida e de alto rendimento. Como uma plataforma de computação totalmente gerenciada e dimensionável, o Anyscale permite que você carregue dados, treine modelos, avalie e atenda a modelos, gerencie serviços, monitore modelos e controle o acesso. É uma plataforma de MLOps de ponta a ponta criada com base no ecossistema de código aberto Ray, simplificando todo o ciclo de vida do aplicativo de IA.
Espaço de trabalho em qualquer escala. Fonte da imagem: Plataforma de computação unificada para aplicativos de IA e Python | Anyscale
Observabilidade
Depois que os LLMs forem implantados, é fundamental monitorar o desempenho deles na produção. As ferramentas de observabilidade rastreiam automaticamente seu modelo na nuvem e alertam você caso o desempenho diminua significativamente.
14. Evidentemente
Evidently é uma estrutura de observabilidade de ML e MLOps de código aberto. Ele permite que você avalie, teste e monitore aplicativos de ML e pipelines de dados. Ele oferece suporte a modelos preditivos gerais, bem como a aplicativos de IA generativa.
Com mais de 100 métricas integradas, ele oferece detecção de desvio de dados e avaliação de modelos de ML. Ele também pode gerar relatórios de avaliação de dados e modelos, conjuntos de testes automatizados e painéis de monitoramento de modelos.
Evidentemente, o monitoramento do modelo. Fonte da imagem: evidentlyai.com
15. IA do Fiddler
O Fiddler AI é uma plataforma de observabilidade de IA que monitora, explica, analisa e aprimora modelos LLM, modelos geradores de imagens e aplicativos gerais de IA. Ele detecta e resolve problemas de desvio de modelo, valores discrepantes e integridade de dados por meio de alertas em tempo real e depuração explicável com base em IA, o que ajuda as equipes a detectar e resolver problemas à medida que eles ocorrem.
Diagrama de observabilidade do Fiddler AI. Fonte da imagem: Observabilidade do LLM | IA do Fiddler
Agora que você aprendeu sobre as várias ferramentas de LLMOPs, é hora de criar um projeto de LLM a partir da lista de postagens do blog 12 LLM Projects For All Levels (12 projetos de LLM para todos os níveis ).
Conclusão
O campo de LLMOps ainda está em desenvolvimento, e há muito barulho no espaço de IA. Neste artigo, exploramos as 15 principais ferramentas de LLMOps que estão na vanguarda do campo.
Embora tenhamos abordado ferramentas essenciais e populares para criar, avaliar e implementar aplicativos de IA na nuvem, muitas categorias ainda não foram abordadas. Isso inclui ferramentas de operação de aprendizado de máquina para CI/CD, orquestração de fluxo de trabalho, modelo e controle de versão de dados, Docker, Kubernetes e muito mais. Você pode saber mais sobre essas categorias lendo a postagem do blog 25 Top MLOps Tools You Need to Know in 2024.
Se você for novo no LLMOps, é altamente recomendável começar com a API da OpenAI e criar um produto mínimo viável!
Desenvolva habilidades de MLOps hoje mesmo
Perguntas frequentes
Posso usar várias ferramentas LLMOps juntas em um projeto ou devo me limitar a uma?
Sim, você pode usar várias ferramentas de LLMOps juntas, pois elas geralmente abordam diferentes aspectos do ciclo de vida da IA. Por exemplo, você pode usar uma API para acessar modelos de linguagem (como a API OpenAI), uma estrutura de ajuste fino (como Transformers) e uma ferramenta de serviço (como BentoML) para o mesmo projeto. A integração de ferramentas complementares pode ajudar a otimizar os fluxos de trabalho.
Como posso decidir qual ferramenta do LLMOps usar em meu projeto?
Depende de suas necessidades específicas. Se você estiver começando do zero e quiser ter acesso fácil aos modelos, uma API como a OpenAI pode ser ideal. Para usuários avançados, os modelos de ajuste fino, como o Transformers ou o Unsloth AI, são ótimas opções. Ao escolher as ferramentas, considere os objetivos do projeto, o conhecimento técnico e os requisitos de escalabilidade.
Quais são as habilidades necessárias para usar efetivamente as ferramentas do LLMOps?
Você precisará de um bom conhecimento de modelos de linguagem grandes, programação em Python e infraestrutura básica de nuvem. A familiaridade com estruturas como PyTorch ou Hugging Face também pode ser útil, especialmente se você planeja ajustar modelos ou criar aplicativos complexos de IA.
Há alguma consideração de custo ao usar as ferramentas do LLMOps?
Muitas ferramentas de LLMOps oferecem níveis gratuitos ou opções de código aberto, mas os custos podem aumentar com base no uso, especialmente para chamadas de API, implementações em nuvem ou serviços gerenciados. Analise os modelos de preços e escolha a melhor ferramenta para seu orçamento e tamanho do projeto.
Como posso monitorar o desempenho dos meus modelos de IA implantados?
Ferramentas como Evidently e Fiddler AI foram projetadas para monitoramento e observabilidade de modelos. Eles permitem que você acompanhe as métricas de desempenho, detecte desvios de dados e receba alertas se a precisão do seu modelo cair. Essas ferramentas ajudam a garantir que os modelos implantados continuem a ter um desempenho eficaz na produção.

Sou um cientista de dados certificado que gosta de criar aplicativos de aprendizado de máquina e escrever blogs sobre ciência de dados. No momento, estou me concentrando na criação e edição de conteúdo e no trabalho com modelos de linguagem de grande porte.