Pular para o conteúdo principal
InicioBlogInteligência Artificial (IA)

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.
Actualizado 18 de jul. de 2024

A OpenAI anunciou recentemente sua mais recente tecnologia inovadora, a Sora. Esse modelo de IA geradora de texto para vídeo parece incrivelmente impressionante até o momento, apresentando um enorme potencial em muitos setores. Aqui, exploramos o que é o Sora da OpenAI, como ele funciona, alguns casos de uso em potencial e o que o futuro reserva para você.

O que é Sora?

Sora é o modelo de IA generativo de texto para vídeo da OpenAI. Isso significa que você escreve um prompt de texto e ele cria um vídeo que corresponde à descrição do prompt. Aqui está um exemplo do site da OpenAI:

PROMPT: Uma mulher elegante caminha por uma rua de Tóquio repleta de néons brilhantes e letreiros animados da cidade. Ela usa uma jaqueta de couro preta, um vestido longo vermelho e botas pretas, e carrega uma bolsa preta. Ela usa óculos escuros e batom vermelho. Ela caminha com confiança e casualidade. A rua é úmida e reflexiva, criando um efeito de espelho das luzes coloridas. Muitos pedestres andam por ali.

Exemplos da OpenAI Sora

A OpenAI e o CEO Sam Altman têm estado ocupados compartilhando exemplos do Sora em ação. Vimos uma variedade de estilos e exemplos diferentes, inclusive:

Exemplos de animação de Sora

PROMPT: Um mundo de papercraft maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.

PROMPT: A cena animada apresenta um close-up de um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha derretendo. O estilo de arte é 3D e realista, com foco na iluminação e na textura. O clima da pintura é de admiração e curiosidade, pois o monstro olha para a chama com os olhos arregalados e a boca aberta. Sua pose e expressão transmitem uma sensação de inocência e brincadeira, como se ele estivesse explorando o mundo ao seu redor pela primeira vez. O uso de cores quentes e iluminação dramática aumenta ainda mais a atmosfera aconchegante da imagem.

Exemplos de paisagens urbanas de Sora

PROMPT: A bela e nevada cidade de Tóquio está movimentada. A câmera se move pela movimentada rua da cidade, seguindo várias pessoas que aproveitam o belo clima de neve e fazem compras nas barracas próximas. Lindas pétalas de sakura estão voando pelo vento junto com flocos de neve.

PROMPT: Um passeio no nível da rua por uma cidade futurista em harmonia com a natureza e, ao mesmo tempo, cyperpunk/alta tecnologia. A cidade deve ser limpa, com bondes futuristas avançados, belas fontes, hologramas gigantes em todos os lugares e robôs por toda parte. Faça com que o vídeo seja de um guia turístico humano do futuro mostrando a um grupo de alienígenas extraterrestres a cidade mais legal e gloriosa que os humanos são capazes de construir.

Exemplos de animais de Sora

PROMPT: Dois golden retrievers fazendo podcast no topo de uma montanha.

PROMPT: Uma corrida de bicicleta no oceano com diferentes animais como atletas andando de bicicleta com a visão da câmera do drone.

Como a Sora funciona?

Assim como os modelos de IA geradores de texto para imagem, como DALL-E 3, StableDiffusion e Midjourney, o Sora é um modelo de difusão. Isso significa que ele começa com cada quadro do vídeo consistindo em ruído estático e usa o aprendizado de máquina para transformar gradualmente as imagens em algo parecido com a descrição no prompt. Os vídeos da Sora podem ter até 60 segundos de duração.

Solução de consistência temporal

Uma área de inovação do Sora é que ele considera vários quadros de vídeo de uma só vez, o que resolve o problema de manter a consistência dos objetos quando eles entram e saem da visualização. No vídeo a seguir, observe que a mão do canguru sai da cena várias vezes e, quando volta, a mão tem a mesma aparência de antes. 

PROMPT: Um canguru de desenho animado dança em uma discoteca.

Combinação de modelos de difusão e de transformador

O Sora combina o uso de um modelo de difusão com uma arquitetura de transformador, conforme usado pelo GPT.

Ao combinar esses dois tipos de modelo, Jack Qiao observou que "os modelos de difusão são ótimos para gerar textura de baixo nível, mas ruins para composição global, enquanto os transformadores têm o problema oposto". Ou seja, você quer um modelo de transformador do tipo GPT para determinar o layout de alto nível dos quadros de vídeo e um modelo de difusão para criar os detalhes.

Em um artigo técnico sobre a implementação do Sora, a OpenAI fornece uma descrição de alto nível de como essa combinação funciona. Nos modelos de difusão, as imagens são divididas em "manchas" retangulares menores. No caso do vídeo, essas manchas são tridimensionais porque persistem ao longo do tempo. Os patches podem ser considerados como o equivalente a "tokens" em modelos de linguagem grandes: em vez de serem um componente de uma frase, eles são um componente de um conjunto de imagens. A parte transformadora do modelo organiza os patches, e a parte de difusão do modelo gera o conteúdo para cada patch.

Outra peculiaridade dessa arquitetura híbrida é que, para tornar a geração de vídeo viável do ponto de vista computacional, o processo de criação de patches usa uma etapa de redução de dimensionalidade para que o cálculo não precise ser feito em cada pixel de cada quadro.

Aumento da fidelidade do vídeo com recapitulação

Para capturar fielmente a essência do comando do usuário, Sora usa uma técnica de recapitulação que também está disponível em DALL-E 3. Isso significa que, antes de qualquer vídeo ser criado, o GPT é usado para reescrever o prompt do usuário para incluir muito mais detalhes. Essencialmente, trata-se de uma forma de engenharia automática de prompt.

Qual é a qualidade do OpenAI Sora?

Como você pode ver nos exemplos fornecidos até agora, o Sora parece ser uma ferramenta impressionante e estamos apenas arranhando a superfície do que é possível. Por exemplo, confira o clipe abaixo, que oferece uma amostra do que é possível fazer ao trabalhar com cineastas e artistas:

Esse curta-metragem parece um verdadeiro trailer de filme, com uma variedade de tomadas, ângulos e conceitos diferentes, criando um vídeo bastante uniforme.

No entanto, outros exemplos mostrados pelos membros da equipe da OpenAI são um pouco menos convincentes (embora ainda impressionantes). Confira o vídeo abaixo do casal em uma praia:

PROMPT: Vídeo realista de pessoas relaxando na praia e, na metade do vídeo, um tubarão salta da água e surpreende a todos.

Embora claramente atinja as principais batidas do prompt, não é uma cena particularmente convincente e cai firmemente no vale da estranheza. As três mãos do homem, o tubarão que se junta em várias partes em uma escala pouco convincente, o giro de cabeça no estilo Exorcista e o grito da mulher - tudo isso é um pouco aterrorizante.

É provável que, assim como acontece com as imagens generativas, você precise refinar os prompts e fazer concessões - não será possível criar algo perfeito todas as vezes.

Dito isso, vamos comparar o vídeo acima com um exemplo criado usando exatamente o mesmo prompt usando o modelo Gen-2 da Runway:

Como você pode ver, ele não entendeu muito bem o contexto do prompt e tem um posicionamento estranho do tubarão e de algumas pessoas bastante desfiguradas e amorfas. Comparativamente, o Sora da OpenAI fez um trabalho muito melhor ao criar a cena em comparação com o Runway Gen-2.

Outro exemplo impressionante de um caso de uso da Sora foi visto recentemente com um diretor que fez um videoclipe com a Sora:

Esse é, sem dúvida, um dos exemplos mais completos de Sora em ação e mostra o enorme potencial dessa ferramenta para o futuro. É interessante (e um pouco trippy) e capta uma vibração bastante distinta que é consistente durante todo o tempo.

No entanto, há algumas ressalvas a essa criação:

  • O diretor gerou 6 horas de clipes para um vídeo de 4 minutos (usando 46 horas de tempo de renderização em uma GPU H100)
  • O exemplo de solicitação tem cerca de 1.400 palavras, o que é bastante detalhado e específico
  • O diretor ainda teve que usar efeitos posteriores e limpar algumas das transições (que ainda parecem não naturais em alguns lugares)

Portanto, certamente parece que estamos em uma fase de uso dessa ferramenta pelo consumidor, mas, considerando o curto período em que o Sora esteve disponível para artistas e profissionais de criação testarem, o progresso é bastante surpreendente.

Quais são as limitações da Sora?

A OpenAI observa várias limitações da versão atual do Sora. Sora não tem uma compreensão implícita da física e, portanto, as regras físicas do "mundo real" podem nem sempre ser respeitadas.

Um exemplo disso é que o modelo não entende causa e efeito. Por exemplo, no vídeo a seguir de uma explosão em uma cesta de basquete, depois que a cesta explode, a rede parece ser restaurada.

PROMPT: A bola de basquete passa pelo aro e depois explode.

Da mesma forma, a posição espacial dos objetos pode mudar de forma não natural. No seguinte vídeo de filhotes de lobo, os animais aparecem espontaneamente e a posição dos lobos às vezes se sobrepõe.

PROMPT: Cinco filhotes de lobo cinza brincando e correndo uns atrás dos outros em uma estrada de cascalho remota, cercada por grama. Os filhotes correm e pulam, perseguindo uns aos outros e mordendo uns aos outros, brincando.

Perguntas não respondidas sobre confiabilidade

A confiabilidade de Sora não está clara no momento. Todos os exemplos da OpenAI são de altíssima qualidade, mas não está claro o grau de seleção envolvido. Ao usar ferramentas de texto para imagem, é comum você criar dez ou vinte imagens e depois escolher a melhor. Não está claro quantas imagens a equipe da OpenAI gerou para obter os vídeos mostrados no artigo de anúncio. Se você precisar gerar centenas ou milhares de vídeos para obter um único vídeo utilizável, isso será um impedimento para a adoção. Para responder a essa pergunta, precisamos esperar até que a ferramenta esteja amplamente disponível.

Quais são os casos de uso do Sora?

O Sora pode ser usado para criar vídeos do zero ou ampliar vídeos existentes para torná-los mais longos. Ele também pode preencher os quadros ausentes nos vídeos.

Da mesma forma que as ferramentas de IA geradoras de texto para imagem tornaram muito mais fácil a criação de imagens sem conhecimento técnico de edição de imagens, a Sora promete facilitar a criação de vídeos sem experiência em edição de imagens. Aqui estão alguns casos de uso importantes.

Mídia social

O Sora pode ser usado para criar vídeos curtos para plataformas de mídia social como TikTok, Instagram Reels e YouTube Shorts. O conteúdo que é difícil ou impossível de filmar é especialmente adequado. Por exemplo, esta cena de Lagos em 2056 seria tecnicamente difícil de filmar para uma publicação social, mas é fácil de criar usando o Sora.

PROMPT: Um belo vídeo caseiro que mostra a população de Lagos, na Nigéria, no ano de 2056. Fotografado com uma câmera de celular.

Publicidade e marketing

A criação de anúncios, vídeos promocionais e demonstrações de produtos é tradicionalmente cara. Ferramentas de IA de texto para vídeo, como o Sora, prometem tornar esse processo muito mais barato. No exemplo a seguir, um conselho de turismo que deseja promover a região de Big Sur, na Califórnia, pode alugar um drone para fazer filmagens aéreas do local ou pode usar IA, economizando tempo e dinheiro.

PROMPT: Vista de drone das ondas batendo contra os penhascos escarpados ao longo da praia de Garay Point, em Big Sur. As águas azuis e agitadas criam ondas com pontas brancas, enquanto a luz dourada do sol poente ilumina a costa rochosa. Uma pequena ilha com um farol fica à distância, e arbustos verdes cobrem a borda do penhasco. A descida íngreme da estrada até a praia é uma façanha dramática, com as bordas do penhasco se projetando sobre o mar. Essa é uma vista que captura a beleza natural da costa e a paisagem acidentada da Pacific Coast Highway.

Prototipagem e visualização de conceitos

Mesmo que o vídeo com IA não seja usado em um produto final, ele pode ser útil para demonstrar ideias rapidamente. Os cineastas podem usar a IA para fazer maquetes de cenas antes de filmá-las, e os designers podem criar vídeos de produtos antes de construí-los. No exemplo a seguir, uma empresa de brinquedos poderia gerar um modelo de IA de um novo brinquedo de navio pirata antes de se comprometer a criá-lo em escala.

PROMPT: Vídeo em close-up fotorrealista de dois navios piratas lutando entre si enquanto navegam dentro de uma xícara de café.

Geração de dados sintéticos

Os dados sintéticos são frequentemente usados em casos em que preocupações com privacidade ou viabilidade impedem o uso de dados reais. Para dados numéricos, os casos de uso comuns são dados financeiros e informações de identificação pessoal. O acesso a esses conjuntos de dados deve ser rigorosamente controlado, mas você pode criar dados sintéticos com propriedades semelhantes para disponibilizá-los ao público.

Um dos usos dos dados de vídeo sintético é o treinamento de sistemas de visão computacional. Como escrevi em 2022, a Força Aérea dos EUA usa dados sintéticos para melhorar o desempenho de seus sistemas de visão computacional para veículos aéreos não tripulados a fim de detectar edifícios e veículos à noite e em condições climáticas adversas. Ferramentas como o Sora tornam esse processo muito mais barato e acessível a um público mais amplo.

Quais são os riscos da Sora?

O produto é novo, portanto, os riscos ainda não estão totalmente descritos, mas provavelmente serão semelhantes aos dos modelos de texto para imagem.

Geração de conteúdo nocivo

Sem as devidas proteções, a Sora tem o poder de gerar conteúdo desagradável ou inadequado, incluindo vídeos com violência, sangue, material sexualmente explícito, representações depreciativas de grupos de pessoas e outras imagens de ódio, além da promoção ou glorificação de atividades ilegais.

O que constitui conteúdo impróprio varia muito, dependendo do usuário (considere uma criança usando o Sora em comparação com um adulto) e do contexto da geração do vídeo (um vídeo alertando sobre os perigos dos fogos de artifício pode facilmente se tornar sangrento de uma forma educativa).

Desinformação e desinformação

Com base nos vídeos de exemplo compartilhados pela OpenAI, um dos pontos fortes do Sora é sua capacidade de criar cenas fantásticas que não poderiam existir na vida real. Essa força também possibilita a criação de vídeos "deepfake", em que pessoas ou situações reais são transformadas em algo que não é verdadeiro.

Quando esse conteúdo é apresentado como verdade, seja acidentalmente (desinformação) ou deliberadamente (desinformação), ele pode causar problemas.

Como escreveu Eske Montoya Martinez van Egerschot, diretor de ética e governança de IA da DigiDiplomacy, "a IA está remodelando as estratégias de campanha, o envolvimento dos eleitores e a própria estrutura da integridade eleitoral".

Os vídeos de IA convincentes, porém falsos, de políticos ou adversários de políticos têm o poder de "disseminar estrategicamente narrativas falsas e perseguir fontes legítimas, com o objetivo de minar a confiança nas instituições públicas e fomentar a animosidade contra várias nações e grupos de pessoas".

Em um ano com muitas eleições importantes, de Taiwan à Índia e aos Estados Unidos, isso tem consequências generalizadas.

Preconceitos e estereótipos

O resultado dos modelos de IA generativa é altamente dependente dos dados em que foram treinados. Isso significa que preconceitos ou estereótipos culturais nos dados de treinamento podem resultar nos mesmos problemas nos vídeos resultantes. Como Joy Buolamwini discutiu no episódio Fighting For Algorithmic Justice do DataFramed, os preconceitos nas imagens podem ter consequências graves na contratação e no policiamento.

Como posso acessar o Sora?

No momento, o Sora está disponível apenas para pesquisadores da "equipe vermelha". Ou seja, especialistas que recebem a tarefa de tentar identificar problemas com o modelo. Por exemplo, eles tentarão gerar conteúdo com alguns dos riscos identificados na seção anterior para que a OpenAI possa atenuar os problemas antes de lançar o Sora ao público. 

A equipe da OpenAI também afirma que está dando acesso a "vários artistas visuais, designers e cineastas", pedindo que eles deem feedback sobre o modelo e como ele pode ser útil para profissionais criativos.

A OpenAI ainda não especificou uma data de lançamento público para a Sora, embora seja provável que seja em 2024. No entanto, a empresa destaca que está "tomando várias medidas de segurança importantes" para abordar as preocupações e identificar usos positivos. Eles estão trabalhando com formuladores de políticas, educadores e artistas para garantir que a tecnologia seja a mais segura e útil possível, o que pode levar algum tempo.

Quais são as alternativas ao Sora?

Há várias alternativas de alto nível ao Sora que permitem aos usuários criar conteúdo de vídeo a partir de texto. Isso inclui:

  • Runway-Gen-2. A alternativa de maior destaque ao OpenAI Sora é o Runway Gen-2. Assim como o Sora, trata-se de uma IA geradora de texto para vídeo e atualmente está disponível na Web e em dispositivos móveis.
  • Lumiere. O Google anunciou recentemente o Lumiere, que atualmente está disponível como uma extensão da estrutura Python de aprendizagem profunda do PyTorch.
  • Faça um vídeo. O Meta anunciou o Make-a-Video em 2022; mais uma vez, ele está disponível por meio de uma extensão do PyTorch.

Há também vários concorrentes menores:

  • Pictory simplifica a conversão de texto em conteúdo de vídeo, visando a profissionais de marketing de conteúdo e educadores com suas ferramentas de geração de vídeo.
  • Kapwing oferece uma plataforma on-line para criar vídeos a partir de texto, enfatizando a facilidade de uso para profissionais de marketing de mídia social e criadores casuais.
  • Synthesia concentra-se na criação de apresentações de vídeo com tecnologia de IA a partir de texto, oferecendo vídeos personalizáveis liderados por avatares para fins comerciais e educacionais.
  • HeyGen tem como objetivo simplificar a produção de vídeo para marketing de produtos e conteúdo, divulgação de vendas e educação.
  • Steve AI fornece uma plataforma de IA que permite a geração de vídeos e animações de Prompt para Vídeo, Script para Vídeo e Áudio para Vídeo.
  • Elai concentra-se em e-learning e treinamento corporativo, oferecendo uma solução para transformar facilmente conteúdo instrucional em vídeos informativos

Modelo/Plataforma

Desenvolvedor/empresa

Disponibilidade da plataforma

Público-alvo

Principais recursos

Runway Gen-2

Passarela

Web, celular

Ampla (uso geral)

IA de texto para vídeo de alto nível, fácil de usar

Lumiere

Google

Extensão PyTorch

Desenvolvedores, pesquisadores

Geração avançada de texto para vídeo para usuários do PyTorch

Make-a-Video

Meta

Extensão PyTorch

Criadores, pesquisadores

Geração de vídeo de alta qualidade a partir de texto

Vitória

Vitória

Web

Profissionais de marketing de conteúdo, educadores

Simplifica a conversão de texto em vídeo para narrativas envolventes

Kapwing

Kapwing

Web

Profissionais de marketing de mídia social, criadores casuais

Plataforma para criação de vídeo a partir de texto

Síntese

Síntese

Web

Empresas, educadores

Apresentações de vídeo de texto conduzidas por avatar com tecnologia de IA

HeyGen

HeyGen

Web

Profissionais de marketing, educadores

Geração de vídeos para vendas e marketing

Steve AI

Steve AI

Web

Empresas, pessoas físicas

Crie vídeos e animações para vários aplicativos

Elai

Elai

Web

E-learning, treinamento corporativo

Transforma conteúdo instrucional em vídeos

O que o OpenAI Sora significa para o futuro?

Não há dúvidas de que o Sora é inovador. Também está claro que o potencial desse modelo generativo é vasto. Quais são as implicações da Sora para o setor de IA e para o mundo? É claro que só podemos fazer suposições fundamentadas. No entanto, aqui estão algumas das maneiras pelas quais Sora pode mudar as coisas, para melhor ou para pior.

Implicações de curto prazo da OpenAI Sora

Primeiro, vamos dar uma olhada nos impactos diretos e de curto prazo que poderemos ver da Sora após seu lançamento (provavelmente em fases) para o público.

Uma onda de vitórias rápidas

Na seção acima, já exploramos alguns dos possíveis casos de uso do Sora. Muitos deles provavelmente serão adotados rapidamente se e quando o Sora for lançado para uso público. Isso pode incluir:

  • A proliferação de vídeos curtos para mídia social e publicidade. Você pode esperar que os criadores do X (antigo Twitter), TikTok, LinkedIn e outros aumentem a qualidade de seu conteúdo com as produções da Sora.
  • A adoção do Sora para a criação de protótipos. Seja para demonstrar novos produtos ou apresentar propostas de desenvolvimento arquitetônico, a Sora pode se tornar um lugar comum para a apresentação de ideias.
  • Aprimoramento da narrativa de dados. A IA geradora de texto para vídeo pode nos proporcionar uma visualização de dados mais vívida, melhores simulações de modelos e maneiras interativas de explorar e apresentar dados. Dito isso, será importante ver como Sora se comporta nesses tipos de solicitações.
  • Melhores recursos de aprendizado. Com ferramentas como a Sora, os materiais de aprendizagem podem ser muito aprimorados. Conceitos complicados podem ser trazidos à vida, enquanto os alunos mais visuais têm a chance de obter melhores auxílios de aprendizagem.

Um campo minado de riscos

É claro que, como destacamos anteriormente, essa tecnologia vem acompanhada de uma série de possíveis pontos negativos, e é imperativo que você saiba lidar com eles. Aqui estão alguns dos riscos aos quais você deve estar atento:

  • A disseminação de informações errôneas e desinformações. Coletivamente, teremos que ser mais criteriosos com o conteúdo que consumimos e precisaremos de ferramentas melhores para identificar o que é fabricado ou manipulado. Isso é especialmente importante em um ano eleitoral.
  • Violação de direitos autorais. Precisamos estar atentos à forma como nossas imagens e semelhanças são usadas. A legislação e os controles podem ser necessários para evitar que nossos dados pessoais sejam usados de maneiras que não consentimos. É provável que esse debate ocorra primeiro quando os fãs começarem a criar vídeos baseados em suas franquias de filmes favoritas.
  • Desafios regulatórios e éticos. Os avanços na IA generativa já estão se mostrando difíceis de serem acompanhados pelos reguladores, e o Sora pode agravar esse problema. Precisamos navegar pelo uso adequado e justo da Sora sem afetar as liberdades individuais ou sufocar a inovação.
  • Dependência de tecnologia. Ferramentas como o Sora podem ser vistas como um atalho para muitos, em vez de um assistente. As pessoas podem vê-lo como um substituto para a criatividade, o que pode ter implicações para muitos setores e para os profissionais que trabalham neles.

O vídeo generativo se torna a próxima fronteira da concorrência

Já mencionamos algumas alternativas à Sora, mas podemos esperar que essa lista cresça significativamente em 2024 e nos anos seguintes. Como vimos com o ChatGPT, há uma lista cada vez maior de alternativas disputando posições e muitos projetos que estão se adaptando aos LLMs de código aberto no mercado.

O Sora pode muito bem ser a ferramenta que continua a impulsionar a inovação e a concorrência no campo da IA generativa. Seja por meio de modelos ajustados e específicos para o uso ou por meio de tecnologia proprietária que concorre diretamente, muitos dos grandes participantes do setor provavelmente desejarão participar da ação de conversão de texto em vídeo.

Implicações de longo prazo da OpenAI Sora

Quando a poeira começar a baixar após o lançamento público do Sora da OpenAI, começaremos a ver o que o futuro de longo prazo nos reserva. À medida que os profissionais de vários setores colocarem as mãos na ferramenta, inevitavelmente haverá alguns usos que mudarão o jogo para o Sora. Vamos especular sobre quais poderiam ser alguns deles:

Casos de uso de alto valor podem ser desbloqueados

É possível que o Sora (ou ferramentas semelhantes) possa se tornar um dos pilares de vários setores:

  • Criação avançada de conteúdo. Poderíamos ver o Sora como uma ferramenta para acelerar a produção em campos como RV e RA, videogames e até mesmo entretenimento tradicional, como TV e filmes. Mesmo que não seja usado diretamente para criar essa mídia, ele pode ajudar a criar protótipos e ideias de storyboard.
  • Entretenimento personalizado. É claro que poderíamos ver um exemplo em que a Sora cria e seleciona conteúdo adaptado especificamente para o usuário. Poderão surgir mídias interativas e responsivas adaptadas aos gostos e preferências de cada pessoa.
  • Educação personalizada. Novamente, esse conteúdo altamente individualizado poderia encontrar um lugar no setor educacional, ajudando os alunos a aprender da maneira mais adequada às suas necessidades.
  • Edição de vídeo em tempo real. O conteúdo de vídeo pode ser editado ou reproduzido em tempo real para atender a diferentes públicos, adaptando aspectos como tom, complexidade ou até mesmo narrativa com base nas preferências ou no feedback do espectador.

As linhas entre os mundos físico e digital começam a se confundir

Já mencionamos a realidade virtual (VR) e a realidade aumentada (AR), mas a Sora tem o potencial de revolucionar a forma como interagimos com o conteúdo digital quando combinada com essas mídias. Se as futuras iterações do Sora forem capazes de gerar mundos virtuais de alta qualidade que possam ser habitados em segundos - e aproveitar o texto e o áudio generativos para preenchê-los com personagens virtuais aparentemente reais - isso levantará sérias questões sobre o que significa navegar no mundo digital no futuro.

Notas de fechamento

Em conclusão, o modelo Sora da OpenAI promete um salto na qualidade do vídeo generativo. O próximo lançamento público e suas possíveis aplicações em vários setores são muito aguardados. Se você está ansioso para começar no mundo da IA generativa, nosso curso de habilidades AI Fundamentals ajudará você a se atualizar com ​aprendizagem automática, aprendizagem profunda, PNL, modelos generativos e muito mais.

Para obter mais recursos sobre as últimas novidades no mundo da IA, confira a lista abaixo:

FAQs da OpenAI Sora

Sora está disponível para o público?

Não. No momento, o Sora está disponível apenas para um grupo seleto de testadores especializados que explorarão o modelo em busca de problemas.

Como posso acessar o Sora?

No momento, não há lista de espera para o Sora. No entanto, a OpenAI afirma que lançará um no devido tempo, mas isso pode levar "alguns meses".

Quando o Sora da OpenAI será lançado?

Ainda não há informações sobre quando o Sora será lançado para o público. Com base em lançamentos anteriores da OpenAI, poderemos ver alguma versão dela liberada para algumas pessoas em algum momento de 2024.

Há alguma alternativa ao Sora que eu possa usar enquanto isso?

Você pode experimentar ferramentas como Runway Gen-2 e Google Lumiere para ter uma ideia do que a IA de texto para vídeo é capaz de fazer.

A IA do Sora é gratuita?

Ainda não há informações sobre o preço do Sora, embora a OpenAI tenda a cobrar por seus serviços premium.

Como a IA da Sora funciona?

A Sora é um modelo de difusão. Isso significa que ele começa com cada quadro do vídeo consistindo em ruído estático e usa o aprendizado de máquina para transformar gradualmente as imagens em algo parecido com a descrição no prompt.

Qual é a duração dos vídeos da Sora?

Os vídeos da Sora podem ter até 60 segundos de duração.

Temas

Comece sua jornada com a OpenAI hoje mesmo!

Course

Working with the OpenAI API

3 hr
21.4K
Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.
See DetailsRight Arrow
Start Course
Ver maisRight Arrow
Relacionado

blog

Os 7 principais geradores de vídeo com IA para 2024 com vídeos de exemplo

Descubra os principais geradores de vídeo com IA disponíveis atualmente, incluindo RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo e os altamente esperados Sora e Veo da DeepMind.
Dr Ana Rojo-Echeburúa's photo

Dr Ana Rojo-Echeburúa

9 min

blog

O que é IA multimodal?

Descubra a IA multimodal, uma das tendências mais promissoras da IA generativa.

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

Os 11 melhores assistentes de codificação de IA em 2024

Explore os melhores assistentes de codificação, incluindo ferramentas de código aberto, gratuitas e comerciais que podem aprimorar sua experiência de desenvolvimento.
Abid Ali Awan's photo

Abid Ali Awan

8 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

See MoreSee More