Conheça Sora: A Revolução da OpenAI na Criação de Vídeos com Inteligência Artificial
Conheça Sora: A Revolução da OpenAI na Criação de Vídeos com Inteligência Artificial
15 de Fevereiro de 2024 por: SORA
Em 15 de fevereiro de 2024, a OpenAI, conhecida por desenvolver o revolucionário ChatGPT, que é um LLM, “Large Language Model” ou “Modelo de Linguagem de Grande Escala” em português, revelou sua mais nova inovação: o robô de geração de vídeos chamado “Sora“.
Conforme divulgado pela empresa, a tecnologia promete revolucionar a criação de conteúdo audiovisual, sendo capaz de produzir vídeos de até 60 segundos.
Esses vídeos se destacam por cenas altamente detalhadas, movimentos complexos de câmera e a presença de múltiplos personagens expressando emoções vivas.
Sora tem como objetivo ajudar as pessoas a resolver problemas que exigem interação com o mundo real, sendo capaz de gerar vídeos de até um minuto com alta qualidade visual e aderência ao prompt do usuário.
O modelo entende não apenas o que é solicitado no prompt, mas também como esses elementos existem no mundo físico, podendo gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo.
Sora está sendo disponibilizado para redatores para avaliar áreas críticas para danos ou riscos, além de permitir acesso a um número de artistas visuais, designers e cineastas para coletar feedback sobre como avançar o modelo para ser mais útil para profissionais criativos.
Este lançamento faz parte de um esforço maior para compartilhar progressos de pesquisa e trabalhar com feedback externo para aprimorar as capacidades de IA em simular realidades de forma segura e responsável.
Desafios e Limitações atuais do Modelo
O modelo aiinda precisa superar alguns desafios e limitações, como a dificuldade em simular fisicamente cenas complexas ou entender instâncias específicas de causa e efeito com precisão.
Apesar dessas limitações, a introdução de Sora representa um avanço significativo na modelagem de IA, com potencial para uma ampla gama de aplicações criativas e educacionais.
A segurança é uma preocupação primária e várias etapas estão sendo tomadas antes de tornar o Sora disponível nos produtos da OpenAI, incluindo o trabalho com redatores, a construção de ferramentas para detectar conteúdo enganoso e o desenvolvimento de novas técnicas de segurança.
Este esforço visa garantir que o modelo seja usado de maneira responsável e para promover usos positivos da tecnologia, enquanto se prepara para os desafios que possam surgir com seu uso no mundo real.
Técnicas da Pesquisa
Sora é um modelo de difusão que gera vídeos começando com uma imagem que parece ruído estático e gradualmente a transforma removendo o ruído ao longo de várias etapas.
Sora tem a capacidade de gerar vídeos completos de uma só vez ou de estender vídeos já gerados para torná-los mais longos.
Ao fornecer ao modelo uma visão antecipada de vários quadros de uma vez, resolvemos um problema desafiador de garantir que um sujeito permaneça igual, mesmo quando sai temporariamente de vista.
Semelhante aos modelos GPT, Sora utiliza uma arquitetura de transformador, proporcionando uma performance de escalabilidade superior.
Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma semelhante a um token no GPT.
Ao unificar como representamos os dados, podemos treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto.
Sora baseia-se em pesquisas anteriores nos modelos DALL·E e GPT.
Ele usa a técnica de recaptioning do DALL·E 3 , que envolve gerar legendas altamente descritivas para os dados visuais de treinamento.
Como resultado, o modelo é capaz de seguir as instruções de texto do usuário no vídeo gerado com mais fidelidade.
Além de ser capaz de gerar um vídeo somente a partir de instruções de texto, o modelo também pode pegar uma imagem estática existente e gerar um vídeo a partir dela, animando o conteúdo da imagem com precisão e atenção aos pequenos detalhes.
O modelo também pode pegar um vídeo existente e estendê-lo ou preencher quadros que faltam.
Saiba mais em nosso relatório técnico.
Sora serve como base para modelos que podem entender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para alcançar a AGI (Inteligência Geral Artificial).
Relatório Técnico
Este relatório técnico foca no método para transformar dados visuais de todos os tipos em uma representação unificada que permite o treinamento em grande escala de modelos gerativos e avaliação qualitativa das capacidades e limitações de Sora.
Trabalhos anteriores estudaram a modelagem gerativa de dados de vídeo usando uma variedade de métodos, incluindo redes recorrentes, redes adversárias generativas, transformadores autorregressivos e modelos de difusão.
Esses trabalhos frequentemente se concentram em uma categoria estreita de dados visuais, em vídeos mais curtos ou em vídeos de um tamanho fixo.
Sora é um modelo generalista de dados visuais, ele pode gerar vídeos e imagens abrangendo durações, proporções de aspecto e resoluções diversas, de até um minuto completo de vídeo de alta definição.
Transformando Dados Visuais em Patches
O desenvolvimento do Sora foi inspirado nos grandes modelos de linguagem, que adquirem capacidades generalistas treinando em dados em escala da internet.
O sucesso do paradigma LLM é habilitado em parte pelo uso de tokens que unificam elegantemente diversas modalidades de texto.
Neste trabalho, foi considerado como modelos gerativos de dados visuais podem herdar tais benefícios.
Enquanto LLMs têm tokens de texto, Sora tem patches visuais.
Descobrimos que patches são uma representação altamente escalável e eficaz para treinar modelos gerativos em tipos diversos de vídeos e imagens.
Patches de Espaço-tempo
Ao receber um vídeo comprimido como entrada, é extraída uma sequência de patches de espaço-tempo que atuam como tokens de transformador.
Esse esquema também funciona para imagens, já que imagens são apenas vídeos com um único quadro.
A representação baseada em patches permite que Sora treine em vídeos e imagens de resoluções, durações e proporções de aspecto variáveis.
No momento da inferência, podemos controlar o tamanho dos vídeos gerados organizando patches inicializados aleatoriamente em uma grade de tamanho apropriado.
Escalando Transformadores para Geração de Vídeo
Sora é um modelo de difusão, dado patches ruidosos de entrada e informações condicionais como prompts de texto, ele é treinado para prever os patches “limpos” originais.
Importante, Sora é um transformador de difusão e transformadores demonstraram propriedades de escala notáveis em uma variedade de domínios.
Descobrimos que transformadores de difusão escalam efetivamente como modelos de vídeo também.
Flexibilidade de Amostragem
Sora pode amostrar vídeos em widescreen 1920×1080, vídeos verticais 1080×1920.
Isso permite que Sora crie conteúdo para diferentes dispositivos diretamente em suas proporções de aspecto nativas.
Isso também nos permite prototipar rapidamente conteúdo em tamanhos menores antes de gerar em resolução completa, tudo com o mesmo modelo.
Entendimento de Linguagem
Treinar sistemas de geração de texto para vídeo requer uma grande quantidade de vídeos com legendas de texto correspondentes.
Para isso foi aplicada a técnica de relegendagem introduzida no DALL·E.
Conclusão
À medida que exploramos as fronteiras do que é possível com a inteligência artificial, o Sora da OpenAI se destaca como um marco impressionante na jornada para tornar a criação de conteúdo mais acessível, inovadora e engajante.
Ao democratizar a capacidade de produzir vídeos complexos e de alta qualidade, Sora promete revolucionar a forma como criadores de conteúdo, educadores e profissionais criativos se expressam e comunicam suas ideias.
Para a comunidade de programação e tecnologia em Código Fluente, Sora não é apenas uma ferramenta de geração de conteúdo, é um vislumbre do futuro da interação humano-computador, onde as barreiras entre a criatividade humana e a execução tecnológica se tornam cada vez mais tênues.
À medida que continuamos a explorar e integrar tecnologias como Sora em nossas práticas de ensino e desenvolvimento, abrimos novas possibilidades para o aprendizado e a inovação em áreas como programação, DevOps, inteligência artificial e muito mais.
O lançamento de Sora é um lembrete empolgante do potencial ilimitado da IA para complementar e ampliar nossas capacidades humanas.
À medida que avançamos, é crucial abordarmos essas ferramentas com uma mente aberta e um compromisso com a aprendizagem contínua, garantindo que utilizamos a IA de forma ética e responsável para criar um futuro onde a tecnologia enriquece as vidas de todos.
No Código Fluente, estamos ansiosos para ver como Sora e tecnologias semelhantes continuarão a transformar o campo da educação em tecnologia, oferecendo aos estudantes e profissionais ferramentas cada vez mais poderosas para aprender, criar e inovar.
Junte-se a nós nessa jornada emocionante rumo ao futuro da programação e da tecnologia, onde cada linha de código nos aproxima de um mundo mais conectado, criativo e tecnologicamente avançado.
Siga-nos nas redes sociais:
E junte-se à discussão sobre como a tecnologia está moldando nosso futuro.