Na efervescência do cenário tecnológico chinês, uma corrida rumo à inovação está ganhando ímpeto: a criação de vídeos gerativos. Recentemente, a Tencent, gigante da internet conhecida por seu domínio nos jogos eletrônicos e pelo aplicativo de mensagens WeChat, lançou uma versão atualizada de seu modelo de geração de vídeos de código aberto, o DynamiCrafter, disponível no GitHub.
Este movimento evidencia o crescente interesse das grandes empresas de tecnologia da China em estabelecer sua presença no segmento de conversão de texto e imagens em vídeos.
O DynamiCrafter, juntamente com outras ferramentas de vídeo gerativo disponíveis no mercado, emprega o método de difusão para transformar legendas e imagens estáticas em vídeos de curta duração. Inspirado no fenômeno natural da difusão na física, esse método permite que modelos de aprendizado de máquina transformem dados simples em informações mais complexas e realistas, reproduzindo o movimento de partículas de uma área de alta concentração para outra de baixa concentração.
Leita também
A segunda geração do DynamiCrafter traz uma melhoria significativa na resolução dos vídeos, aumentando de 320×512 na versão inicial, lançada em outubro, para 640×1024. Um artigo acadêmico publicado pela equipe responsável pelo DynamiCrafter destaca que a tecnologia se destaca da concorrência ao ampliar a aplicabilidade das técnicas de animação de imagens para um conteúdo visual mais amplo.
A ideia central por trás dessa inovação é utilizar o movimento prévio dos modelos de difusão de texto para vídeo, incorporando a imagem no processo gerativo como um guia. Em comparação, as técnicas “tradicionais” concentram-se principalmente na animação de cenas naturais com dinâmicas estocásticas (como nuvens e fluidos) ou movimentos específicos de domínios (como cabelos ou movimentos corporais humanos).
Em uma demonstração que compara o DynamiCrafter com outras ferramentas, como a Stable Video Diffusion e os modelos da Pika Labs, o resultado do modelo da Tencent parece ligeiramente mais animado. No entanto, é importante notar que as amostras escolhidas podem favorecer o DynamiCrafter e que, até o momento, nenhum dos modelos dá a impressão de que a inteligência artificial será capaz de produzir filmes completos em breve.
Apesar disso, os vídeos gerativos estão sendo observados com grande expectativa como o próximo ponto focal na corrida da IA, seguindo o boom dos textos e imagens gerativos. Assim, espera-se que startups e grandes empresas de tecnologia invistam recursos nesse campo, e a China não é exceção. Além da Tencent, outras gigantes como a ByteDance (empresa mãe do TikTok), Baidu e Alibaba também lançaram seus próprios modelos de difusão de vídeo.
Tanto o MagicVideo da ByteDance quanto o UniVG da Baidu apresentaram demonstrações no GitHub, embora nenhum dos dois esteja disponível ao público ainda. Seguindo uma estratégia semelhante à da Tencent, a Alibaba tornou seu modelo de geração de vídeo, o VGen, de código aberto, uma abordagem cada vez mais popular entre as empresas de tecnologia chinesas que buscam alcançar a comunidade global de desenvolvedores.
Este cenário destaca um movimento estratégico e inovador no setor de tecnologia na China, refletindo o dinamismo e a capacidade de adaptação dessas empresas diante das novas tendências globais em inteligência artificial e geração de conteúdo.