A Arquitetura Híbrida do Sora
Tecnicamente, o sistema combina o melhor de dois mundos: os modelos de difusão (usados no
DALL-E) e a arquitetura Transformer (usada no GPT). O algoritmo quebra o vídeo em pequenos pedaços visuais chamados "patches", tratando-os da mesma forma que o
ChatGPT trata palavras em uma frase.
Consequentemente, essa abordagem permite que o modelo escale o aprendizado para volumes massivos de dados. Ele entende a narrativa visual, ajustando a iluminação, o movimento da câmera e as emoções dos personagens simultaneamente.