Ketika seseorang menulis sebuah deskripsi, VEO harus mampu menerjemahkan kata-kata tersebut ke dalam bentuk representasi yang dapat dipahami oleh mesin. Proses ini dikenal sebagai prompt encoding, yaitu tahap di mana model Transformer memetakan kalimat ke dalam vektor numerik yang merepresentasikan makna secara kontekstual dan semantik.
Namun, setelah memperoleh representasi teks, VEO tidak langsung menghasilkan video beresolusi tinggi. Prosesnya dimulai di ruang laten—sebuah ruang kompresi data yang menyimpan informasi penting tanpa perlu memproses setiap piksel secara langsung. Di sinilah model latent diffusion mulai beraksi. Proses dimulai dari noise acak, yang kemudian secara bertahap dibersihkan hingga membentuk pola visual yang sesuai dengan instruksi teks.
Proses ini berlangsung dalam beberapa tahap. Tahap awal menghasilkan video dengan resolusi rendah dan durasi pendek. Selanjutnya, sistem memperpanjang durasi video melalui proses temporal upsampling, kemudian meningkatkan resolusi melalui spatial upsampling, menghasilkan setiap frame dengan kualitas tinggi.
Baca Juga:10 HP RAM 8 GB per 256 GB Terbaik Harga 1 Jutaan di 2025Cara Membuat Kopi yang Benar agar 10 Kali Lebih Nikmat: Resep Kopi Hitam dan Es Kopi Susu
Google VEO 3 bukanlah hasil dari satu inovasi tunggal, melainkan merupakan paduan teknologi yang telah dikembangkan selama bertahun-tahun di dunia kecerdasan buatan. Untuk benar-benar memahami keunggulan sistem ini, kita perlu menelusuri lapisan-lapisan arsitektur yang menjadi fondasinya.
Segalanya bermula dari model diffusion—model pembelajaran generatif yang merevolusi cara AI membayangkan sesuatu dari kondisi awal yang kacau (noise). Proses ini terinspirasi dari konsep fisika tentang entropi, di mana sistem belajar dari kekacauan total dan secara bertahap mengurainya, membentuk informasi visual yang bermakna dan sesuai konteks.
Pada sistem VEO, teknik yang digunakan adalah varian dari Latent Diffusion. Alih-alih bekerja langsung pada piksel video beresolusi tinggi, model ini beroperasi di ruang laten—sebuah representasi visual yang lebih padat dan ringan. Pendekatan ini memungkinkan proses berjalan lebih cepat dan efisien tanpa mengorbankan konteks maupun kualitas sinematik akhir.
Jika proses kreatif dianalogikan seperti membuat sketsa sebelum melukis detail, maka ruang laten adalah “kertas sketsa”-nya. Di sinilah seluruh komposisi awal, bentuk kasar, dan struktur dasar dibangun sebelum akhirnya diberikan warna, tekstur, dan nuansa sinematik.
