Salah satu komponen utama dalam sistem ini adalah U-Net, sebuah arsitektur jaringan saraf yang menjadi tulang punggung proses denoising. U-Net memiliki kemampuan unik: ia memproses informasi secara hierarkis—dari gambaran kasar hingga ke detail halus, lalu kembali lagi.
Di satu sisi, U-Net menangkap gambaran besar; di sisi lain, ia menelusuri elemen-elemen kecil secara mendetail. Dua jalur informasi ini dipertemukan dalam skip connections, yakni jalur pintas yang memungkinkan sistem mempertahankan detail penting selama proses transformasi berlangsung.
Bayangkan seorang pematung yang tidak hanya memperhatikan bentuk keseluruhan patung dari kejauhan, tetapi juga mengingat setiap lekukan dan goresan halus di permukaan batu. U-Net berperan seperti pematung tersebut—memahami kapan harus membentuk struktur dan kapan harus memperhalus tekstur.
Baca Juga:10 HP RAM 8 GB per 256 GB Terbaik Harga 1 Jutaan di 2025Cara Membuat Kopi yang Benar agar 10 Kali Lebih Nikmat: Resep Kopi Hitam dan Es Kopi Susu
Namun, menciptakan video bukan sekadar menghasilkan satu gambar yang bagus, melainkan menyusun rangkaian gambar yang saling terhubung. Di sinilah teknologi attention menjadi sangat penting. Attention mechanism memungkinkan model untuk memfokuskan perhatian pada bagian-bagian penting dalam input maupun output, menjaga konsistensi antar frame, serta menyesuaikan fokus sesuai konteks yang relevan.
VEO memadukan spatial attention dan temporal attention secara bersamaan. Spatial attention memastikan bahwa dalam satu frame, setiap elemen—baik wajah karakter, latar belakang, maupun pencahayaan—ditata dan dirender secara harmonis. Sementara itu, temporal attention mengatur kesinambungan antar frame, memastikan bahwa gerakan kamera, posisi objek, dan ekspresi karakter tetap konsisten dari awal hingga akhir video.
Salah satu inovasi menarik dari VEO adalah penerapan temporal attention block dengan jangkauan panjang. Teknologi ini memungkinkan model tidak hanya mengingat satu atau dua frame sebelumnya, melainkan memahami keseluruhan struktur narasi visual. Hasilnya, AI mampu membangun adegan yang terasa seperti sebuah cerita utuh, bukan sekadar kumpulan momen yang terputus.
Selain itu, VEO juga menghadirkan komponen kontrol sinematik yang lebih eksplisit. Sistem ini mampu menginterpretasikan instruksi seperti tracking shot atau pan upward ke dalam parameter kamera virtual. Teknologi ini dibangun di atas pemahaman tentang struktur tiga dimensi semu, sehingga memungkinkan VEO menciptakan gerakan kamera yang tampak realistis, meskipun tidak ada kamera fisik yang digunakan.
