ABSTRAK
Pembuatan video wajah bicara yang digerakkan oleh ucapan telah menarik minat yang semakin besar dalam penelitian terkini. Sementara pendekatan khusus orang menghasilkan hasil dengan ketelitian tinggi, pendekatan tersebut memerlukan data pelatihan yang ekstensif dari setiap pembicara. Sebaliknya, metode tujuan umum sering kali kesulitan dengan sinkronisasi bibir yang akurat, pelestarian identitas, dan gerakan wajah alami. Untuk mengatasi keterbatasan ini, kami mengusulkan arsitektur baru yang menggabungkan model penyelarasan dengan model rendering. Model rendering mensintesis gerakan bibir yang konsisten dengan identitas dengan memanfaatkan landmark wajah yang berasal dari ucapan, wajah target yang sebagian tertutup, fitur bibir multi-referensi, dan audio input. Secara bersamaan, model penyelarasan memperkirakan aliran optik menggunakan wajah yang tertutup dan gambar referensi statis, yang memungkinkan penyelarasan pose wajah dan bentuk bibir yang tepat. Desain kolaboratif ini meningkatkan proses rendering, menghasilkan keluaran yang lebih realistis dan mempertahankan identitas. Eksperimen ekstensif menunjukkan bahwa metode kami secara signifikan meningkatkan sinkronisasi bibir dan retensi identitas, yang menetapkan tolok ukur baru dalam pembuatan video wajah bicara.

Generasi Wajah Berbicara dengan Bibir dan Identitas Sebelumnya

Tinggalkan Balasan Batalkan balasan