Google DreamBooth adalah model difusi teks-ke-gambar dengan penyetelan untuk menghasilkan gambar baru berbasis subjek. Google mengumumkan model difusi teks-ke-gambar baru mereka ini pada akhir bulan Agustus 2022. Model AI ini dapat menghasilkan segudang gambar dengan subjek yang diinginkan pengguna dalam konteks yang berbeda menggunakan panduan prompt teks.
Dalam beberapa tahun terakhir, model teks-ke-gambar telah berkembang dengan kecepatan yang luar biasa. Kualitas hasil yang diberikan oleh model seperti Open AI’s DALL-E2 atau Google’s Imagen adalah sesuatu yang, beberapa tahun lalu, bahkan tidak pernah kita bayangkan.
Google DreamBooth diperkenalkan oleh tim yang terdiri dari peneliti dari Google dan Universitas Boston dan didasarkan pada metode baru untuk mempersonalisasi model teks-ke-gambar besar yang telah dilatih sebelumnya, dalam hal ini Google Imagen, pada kumpulan gambar yang sangat terbatas (~3 -5).
Latar Belakang Dirilisnya Google DreamBooth
Saat ini sangat sulit untuk menghasilkan suatu subjek dalam konteks yang berbeda dengan menggunakan model teks-ke-gambar yang ada sekarang. Karena beragam model tersebut tidak mampu mempertahankan ciri khas dari subjek yang menjadi input.
Agar lebih jelas mari lihat contoh yang diberikan langsung dalam rilisnya. Ini merupakan input gambar yang diberikan :
Kemudian diberikan juga contoh gambar yang dihasilkan oleh DALL-E 2.
Dari gambar di atas dapat kita lihat bahwa gambar hasil dari model DALL-E 2 tidak mampu mempertahankan fidelity nya. DALL-E 2 cenderung memproduksi gambar baru yang serupa bahkan memiliki kesamaan konteks.
Kemudian diberikan juga contoh dari Google Imagen.
Dari gambar di atas, terlihat bahwa Google Imagen mampu menghadirkan konteks baru pada gambar walaupun tidak mampu mempertahankan fidelity-nya.
Melehat fakta ini maka para peneliti dari Google dan Universitas Boston mencoba metode baru demi mempertahankan fidelity serta konteks baru pada gambar. Berikut ini adalah hasih yang diberikan oleh Google DreamBooth.
Dari gambar di atas terlihat bahwa Google DreamBooth mampu memberikan hasil yang terbaik. Baik dari segi fidelity serta dari segi konteksnya. Jika Anda perhatikan, gambar jam yang dihasilkan oleh DreamBooth merupakan jam yang sama dengan inputan tapi dengan konteks yang sama sekali berbeda. Hal seperti ini yang tidak mampu diberikan baik DALL-E 2 maupun Google Imagen.