Publication:
Unpaired aired image-to-image translation with learnable tookens in diffusionGAN

Thumbnail Image

School / College / Institute

Organizational Unit

Program

Computer Sciences and Engineering

KU-Authors

KU Authors

Co-Authors

Authors

YƖK Thesis ID

925852

Approval Date

Publication Date

Language

Type

Embargo Status

No

Journal Title

Journal ISSN

Volume Title

Alternative Title

DiffusionGAN ile öğrenebilir belirteçler kullanarak eşleştirilmemiş görüntü dönüşümü

Abstract

Stable Diffusion models have recently achieved outstanding results in image generation tasks, surpassing prior state-of-the-art models based on Generative Adversarial Networks (GANs). While GANs were computationally efficient, their training stability often posed challenges. We introduce a novel framework that seeks to combine the strengths of both Stable Diffusion and GAN architectures for unpaired image-to-image translation. Our approach avoids the need for training Stable Diffusion from scratch by using pretrained token embeddings and a discriminator within a GAN-like training paradigm. This eliminates the requirement for pre-specified text prompts, as the framework learns suitable prompts through embeddings to perform domain-to-domain translation in an unsupervised setting. We show high-quality images generated by our framework and discuss promising possible ways for future enhancements.
Kararlı Difüzyon modelleri (Stable Diffusion) , gƶrüntü sentezi alanında ƶnemli bir dƶnüm noktası oluşturarak, daha ƶnce Üretken RekabetƧi Ağlar (GAN) tarafından elde edilen sonuƧları geride bırakmıştır. GAN'ların eğitim sürecindeki istikrarsızlık sorunları, Kararlı Difüzyon'un daha etkili bir alternatif olmasını sağlamıştır. Bu Ƨalışmada, gƶrüntüden gƶrüntüye Ƨeviri iƧin hem Kararlı Difüzyon'un güçlü yƶnlerini hem de GAN'ların eğitim paradigmasını bir araya getiren yeni bir mimari ƶnermekteyiz. Ɩnerilen yeni model, ƶnceden eğitilmiş Kararlı Difüzyon modelini kullanarak, metin belirteƧleri ve bir ayırıcı (Discriminator) sayesinde sıfırdan eğitim gerektirmeden, farklı uzaylar arasında dƶnüşüm yapabilmektedir. Bu durum, ƶnceden belirlenmiş metin istemlerine olan ihtiyacı ortadan kaldırmakta ve model, denetimsiz bir ortamda daha esnek bir şekilde öğrenme yeteneği kazanmaktadır. Tezimizde, modelin ürettiği yüksek kaliteli gƶrüntülerle birlikte, gelecekteki Ƨalışmalar iƧin potansiyel iyileştirme alanlarını tartışıyoruz.

Source

Publisher

KoƧ University

Subject

Mathematical models, Fluids, Fluid mechanics, Computer simulation, Artificial intelligence, Image processing, Digital techniques, Image processing, Computer vision

Citation

Has Part

Source

Book Series Title

Edition

DOI

item.page.datauri

Link

Rights

restrictedAccess

Copyrights Note

© All Rights Reserved. Accessible to Koç University Affiliated Users Only!

Endorsement

Review

Supplemented By

Referenced By

1

Views

0

Downloads