Publication:
Unpaired aired image-to-image translation with learnable tookens in diffusionGAN

dc.contributor.advisorYemez, Yücel
dc.contributor.departmentGraduate School of Sciences and Engineering
dc.contributor.kuauthorDinçer, Ege
dc.contributor.programComputer Sciences and Engineering
dc.contributor.refereeSahillioğlu, Yusuf||Erdem, Aykut
dc.contributor.schoolcollegeinstituteGRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatialİstanbul
dc.date.accessioned2025-06-30T04:36:29Z
dc.date.available2025-04-16
dc.date.issued2024
dc.description.abstractStable Diffusion models have recently achieved outstanding results in image generation tasks, surpassing prior state-of-the-art models based on Generative Adversarial Networks (GANs). While GANs were computationally efficient, their training stability often posed challenges. We introduce a novel framework that seeks to combine the strengths of both Stable Diffusion and GAN architectures for unpaired image-to-image translation. Our approach avoids the need for training Stable Diffusion from scratch by using pretrained token embeddings and a discriminator within a GAN-like training paradigm. This eliminates the requirement for pre-specified text prompts, as the framework learns suitable prompts through embeddings to perform domain-to-domain translation in an unsupervised setting. We show high-quality images generated by our framework and discuss promising possible ways for future enhancements.
dc.description.abstractKararlı Difüzyon modelleri (Stable Diffusion) , görüntü sentezi alanında önemli bir dönüm noktası oluşturarak, daha önce Üretken Rekabetçi Ağlar (GAN) tarafından elde edilen sonuçları geride bırakmıştır. GAN'ların eğitim sürecindeki istikrarsızlık sorunları, Kararlı Difüzyon'un daha etkili bir alternatif olmasını sağlamıştır. Bu çalışmada, görüntüden görüntüye çeviri için hem Kararlı Difüzyon'un güçlü yönlerini hem de GAN'ların eğitim paradigmasını bir araya getiren yeni bir mimari önermekteyiz. Önerilen yeni model, önceden eğitilmiş Kararlı Difüzyon modelini kullanarak, metin belirteçleri ve bir ayırıcı (Discriminator) sayesinde sıfırdan eğitim gerektirmeden, farklı uzaylar arasında dönüşüm yapabilmektedir. Bu durum, önceden belirlenmiş metin istemlerine olan ihtiyacı ortadan kaldırmakta ve model, denetimsiz bir ortamda daha esnek bir şekilde öğrenme yeteneği kazanmaktadır. Tezimizde, modelin ürettiği yüksek kaliteli görüntülerle birlikte, gelecekteki çalışmalar için potansiyel iyileştirme alanlarını tartışıyoruz.
dc.description.fulltextYes
dc.format.extentxii, 47 leaves : illustrations ; 30 cm.
dc.identifier.embargoNo
dc.identifier.endpage59
dc.identifier.filenameinventorynoT_2024_158_GSSE
dc.identifier.urihttps://hdl.handle.net/20.500.14288/29833
dc.identifier.yoktezid925852
dc.identifier.yoktezlinkhttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=P3dtmmHrq-mzEcmCLi1CqY49iPG6P8T9RwZSjq56WGzXH37zPBhQSoqfS_Neyt_p
dc.language.isoeng
dc.publisherKoç University
dc.relation.collectionKU Theses and Dissertations
dc.rightsrestrictedAccess
dc.rights.copyrightsnote© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subjectMathematical models
dc.subjectFluids
dc.subjectFluid mechanics
dc.subjectComputer simulation
dc.subjectArtificial intelligence
dc.subjectImage processing, Digital techniques
dc.subjectImage processing
dc.subjectComputer vision
dc.titleUnpaired aired image-to-image translation with learnable tookens in diffusionGAN
dc.title.alternativeDiffusionGAN ile öğrenebilir belirteçler kullanarak eşleştirilmemiş görüntü dönüşümü
dc.typeThesis
dspace.entity.typePublication
local.contributor.kuauthorDinçer, Ege
relation.isAdvisorOfThesis23c08ce5-6539-43b2-a2fa-ce7e80c2b52d
relation.isAdvisorOfThesis.latestForDiscovery23c08ce5-6539-43b2-a2fa-ce7e80c2b52d
relation.isOrgUnitOfPublication3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isOrgUnitOfPublication.latestForDiscovery3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isParentOrgUnitOfPublication434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1
Placeholder
Name:
T_2024_158_GSSE.pdf
Size:
34.98 MB
Format:
Adobe Portable Document Format