Publication:
Color optimization and diffusion-based post-processing to obtain sharper images without compromising R-D performance in learned image compression

dc.contributor.advisorTekalp, Ahmet Murat
dc.contributor.departmentGraduate School of Sciences and Engineering
dc.contributor.kuauthorUlaş, Ökkeş Uğur
dc.contributor.programElectrical and Electronics Engineering
dc.contributor.refereeErdem, Aykut||Erdem, Erkut
dc.contributor.schoolcollegeinstituteGRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatialİstanbul
dc.date.accessioned2025-06-30T04:35:55Z
dc.date.available2025-03-21
dc.date.issued2024
dc.description.abstractIn the digital era, efficient storage and transmission of visual signals have become paramount due to the explosive growth in multimedia content. The need for advanced image compression methods is driven by increasing image resolutions and the limitations of traditional codecs in terms of flexibility and adaptability. In the first part of this thesis, we introduce a flexible method for coding color images in the YCrCb space, addressing the human visual system's greater sensitivity to the luma component over chroma components. We extend the variable-rate image coding approach to YCrCb images, enabling separate rate adjustments for luma and chroma components. By implementing image-adaptive luma-chroma bit allocation during inference, we can increase Y PSNR at the expense of slightly lower chroma PSNR, resulting in sharper images without introducing color artifacts. This strategy enhances image sharpness more effectively than optimizing for RGB PSNR alone. Our experimental results demonstrate that sharper images with better VMAF and Y PSNR can be obtained by optimizing models for YCrCb MSE compared to state-of-the-art models optimizing RGB MSE at the same bpp. In the second part, we explore the use of diffusion models for post-processing in wavelet-based image codecs. Diffusion models, a type of deep generative models, have shown great promise in various domains, including inverse problems in image processing. They are particularly effective at producing visually pleasing textures. By integrating a fixed, invertible transform with a learned entropy model and a diffusion-based post-processing module, we demonstrate enhanced visual quality without compromising the rate-distortion performance. Our experimental results show that sharper images with better perceptual quality and YCrCb PSNR can be obtained compared to state-of-the-art classic and learned codecs.
dc.description.abstractDijital çağda, görsel sinyallerin verimli bir şekilde depolanması ve iletilmesi, multimedya içeriğindeki patlayıcı artış nedeniyle büyük önem kazanmıştır. Artan görüntü çözünürlükleri ve geleneksel kodlayıcıların esneklik ve uyum sağlama konusundaki sınırlamaları, gelişmiş görüntü sıkıştırma yöntemlerine olan ihtiyacı artırmaktadır. Bu tezin ilk bölümünde, insan görsel sisteminin luma bileşenine olan hassasiyetinin chroma bileşenlerine kıyasla daha fazla olduğunu göz önünde bulundurarak YCrCb uzayında görüntülerin kodlanması için esnek bir yöntem sunuyoruz. Değişken oranlı görüntü kodlama yaklaşımını YCrCb görüntülerine genişleterek luma ve chroma bileşenleri için ayrı oran ayarlamaları yapılmasını sağlıyoruz. Çıkarım sırasında görüntüye uyarlanabilir luma-chroma bit tahsisi yaparak, Y PSNR'yi artırırken, hafifçe daha düşük chroma PSNR pahasına, renk bozulmalarına yol açmadan daha keskin görüntüler elde edebiliyoruz. Bu strateji, yalnızca RGB PSNR'yi optimize etmekten daha etkili bir şekilde görüntü keskinliğini artırmaktadır. Deneysel sonuçlarımız, YCrCb MSE'yi optimize eden modellerin, aynı bpp oranında RGB MSE'yi optimize eden en güncel modellerle karşılaştırıldığında, daha keskin görüntüler ve daha iyi VMAF ile Y PSNR sağladığını göstermektedir. İkinci bölümde ise, wavelet tabanlı görüntü kodlayıcılarında difüzyon modellerinin son işlem için kullanımını inceliyoruz. Derin üretici modellerin bir türü olan difüzyon modelleri, görüntü işleme alanındaki ters problemler de dahil olmak üzere çeşitli alanlarda büyük bir potansiyel göstermiştir. Sabit, terslenebilir bir dönüşümü öğrenilmiş bir entropi modeli ve difüzyon tabanlı bir son işlem modülü ile entegre ederek, RD performansını bozmadan görsel kaliteyi artırabileceğimizi gösteriyoruz. Deneysel sonuçlarımız, klasik ve öğrenilmiş en güncel kodlayıcılara kıyasla daha keskin görüntüler ve daha iyi algısal kalite elde edilebileceğini göstermektedir.
dc.description.fulltextYes
dc.format.extentxiv, 56 leaves : illustrations ; 30 cm.
dc.identifier.embargoNo
dc.identifier.endpage70
dc.identifier.filenameinventorynoT_2024_133_GSSE
dc.identifier.urihttps://hdl.handle.net/20.500.14288/29782
dc.identifier.yoktezid905209
dc.identifier.yoktezlinkhttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=LY6e5xGA7WWUpEdrBmEPLkboM-tH1w2V-SYoR78lG48Fet7ePCi0RqAI96gQzaRB
dc.language.isoeng
dc.publisherKoç University
dc.relation.collectionKU Theses and Dissertations
dc.rightsrestrictedAccess
dc.rights.copyrightsnote© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subjectApplication software
dc.subjectArtificial intelligence
dc.subjectOptical data processing
dc.subjectMultimedia information systems
dc.subjectSpeech processing systems
dc.subjectImage compression
dc.subjectDigital video
dc.subjectVideo compression
dc.subjectSignal processing
dc.titleColor optimization and diffusion-based post-processing to obtain sharper images without compromising R-D performance in learned image compression
dc.title.alternativeÖğrenilmiş görüntü sıkıştırmada R-D performansını bozmadan daha keskin görüntüler elde etmek için renk optimizasyonu ve diffüzyon tabanlı son işleme.
dc.typeThesis
dspace.entity.typePublication
local.contributor.kuauthorUlaş, Ökkeş Uğur
relation.isAdvisorOfThesise71cfe98-c782-488f-9c1f-14b366795d12
relation.isAdvisorOfThesis.latestForDiscoverye71cfe98-c782-488f-9c1f-14b366795d12
relation.isOrgUnitOfPublication3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isOrgUnitOfPublication.latestForDiscovery3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isParentOrgUnitOfPublication434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1
Placeholder
Name:
T_2024_133_GSSE.pdf
Size:
8.57 MB
Format:
Adobe Portable Document Format