Publication: Color optimization and diffusion-based post-processing to obtain sharper images without compromising R-D performance in learned image compression
dc.contributor.advisor | Tekalp, Ahmet Murat | |
dc.contributor.department | Graduate School of Sciences and Engineering | |
dc.contributor.kuauthor | Ulaş, Ökkeş Uğur | |
dc.contributor.program | Electrical and Electronics Engineering | |
dc.contributor.referee | Erdem, Aykut||Erdem, Erkut | |
dc.contributor.schoolcollegeinstitute | GRADUATE SCHOOL OF SCIENCES AND ENGINEERING | |
dc.coverage.spatial | İstanbul | |
dc.date.accessioned | 2025-06-30T04:35:55Z | |
dc.date.available | 2025-03-21 | |
dc.date.issued | 2024 | |
dc.description.abstract | In the digital era, efficient storage and transmission of visual signals have become paramount due to the explosive growth in multimedia content. The need for advanced image compression methods is driven by increasing image resolutions and the limitations of traditional codecs in terms of flexibility and adaptability. In the first part of this thesis, we introduce a flexible method for coding color images in the YCrCb space, addressing the human visual system's greater sensitivity to the luma component over chroma components. We extend the variable-rate image coding approach to YCrCb images, enabling separate rate adjustments for luma and chroma components. By implementing image-adaptive luma-chroma bit allocation during inference, we can increase Y PSNR at the expense of slightly lower chroma PSNR, resulting in sharper images without introducing color artifacts. This strategy enhances image sharpness more effectively than optimizing for RGB PSNR alone. Our experimental results demonstrate that sharper images with better VMAF and Y PSNR can be obtained by optimizing models for YCrCb MSE compared to state-of-the-art models optimizing RGB MSE at the same bpp. In the second part, we explore the use of diffusion models for post-processing in wavelet-based image codecs. Diffusion models, a type of deep generative models, have shown great promise in various domains, including inverse problems in image processing. They are particularly effective at producing visually pleasing textures. By integrating a fixed, invertible transform with a learned entropy model and a diffusion-based post-processing module, we demonstrate enhanced visual quality without compromising the rate-distortion performance. Our experimental results show that sharper images with better perceptual quality and YCrCb PSNR can be obtained compared to state-of-the-art classic and learned codecs. | |
dc.description.abstract | Dijital çağda, görsel sinyallerin verimli bir şekilde depolanması ve iletilmesi, multimedya içeriğindeki patlayıcı artış nedeniyle büyük önem kazanmıştır. Artan görüntü çözünürlükleri ve geleneksel kodlayıcıların esneklik ve uyum sağlama konusundaki sınırlamaları, gelişmiş görüntü sıkıştırma yöntemlerine olan ihtiyacı artırmaktadır. Bu tezin ilk bölümünde, insan görsel sisteminin luma bileşenine olan hassasiyetinin chroma bileşenlerine kıyasla daha fazla olduğunu göz önünde bulundurarak YCrCb uzayında görüntülerin kodlanması için esnek bir yöntem sunuyoruz. Değişken oranlı görüntü kodlama yaklaşımını YCrCb görüntülerine genişleterek luma ve chroma bileşenleri için ayrı oran ayarlamaları yapılmasını sağlıyoruz. Çıkarım sırasında görüntüye uyarlanabilir luma-chroma bit tahsisi yaparak, Y PSNR'yi artırırken, hafifçe daha düşük chroma PSNR pahasına, renk bozulmalarına yol açmadan daha keskin görüntüler elde edebiliyoruz. Bu strateji, yalnızca RGB PSNR'yi optimize etmekten daha etkili bir şekilde görüntü keskinliğini artırmaktadır. Deneysel sonuçlarımız, YCrCb MSE'yi optimize eden modellerin, aynı bpp oranında RGB MSE'yi optimize eden en güncel modellerle karşılaştırıldığında, daha keskin görüntüler ve daha iyi VMAF ile Y PSNR sağladığını göstermektedir. İkinci bölümde ise, wavelet tabanlı görüntü kodlayıcılarında difüzyon modellerinin son işlem için kullanımını inceliyoruz. Derin üretici modellerin bir türü olan difüzyon modelleri, görüntü işleme alanındaki ters problemler de dahil olmak üzere çeşitli alanlarda büyük bir potansiyel göstermiştir. Sabit, terslenebilir bir dönüşümü öğrenilmiş bir entropi modeli ve difüzyon tabanlı bir son işlem modülü ile entegre ederek, RD performansını bozmadan görsel kaliteyi artırabileceğimizi gösteriyoruz. Deneysel sonuçlarımız, klasik ve öğrenilmiş en güncel kodlayıcılara kıyasla daha keskin görüntüler ve daha iyi algısal kalite elde edilebileceğini göstermektedir. | |
dc.description.fulltext | Yes | |
dc.format.extent | xiv, 56 leaves : illustrations ; 30 cm. | |
dc.identifier.embargo | No | |
dc.identifier.endpage | 70 | |
dc.identifier.filenameinventoryno | T_2024_133_GSSE | |
dc.identifier.uri | https://hdl.handle.net/20.500.14288/29782 | |
dc.identifier.yoktezid | 905209 | |
dc.identifier.yoktezlink | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=LY6e5xGA7WWUpEdrBmEPLkboM-tH1w2V-SYoR78lG48Fet7ePCi0RqAI96gQzaRB | |
dc.language.iso | eng | |
dc.publisher | Koç University | |
dc.relation.collection | KU Theses and Dissertations | |
dc.rights | restrictedAccess | |
dc.rights.copyrightsnote | © All Rights Reserved. Accessible to Koç University Affiliated Users Only! | |
dc.subject | Application software | |
dc.subject | Artificial intelligence | |
dc.subject | Optical data processing | |
dc.subject | Multimedia information systems | |
dc.subject | Speech processing systems | |
dc.subject | Image compression | |
dc.subject | Digital video | |
dc.subject | Video compression | |
dc.subject | Signal processing | |
dc.title | Color optimization and diffusion-based post-processing to obtain sharper images without compromising R-D performance in learned image compression | |
dc.title.alternative | Öğrenilmiş görüntü sıkıştırmada R-D performansını bozmadan daha keskin görüntüler elde etmek için renk optimizasyonu ve diffüzyon tabanlı son işleme. | |
dc.type | Thesis | |
dspace.entity.type | Publication | |
local.contributor.kuauthor | Ulaş, Ökkeş Uğur | |
relation.isAdvisorOfThesis | e71cfe98-c782-488f-9c1f-14b366795d12 | |
relation.isAdvisorOfThesis.latestForDiscovery | e71cfe98-c782-488f-9c1f-14b366795d12 | |
relation.isOrgUnitOfPublication | 3fc31c89-e803-4eb1-af6b-6258bc42c3d8 | |
relation.isOrgUnitOfPublication.latestForDiscovery | 3fc31c89-e803-4eb1-af6b-6258bc42c3d8 | |
relation.isParentOrgUnitOfPublication | 434c9663-2b11-4e66-9399-c863e2ebae43 | |
relation.isParentOrgUnitOfPublication.latestForDiscovery | 434c9663-2b11-4e66-9399-c863e2ebae43 |
Files
Original bundle
1 - 1 of 1