Publication: Video deinterlacing and demosaicing by deep learning
Program
Electrical and Electronics Engineering
KU-Authors
KU Authors
Co-Authors
Authors
Advisor
YĆK Thesis ID
854831
Approval Date
Publication Date
Language
Type
Embargo Status
No
Journal Title
Journal ISSN
Volume Title
Alternative Title
Derin ƶÄrenme ile video biniÅimsizleÅtirme ve demozaikleme
Abstract
Deinterlacing and demosaicing are commonly used techniques in the image processing pipeline for consumer video. Despite the fact that real-world video deinterlacing and demosaicing are well-suited to supervised learning from synthetically degraded data because both degradation models are known and fixed, learned video deinterlacing and demosaicing have received much less attention compared to denoising and superresolution tasks. This thesis progressively explores feature alignment, integration and reconstruction stages for both tasks tailored to their known and fixed degradation subsampling patterns. We begin by presenting our initial work of a novel multi-field deinterlacing architecture that aligns features from adjacent fields to a reference field (to be deinterlaced) by designing novel deformable residual convolution blocks with two variants of different scales. To the best of our knowledge, this work is the first to propose fusion of multi-field features that are aligned via deformable convolutions for deinterlacing. Next, based on our initial work, we propose a novel multi-field full frame-rate deinterlacing network, which adapts the state of-the-art superresolution approaches to the deinterlacing task. This model incorporates self attention mechanism with deformable convolution residual blocks to align features and additively integrate aligned features for reconstruction. In order to reconstruct odd and even fields directionally, separate reconstruction modules are utilized according to the parity of each reference. Our extensive experimental results demonstrate that the proposed method provides state-of-the-art deinterlacing results in terms of both numerical and perceptual performance. Upon all these previous work, we propose a new multi-picture architecture for both video deinterlacing or demosaicing by aligning multiple supporting pictures with missing data to a reference picture to be reconstructed, benefiting from both local and global spatio-temporal correlations in the feature space using modified deformable convolution blocks and a novel residual efficient top-$k$ self-attention (kSA) block, respectively. Separate reconstruction blocks are used to estimate different types of missing data. Our extensive experimental results demonstrate that the proposed novel architecture provides superior results that significantly exceed the state-of-the-art for both tasks in terms of PSNR, SSIM, and perceptual quality. Ablation studies are provided to justify and show the benefit of each novel modification made to the deformable convolution and residual efficient kSA blocks.
BiniÅimsizleÅtirme ve Demozaikleme, tüketici videosuna yƶnelik gƶrüntü iÅleme hatt-ında yaygın olarak kullanılan tekniklerdir. Her iki bozulma modeli de bilindiÄi ve sabitlendiÄinden, gerƧek dünyadaki video taramasızlaÅtırma ve ayrıÅtırma, sentetik olarak bozulmuÅ verilerden denetimli ƶÄrenmeye Ƨok uygun olmasına raÄmen, ƶÄrenilmiÅ video BiniÅimsizleÅtirme ve Demozaikleme, gürültü giderme ve süper Ƨƶzünürlük gƶrevleriyle karÅılaÅtırıldıÄında Ƨok daha az ilgi gƶrmüÅtür. Bu tez, bilinen ve sabit bozulma alt ƶrnekleme modellerine gƶre uyarlanmıŠher iki gƶrev iƧin ƶzellik hizalama, entegrasyon ve yeniden yapılandırma aÅamalarını aÅamalı olarak araÅtırmaktadır. Farklı ƶlƧeklerde iki varyantla yeni deforme olabilen artık evriÅim blokları tasarlayarak, bitiÅik alanlardaki ƶzellikleri bir referans alanına (titreÅimsizleÅtirilecek) hizalayan yeni bir Ƨok alanlı BiniÅimsizleÅtirme mimarisine iliÅkin ilk ƧalıÅmamızı sunarak baÅlıyoruz. BildiÄimiz kadarıyla bu ƧalıÅma, taramasızlaÅtırma iƧin deforme edilebilir evriÅimler aracılıÄıyla hizalanan Ƨok alanlı ƶzelliklerin füzyonunu ƶneren ilk ƧalıÅmadır. Daha sonra, ilk ƧalıÅmamıza dayanarak, son teknoloji ürünü süper Ƨƶzünürlük yaklaÅımlarını BiniÅimsizleÅtirme gƶrevine uyarlayan, yeni, Ƨok alanlı, tam kare hızında BiniÅimsizleÅtirme aÄı ƶneriyoruz. Bu model, ƶzellikleri hizalamak ve yeniden yapılandırma iƧin hizalanmıŠözellikleri ilave olarak entegre etmek iƧin deforme olabilen evriÅim artık bloklarıyla kiÅisel dikkat mekanizmasını birleÅtirir. Tek ve Ƨift alanları yƶnlü olarak yeniden oluÅturmak iƧin her referansın paritesine gƶre ayrı yeniden yapılandırma modülleri kullanılır. Kapsamlı deneysel sonuƧlarımız, ƶnerilen yƶntemin hem sayısal hem de algısal performans aƧısından son teknoloji ürünü BiniÅimsizleÅtirme sonuƧları saÄladıÄını gƶstermektedir. Ćnceki tüm ƧalıÅmaların ardından, eksik veri iƧeren birden fazla destekleyici resmi, yeniden yapılandırılacak bir referans resmine hizalayarak, ƶzellik alanındaki hem yerel hem de küresel uzay-zamansal korelasyonlardan yararlanarak, hem video BiniÅimsizleÅtirme hem de Demozaikleme iƧin yeni bir Ƨoklu resim mimarisi ƶneriyoruz. sırasıyla deÄiÅtirilmiÅ deforme olabilir evriÅim blokları ve yeni bir artık verimli üst $k$ kiÅisel dikkat (kSA) bloÄu. Farklı türdeki eksik verileri tahmin etmek iƧin ayrı yeniden yapılandırma blokları kullanılır. Kapsamlı deneysel sonuƧlarımız, ƶnerilen yeni mimarinin, PSNR, SSIM ve algısal kalite aƧısından her iki gƶrev iƧin de en son teknolojiyi ƶnemli ƶlçüde aÅan üstün sonuƧlar saÄladıÄını gƶstermektedir. Deforme olabilen evriÅim ve artık verimli kSA bloklarında yapılan her yeni deÄiÅikliÄin faydasını doÄrulamak ve gƶstermek iƧin ablasyon ƧalıÅmaları saÄlanmıÅtır.
BiniÅimsizleÅtirme ve Demozaikleme, tüketici videosuna yƶnelik gƶrüntü iÅleme hatt-ında yaygın olarak kullanılan tekniklerdir. Her iki bozulma modeli de bilindiÄi ve sabitlendiÄinden, gerƧek dünyadaki video taramasızlaÅtırma ve ayrıÅtırma, sentetik olarak bozulmuÅ verilerden denetimli ƶÄrenmeye Ƨok uygun olmasına raÄmen, ƶÄrenilmiÅ video BiniÅimsizleÅtirme ve Demozaikleme, gürültü giderme ve süper Ƨƶzünürlük gƶrevleriyle karÅılaÅtırıldıÄında Ƨok daha az ilgi gƶrmüÅtür. Bu tez, bilinen ve sabit bozulma alt ƶrnekleme modellerine gƶre uyarlanmıŠher iki gƶrev iƧin ƶzellik hizalama, entegrasyon ve yeniden yapılandırma aÅamalarını aÅamalı olarak araÅtırmaktadır. Farklı ƶlƧeklerde iki varyantla yeni deforme olabilen artık evriÅim blokları tasarlayarak, bitiÅik alanlardaki ƶzellikleri bir referans alanına (titreÅimsizleÅtirilecek) hizalayan yeni bir Ƨok alanlı BiniÅimsizleÅtirme mimarisine iliÅkin ilk ƧalıÅmamızı sunarak baÅlıyoruz. BildiÄimiz kadarıyla bu ƧalıÅma, taramasızlaÅtırma iƧin deforme edilebilir evriÅimler aracılıÄıyla hizalanan Ƨok alanlı ƶzelliklerin füzyonunu ƶneren ilk ƧalıÅmadır. Daha sonra, ilk ƧalıÅmamıza dayanarak, son teknoloji ürünü süper Ƨƶzünürlük yaklaÅımlarını BiniÅimsizleÅtirme gƶrevine uyarlayan, yeni, Ƨok alanlı, tam kare hızında BiniÅimsizleÅtirme aÄı ƶneriyoruz. Bu model, ƶzellikleri hizalamak ve yeniden yapılandırma iƧin hizalanmıŠözellikleri ilave olarak entegre etmek iƧin deforme olabilen evriÅim artık bloklarıyla kiÅisel dikkat mekanizmasını birleÅtirir. Tek ve Ƨift alanları yƶnlü olarak yeniden oluÅturmak iƧin her referansın paritesine gƶre ayrı yeniden yapılandırma modülleri kullanılır. Kapsamlı deneysel sonuƧlarımız, ƶnerilen yƶntemin hem sayısal hem de algısal performans aƧısından son teknoloji ürünü BiniÅimsizleÅtirme sonuƧları saÄladıÄını gƶstermektedir. Ćnceki tüm ƧalıÅmaların ardından, eksik veri iƧeren birden fazla destekleyici resmi, yeniden yapılandırılacak bir referans resmine hizalayarak, ƶzellik alanındaki hem yerel hem de küresel uzay-zamansal korelasyonlardan yararlanarak, hem video BiniÅimsizleÅtirme hem de Demozaikleme iƧin yeni bir Ƨoklu resim mimarisi ƶneriyoruz. sırasıyla deÄiÅtirilmiÅ deforme olabilir evriÅim blokları ve yeni bir artık verimli üst $k$ kiÅisel dikkat (kSA) bloÄu. Farklı türdeki eksik verileri tahmin etmek iƧin ayrı yeniden yapılandırma blokları kullanılır. Kapsamlı deneysel sonuƧlarımız, ƶnerilen yeni mimarinin, PSNR, SSIM ve algısal kalite aƧısından her iki gƶrev iƧin de en son teknolojiyi ƶnemli ƶlçüde aÅan üstün sonuƧlar saÄladıÄını gƶstermektedir. Deforme olabilen evriÅim ve artık verimli kSA bloklarında yapılan her yeni deÄiÅikliÄin faydasını doÄrulamak ve gƶstermek iƧin ablasyon ƧalıÅmaları saÄlanmıÅtır.
Source
Publisher
KoƧ University
Subject
Digital video, Image processing, Digital technique, Video compression
Citation
Has Part
Source
Book Series Title
Edition
DOI
item.page.datauri
Link
Rights
restrictedAccess
Copyrights Note
© All Rights Reserved. Accessible to Koç University Affiliated Users Only!