Publication: Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video
Program
Computer Sciences and Engineering
KU-Authors
KU Authors
Co-Authors
Authors
Advisor
YĆK Thesis ID
850991
Approval Date
Publication Date
Language
Type
Embargo Status
No
Journal Title
Journal ISSN
Volume Title
Alternative Title
Omnidireksiyonel gƶrüntü ve video'nun sesli-gƶrsel kalite deÄerlendirmesi iƧin küresel gƶrüntü dƶnüÅtürücüler
Abstract
In recent years, Virtual Reality (VR) has gained significant attention and has become popular across entertainment, education, and training. This surge necessitates a specialized Quality Assessment(QA) framework designed for evaluating immersive 360 content, challenging traditional 2D visual assessment methods due to the spherical nature and wider field of view. Drawing inspiration from Vision Transformers (ViTs)' success in computer vision, this thesis proposes two QA models: ST360IQ and LGT360IQ. These models, based on Spherical Vision Transformers, specifically evaluate omnidirectional image quality. ST360IQ uses tangent image representation, enhancing transformer encoder performance with saliency information, and integrates geometric and source embeddings for replication of spherical content attributes. Additionally, the LG360IQA model introduces a dual-branch structure, combining local-level and global-level information for comprehensive evaluation through top-down and bottom-up attention mechanisms. Both ST360IQ and LGT360IQ ViT-based models achieve state-of-the-art performance across three datasets, showcasing their effectiveness in 360 Image Quality Assessment (IQA). The significance of spatial audio in immersive content underscores the need for a dataset containing ambisonic audio. This dataset would facilitate research in Video Quality Assessment (VQA) by integrating crucial audio information. To bridge this gap, a subjective quality assessment experiment is conducted to collect the YT360-VQA dataset. Remarkably, this user-generated dataset deliberately includes authentic distortions, simulating real-world scenarios. Ultimately, this research aims to objectively analyze ambisonic audio's impact on spherical video quality assessment within immersive content experiences, recognizing its significance in shaping the overall visual quality.
Sanal GerƧeklik (SG), son yıllarda eÄlence, eÄitim ve eÄitim alanlarında popülerleÅerek ƶnemli bir ilgi alanı haline gelmiÅtir. Küresel doÄası ve geniÅ gƶrüŠalanları nedeniyle, geleneksel 2D gƶrsel deÄerlendirme yƶntemlerini zorlayan etkileÅimli 360 iƧeriklerdeki bu artıÅ, ƶzelleÅtirilmiÅ gƶrsel kalite deÄerlendirme (KD) yƶntemlerine olan gereksinimleri de artırmıÅtır. Bu tez, bilgisayarlı gƶrüntüde gƶrüntü dƶnüÅtürü cülerinin baÅarısından ilham alarak, ST360IQ ve LGT360IQ adlı iki KD modeller ƶnermektedir. Küresel Gƶrüntü DƶnüÅtürücüsü tabanlı bu modeller, Ƨok yƶnlü gƶrüntüleri deÄerlendirmek iƧin ƶzelleÅtirilmiÅtir. ST360IQ, teÄet gƶrüntü temsili kullanarak, dƶnüÅtürücü performansını gƶrsel belirginlik ƶzellikleri ile güçlendirmekte ve küresel iƧerik ƶzelliklerinin bozulmadan yeniden üretilmesi iƧin geometrik ve kaynak gƶmme bilgilerini entegre etmektedir. Ek olarak, LG360IQA modeli ile birlikte, kapsamlı bir deÄerlendirme iƧin yerel ve küresel düzeydeki bilgileri birleÅtiren, yukarıdan aÅaÄıya ve aÅaÄıdan yukarıya dikkat mekanizmalarıyla iki akıÅlı bir yapı tanıtılmıÅtır. Gƶrüntü dƶnüÅtürücüleri tabanlı ST360IQ ve LGT360IQ modellerinin her ikisi de, üç veri kümesinde en iyi performansı vererek, 360 gƶrüntü kalitesi deÄerlendirmesindeki etkinliklerini gƶstermektedir. EtkileÅimli iƧeriklerde bulunan uzamsal ses, ambisonik ses iƧeren bir veri kümesine olan ihtiyacı vurgulamaktadır. Bu veri kümesi, ƶnemli ses bilgilerini entegre ederek video kalitesi deÄerlendirmesi alanındaki araÅtırmalara katkıda bulunacaktır. Literatürdeki bu veri kümesi boÅluÄunu doldurmak iƧin, bir ƶznel kalite deÄerlendirme deneyi yapılmıÅ, ve YT360-VQA veri kümesi toplanmıÅtır. Veri kümemizdeki videolar kullanıcılar tarafından oluÅturulduÄu iƧin, bilinƧli olarak iƧerdikleri gerƧekƧi bozulmalar ile gerƧek dünya senaryolarını simüle ettikleri vurgulanmalıdır. SonuƧ olarak, bu araÅtırma uzamsal sesin etkileÅimli küresel videoların kalite deÄerlendirmesindeki etkisini nesnel olarak analiz etmeyi amaƧlamıŠve genel kullanıcı deneyimi üzerindeki etkisini gƶstermiÅtir.
Sanal GerƧeklik (SG), son yıllarda eÄlence, eÄitim ve eÄitim alanlarında popülerleÅerek ƶnemli bir ilgi alanı haline gelmiÅtir. Küresel doÄası ve geniÅ gƶrüŠalanları nedeniyle, geleneksel 2D gƶrsel deÄerlendirme yƶntemlerini zorlayan etkileÅimli 360 iƧeriklerdeki bu artıÅ, ƶzelleÅtirilmiÅ gƶrsel kalite deÄerlendirme (KD) yƶntemlerine olan gereksinimleri de artırmıÅtır. Bu tez, bilgisayarlı gƶrüntüde gƶrüntü dƶnüÅtürü cülerinin baÅarısından ilham alarak, ST360IQ ve LGT360IQ adlı iki KD modeller ƶnermektedir. Küresel Gƶrüntü DƶnüÅtürücüsü tabanlı bu modeller, Ƨok yƶnlü gƶrüntüleri deÄerlendirmek iƧin ƶzelleÅtirilmiÅtir. ST360IQ, teÄet gƶrüntü temsili kullanarak, dƶnüÅtürücü performansını gƶrsel belirginlik ƶzellikleri ile güçlendirmekte ve küresel iƧerik ƶzelliklerinin bozulmadan yeniden üretilmesi iƧin geometrik ve kaynak gƶmme bilgilerini entegre etmektedir. Ek olarak, LG360IQA modeli ile birlikte, kapsamlı bir deÄerlendirme iƧin yerel ve küresel düzeydeki bilgileri birleÅtiren, yukarıdan aÅaÄıya ve aÅaÄıdan yukarıya dikkat mekanizmalarıyla iki akıÅlı bir yapı tanıtılmıÅtır. Gƶrüntü dƶnüÅtürücüleri tabanlı ST360IQ ve LGT360IQ modellerinin her ikisi de, üç veri kümesinde en iyi performansı vererek, 360 gƶrüntü kalitesi deÄerlendirmesindeki etkinliklerini gƶstermektedir. EtkileÅimli iƧeriklerde bulunan uzamsal ses, ambisonik ses iƧeren bir veri kümesine olan ihtiyacı vurgulamaktadır. Bu veri kümesi, ƶnemli ses bilgilerini entegre ederek video kalitesi deÄerlendirmesi alanındaki araÅtırmalara katkıda bulunacaktır. Literatürdeki bu veri kümesi boÅluÄunu doldurmak iƧin, bir ƶznel kalite deÄerlendirme deneyi yapılmıÅ, ve YT360-VQA veri kümesi toplanmıÅtır. Veri kümemizdeki videolar kullanıcılar tarafından oluÅturulduÄu iƧin, bilinƧli olarak iƧerdikleri gerƧekƧi bozulmalar ile gerƧek dünya senaryolarını simüle ettikleri vurgulanmalıdır. SonuƧ olarak, bu araÅtırma uzamsal sesin etkileÅimli küresel videoların kalite deÄerlendirmesindeki etkisini nesnel olarak analiz etmeyi amaƧlamıŠve genel kullanıcı deneyimi üzerindeki etkisini gƶstermiÅtir.
Source
Publisher
KoƧ University
Subject
Human computer interaction, Virtual reality
Citation
Has Part
Source
Book Series Title
Edition
DOI
item.page.datauri
Link
Rights
restrictedAccess
Copyrights Note
© All Rights Reserved. Accessible to Koç University Affiliated Users Only!