Publication: Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video
dc.contributor.advisor | Erdem, Aykut | |
dc.contributor.department | Graduate School of Sciences and Engineering | |
dc.contributor.kuauthor | Tofighi, Nafiseh Jabbari | |
dc.contributor.program | Computer Sciences and Engineering | |
dc.contributor.referee | Erdem, Erkut||Yemez, Yücel | |
dc.contributor.schoolcollegeinstitute | GRADUATE SCHOOL OF SCIENCES AND ENGINEERING | |
dc.coverage.spatial | İstanbul | |
dc.date.accessioned | 2025-06-30T04:35:49Z | |
dc.date.available | 2025-03-12 | |
dc.date.issued | 2024 | |
dc.description.abstract | In recent years, Virtual Reality (VR) has gained significant attention and has become popular across entertainment, education, and training. This surge necessitates a specialized Quality Assessment(QA) framework designed for evaluating immersive 360 content, challenging traditional 2D visual assessment methods due to the spherical nature and wider field of view. Drawing inspiration from Vision Transformers (ViTs)' success in computer vision, this thesis proposes two QA models: ST360IQ and LGT360IQ. These models, based on Spherical Vision Transformers, specifically evaluate omnidirectional image quality. ST360IQ uses tangent image representation, enhancing transformer encoder performance with saliency information, and integrates geometric and source embeddings for replication of spherical content attributes. Additionally, the LG360IQA model introduces a dual-branch structure, combining local-level and global-level information for comprehensive evaluation through top-down and bottom-up attention mechanisms. Both ST360IQ and LGT360IQ ViT-based models achieve state-of-the-art performance across three datasets, showcasing their effectiveness in 360 Image Quality Assessment (IQA). The significance of spatial audio in immersive content underscores the need for a dataset containing ambisonic audio. This dataset would facilitate research in Video Quality Assessment (VQA) by integrating crucial audio information. To bridge this gap, a subjective quality assessment experiment is conducted to collect the YT360-VQA dataset. Remarkably, this user-generated dataset deliberately includes authentic distortions, simulating real-world scenarios. Ultimately, this research aims to objectively analyze ambisonic audio's impact on spherical video quality assessment within immersive content experiences, recognizing its significance in shaping the overall visual quality. | |
dc.description.abstract | Sanal Gerçeklik (SG), son yıllarda eğlence, eğitim ve eğitim alanlarında popülerleşerek önemli bir ilgi alanı haline gelmiştir. Küresel doğası ve geniş görüş alanları nedeniyle, geleneksel 2D görsel değerlendirme yöntemlerini zorlayan etkileşimli 360 içeriklerdeki bu artış, özelleştirilmiş görsel kalite değerlendirme (KD) yöntemlerine olan gereksinimleri de artırmıştır. Bu tez, bilgisayarlı görüntüde görüntü dönüştürü cülerinin başarısından ilham alarak, ST360IQ ve LGT360IQ adlı iki KD modeller önermektedir. Küresel Görüntü Dönüştürücüsü tabanlı bu modeller, çok yönlü görüntüleri değerlendirmek için özelleştirilmiştir. ST360IQ, teğet görüntü temsili kullanarak, dönüştürücü performansını görsel belirginlik özellikleri ile güçlendirmekte ve küresel içerik özelliklerinin bozulmadan yeniden üretilmesi için geometrik ve kaynak gömme bilgilerini entegre etmektedir. Ek olarak, LG360IQA modeli ile birlikte, kapsamlı bir değerlendirme için yerel ve küresel düzeydeki bilgileri birleştiren, yukarıdan aşağıya ve aşağıdan yukarıya dikkat mekanizmalarıyla iki akışlı bir yapı tanıtılmıştır. Görüntü dönüştürücüleri tabanlı ST360IQ ve LGT360IQ modellerinin her ikisi de, üç veri kümesinde en iyi performansı vererek, 360 görüntü kalitesi değerlendirmesindeki etkinliklerini göstermektedir. Etkileşimli içeriklerde bulunan uzamsal ses, ambisonik ses içeren bir veri kümesine olan ihtiyacı vurgulamaktadır. Bu veri kümesi, önemli ses bilgilerini entegre ederek video kalitesi değerlendirmesi alanındaki araştırmalara katkıda bulunacaktır. Literatürdeki bu veri kümesi boşluğunu doldurmak için, bir öznel kalite değerlendirme deneyi yapılmış, ve YT360-VQA veri kümesi toplanmıştır. Veri kümemizdeki videolar kullanıcılar tarafından oluşturulduğu için, bilinçli olarak içerdikleri gerçekçi bozulmalar ile gerçek dünya senaryolarını simüle ettikleri vurgulanmalıdır. Sonuç olarak, bu araştırma uzamsal sesin etkileşimli küresel videoların kalite değerlendirmesindeki etkisini nesnel olarak analiz etmeyi amaçlamış ve genel kullanıcı deneyimi üzerindeki etkisini göstermiştir. | |
dc.description.fulltext | Yes | |
dc.identifier.embargo | No | |
dc.identifier.endpage | 87 | |
dc.identifier.filenameinventoryno | T_2024_063_GSSE | |
dc.identifier.uri | https://hdl.handle.net/20.500.14288/29772 | |
dc.identifier.yoktezid | 850991 | |
dc.identifier.yoktezlink | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=cr4SkWLaRMhkDRBjqthpsSDeWVI_AuXMRp_9ux2ZPb_fpUpyowpD-Ii-HR8ZUeor | |
dc.language.iso | eng | |
dc.publisher | Koç University | |
dc.relation.collection | KU Theses and Dissertations | |
dc.rights | restrictedAccess | |
dc.rights.copyrightsnote | © All Rights Reserved. Accessible to Koç University Affiliated Users Only! | |
dc.subject | Human computer interaction | |
dc.subject | Virtual reality | |
dc.title | Spherical vision transformers for audio-visual quality assessment of omnidirectional image and video | |
dc.title.alternative | Omnidireksiyonel görüntü ve video'nun sesli-görsel kalite değerlendirmesi için küresel görüntü dönüştürücüler | |
dc.type | Thesis | |
dspace.entity.type | Publication | |
local.contributor.kuauthor | Tofighi, Nafiseh Jabbari | |
relation.isAdvisorOfThesis | 3ee9e0f2-f116-44b7-889f-e84f9af786e4 | |
relation.isAdvisorOfThesis.latestForDiscovery | 3ee9e0f2-f116-44b7-889f-e84f9af786e4 | |
relation.isOrgUnitOfPublication | 3fc31c89-e803-4eb1-af6b-6258bc42c3d8 | |
relation.isOrgUnitOfPublication.latestForDiscovery | 3fc31c89-e803-4eb1-af6b-6258bc42c3d8 | |
relation.isParentOrgUnitOfPublication | 434c9663-2b11-4e66-9399-c863e2ebae43 | |
relation.isParentOrgUnitOfPublication.latestForDiscovery | 434c9663-2b11-4e66-9399-c863e2ebae43 |
Files
Original bundle
1 - 1 of 1