Publication: Investigating the effects of representation learning on exploration in on-policy reinforcement learning
Program
Computer Sciences and Engineering
KU-Authors
KU Authors
Co-Authors
Authors
Advisor
YĆK Thesis ID
904955
Approval Date
Publication Date
Language
Type
Embargo Status
No
Journal Title
Journal ISSN
Volume Title
Alternative Title
Temsil ƶÄrenmesinin politikalı pekiÅtirmeli ƶÄrenmedeki keÅif üzerindeki etkilerinin incelenmesi
Abstract
Reinforcement Learning (RL) in environments with high-dimensional state spaces is challenging. This is mainly due to the amount and quality of data required to adequately understand the environment, the consequences of actions, and to figure out high-value states/actions. Finding good actions and states, especially if they are sparse and/or there are long-term dependencies, is difficult. An RL agent must explore to find them all the while utilizing what it has learned. Additionally, the complexity of state and action spaces makes it challenging to generalize learned behaviors, requiring sophisticated function approximators and often leading to issues such as overfitting and sample inefficiency. Furthermore, the presence of noise in the data exacerbates these challenges. The effects of noise is more pronounced in high-dimensional spaces because the agent needs to discern meaningful patterns from noisy data, increasing the risk of overfitting to random fluctuations rather than true signals. Proper exploration is crucial for Reinforcement Learning problems as it can increase the sample efficiency and shorten the training time. Unguided exploration is very sample inefficient in high-dimensional settings. This is especially the case for the hard-exploration problems (e.g. Montezuma's Revenge) in which the agents struggle to learn due to the sparsity of the rewards and the complexity of the state and action spaces. There are several approaches for guided exploration, some of which are proposed to deal with the issues of hard-exploration problems. One of these methods is based on using "prediction-errors" as intrinsic rewards. In prediction-error based methods, a prediction (e.g. next state, reward) is compared against the actual observations. If the discrepancy between those two is high, one concludes that further exploration of such states is required to decrease the error. Exploration of these states is encouraged by providing extra rewards (intrinsic rewards) when the agent visits them. Such an approach adopts the optimism in the face of uncertainty principle by guiding the agent to the promising yet under-explored parts of the state space. However, in high-dimensional environments, unimportant observations and noise can lead the agent astray. One promising direction to alleviate these aforementioned issues in high-dimensional and noisy/stochastic environments is learning smaller yet effective and robust state representations. Such an ideal latent representation would be robust to noise and focus on the important aspects of the environment while ignoring the unimportant ones. Utilizing deep neural networks is already a step in this direction. Another potential step is borrowing auxiliary representation learning objectives from self-supervised learning to augment RL. In light of the observation that operating under small-dimensional state spaces is desirable for both the reinforcement learning agents and the exploration methods, we believe that for prediction-error based exploration methods, receiving support from representation learning methods appears as a viable solution. To this end we propose the Modified RND approach to investigate the effect of using an auxiliary self-supervised learning (SSL) loss for the model-predictive exploration methods. Additionally, we also propose the ViT with Explorative Attention method which aims to improve exploration performance by learning exploration and exploitation specific representations with just an architectural change without requiring any method from the self-supervised learning literature. Unfortunately, with our proposed methods we have failed to show justifiable performance gains. Only under certain circumstances we have managed to obtain better early training performance which later converged to the performance of our baseline models. Despite its short comings in empirical performance, we still believe that our work presents noteworthy ideas and serves to further one's understanding of the subject. We believe that our work may be a valuable tool to others who are also interested in the intersection of representation learning and prediction-error based on-policy exploration methods in reinforcement learning.
Yüksek boyutlu durum uzaylarına sahip ortamlarda pekiÅtirmeli ƶÄrenme zordur. Bu, esas olarak, ortamı, eylemlerin sonuƧlarını ve yüksek deÄerli durumları/eylemleri anlamak iƧin gereken veri miktarı ve kalitesinden kaynaklanmaktadır. İyi eylemler ve durumlar bulmak, ƶzellikle bunlar seyreklerse ve/veya uzun vadeli baÄımlılıklar varsa zordur. Bir pekiÅtirmeli ƶÄrenme ajanı, bunların hepsini bulmak iƧin keÅif yapmalı ve aynı zamanda ƶÄrendiklerini kullanmalıdır. Ayrıca, bu uzayların karmaÅıklıÄı ƶÄrenilen davranıÅları genelleÅtirmeyi zorlaÅtırır, sofistike fonksiyon yaklaÅıklayıcıları gerektirir ve genellikle aÅırı ƶÄrenme ve ƶrnek verimsizliÄi gibi sorunlara yol aƧar. Ayrıca, verilerdeki gürültünün varlıÄı bu zorlukları daha da artırır. Gürültünün etkileri yüksek boyutlu uzaylarda daha belirgin hale gelir. Bunun sebebi ajanın büyük miktarda gürültülü veriden anlamlı ƶrüntüleri ayırt etmek zorunda kalmasıdır ki bu da rastgele dalgalanmaları aÅırı ƶÄrenme riskini artırır. PekiÅtirmeli ƶÄrenme problemleri iƧin doÄru keÅif Ƨok ƶnemlidir, çünkü ƶrnek verimliliÄini artırabilir ve eÄitim süresini kısaltabilir. YƶnlendirilmemiÅ keÅif, ƶzellikle yüksek boyutlu ortamlarda Ƨok ƶrnek verimsizdir. Bu, ƶzellikle ƶdüllerin seyrekliÄi ve durum ve eylem uzaylarının karmaÅıklıÄı nedeniyle ajanların ƶÄrenmekte zorlandıÄı zor-keÅif problemleri (ƶrneÄin Montezuma's Revenge) iƧin geƧerlidir. YƶnlendirilmiÅ keÅif iƧin, zor-keÅif problemlerinin sorunlarıyla baÅa Ƨıkmak iƧin ƶnerilen birkaƧ yaklaÅım vardır. Bu yƶntemlerden biri, "tahmin-hataları"nı iƧsel ƶdüller olarak kullanmaya dayanmaktadır. Tahmin-hata tabanlı yƶntemlerde, bir tahmin (ƶrneÄin, bir sonraki durum, ƶdül) gerƧek gƶzlemlerle karÅılaÅtırılır. Bu ikisi arasındaki farklılık yüksekse, bu tür durumların keÅfinin hatayı azaltmak iƧin gerektiÄi sonucuna varılır. Bu durumların keÅfi, ajan bu durumları ziyaret ettiÄinde ekstra ƶdüller (iƧsel ƶdüller) saÄlanarak teÅvik edilir. Bƶyle bir yaklaÅım, ajanı durum uzayının vaatkar ama az keÅfedilmiÅ kısımlarına yƶnlendirerek belirsizlik karÅısında iyimserlik ilkesini benimser. Ancak, yüksek boyutlu ortamlarda, ƶnemsiz gƶzlemler ve gürültü ajanı yanlıŠyƶnlendirebilir. Yukarıda bahsedilen yüksek boyutlu ve gürültülü/rastgele ortamlardaki sorunları hafifletmenin umut veren yƶntemlerinden bir tanesi daha küçük ama etkili ve saÄlam durum temsilleri ƶÄrenmektir. Bƶyle ideal bir temsil, gürültüye karÅı dayanıklı olacak ve ortamın ƶnemsiz yanlarını gƶz ardı ederken ortamın ƶnemli yƶnlerine odaklanacaktır. Derin sinir aÄlarını kullanmak, zaten bu yƶnde bir adımdır. DiÄer bir potansiyel adım ise, pekiÅtirmeli ƶÄrenmeye ƶz gƶzetimli ƶÄrenmedeki temsil ƶÄrenme hedeflerini eklemektir. Küçük boyutlu durum uzaylarında ƧalıÅmanın hem pekiÅtirmeli ƶÄrenme ajanları hem de keÅif yƶntemleri iƧin arzu edildiÄi gƶzlemi ıÅıÄında, tahmin-hata tabanlı keÅif yƶntemleri iƧin temsil ƶÄrenme yƶntemlerinden destek almanın geƧerli bir Ƨƶzüm olarak gƶründüÄüne inanıyoruz. Bu amaƧla, model ƶngƶrücü keÅif yƶntemleri iƧin yardımcı ƶz gƶzetimli ƶÄrenme hedefi kullanmanın etkisini araÅtırmak iƧin DeÄiÅtirilmiÅ RND yaklaÅımını ƶneriyoruz. Ek olarak, ƶz gƶzetimli ƶÄrenme literatüründen herhangi bir yƶnteme ihtiyaƧ duymadan sadece mimari bir deÄiÅiklikle keÅife ve sƶmürüye ƶzgü temsilleri ƶÄrenerek keÅif performansını arttırmayı amaƧlayan KeÅifsel Dikkat ile ViT yƶntemini de ƶneriyoruz. Ne yazık ki, ƶnerdiÄimiz yƶntemlerle haklı performans artıÅları gƶsteremedik. Sadece belirli koÅullar altında erken eÄitim performansında daha iyi sonuƧlar elde etmeyi baÅardık, ancak bu performans daha sonra denek modellerimizin performansına yakınsadı. Deneysel performanstaki eksikliklere raÄmen, araÅtırmamızın kayda deÄer fikirler sunduÄuna ve ilgili konuların daha iyi anlaÅılmasına hizmet ettiÄine inanıyoruz. ĆalıÅmamızın temsil ƶÄrenme ve politikalı pekiÅtirmeli ƶÄrenmedeki tahmin hatasına dayalı keÅif yƶntemlerinin kesiÅimi ile ilgilenen diÄerleri iƧin deÄerli bir araƧ olabileceÄini düÅünüyoruz.
Yüksek boyutlu durum uzaylarına sahip ortamlarda pekiÅtirmeli ƶÄrenme zordur. Bu, esas olarak, ortamı, eylemlerin sonuƧlarını ve yüksek deÄerli durumları/eylemleri anlamak iƧin gereken veri miktarı ve kalitesinden kaynaklanmaktadır. İyi eylemler ve durumlar bulmak, ƶzellikle bunlar seyreklerse ve/veya uzun vadeli baÄımlılıklar varsa zordur. Bir pekiÅtirmeli ƶÄrenme ajanı, bunların hepsini bulmak iƧin keÅif yapmalı ve aynı zamanda ƶÄrendiklerini kullanmalıdır. Ayrıca, bu uzayların karmaÅıklıÄı ƶÄrenilen davranıÅları genelleÅtirmeyi zorlaÅtırır, sofistike fonksiyon yaklaÅıklayıcıları gerektirir ve genellikle aÅırı ƶÄrenme ve ƶrnek verimsizliÄi gibi sorunlara yol aƧar. Ayrıca, verilerdeki gürültünün varlıÄı bu zorlukları daha da artırır. Gürültünün etkileri yüksek boyutlu uzaylarda daha belirgin hale gelir. Bunun sebebi ajanın büyük miktarda gürültülü veriden anlamlı ƶrüntüleri ayırt etmek zorunda kalmasıdır ki bu da rastgele dalgalanmaları aÅırı ƶÄrenme riskini artırır. PekiÅtirmeli ƶÄrenme problemleri iƧin doÄru keÅif Ƨok ƶnemlidir, çünkü ƶrnek verimliliÄini artırabilir ve eÄitim süresini kısaltabilir. YƶnlendirilmemiÅ keÅif, ƶzellikle yüksek boyutlu ortamlarda Ƨok ƶrnek verimsizdir. Bu, ƶzellikle ƶdüllerin seyrekliÄi ve durum ve eylem uzaylarının karmaÅıklıÄı nedeniyle ajanların ƶÄrenmekte zorlandıÄı zor-keÅif problemleri (ƶrneÄin Montezuma's Revenge) iƧin geƧerlidir. YƶnlendirilmiÅ keÅif iƧin, zor-keÅif problemlerinin sorunlarıyla baÅa Ƨıkmak iƧin ƶnerilen birkaƧ yaklaÅım vardır. Bu yƶntemlerden biri, "tahmin-hataları"nı iƧsel ƶdüller olarak kullanmaya dayanmaktadır. Tahmin-hata tabanlı yƶntemlerde, bir tahmin (ƶrneÄin, bir sonraki durum, ƶdül) gerƧek gƶzlemlerle karÅılaÅtırılır. Bu ikisi arasındaki farklılık yüksekse, bu tür durumların keÅfinin hatayı azaltmak iƧin gerektiÄi sonucuna varılır. Bu durumların keÅfi, ajan bu durumları ziyaret ettiÄinde ekstra ƶdüller (iƧsel ƶdüller) saÄlanarak teÅvik edilir. Bƶyle bir yaklaÅım, ajanı durum uzayının vaatkar ama az keÅfedilmiÅ kısımlarına yƶnlendirerek belirsizlik karÅısında iyimserlik ilkesini benimser. Ancak, yüksek boyutlu ortamlarda, ƶnemsiz gƶzlemler ve gürültü ajanı yanlıŠyƶnlendirebilir. Yukarıda bahsedilen yüksek boyutlu ve gürültülü/rastgele ortamlardaki sorunları hafifletmenin umut veren yƶntemlerinden bir tanesi daha küçük ama etkili ve saÄlam durum temsilleri ƶÄrenmektir. Bƶyle ideal bir temsil, gürültüye karÅı dayanıklı olacak ve ortamın ƶnemsiz yanlarını gƶz ardı ederken ortamın ƶnemli yƶnlerine odaklanacaktır. Derin sinir aÄlarını kullanmak, zaten bu yƶnde bir adımdır. DiÄer bir potansiyel adım ise, pekiÅtirmeli ƶÄrenmeye ƶz gƶzetimli ƶÄrenmedeki temsil ƶÄrenme hedeflerini eklemektir. Küçük boyutlu durum uzaylarında ƧalıÅmanın hem pekiÅtirmeli ƶÄrenme ajanları hem de keÅif yƶntemleri iƧin arzu edildiÄi gƶzlemi ıÅıÄında, tahmin-hata tabanlı keÅif yƶntemleri iƧin temsil ƶÄrenme yƶntemlerinden destek almanın geƧerli bir Ƨƶzüm olarak gƶründüÄüne inanıyoruz. Bu amaƧla, model ƶngƶrücü keÅif yƶntemleri iƧin yardımcı ƶz gƶzetimli ƶÄrenme hedefi kullanmanın etkisini araÅtırmak iƧin DeÄiÅtirilmiÅ RND yaklaÅımını ƶneriyoruz. Ek olarak, ƶz gƶzetimli ƶÄrenme literatüründen herhangi bir yƶnteme ihtiyaƧ duymadan sadece mimari bir deÄiÅiklikle keÅife ve sƶmürüye ƶzgü temsilleri ƶÄrenerek keÅif performansını arttırmayı amaƧlayan KeÅifsel Dikkat ile ViT yƶntemini de ƶneriyoruz. Ne yazık ki, ƶnerdiÄimiz yƶntemlerle haklı performans artıÅları gƶsteremedik. Sadece belirli koÅullar altında erken eÄitim performansında daha iyi sonuƧlar elde etmeyi baÅardık, ancak bu performans daha sonra denek modellerimizin performansına yakınsadı. Deneysel performanstaki eksikliklere raÄmen, araÅtırmamızın kayda deÄer fikirler sunduÄuna ve ilgili konuların daha iyi anlaÅılmasına hizmet ettiÄine inanıyoruz. ĆalıÅmamızın temsil ƶÄrenme ve politikalı pekiÅtirmeli ƶÄrenmedeki tahmin hatasına dayalı keÅif yƶntemlerinin kesiÅimi ile ilgilenen diÄerleri iƧin deÄerli bir araƧ olabileceÄini düÅünüyoruz.
Source
Publisher
KoƧ University
Subject
Reinforcement learning, Computational learning theory, Machine learning, Reinforcement, Learning classifier systems
Citation
Has Part
Source
Book Series Title
Edition
DOI
item.page.datauri
Link
Rights
restrictedAccess
Copyrights Note
© All Rights Reserved. Accessible to Koç University Affiliated Users Only!