Publication:
Investigating the effects of representation learning on exploration in on-policy reinforcement learning

Thumbnail Image

School / College / Institute

Organizational Unit

Program

Computer Sciences and Engineering

KU Authors

Co-Authors

Authors

YƖK Thesis ID

904955

Approval Date

Publication Date

Language

Type

Embargo Status

No

Journal Title

Journal ISSN

Volume Title

Alternative Title

Temsil öğrenmesinin politikalı pekiştirmeli öğrenmedeki keşif üzerindeki etkilerinin incelenmesi

Abstract

Reinforcement Learning (RL) in environments with high-dimensional state spaces is challenging. This is mainly due to the amount and quality of data required to adequately understand the environment, the consequences of actions, and to figure out high-value states/actions. Finding good actions and states, especially if they are sparse and/or there are long-term dependencies, is difficult. An RL agent must explore to find them all the while utilizing what it has learned. Additionally, the complexity of state and action spaces makes it challenging to generalize learned behaviors, requiring sophisticated function approximators and often leading to issues such as overfitting and sample inefficiency. Furthermore, the presence of noise in the data exacerbates these challenges. The effects of noise is more pronounced in high-dimensional spaces because the agent needs to discern meaningful patterns from noisy data, increasing the risk of overfitting to random fluctuations rather than true signals. Proper exploration is crucial for Reinforcement Learning problems as it can increase the sample efficiency and shorten the training time. Unguided exploration is very sample inefficient in high-dimensional settings. This is especially the case for the hard-exploration problems (e.g. Montezuma's Revenge) in which the agents struggle to learn due to the sparsity of the rewards and the complexity of the state and action spaces. There are several approaches for guided exploration, some of which are proposed to deal with the issues of hard-exploration problems. One of these methods is based on using "prediction-errors" as intrinsic rewards. In prediction-error based methods, a prediction (e.g. next state, reward) is compared against the actual observations. If the discrepancy between those two is high, one concludes that further exploration of such states is required to decrease the error. Exploration of these states is encouraged by providing extra rewards (intrinsic rewards) when the agent visits them. Such an approach adopts the optimism in the face of uncertainty principle by guiding the agent to the promising yet under-explored parts of the state space. However, in high-dimensional environments, unimportant observations and noise can lead the agent astray. One promising direction to alleviate these aforementioned issues in high-dimensional and noisy/stochastic environments is learning smaller yet effective and robust state representations. Such an ideal latent representation would be robust to noise and focus on the important aspects of the environment while ignoring the unimportant ones. Utilizing deep neural networks is already a step in this direction. Another potential step is borrowing auxiliary representation learning objectives from self-supervised learning to augment RL. In light of the observation that operating under small-dimensional state spaces is desirable for both the reinforcement learning agents and the exploration methods, we believe that for prediction-error based exploration methods, receiving support from representation learning methods appears as a viable solution. To this end we propose the Modified RND approach to investigate the effect of using an auxiliary self-supervised learning (SSL) loss for the model-predictive exploration methods. Additionally, we also propose the ViT with Explorative Attention method which aims to improve exploration performance by learning exploration and exploitation specific representations with just an architectural change without requiring any method from the self-supervised learning literature. Unfortunately, with our proposed methods we have failed to show justifiable performance gains. Only under certain circumstances we have managed to obtain better early training performance which later converged to the performance of our baseline models. Despite its short comings in empirical performance, we still believe that our work presents noteworthy ideas and serves to further one's understanding of the subject. We believe that our work may be a valuable tool to others who are also interested in the intersection of representation learning and prediction-error based on-policy exploration methods in reinforcement learning.
Yüksek boyutlu durum uzaylarına sahip ortamlarda pekiştirmeli öğrenme zordur. Bu, esas olarak, ortamı, eylemlerin sonuƧlarını ve yüksek değerli durumları/eylemleri anlamak iƧin gereken veri miktarı ve kalitesinden kaynaklanmaktadır. İyi eylemler ve durumlar bulmak, ƶzellikle bunlar seyreklerse ve/veya uzun vadeli bağımlılıklar varsa zordur. Bir pekiştirmeli öğrenme ajanı, bunların hepsini bulmak iƧin keşif yapmalı ve aynı zamanda öğrendiklerini kullanmalıdır. Ayrıca, bu uzayların karmaşıklığı öğrenilen davranışları genelleştirmeyi zorlaştırır, sofistike fonksiyon yaklaşıklayıcıları gerektirir ve genellikle aşırı öğrenme ve ƶrnek verimsizliği gibi sorunlara yol aƧar. Ayrıca, verilerdeki gürültünün varlığı bu zorlukları daha da artırır. Gürültünün etkileri yüksek boyutlu uzaylarda daha belirgin hale gelir. Bunun sebebi ajanın büyük miktarda gürültülü veriden anlamlı ƶrüntüleri ayırt etmek zorunda kalmasıdır ki bu da rastgele dalgalanmaları aşırı öğrenme riskini artırır. Pekiştirmeli öğrenme problemleri iƧin doğru keşif Ƨok ƶnemlidir, çünkü ƶrnek verimliliğini artırabilir ve eğitim süresini kısaltabilir. Yƶnlendirilmemiş keşif, ƶzellikle yüksek boyutlu ortamlarda Ƨok ƶrnek verimsizdir. Bu, ƶzellikle ƶdüllerin seyrekliği ve durum ve eylem uzaylarının karmaşıklığı nedeniyle ajanların öğrenmekte zorlandığı zor-keşif problemleri (ƶrneğin Montezuma's Revenge) iƧin geƧerlidir. Yƶnlendirilmiş keşif iƧin, zor-keşif problemlerinin sorunlarıyla başa Ƨıkmak iƧin ƶnerilen birkaƧ yaklaşım vardır. Bu yƶntemlerden biri, "tahmin-hataları"nı iƧsel ƶdüller olarak kullanmaya dayanmaktadır. Tahmin-hata tabanlı yƶntemlerde, bir tahmin (ƶrneğin, bir sonraki durum, ƶdül) gerƧek gƶzlemlerle karşılaştırılır. Bu ikisi arasındaki farklılık yüksekse, bu tür durumların keşfinin hatayı azaltmak iƧin gerektiği sonucuna varılır. Bu durumların keşfi, ajan bu durumları ziyaret ettiğinde ekstra ƶdüller (iƧsel ƶdüller) sağlanarak teşvik edilir. Bƶyle bir yaklaşım, ajanı durum uzayının vaatkar ama az keşfedilmiş kısımlarına yƶnlendirerek belirsizlik karşısında iyimserlik ilkesini benimser. Ancak, yüksek boyutlu ortamlarda, ƶnemsiz gƶzlemler ve gürültü ajanı yanlış yƶnlendirebilir. Yukarıda bahsedilen yüksek boyutlu ve gürültülü/rastgele ortamlardaki sorunları hafifletmenin umut veren yƶntemlerinden bir tanesi daha küçük ama etkili ve sağlam durum temsilleri öğrenmektir. Bƶyle ideal bir temsil, gürültüye karşı dayanıklı olacak ve ortamın ƶnemsiz yanlarını gƶz ardı ederken ortamın ƶnemli yƶnlerine odaklanacaktır. Derin sinir ağlarını kullanmak, zaten bu yƶnde bir adımdır. Diğer bir potansiyel adım ise, pekiştirmeli öğrenmeye ƶz gƶzetimli öğrenmedeki temsil öğrenme hedeflerini eklemektir. Küçük boyutlu durum uzaylarında Ƨalışmanın hem pekiştirmeli öğrenme ajanları hem de keşif yƶntemleri iƧin arzu edildiği gƶzlemi ışığında, tahmin-hata tabanlı keşif yƶntemleri iƧin temsil öğrenme yƶntemlerinden destek almanın geƧerli bir Ƨƶzüm olarak gƶründüğüne inanıyoruz. Bu amaƧla, model ƶngƶrücü keşif yƶntemleri iƧin yardımcı ƶz gƶzetimli öğrenme hedefi kullanmanın etkisini araştırmak iƧin Değiştirilmiş RND yaklaşımını ƶneriyoruz. Ek olarak, ƶz gƶzetimli öğrenme literatüründen herhangi bir yƶnteme ihtiyaƧ duymadan sadece mimari bir değişiklikle keşife ve sƶmürüye ƶzgü temsilleri öğrenerek keşif performansını arttırmayı amaƧlayan Keşifsel Dikkat ile ViT yƶntemini de ƶneriyoruz. Ne yazık ki, ƶnerdiğimiz yƶntemlerle haklı performans artışları gƶsteremedik. Sadece belirli koşullar altında erken eğitim performansında daha iyi sonuƧlar elde etmeyi başardık, ancak bu performans daha sonra denek modellerimizin performansına yakınsadı. Deneysel performanstaki eksikliklere rağmen, araştırmamızın kayda değer fikirler sunduğuna ve ilgili konuların daha iyi anlaşılmasına hizmet ettiğine inanıyoruz. Ƈalışmamızın temsil öğrenme ve politikalı pekiştirmeli öğrenmedeki tahmin hatasına dayalı keşif yƶntemlerinin kesişimi ile ilgilenen diğerleri iƧin değerli bir araƧ olabileceğini düşünüyoruz.

Source

Publisher

KoƧ University

Subject

Reinforcement learning, Computational learning theory, Machine learning, Reinforcement, Learning classifier systems

Citation

Has Part

Source

Book Series Title

Edition

DOI

item.page.datauri

Link

Rights

restrictedAccess

Copyrights Note

© All Rights Reserved. Accessible to Koç University Affiliated Users Only!

Endorsement

Review

Supplemented By

Referenced By

0

Views

0

Downloads