Publication:
Grounding language in motor space : exploring robot action learning and control from proprioception

dc.contributor.advisorYüret, Deniz
dc.contributor.departmentGraduate School of Sciences and Engineering
dc.contributor.kuauthorMaster Student, Açıkgöz, Emre Can
dc.contributor.programComputer Sciences and Engineering
dc.contributor.refereeErkut, Erdem||Akgün, Barış
dc.contributor.schoolcollegeinstituteGRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatialİstanbul
dc.date.accessioned2025-06-30T04:36:13Z
dc.date.available2025-03-25
dc.date.issued2024
dc.description.abstractLanguage development, particularly in its early stages, is deeply correlated with sensory-motor experiences. For instance, babies develop progressively via unsupervised exploration and incremental learning, such as labeling the action of “walking” by first discovering to move their legs via trial and error. Drawing inspiration from this developmental process, our study explores robot action learning by trying to map linguistic meaning onto non-linguistic experiences in autonomous agents, specifically for a 7-DoF robot arm. While current grounded language learning (GLL) in robotics emphasizes visual grounding, our focus is on grounding language in a robot’s internal motor space. We investigate this through two key aspects: Robot Action Classification and Language-Guided Robot Control, both within a ‘Blind Robot’ scenario by relying solely on proprioceptive information without any visual input in pixel space. In Robot Action Classification, we enable robots to understand and categorize their actions using internal sensory data by leveraging Self-Supervised Learning (SSL) through pretraining an Action Decoder for better state representation. Our SSL-based approach significantly surpasses other baselines, particularly in scenarios with limited data. Conversely, Language-Guided Robot Control poses a greater challenge by requiring robots to follow natural language instructions, interpret linguistic commands, generate a sequence of actions, and continuously interact with the environment. To achieve that, we utilize another Action Decoder pre trained on sensory state data and then fine-tune it alongside a Large Language Model (LLM) for better linguistic reasoning abilities. This integration enables the robot arm to execute language-guided manipulation tasks in real time. We validated our approach using the popular CALVIN Benchmark, where our methodology based on SSL significantly outperformed traditional architectures, particularly in low-data scenarios on action classification. Moreover, in the instruction following tasks, our Action Decoder-based framework achieved on-par results with large Vision-Language Models (VLMs) in the CALVIN table-top environment. Our results underscore the importance of robust state representations and the potential of the robot’s internal motor space for learning embodied tasks.
dc.description.abstractDil gelişimi, özellikle erken evrelerinde, duyusal-motor deneyimlerle derinden ilişkilidir. Örneğin, bebekler denetimsiz keşif ve aşamalı ögrenme yoluyla aşamalı olarak gelişir; ilk önce deneme yanılma yoluyla bacaklarını hareket ettirmeyi keşfederek “yürüme” eylemini etiketlemek gibi. Bu gelişim sürecinden ilham alan çalışmamız, özellikle 7 serbestlik dereceli bir robot kolu için otonom robotlarda dilsel anlamı dilsel olmayan deneyimlerle eşleştirmeye çalısarak robot eylem ögrenimini araştırmaktadır. Robotik alandaki mevcut Temellendirilmis Dil Ögrenimi (TDÖ) genelde görsel temellendirmeyi vurgularken, bizim odak noktamız dili bir robotun iç motor alanında temellendirmektir. Bunu iki temel açıdan araştırıyoruz: Robot Eylem Sınıflandırması ve Dil Kılavuzlu Robot Kontrolü, her ikisi de piksel uzayında herhangi bir görsel girdi olmadan yalnızca propriyoseptif bilgilere dayanarak bir ‘Kör Robot’ senaryosu içinde inceleniyor. Robot Eylem Sınıflandırmasında, daha iyi durum temsili için bir Eylem Çözücünün ön-eğitimi yoluyla Kendi Kendine Denetimli Öğrenmeden (KKDÖ) yararlanarak robotların duyusal verilerini kullanarak eylemlerini anlamalarını ve kategorize etmelerini sağlıyoruz. KKDÖ tabanlı yaklaşımımız, özellikle sınırlı veriye sahip senaryolarda diğer temel kalıpları önemli ölçüde aşmaktadır. Buna karşılık, Dil Güdümlü Robot Kontrolü, robotların doğal dil talimatlarını takip etmesini, dilsel komutları yorumlamasını, bir dizi eylemi oluşturmasını ve çevre ile sürekli etkileşimde bulunmasını gerektirerek daha büyük bir zorluk teşkil etmektedir.
dc.description.fulltextYes
dc.format.extentxvii, 63 leaves : illustrations ; 30 cm.
dc.identifier.embargoNo
dc.identifier.endpage80
dc.identifier.filenameinventorynoT_2024_142_GSSE
dc.identifier.urihttps://hdl.handle.net/20.500.14288/29806
dc.identifier.yoktezid904947
dc.identifier.yoktezlinkhttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=LY6e5xGA7WWUpEdrBmEPLn5trergyGB8pMdtt2qT_x9nC5DLFy0JnmDIyj3EuBjp
dc.language.isoeng
dc.publisherKoç University
dc.relation.collectionKU Theses and Dissertations
dc.rightsrestrictedAccess
dc.rights.copyrightsnote© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subjectComputational intelligence
dc.subjectMachine learning
dc.subjectComputer vision, Mathematical models
dc.subjectNatural language processing (Computer science)
dc.subjectArtificial intelligence
dc.titleGrounding language in motor space : exploring robot action learning and control from proprioception
dc.title.alternativeDil öğrenimini robot motor alanında temellendirme: propriyorsepsiyondan robot eylem öğrenimi ve kontrolünü keşfetmek
dc.typeThesis
dspace.entity.typePublication
local.contributor.kuauthorAçıkgöz, Emre Can
relation.isAdvisorOfThesis6409f975-f3c1-4a10-97fa-bab14b222e08
relation.isAdvisorOfThesis.latestForDiscovery6409f975-f3c1-4a10-97fa-bab14b222e08
relation.isParentOrgUnitOfPublication434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1
Placeholder
Name:
T_2024_142_GSSE.pdf
Size:
9.43 MB
Format:
Adobe Portable Document Format