Publication:
Dataset cartography for compositional generalization

Thumbnail Image

Departments

School / College / Institute

Organizational Unit

Program

Computer Sciences and Engineering

KU Authors

Co-Authors

Authors

YÖK Thesis ID

904945

Approval Date

Publication Date

Language

Type

Embargo Status

No

Journal Title

Journal ISSN

Volume Title

Alternative Title

Bileşimsel genelleme için veri kümesi haritalama

Abstract

Neural networks have revolutionized language modelling and excelled in various downstream tasks. However, the extent to which these models achieve compositional generalization comparable to human cognitive abilities remains debatable. While existing approaches in the field have mainly focused on novel architectures and alternative learning paradigms, we introduce a pioneering method harnessing the power of dataset cartography [Swayamdipta et al., 2020]. By strategically identifying a subset of compositional generalization data using this approach, we achieve a remarkable improvement in model accuracy, yielding enhancements of up to 10% on CFQ and COGS datasets. Notably, our technique incorporates dataset cartography as a curriculum learning criterion, eliminating the need for hyperparameter tuning while consistently achieving superior performance. Moreover, as the data becomes the bottleneck in the current large language model (LLM) pipeline, covering every possible combination of known words or phrases becomes infeasible. Therefore, we focus on compositional generalization in LLMs to help LLMs process the combinations of unseen language parts faithfully. We expand the previously described setting above to LLMs and propose a new diversity-aware subset selection method named DiCart, a fusion of dataset cartography and determinantal point processes. DiCart results in better or on-par compositional generalization than baselines and even the full training set.
Sinir ağları dil modellemeyi devrim niteliğinde değiştirerek çeşitli ardıl görevlerde üstün başarı göstermiştir. Ancak, bu modellerin insan bilişsel yeteneklerine benzer bileşimsel genelleme elde etme derecesi tartışmalıdır. Alandaki mevcut yaklaşımlar ağırlıklı olarak yeni mimarilere ve alternatif öğrenme paradigmalarına odaklanmışken, biz veri kümesi haritalamanın gücünden yararlanan öncü bir yöntem tanıtıyoruz [Swayamdipta et al., 2020]. Bu yaklaşımı kullanıp bileşimsel genelleme verilerinin bir alt kümesini stratejik olarak belirleyerek, model doğruluğunda dikkate değer bir iyileşme sağladık ve CFQ ve COGS veri kümelerinde %10'a varan gelişmeler elde ettik. Özellikle, tekniğimiz veri kümesi haritalamayı bir müfredat öğrenme kriteri olarak da içererek hiperparametre ayarlamasına gerek kalmadan sürekli olarak üstün performans elde edilmesini sağlıyor. Ayrıca, veri mevcut büyük dil modeli (BDM) çerçevesinde darboğaz haline geldiğinden, bilinen kelime veya ifadelerin her olası kombinasyonunu kapsamak imkansız hale gelmektedir. Bu nedenle, BDM'lerin bilinmeyen dil parçalarının kombinasyonlarını doğru bir şekilde işlemelerine yardımcı olmak için bileşimsel genellemeye odaklanıyoruz. Az önce tanımlanan çalışmayı BDM'lere genişletiyor ve veri kümesi haritalama ile determinant nokta süreçlerinin bir birleşimi olan yeni bir çeşitlilik farkındalığına sahip alt küme seçme yöntemi olan DiCart'ı sunuyoruz. DiCart, kıyaslanan tekniklere ve hatta tam eğitim kümesine kıyasla daha iyi veya benzer bileşimsel genelleme performansı sağlıyor.

Source

Publisher

Koç University

Subject

Neural networks, Language modelling

Citation

Has Part

Source

Book Series Title

Edition

DOI

item.page.datauri

Link

Rights

restrictedAccess

Copyrights Note

© All Rights Reserved. Accessible to Koç University Affiliated Users Only!

Endorsement

Review

Supplemented By

Referenced By

0

Views

0

Downloads