Publication:
Dataset cartography for compositional generalization

dc.contributor.advisorErdem, Aykut
dc.contributor.departmentGraduate School of Sciences and Engineering
dc.contributor.kuauthorİnce, Osman Batur
dc.contributor.programComputer Sciences and Engineering
dc.contributor.refereeGüngör, Tunga||Şahin, Gözde Gül
dc.contributor.schoolcollegeinstituteGRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatialİstanbul
dc.date.accessioned2025-06-30T04:35:36Z
dc.date.available2025-03-10
dc.date.issued2024
dc.description.abstractNeural networks have revolutionized language modelling and excelled in various downstream tasks. However, the extent to which these models achieve compositional generalization comparable to human cognitive abilities remains debatable. While existing approaches in the field have mainly focused on novel architectures and alternative learning paradigms, we introduce a pioneering method harnessing the power of dataset cartography [Swayamdipta et al., 2020]. By strategically identifying a subset of compositional generalization data using this approach, we achieve a remarkable improvement in model accuracy, yielding enhancements of up to 10% on CFQ and COGS datasets. Notably, our technique incorporates dataset cartography as a curriculum learning criterion, eliminating the need for hyperparameter tuning while consistently achieving superior performance. Moreover, as the data becomes the bottleneck in the current large language model (LLM) pipeline, covering every possible combination of known words or phrases becomes infeasible. Therefore, we focus on compositional generalization in LLMs to help LLMs process the combinations of unseen language parts faithfully. We expand the previously described setting above to LLMs and propose a new diversity-aware subset selection method named DiCart, a fusion of dataset cartography and determinantal point processes. DiCart results in better or on-par compositional generalization than baselines and even the full training set.
dc.description.abstractSinir ağları dil modellemeyi devrim niteliğinde değiştirerek çeşitli ardıl görevlerde üstün başarı göstermiştir. Ancak, bu modellerin insan bilişsel yeteneklerine benzer bileşimsel genelleme elde etme derecesi tartışmalıdır. Alandaki mevcut yaklaşımlar ağırlıklı olarak yeni mimarilere ve alternatif öğrenme paradigmalarına odaklanmışken, biz veri kümesi haritalamanın gücünden yararlanan öncü bir yöntem tanıtıyoruz [Swayamdipta et al., 2020]. Bu yaklaşımı kullanıp bileşimsel genelleme verilerinin bir alt kümesini stratejik olarak belirleyerek, model doğruluğunda dikkate değer bir iyileşme sağladık ve CFQ ve COGS veri kümelerinde %10'a varan gelişmeler elde ettik. Özellikle, tekniğimiz veri kümesi haritalamayı bir müfredat öğrenme kriteri olarak da içererek hiperparametre ayarlamasına gerek kalmadan sürekli olarak üstün performans elde edilmesini sağlıyor. Ayrıca, veri mevcut büyük dil modeli (BDM) çerçevesinde darboğaz haline geldiğinden, bilinen kelime veya ifadelerin her olası kombinasyonunu kapsamak imkansız hale gelmektedir. Bu nedenle, BDM'lerin bilinmeyen dil parçalarının kombinasyonlarını doğru bir şekilde işlemelerine yardımcı olmak için bileşimsel genellemeye odaklanıyoruz. Az önce tanımlanan çalışmayı BDM'lere genişletiyor ve veri kümesi haritalama ile determinant nokta süreçlerinin bir birleşimi olan yeni bir çeşitlilik farkındalığına sahip alt küme seçme yöntemi olan DiCart'ı sunuyoruz. DiCart, kıyaslanan tekniklere ve hatta tam eğitim kümesine kıyasla daha iyi veya benzer bileşimsel genelleme performansı sağlıyor.
dc.description.fulltextYes
dc.identifier.embargoNo
dc.identifier.endpage84
dc.identifier.filenameinventorynoT_2024_046_GSSE
dc.identifier.urihttps://hdl.handle.net/20.500.14288/29742
dc.identifier.yoktezid904945
dc.identifier.yoktezlinkhttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=LY6e5xGA7WWUpEdrBmEPLrYJ2N_nm_8jp2lSa4xpOUwGzuf3Q86-OwTg46woREAs
dc.language.isoeng
dc.publisherKoç University
dc.relation.collectionKU Theses and Dissertations
dc.rightsrestrictedAccess
dc.rights.copyrightsnote© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subjectNeural networks
dc.subjectLanguage modelling
dc.titleDataset cartography for compositional generalization
dc.title.alternativeBileşimsel genelleme için veri kümesi haritalama
dc.typeThesis
dspace.entity.typePublication
local.contributor.kuauthorİnce, Osman Batur
relation.isAdvisorOfThesis3ee9e0f2-f116-44b7-889f-e84f9af786e4
relation.isAdvisorOfThesis.latestForDiscovery3ee9e0f2-f116-44b7-889f-e84f9af786e4
relation.isOrgUnitOfPublication3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isOrgUnitOfPublication.latestForDiscovery3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isParentOrgUnitOfPublication434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1
Placeholder
Name:
T_2024_046_GSSE.pdf
Size:
5.61 MB
Format:
Adobe Portable Document Format