Publication:
CHA and core discovery on intel chips and generating optimized thread binding

dc.contributor.advisorErten, Didem Unat
dc.contributor.departmentGraduate School of Sciences and Engineering
dc.contributor.kuauthorÖzcan, Aydın
dc.contributor.programComputer Sciences and Engineering
dc.contributor.refereeGürsoy, Mehmet Emre||Yılmazer, Ayşe
dc.contributor.schoolcollegeinstituteGRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatialİstanbul
dc.date.accessioned2025-06-30T04:35:44Z
dc.date.available2025-03-12
dc.date.issued2024
dc.description.abstractIn modern multi-core architectures with distributed directory-based cache coherence, each memory address is overseen by a distributed directory unit, known as a Caching/Home Agent (CHA), that monitors cache line state and location. Neither the CHA nor core locations in a processor are directly exposed to the programmer. In this work, we firstly analyze and compare the methodologies for uncovering both the CHA and core topology of Intel Xeon Scalable processors, as well as the methods to reveal the mapping of memory addresses to CHAs. Leveraging the topology and the address mapping information, we investigate the impact of spatial proximity between communicating cores and CHAs on application performance, and propose a thread mapping heuristic that assigns threads to cores by considering cache coherence traffic. We expect our heuristic to achieve significant performance gains on applications with high amount of on-chip cache coherence traffic due to high percentage of shared written data. We evaluated our heuristic on applications that exhibit high amount of on-chip communication traffic. The heuristic achieves up to 5.6% speedup over compact placement on merge-based SpMV application, up to 8% with an average of around 4.4% on Barnes application, around 25% for Fluidanimate application to simulate 60 frame per second, and lastly approximately 6% for LU across different matrices. We also prove the improved performance is in fact related to reduced on-chip traffic on the mesh.
dc.description.abstractDağıtık dizin temelli önbellek tutarlılığına sahip modern çok çekirdekli bilgisayar mimarilerinde her bir bellek adresi, ona atanmış olan bir dağıtık dizin birimi tarafından yönetilir. Bu birime Önbellekleme/Merkez Aracısı (ÖMA) ismi verilir ve birim, önbellek satırını gözlemler. ÖMA ve çekirdeklerin fiziksel konumları programcılar tarafından bilinmez. Bu çalışmada öncelikle, Intel Xeon işlemciler için ÖMA ve çekirdeklerin konumlarını açığa çıkaran farklı yöntemlerin analizi ve kıyaslaması yapılmıştır. Bununla birlikte bellek adreslerinin ÖMA birimlerine haritalamasını yapan yöntemlerin de analiz ve kıyaslaması yapılmıştır. Topoloji ve adres haritalaması bilgisi kullanılarak, birbiriyle haberleşen çekirdekler ve ÖMA'ların arasındaki fiziksel mesafenin uygulama performansı üzerindeki etkileri üzerine araştırma yapılmıştır. Bu araştırmadan yola çıkarak önbellek tutarlılığını sağlayan trafiği azaltmayı hedefleyen ve iş parçacıklarının çekirdeklere atanmasıyla görevli bir iş parçacığı haritalama algoritması geliştirilmiştir. Geliştirdiğimiz algoritmanın, iş parçacıkları arasında paylaşımlı yazılabilir bilginin yüksek oranda mevcut olduğu uygulamalarda performansı geliştirmesini bekliyoruz. Bu algoritma, yüksek oranda yonga trafiğine sebep olan uygulamalar üzerinde test edilmiştir. Ardışık iş parçacığı haritalamasına kıyasla Seyrek matris-vektör çarpımında %5.6'ya, Barnes'ta %8'e, sıvı akışkanlığı simülasyon uygulamasında %25'e, LU ayrıştırmasında %6'ya varan hızlanmalar sağladığı gözlemlenmiştir.
dc.description.fulltextYes
dc.identifier.embargoNo
dc.identifier.endpage56
dc.identifier.filenameinventorynoT_2024_057_GSSE
dc.identifier.urihttps://hdl.handle.net/20.500.14288/29763
dc.identifier.yoktezid851090
dc.identifier.yoktezlinkhttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=cr4SkWLaRMhkDRBjqthpscF2q44GuVwrGvlTspnWODv9FtGlli2x4LjZ933eKBe6
dc.language.isoeng
dc.publisherKoç University
dc.relation.collectionKU Theses and Dissertations
dc.rightsrestrictedAccess
dc.rights.copyrightsnote© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subjectMicrocomputers
dc.subjectComputer hardware
dc.titleCHA and core discovery on intel chips and generating optimized thread binding
dc.title.alternativeCHA ve çekirdek topolojisiyle uyumlu iş parçacığı haritalaması
dc.typeThesis
dspace.entity.typePublication
local.contributor.kuauthorÖzcan, Aydın
relation.isAdvisorOfThesisf8fda873-fa1c-4b24-9645-38a5a1c40353
relation.isAdvisorOfThesis.latestForDiscoveryf8fda873-fa1c-4b24-9645-38a5a1c40353
relation.isOrgUnitOfPublication3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isOrgUnitOfPublication.latestForDiscovery3fc31c89-e803-4eb1-af6b-6258bc42c3d8
relation.isParentOrgUnitOfPublication434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1
Placeholder
Name:
T_2024_057_GSSE.pdf
Size:
2.78 MB
Format:
Adobe Portable Document Format