Publication:
Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

dc.contributor.advisorGürsoy, Mehmet Emre
dc.contributor.kuauthorEralp, Egehan
dc.contributor.programComputer Science and Engineering
dc.contributor.schoolcollegeinstituteGRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatialİstanbul
dc.date.accessioned2026-02-23T13:38:32Z
dc.date.issued2025
dc.description.abstractTextual backdoor attacks present a critical threat to the security and trustworthiness of NLP systems by embedding stealthy triggers in training data. Such attacks enable adversaries to manipulate model predictions without harming performance on clean inputs. This thesis provides a comprehensive benchmark study of backdoor attacks targeting text classification models, encompassing both traditional machine learning models (Logistic Regression, Naive Bayes, Decision Tree, Random Forest) and neural architectures (LSTM, DistilBERT, BERT, RoBERTa). We evaluate various attack methods—including AddSent, WordInj, SynBkd, StyleBkd, and BITE—across multiple benchmark datasets (IMDb, SST-2, HateSpeech, Tweet) under varying poison rates (0.5% to 10%). Empirical results reveal that transformer-based models, while achieving high clean accuracy, are especially vulnerable to backdoor triggers. AddSent emerges as the most potent attack, consistently achieving the highest attack success rates (ASRs). Style-transfer attacks (e.g., using Bible or Shakespeare styles) also remain highly effective, often reaching ASRs above 98% at just 3% poison rate. Increasing poison rates amplify both ASR and detectability, posing trade-offs for adversaries and defenders. Traditional models suffer greater drops in clean accuracy at higher poison rates, while transformer models often preserve clean accuracy despite hidden triggers—making them harder to detect in real-world settings. To counter these attacks, we propose ensemble-based defenses that combine multiple model architectures at inference time. Through experimental evaluations, we observe that ensembles of traditional models successfully reduce ASR but also compromise accuracy. Ensembles of transformer models achieve high accuracy, but do not succeed in reducing ASR to acceptable levels. We therefore propose joint ensembles that combine traditional models with modern transformer models. Our approach significantly reduces ASR while maintaining competitive clean accuracy, highlighting the benefits of architectural diversity and serving as a potential defense mechanism for building backdoor-resilient text classification systems.
dc.description.abstractMetinsel arka kapı saldırıları, eğitim verilerine gizli tetikleyiciler yerleştirerek NLP sistemlerinin güvenliği ve güvenilirliği için kritik bir tehdit oluşturmaktadır. Bu tür saldırılar, saldırganların temiz girdiler üzerindeki performansı etkilemeden model tahminlerini manipüle etmesine olanak tanımaktadır. Bu tez, metin sınıflandırma modellerini hedef alan arka kapı saldırılarına yönelik kapsamlı bir karşılaştırmalı çalışma sunmaktadır; bu çalışma, geleneksel makine öğrenimi modellerini (Lojistik Regresyon, Naive Bayes, Karar Ağacı, Rastgele Orman) ve sinir ağı mimarilerini (LSTM, DistilBERT, BERT, RoBERTa) kapsamaktadır. Çalışmamızda, çeşitli saldırı yöntemlerini — AddSent, WordInj, SynBkd, StyleBkd ve BITE — farklı zehirleme oranları (%0.5 ile %10 arası) altında, çeşitli karşılaştırmalı veri setleri (IMDb, SST-2, HateSpeech, Tweet) üzerinde değerlendirmekteyiz. Ampirik sonuçlarımız, temiz doğruluk oranları yüksek olan transformer tabanlı modellerin, arka kapı tetikleyicilerine karşı özellikle savunmasız olduğunu ortaya koymaktadır. AddSent yöntemi, tutarlı bir şekilde en yüksek saldırı başarı oranlarına (ASR) ulaşarak en güçlü saldırı olarak öne çıkmaktadır. Stil transferi tabanlı saldırılar (örneğin, İncil veya Shakespeare tarzlarının kullanıldığı saldırılar) da oldukça etkili kalmakta ve yalnızca %3 zehirleme oranı ile %98'in üzerinde ASR elde edebilmektedir. Zehirleme oranlarının artırılması hem ASR'yi hem de saldırının tespit edilebilirliğini artırmakta; bu durum, saldırganlar ve savunmacılar açısından önemli bir denge problemi oluşturmaktadır. Geleneksel modeller, yüksek zehirleme oranlarında temiz doğrulukta daha fazla düşüş yaşarken; transformer modeller, gizli tetikleyicilere rağmen genellikle temiz doğruluğu koruyabilmekte — bu da onları gerçek dünya senaryolarında tespit edilmesi daha zor hale getirmektedir. Bu saldırılara karşı koymak için, tahmin (inference) aşamasında birden fazla model mimarisini birleştiren topluluk (ensemble) tabanlı savunmalar önermekteyiz. Deneysel değerlendirmelerimiz sonucunda, geleneksel modellerden oluşan toplulukların ASR'yi başarılı bir şekilde azaltabildiğini ancak aynı zamanda doğrulukta kayıplara yol açtığını gözlemliyoruz. Transformer modellerden oluşan topluluklar ise yüksek doğruluk elde ederken, ASR'yi kabul edilebilir seviyelere düşürmekte başarısız kalmaktadır. Bu nedenle, geleneksel modeller ile modern transformer modelleri bir araya getiren ortak (joint) topluluklar önermekteyiz. Önerdiğimiz yaklaşım, rekabetçi temiz doğruluğu korurken ASR'yi önemli ölçüde azaltmaktadır; bu da mimari çeşitliliğin faydalarını göstermekte ve arka kapı saldırılarına karşı dayanıklı metin sınıflandırma sistemleri geliştirmek için potansiyel bir savunma mekanizması sunmaktadır.
dc.description.fulltextYes
dc.format.extentxii; 58 leaves : illustrations ;30 cm.
dc.identifier.embargoNo
dc.identifier.endpage70
dc.identifier.filenameinventorynoT_2025_032_GSSE
dc.identifier.urihttps://hdl.handle.net/20.500.14288/32346
dc.identifier.yoktezid944155
dc.identifier.yoktezlinkhttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5NNqZKwwGohPh6_KCcfp-nLi6zQNzC87reYcd_uYqv9MbKfksSzMFlt--jnnzgXP
dc.keywordsTextual backdoor attacks in NLP
dc.keywordsTransformer model vulnerabilities
dc.keywordsEnsemble-based defense strategies
dc.language.isoeng
dc.publisherKoç University
dc.relation.collectionKoç University Theses & Dissertations Collection
dc.rightsrestrictedAccess
dc.rights.copyrightsnote© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subjectText processing (Computer science)
dc.subjectWord processing
dc.subjectComputer algorithms
dc.subjectArtificial intelligence
dc.subjectComputational intelligence
dc.subjectMachine learning
dc.titleBackdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses
dc.title.alternativeMetin sınıflandırma modellerine yönelik arka kapı saldırıları: kapsamlı bir karşılaştırma ve topluluk tabanlı savunmalar.
dc.typeThesis
dcterms.dateAccepted2025-04-21
dspace.entity.typePublication
relation.isAdvisorOfThesisa9bdc1a3-2301-428e-9c3b-57ff24265cac
relation.isAdvisorOfThesis.latestForDiscoverya9bdc1a3-2301-428e-9c3b-57ff24265cac
relation.isParentOrgUnitOfPublication434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1
Placeholder
Name:
T_2025_032_GSSE.pdf
Size:
1.34 MB
Format:
Adobe Portable Document Format