Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

Publication:
Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

dc.contributor.advisor	Gürsoy, Mehmet Emre
dc.contributor.kuauthor	Eralp, Egehan
dc.contributor.program	Computer Science and Engineering
dc.contributor.schoolcollegeinstitute	GRADUATE SCHOOL OF SCIENCES AND ENGINEERING
dc.coverage.spatial	İstanbul
dc.date.accessioned	2026-02-23T13:38:32Z
dc.date.issued	2025
dc.description.abstract	Textual backdoor attacks present a critical threat to the security and trustworthiness of NLP systems by embedding stealthy triggers in training data. Such attacks enable adversaries to manipulate model predictions without harming performance on clean inputs. This thesis provides a comprehensive benchmark study of backdoor attacks targeting text classification models, encompassing both traditional machine learning models (Logistic Regression, Naive Bayes, Decision Tree, Random Forest) and neural architectures (LSTM, DistilBERT, BERT, RoBERTa). We evaluate various attack methods—including AddSent, WordInj, SynBkd, StyleBkd, and BITE—across multiple benchmark datasets (IMDb, SST-2, HateSpeech, Tweet) under varying poison rates (0.5% to 10%). Empirical results reveal that transformer-based models, while achieving high clean accuracy, are especially vulnerable to backdoor triggers. AddSent emerges as the most potent attack, consistently achieving the highest attack success rates (ASRs). Style-transfer attacks (e.g., using Bible or Shakespeare styles) also remain highly effective, often reaching ASRs above 98% at just 3% poison rate. Increasing poison rates amplify both ASR and detectability, posing trade-offs for adversaries and defenders. Traditional models suffer greater drops in clean accuracy at higher poison rates, while transformer models often preserve clean accuracy despite hidden triggers—making them harder to detect in real-world settings. To counter these attacks, we propose ensemble-based defenses that combine multiple model architectures at inference time. Through experimental evaluations, we observe that ensembles of traditional models successfully reduce ASR but also compromise accuracy. Ensembles of transformer models achieve high accuracy, but do not succeed in reducing ASR to acceptable levels. We therefore propose joint ensembles that combine traditional models with modern transformer models. Our approach significantly reduces ASR while maintaining competitive clean accuracy, highlighting the benefits of architectural diversity and serving as a potential defense mechanism for building backdoor-resilient text classification systems.
dc.description.abstract	Metinsel arka kapı saldırıları, eğitim verilerine gizli tetikleyiciler yerleştirerek NLP sistemlerinin güvenliği ve güvenilirliği için kritik bir tehdit oluşturmaktadır. Bu tür saldırılar, saldırganların temiz girdiler üzerindeki performansı etkilemeden model tahminlerini manipüle etmesine olanak tanımaktadır. Bu tez, metin sınıflandırma modellerini hedef alan arka kapı saldırılarına yönelik kapsamlı bir karşılaştırmalı çalışma sunmaktadır; bu çalışma, geleneksel makine öğrenimi modellerini (Lojistik Regresyon, Naive Bayes, Karar Ağacı, Rastgele Orman) ve sinir ağı mimarilerini (LSTM, DistilBERT, BERT, RoBERTa) kapsamaktadır. Çalışmamızda, çeşitli saldırı yöntemlerini — AddSent, WordInj, SynBkd, StyleBkd ve BITE — farklı zehirleme oranları (%0.5 ile %10 arası) altında, çeşitli karşılaştırmalı veri setleri (IMDb, SST-2, HateSpeech, Tweet) üzerinde değerlendirmekteyiz. Ampirik sonuçlarımız, temiz doğruluk oranları yüksek olan transformer tabanlı modellerin, arka kapı tetikleyicilerine karşı özellikle savunmasız olduğunu ortaya koymaktadır. AddSent yöntemi, tutarlı bir şekilde en yüksek saldırı başarı oranlarına (ASR) ulaşarak en güçlü saldırı olarak öne çıkmaktadır. Stil transferi tabanlı saldırılar (örneğin, İncil veya Shakespeare tarzlarının kullanıldığı saldırılar) da oldukça etkili kalmakta ve yalnızca %3 zehirleme oranı ile %98'in üzerinde ASR elde edebilmektedir. Zehirleme oranlarının artırılması hem ASR'yi hem de saldırının tespit edilebilirliğini artırmakta; bu durum, saldırganlar ve savunmacılar açısından önemli bir denge problemi oluşturmaktadır. Geleneksel modeller, yüksek zehirleme oranlarında temiz doğrulukta daha fazla düşüş yaşarken; transformer modeller, gizli tetikleyicilere rağmen genellikle temiz doğruluğu koruyabilmekte — bu da onları gerçek dünya senaryolarında tespit edilmesi daha zor hale getirmektedir. Bu saldırılara karşı koymak için, tahmin (inference) aşamasında birden fazla model mimarisini birleştiren topluluk (ensemble) tabanlı savunmalar önermekteyiz. Deneysel değerlendirmelerimiz sonucunda, geleneksel modellerden oluşan toplulukların ASR'yi başarılı bir şekilde azaltabildiğini ancak aynı zamanda doğrulukta kayıplara yol açtığını gözlemliyoruz. Transformer modellerden oluşan topluluklar ise yüksek doğruluk elde ederken, ASR'yi kabul edilebilir seviyelere düşürmekte başarısız kalmaktadır. Bu nedenle, geleneksel modeller ile modern transformer modelleri bir araya getiren ortak (joint) topluluklar önermekteyiz. Önerdiğimiz yaklaşım, rekabetçi temiz doğruluğu korurken ASR'yi önemli ölçüde azaltmaktadır; bu da mimari çeşitliliğin faydalarını göstermekte ve arka kapı saldırılarına karşı dayanıklı metin sınıflandırma sistemleri geliştirmek için potansiyel bir savunma mekanizması sunmaktadır.
dc.description.fulltext	Yes
dc.format.extent	xii; 58 leaves : illustrations ;30 cm.
dc.identifier.embargo	No
dc.identifier.endpage	70
dc.identifier.filenameinventoryno	T_2025_032_GSSE
dc.identifier.uri	https://hdl.handle.net/20.500.14288/32346
dc.identifier.yoktezid	944155
dc.identifier.yoktezlink	https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5NNqZKwwGohPh6_KCcfp-nLi6zQNzC87reYcd_uYqv9MbKfksSzMFlt--jnnzgXP
dc.keywords	Textual backdoor attacks in NLP
dc.keywords	Transformer model vulnerabilities
dc.keywords	Ensemble-based defense strategies
dc.language.iso	eng
dc.publisher	Koç University
dc.relation.collection	Koç University Theses & Dissertations Collection
dc.rights	restrictedAccess
dc.rights.copyrightsnote	© All Rights Reserved. Accessible to Koç University Affiliated Users Only!
dc.subject	Text processing (Computer science)
dc.subject	Word processing
dc.subject	Computer algorithms
dc.subject	Artificial intelligence
dc.subject	Computational intelligence
dc.subject	Machine learning
dc.title	Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses
dc.title.alternative	Metin sınıflandırma modellerine yönelik arka kapı saldırıları: kapsamlı bir karşılaştırma ve topluluk tabanlı savunmalar.
dc.type	Thesis
dcterms.dateAccepted	2025-04-21
dspace.entity.type	Publication
relation.isAdvisorOfThesis	a9bdc1a3-2301-428e-9c3b-57ff24265cac
relation.isAdvisorOfThesis.latestForDiscovery	a9bdc1a3-2301-428e-9c3b-57ff24265cac
relation.isParentOrgUnitOfPublication	434c9663-2b11-4e66-9399-c863e2ebae43
relation.isParentOrgUnitOfPublication.latestForDiscovery	434c9663-2b11-4e66-9399-c863e2ebae43

Files

Original bundle

Now showing 1 - 1 of 1

Name:: T_2025_032_GSSE.pdf
Size:: 1.34 MB
Format:: Adobe Portable Document Format

Download

Collections

Theses & Dissertations

Publication: Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

Files

Original bundle

Collections

Publication:
Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses