Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

Publication:
Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

Files

Primary T_2025_032_GSSE.pdf (1.34 MB)

School / College / Institute

Organizational Unit

GRADUATE SCHOOL OF SCIENCES AND ENGINEERING

Upper Org Unit

Program

Computer Science and Engineering

KU-Authors

Eralp, Egehan

Advisor

Gürsoy, Mehmet Emre

YÖK Thesis ID

944155

Date

2025

Type

Thesis

Embargo Status

No

Alternative Title

Metin sınıflandırma modellerine yönelik arka kapı saldırıları: kapsamlı bir karşılaştırma ve topluluk tabanlı savunmalar.

Abstract

Textual backdoor attacks present a critical threat to the security and trustworthiness of NLP systems by embedding stealthy triggers in training data. Such attacks enable adversaries to manipulate model predictions without harming performance on clean inputs. This thesis provides a comprehensive benchmark study of backdoor attacks targeting text classification models, encompassing both traditional machine learning models (Logistic Regression, Naive Bayes, Decision Tree, Random Forest) and neural architectures (LSTM, DistilBERT, BERT, RoBERTa). We evaluate various attack methods—including AddSent, WordInj, SynBkd, StyleBkd, and BITE—across multiple benchmark datasets (IMDb, SST-2, HateSpeech, Tweet) under varying poison rates (0.5% to 10%). Empirical results reveal that transformer-based models, while achieving high clean accuracy, are especially vulnerable to backdoor triggers. AddSent emerges as the most potent attack, consistently achieving the highest attack success rates (ASRs). Style-transfer attacks (e.g., using Bible or Shakespeare styles) also remain highly effective, often reaching ASRs above 98% at just 3% poison rate. Increasing poison rates amplify both ASR and detectability, posing trade-offs for adversaries and defenders. Traditional models suffer greater drops in clean accuracy at higher poison rates, while transformer models often preserve clean accuracy despite hidden triggers—making them harder to detect in real-world settings. To counter these attacks, we propose ensemble-based defenses that combine multiple model architectures at inference time. Through experimental evaluations, we observe that ensembles of traditional models successfully reduce ASR but also compromise accuracy. Ensembles of transformer models achieve high accuracy, but do not succeed in reducing ASR to acceptable levels. We therefore propose joint ensembles that combine traditional models with modern transformer models. Our approach significantly reduces ASR while maintaining competitive clean accuracy, highlighting the benefits of architectural diversity and serving as a potential defense mechanism for building backdoor-resilient text classification systems.
Metinsel arka kapı saldırıları, eğitim verilerine gizli tetikleyiciler yerleştirerek NLP sistemlerinin güvenliği ve güvenilirliği için kritik bir tehdit oluşturmaktadır. Bu tür saldırılar, saldırganların temiz girdiler üzerindeki performansı etkilemeden model tahminlerini manipüle etmesine olanak tanımaktadır. Bu tez, metin sınıflandırma modellerini hedef alan arka kapı saldırılarına yönelik kapsamlı bir karşılaştırmalı çalışma sunmaktadır; bu çalışma, geleneksel makine öğrenimi modellerini (Lojistik Regresyon, Naive Bayes, Karar Ağacı, Rastgele Orman) ve sinir ağı mimarilerini (LSTM, DistilBERT, BERT, RoBERTa) kapsamaktadır. Çalışmamızda, çeşitli saldırı yöntemlerini — AddSent, WordInj, SynBkd, StyleBkd ve BITE — farklı zehirleme oranları (%0.5 ile %10 arası) altında, çeşitli karşılaştırmalı veri setleri (IMDb, SST-2, HateSpeech, Tweet) üzerinde değerlendirmekteyiz. Ampirik sonuçlarımız, temiz doğruluk oranları yüksek olan transformer tabanlı modellerin, arka kapı tetikleyicilerine karşı özellikle savunmasız olduğunu ortaya koymaktadır. AddSent yöntemi, tutarlı bir şekilde en yüksek saldırı başarı oranlarına (ASR) ulaşarak en güçlü saldırı olarak öne çıkmaktadır. Stil transferi tabanlı saldırılar (örneğin, İncil veya Shakespeare tarzlarının kullanıldığı saldırılar) da oldukça etkili kalmakta ve yalnızca %3 zehirleme oranı ile %98'in üzerinde ASR elde edebilmektedir. Zehirleme oranlarının artırılması hem ASR'yi hem de saldırının tespit edilebilirliğini artırmakta; bu durum, saldırganlar ve savunmacılar açısından önemli bir denge problemi oluşturmaktadır. Geleneksel modeller, yüksek zehirleme oranlarında temiz doğrulukta daha fazla düşüş yaşarken; transformer modeller, gizli tetikleyicilere rağmen genellikle temiz doğruluğu koruyabilmekte — bu da onları gerçek dünya senaryolarında tespit edilmesi daha zor hale getirmektedir. Bu saldırılara karşı koymak için, tahmin (inference) aşamasında birden fazla model mimarisini birleştiren topluluk (ensemble) tabanlı savunmalar önermekteyiz. Deneysel değerlendirmelerimiz sonucunda, geleneksel modellerden oluşan toplulukların ASR'yi başarılı bir şekilde azaltabildiğini ancak aynı zamanda doğrulukta kayıplara yol açtığını gözlemliyoruz. Transformer modellerden oluşan topluluklar ise yüksek doğruluk elde ederken, ASR'yi kabul edilebilir seviyelere düşürmekte başarısız kalmaktadır. Bu nedenle, geleneksel modeller ile modern transformer modelleri bir araya getiren ortak (joint) topluluklar önermekteyiz. Önerdiğimiz yaklaşım, rekabetçi temiz doğruluğu korurken ASR'yi önemli ölçüde azaltmaktadır; bu da mimari çeşitliliğin faydalarını göstermekte ve arka kapı saldırılarına karşı dayanıklı metin sınıflandırma sistemleri geliştirmek için potansiyel bir savunma mekanizması sunmaktadır.

Publisher

Koç University

Subject

Text processing (Computer science), Word processing, Computer algorithms, Artificial intelligence, Computational intelligence, Machine learning

URI

https://hdl.handle.net/20.500.14288/32346

Rights

restrictedAccess

Copyrights Note

Collections

Theses & Dissertations

Full item page

Publication: Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses

Files

Departments

School / College / Institute

Program

KU-Authors

KU Authors

Co-Authors

Editor & Affiliation

Compiler & Affiliation

Translator

Other Contributor

Author

Advisor

YÖK Thesis ID

Date on the IR

Date

Language

Type

Embargo Status

Journal Title

Journal ISSN

Volume Title

Alternative Title

Abstract

Source

Publisher

Subject

Citation

Has Part

Source

Book Series Title

Edition

DOI

URI

item.page.datauri

Link

Rights

Copyrights Note

Collections

Endorsement

Review

Supplemented By

Referenced By

Related Goal

3

Views

0

Downloads

Publication:
Backdoor attacks against text classification models: a comprehensive benchmark and ensemble-based defenses