Publication:
Online text classification for real life tweet analysis

dc.contributor.coauthorYar, Ersin
dc.contributor.coauthorKozat, Süleyman S.
dc.contributor.departmentN/A
dc.contributor.departmentDepartment of Media and Visual Arts
dc.contributor.kuauthorDelibalta, İbrahim
dc.contributor.kuauthorBaruh, Lemi
dc.contributor.kuprofilePhD Student
dc.contributor.kuprofileFaculty Member
dc.contributor.otherDepartment of Media and Visual Arts
dc.contributor.schoolcollegeinstituteGraduate School of Social Sciences and Humanities
dc.contributor.schoolcollegeinstituteCollege of Social Sciences and Humanities
dc.contributor.yokidN/A
dc.contributor.yokid36113
dc.date.accessioned2024-11-09T23:37:49Z
dc.date.issued2016
dc.description.abstractIn this paper, we study multi-class classification of tweets, where we introduce highly efficient dimensionality reduction techniques suitable for online processing of high dimensional feature vectors generated from freely-worded text. As for the real life case study, we work on tweets in the Turkish language, however, our methods are generic and can be used for other languages as clearly explained in the paper. Since we work on a real life application and the tweets are freely worded, we introduce text correction, normalization and root finding algorithms. Although text processing and classification are highly important due to many applications such as emotion recognition, advertisement selection, etc., online classification and regression algorithms over text are limited due to need for high dimensional vectors to represent natural text inputs. We overcome such limitations by showing that randomized projections and piecewise linear models can be efficiently leveraged to significantly reduce the computational cost for feature vector extraction from the tweets. Hence, we can perform multi-class tweet classification and regression in real time. We demonstrate our results over tweets collected from a real life case study where the tweets are freely-worded, e.g., with emoticons, shortened words, special characters, etc., and are unstructured. We implement several well-known machine learning algorithms as well as novel regression methods and demonstrate that we can significantly reduce the computational complexity with insignificant change in the classification and regression performance./ Öz: Serbestçe kelimelere dökülmüş metinden üretilen yüksek boyutlu öznitelik vektörlerinin çevrimiçi işlenmesine uygun son derece etkin boyut azaltıcı tekniklerin tanıtıldıgı bu bildiride tweetlerin çok sınıflı sınıflandırması incelenmektedir. Gerçek hayat çalışması olarak, Türk dilindeki tweetler üzerinde çalışılmaktadır. Ancak, kullanılan yöntemler bildiride açıklandığı üzere geneldir ve diğer diller içinde kullanılabilir. Gerçek hayat uygulaması üzerinde çalışıldığından ve tweetlerin serbestçe yazılmış olmasından dolayı, metin düzeltme, düzgeleme ve kök bulma algoritmaları uygulanır. Metin işleme ve sınıflandırma duygu tanıması, reklam seçimi vb. gibi birçok uygulamada yüksek derecede önemli olmasına rağmen çevrimiçi metin sınıflandırma ve regresyon algoritmaları doğal metin girdilerini gösterimlemek için yüksek boyutlu vektörlere olan ihtiyaçtan dolayı sınırlıdır. Bu gibi kısıtlamaların üstesinden özellik vektörü özütlemesi için hesaplama maliyetini ciddi ölçüde azaltan rasgeleleştirilmiş izdüşümler ve parçalı doğrusal modelleri etkin bir biçimde kullanılarak gelinebilir. Bu sayede, gerçek zamanlı çok sınıflı tweet sınıflandırması ve regresyonu yapılabilir. Sonuçlar gerçek bir hayat çalışmasından toplanan serbestçe yazılmış yani ifadeler, kısaltılmış kelimeler, özel karakterler vb. ile ve düzensiz olan tweetler kullanılarak gösterilmektedir. Özgün regresyon yöntemleri ile iyi bilinen makine öğrenimi algoritmaları uygulanır ve sınıflandırma ve regresyon performansında önemli değişiklik olmadan hesaplama karma¸sıklığın önemli ölçüde azaltıldığı gös- terilir.
dc.description.indexedbyWoS
dc.description.indexedbyScopus
dc.description.openaccessYES
dc.description.publisherscopeInternational
dc.identifier.doi10.1109/SIU.2016.7496063
dc.identifier.isbn9781-5090-1679-2
dc.identifier.linkhttps://www.scopus.com/inward/record.uri?eid=2-s2.0-84982823953&doi=10.1109%2fSIU.2016.7496063&partnerID=40&md5=2b3cc084965ccf803f118dca377bbb83
dc.identifier.scopus2-s2.0-84982823953
dc.identifier.urihttp://dx.doi.org/10.1109/SIU.2016.7496063
dc.identifier.urihttps://hdl.handle.net/20.500.14288/12872
dc.identifier.wos391250900379
dc.keywordsBig data
dc.keywordsComputationally efficient
dc.keywordsNatural language processing
dc.keywordsRegression
dc.keywordsText classification
dc.keywordsTweet analysis
dc.languageTurkish
dc.publisherInstitute of Electrical and Electronics Engineers (IEEE)
dc.source2016 24th Signal Processing and Communication Application Conference, SIU 2016 - Proceedings
dc.subjectEngineering
dc.subjectElectrical electronic engineering
dc.titleOnline text classification for real life tweet analysis
dc.title.alternativeGerçek hayat tweet analizi için çevrimiçi metin sınıflandırılması
dc.typeConference proceeding
dspace.entity.typePublication
local.contributor.authorid0000-0002-7296-6301
local.contributor.authorid0000-0002-2797-242X
local.contributor.kuauthorDelibalta, İbrahim
local.contributor.kuauthorBaruh, Lemi
relation.isOrgUnitOfPublication483fa792-2b89-4020-9073-eb4f497ee3fd
relation.isOrgUnitOfPublication.latestForDiscovery483fa792-2b89-4020-9073-eb4f497ee3fd

Files