Sms Spam Detection in Turkish Language

dc.contributor.advisor Koç, Utku
dc.contributor.author Gürkan, Cem Kaya
dc.contributor.other 02.01. Department of Industrial Engineering
dc.contributor.other 02. Faculty of Engineering
dc.contributor.other 01. MEF University
dc.date.accessioned 2019-11-12T13:42:01Z
dc.date.available 2019-11-12T13:42:01Z
dc.date.issued 2018
dc.description.abstract Short message (SMS) is one of the most common communication methods. The growth of mobile phone users has led to a dramatic increase in using short messages. With the increasing number of mobile phone users, mobile phone users have started receiving unsolicited text messages. The use of SMS as a spam tool after the e-mail is due to a direct access to customer and high reversion to the users. These unsolicited short messages are disturbing the users even content intended for deceiving or defrauding (phishing). Up to date, all of the research carried out on SMS Spam detection was focused on the English language. In this study, Turkish datasets tagged with spam information is introduced and existing methods for English are applied to these datasets. The SMS dataset used in this study is gathered from different people and all messages are tagged according to whether they are spam or not. Naïve Bayes, Logistic Regression, SGD, SVM and Random Forest classification algorithms are tested with three feature extraction methods and a number of performance measures are evaluated. The evaluation resulted in a f-measure of 96.4% for SVM classification algorithm with TF-IDF (Term Frequency-Inverse Document Frequency) extraction method.
dc.description.abstract SMS en çok kullanılan iletişim yöntemlerimden biridir. Mobil telefon kullanımı artmasıyla kısa mesaj kullanımını da artmıştır. Mobil telefon kullanımın artmasıyla mobil kullanıcılar da izinsiz olarak kısa mesaj (reklam, kumar vs.) almaya başlamışlardır. Epostadan sonra kısa mesajın da izinsiz iletişim yöntemi olarak kullanılmasının amacı kullanıcılara direk erişim ve geri dönüşün yüksek olmasıdır. İzinsiz gönderilen kısa mesajlar kullanıcıları rahatsız etmekte hatta kandırmaya veya dolandırmaya yönelik içerik barındırmaktadır. Günümüze kadar izinsiz SMS algılama yöntemleri, genelde İngilizce üzerine yoğunlaşmıştır. Bu çalışma kapsamında izinsiz SMS algılama için Türkçe veri seti oluşturulmuş ve daha önce İngilizce’ de yapılmış çalışmalarda denenen yöntemlerin Türkçe’ de gösterdikleri başarılar incelenmiştir. Çalışmada kullanılan SMS veri seti için gönüllü kişilerden gönderilen veya alınan mesajlar toplanmış ve mesajlar istenmeyen olup olmadığına göre işaretlenmiştir. Naïve Bayes, Logistic Regression, SGD, SVM ve Random Forest sınıflandırma algoritmaları 3 farklı özellik çıkarma yöntemiyle test edilmiş ve farklı performans ölçümleme skorları çıkarılmıştır. Sonuçta en iyi performans %96,4 F1-skoru ile TF-IDF özellik çıkarma metoduyla SVM sınıflandırma algoritması kullanıldığında ölçümlenmiştir.
dc.identifier.citation Gürkan, CK. (2018). Sms spam detection in Turkish language, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye
dc.identifier.uri https://hdl.handle.net/20.500.11779/1177
dc.language.iso en
dc.publisher MEF Üniversitesi, Fen Bilimleri Enstitüsü
dc.rights info:eu-repo/semantics/openAccess
dc.subject SMS Spam Filtering
dc.subject Text Classification
dc.subject Turkish SMS
dc.subject Naïve Bayes
dc.subject Logistic Regression
dc.subject SGD
dc.subject SVM
dc.subject Random Forest
dc.subject Kısa Mesaj
dc.subject İzinsiz Mesaj Filtreleme
dc.subject Türkçe Metin Sınıflandırma
dc.subject Türkçe SMS
dc.title Sms Spam Detection in Turkish Language
dc.type Master's Degree Project
dspace.entity.type Publication
gdc.author.institutional Gürkan, Cem Kaya
gdc.author.institutional Koç, Utku
gdc.coar.access open access
gdc.coar.type text::thesis::master thesis
gdc.description.department Lisansüstü Eğitim Enstitüsü, Büyük Veri Analitiği Yüksek Lisans Programı
gdc.description.publicationcategory YL-Bitirme Projesi
gdc.description.scopusquality N/A
gdc.description.wosquality N/A
relation.isAuthorOfPublication 033fab1f-fc1b-4bcd-a954-b68f6409c2dd
relation.isAuthorOfPublication.latestForDiscovery 033fab1f-fc1b-4bcd-a954-b68f6409c2dd
relation.isOrgUnitOfPublication 636850bf-e58c-4b59-bcf0-fa7418bb7977
relation.isOrgUnitOfPublication 0d54cd31-4133-46d5-b5cc-280b2c077ac3
relation.isOrgUnitOfPublication a6e60d5c-b0c7-474a-b49b-284dc710c078
relation.isOrgUnitOfPublication.latestForDiscovery 636850bf-e58c-4b59-bcf0-fa7418bb7977

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
CemKayaGürkan.pdf
Size:
3 MB
Format:
Adobe Portable Document Format
Description:
orgınal

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
0 B
Format:
Item-specific license agreed upon to submission
Description: