Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11779/1177
Title: Sms spam detection in Turkish language
Authors: Gürkan, Cem Kaya
Advisors: Koç, Utku
Keywords: SMS Spam Filtering
Text Classification
Turkish SMS
Naïve Bayes
Logistic Regression
SGD
SVM
Random Forest
Kısa Mesaj
İzinsiz Mesaj Filtreleme
Türkçe Metin Sınıflandırma
Türkçe SMS
Publisher: MEF Üniversitesi, Fen Bilimleri Enstitüsü
Source: Gürkan, CK. (2018). Sms spam detection in Turkish language, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye
Abstract: Short message (SMS) is one of the most common communication methods. The growth of mobile phone users has led to a dramatic increase in using short messages. With the increasing number of mobile phone users, mobile phone users have started receiving unsolicited text messages. The use of SMS as a spam tool after the e-mail is due to a direct access to customer and high reversion to the users. These unsolicited short messages are disturbing the users even content intended for deceiving or defrauding (phishing). Up to date, all of the research carried out on SMS Spam detection was focused on the English language. In this study, Turkish datasets tagged with spam information is introduced and existing methods for English are applied to these datasets. The SMS dataset used in this study is gathered from different people and all messages are tagged according to whether they are spam or not. Naïve Bayes, Logistic Regression, SGD, SVM and Random Forest classification algorithms are tested with three feature extraction methods and a number of performance measures are evaluated. The evaluation resulted in a f-measure of 96.4% for SVM classification algorithm with TF-IDF (Term Frequency-Inverse Document Frequency) extraction method.
SMS en çok kullanılan iletişim yöntemlerimden biridir. Mobil telefon kullanımı artmasıyla kısa mesaj kullanımını da artmıştır. Mobil telefon kullanımın artmasıyla mobil kullanıcılar da izinsiz olarak kısa mesaj (reklam, kumar vs.) almaya başlamışlardır. Epostadan sonra kısa mesajın da izinsiz iletişim yöntemi olarak kullanılmasının amacı kullanıcılara direk erişim ve geri dönüşün yüksek olmasıdır. İzinsiz gönderilen kısa mesajlar kullanıcıları rahatsız etmekte hatta kandırmaya veya dolandırmaya yönelik içerik barındırmaktadır. Günümüze kadar izinsiz SMS algılama yöntemleri, genelde İngilizce üzerine yoğunlaşmıştır. Bu çalışma kapsamında izinsiz SMS algılama için Türkçe veri seti oluşturulmuş ve daha önce İngilizce’ de yapılmış çalışmalarda denenen yöntemlerin Türkçe’ de gösterdikleri başarılar incelenmiştir. Çalışmada kullanılan SMS veri seti için gönüllü kişilerden gönderilen veya alınan mesajlar toplanmış ve mesajlar istenmeyen olup olmadığına göre işaretlenmiştir. Naïve Bayes, Logistic Regression, SGD, SVM ve Random Forest sınıflandırma algoritmaları 3 farklı özellik çıkarma yöntemiyle test edilmiş ve farklı performans ölçümleme skorları çıkarılmıştır. Sonuçta en iyi performans %96,4 F1-skoru ile TF-IDF özellik çıkarma metoduyla SVM sınıflandırma algoritması kullanıldığında ölçümlenmiştir.
URI: https://hdl.handle.net/20.500.11779/1177
Appears in Collections:FBE, Yüksek Lisans, Proje Koleksiyonu

Files in This Item:
File Description SizeFormat 
CemKayaGürkan.pdforgınal3.07 MBAdobe PDFThumbnail
View/Open
Show full item record



CORE Recommender

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.