Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11779/1168
Title: Trangling weratedogs twitter data to create interesting and trustworthy explosatory/predictive anaylses and visulation using different machine learning algorithms
Other Titles: Farklı makine öğrenme algoritmalarını kullanarak weratedogs twitter hesabının verilerinin keşfedici ve tahminsel analizlerinin yapılması ve görselleştirilmesi
Authors: Arı, Esra
Advisors: Çakar, Tuna
Keywords: Text-Hashing
Data Wrangling
WeRateDogs
Machine Learning
Twitter Data
Principle Component Analysis
Random Forest
Decision Tree
Logistic Regression
Azure Machine Learning Studio
Veri İnceleme
Makine Öğrenmesi
Twitter Verisi
Princible Component Analizi
Karar Ağacı
Lojistik Regresyon
Publisher: MEF Üniversitesi, Fen Bilimleri Enstitüsü
Source: Arı, E. (2018). Trangling weratedogs Twtter data to create interesting and trustworthy explosatory/predictive anaylses and visulation using different machine learning algorithms, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye
Abstract: Social media usage has rapidly grown in recent years and knowledge in these environments increased due to this expansion. Therefore, doing exploratory and predictive analysis from intensive data of social media became so popular. However, almost all of the large datasets obtained are uncleaned / raw data. Therefore, the assessing and cleaning of the data is at least as important as the exploratory and predictive analysis. The open source WeRateDogs twitter account tweets have been gathered, assessed, cleaned, analyzed and predicted for this thesis. As a result of the study, it was understood that the most important and most time-consuming part of the predictive data analysis is the data gathering and cleaning. As a result of this project, probability of dog’s breed whether retriever or not is predicted from the tweet’s text body. 24 points increase (%34 change) in accuracy values has been achieved by doing oversampling in the data sets which contain low event observation. At the same time, the decision tree, logistic regression and random forest algorithms are compared and it is shown that the random forest's model performance is better than the others. The algorithm works 13 points better than logistic regression, 21 points better than decision tree.
Son yıllarda artan sosyal medya kullanımı, bu mecralardaki bilgi birikimi arttırmıştır. Artan bu bilgi yoğunluğu sosyal medyadan veri elde etmeyi ve bununla hem keşifçi hem de tahminsel analizler yapmayı popüler hale getirmiştir. Fakat elde edilen büyük verilerin neredeyse hepsi temizlenmemiş/ham veri durumundadır. Dolayısla verinin doğru bir şekilde temizlenmesi ve incelenmesi en az keşifçi ve tahminsel analizler kadar önemlidir Bu bitirme tezi için farklı kaynaklardan kirli veriyi toplamak, değerlendirmek, temizlemek, keşifçi ve tahminsel analizler yapmak amacı ile açık kaynaklı olan WeRateDogs twitter hesabının tweetleri kullanılmıştır. Yapılan çalışma sonucunda tahminsel veri analizinde aslında en önemli ve en çok zaman alan kısımın veriyi toplama ve temizleme olduğu anlaşılmıştır. Bu projenin çıktısı olarak sadece atılan tweet’in içerdiği yazı bilgisi ile köpeğin türünün retriever olup olmadığı tahminlenmiştir. Yapılan tahminleme sürecinde düşük olay gözlemi içeren veri setlerinde fazladan örneklem yapılarak modelin doğruluk değerini 24 puan artması sağlanmıştır. Aynı zamanda karar ağacı, lojistik regresyon ve random forest algoritmaları karşılaştırılmış, random forest’ın model performansı açısından karar ağacı modellerinden iyi olduğu görüşmüştür. Bu doğrultuda random forest modeli karar ağacı modelinden 21 puan, lojistik regresyon modelinden ise 13 puan daha iyi doğruluk değeri almıştır.
URI: https://hdl.handle.net/20.500.11779/1168
Appears in Collections:FBE, Yüksek Lisans, Proje Koleksiyonu

Files in This Item:
File Description SizeFormat 
EsraArı.pdfYL-Proje Dosyası1.18 MBAdobe PDFThumbnail
View/Open
Show full item record



CORE Recommender

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.