Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.11779/1168
Title: | Trangling Weratedogs Twitter Data To Create Interesting and Trustworthy Explosatory/Predictive Anaylses and Visulation Using Different Machine Learning Algorithms | Other Titles: | Farklı makine öğrenme algoritmalarını kullanarak weratedogs twitter hesabının verilerinin keşfedici ve tahminsel analizlerinin yapılması ve görselleştirilmesi | Authors: | Arı, Esra | Advisors: | Çakar, Tuna | Keywords: | Text-Hashing Data Wrangling WeRateDogs Machine Learning Twitter Data Principle Component Analysis Random Forest Decision Tree Logistic Regression Azure Machine Learning Studio Veri İnceleme Makine Öğrenmesi Twitter Verisi Princible Component Analizi Karar Ağacı Lojistik Regresyon |
Publisher: | MEF Üniversitesi, Fen Bilimleri Enstitüsü | Source: | Arı, E. (2018). Trangling weratedogs Twtter data to create interesting and trustworthy explosatory/predictive anaylses and visulation using different machine learning algorithms, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye | Abstract: | Social media usage has rapidly grown in recent years and knowledge in these environments increased due to this expansion. Therefore, doing exploratory and predictive analysis from intensive data of social media became so popular. However, almost all of the large datasets obtained are uncleaned / raw data. Therefore, the assessing and cleaning of the data is at least as important as the exploratory and predictive analysis. The open source WeRateDogs twitter account tweets have been gathered, assessed, cleaned, analyzed and predicted for this thesis. As a result of the study, it was understood that the most important and most time-consuming part of the predictive data analysis is the data gathering and cleaning. As a result of this project, probability of dog’s breed whether retriever or not is predicted from the tweet’s text body. 24 points increase (%34 change) in accuracy values has been achieved by doing oversampling in the data sets which contain low event observation. At the same time, the decision tree, logistic regression and random forest algorithms are compared and it is shown that the random forest's model performance is better than the others. The algorithm works 13 points better than logistic regression, 21 points better than decision tree. Son yıllarda artan sosyal medya kullanımı, bu mecralardaki bilgi birikimi arttırmıştır. Artan bu bilgi yoğunluğu sosyal medyadan veri elde etmeyi ve bununla hem keşifçi hem de tahminsel analizler yapmayı popüler hale getirmiştir. Fakat elde edilen büyük verilerin neredeyse hepsi temizlenmemiş/ham veri durumundadır. Dolayısla verinin doğru bir şekilde temizlenmesi ve incelenmesi en az keşifçi ve tahminsel analizler kadar önemlidir Bu bitirme tezi için farklı kaynaklardan kirli veriyi toplamak, değerlendirmek, temizlemek, keşifçi ve tahminsel analizler yapmak amacı ile açık kaynaklı olan WeRateDogs twitter hesabının tweetleri kullanılmıştır. Yapılan çalışma sonucunda tahminsel veri analizinde aslında en önemli ve en çok zaman alan kısımın veriyi toplama ve temizleme olduğu anlaşılmıştır. Bu projenin çıktısı olarak sadece atılan tweet’in içerdiği yazı bilgisi ile köpeğin türünün retriever olup olmadığı tahminlenmiştir. Yapılan tahminleme sürecinde düşük olay gözlemi içeren veri setlerinde fazladan örneklem yapılarak modelin doğruluk değerini 24 puan artması sağlanmıştır. Aynı zamanda karar ağacı, lojistik regresyon ve random forest algoritmaları karşılaştırılmış, random forest’ın model performansı açısından karar ağacı modellerinden iyi olduğu görüşmüştür. Bu doğrultuda random forest modeli karar ağacı modelinden 21 puan, lojistik regresyon modelinden ise 13 puan daha iyi doğruluk değeri almıştır. |
URI: | https://hdl.handle.net/20.500.11779/1168 |
Appears in Collections: | FBE, Yüksek Lisans, Proje Koleksiyonu |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
EsraArı.pdf | YL-Proje Dosyası | 1.18 MB | Adobe PDF | View/Open |
CORE Recommender
Page view(s)
78
checked on Jan 13, 2025
Download(s)
8
checked on Jan 13, 2025
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.