Trangling Weratedogs Twitter Data To Create Interesting and Trustworthy Explosatory/Predictive Anaylses and Visulation Using Different Machine Learning Algorithms

dc.contributor.advisor Çakar, Tuna
dc.contributor.author Arı, Esra
dc.date.accessioned 2019-11-12T13:42:00Z
dc.date.available 2019-11-12T13:42:00Z
dc.date.issued 2018
dc.description.abstract Social media usage has rapidly grown in recent years and knowledge in these environments increased due to this expansion. Therefore, doing exploratory and predictive analysis from intensive data of social media became so popular. However, almost all of the large datasets obtained are uncleaned / raw data. Therefore, the assessing and cleaning of the data is at least as important as the exploratory and predictive analysis. The open source WeRateDogs twitter account tweets have been gathered, assessed, cleaned, analyzed and predicted for this thesis. As a result of the study, it was understood that the most important and most time-consuming part of the predictive data analysis is the data gathering and cleaning. As a result of this project, probability of dog’s breed whether retriever or not is predicted from the tweet’s text body. 24 points increase (%34 change) in accuracy values has been achieved by doing oversampling in the data sets which contain low event observation. At the same time, the decision tree, logistic regression and random forest algorithms are compared and it is shown that the random forest's model performance is better than the others. The algorithm works 13 points better than logistic regression, 21 points better than decision tree.
dc.description.abstract Son yıllarda artan sosyal medya kullanımı, bu mecralardaki bilgi birikimi arttırmıştır. Artan bu bilgi yoğunluğu sosyal medyadan veri elde etmeyi ve bununla hem keşifçi hem de tahminsel analizler yapmayı popüler hale getirmiştir. Fakat elde edilen büyük verilerin neredeyse hepsi temizlenmemiş/ham veri durumundadır. Dolayısla verinin doğru bir şekilde temizlenmesi ve incelenmesi en az keşifçi ve tahminsel analizler kadar önemlidir Bu bitirme tezi için farklı kaynaklardan kirli veriyi toplamak, değerlendirmek, temizlemek, keşifçi ve tahminsel analizler yapmak amacı ile açık kaynaklı olan WeRateDogs twitter hesabının tweetleri kullanılmıştır. Yapılan çalışma sonucunda tahminsel veri analizinde aslında en önemli ve en çok zaman alan kısımın veriyi toplama ve temizleme olduğu anlaşılmıştır. Bu projenin çıktısı olarak sadece atılan tweet’in içerdiği yazı bilgisi ile köpeğin türünün retriever olup olmadığı tahminlenmiştir. Yapılan tahminleme sürecinde düşük olay gözlemi içeren veri setlerinde fazladan örneklem yapılarak modelin doğruluk değerini 24 puan artması sağlanmıştır. Aynı zamanda karar ağacı, lojistik regresyon ve random forest algoritmaları karşılaştırılmış, random forest’ın model performansı açısından karar ağacı modellerinden iyi olduğu görüşmüştür. Bu doğrultuda random forest modeli karar ağacı modelinden 21 puan, lojistik regresyon modelinden ise 13 puan daha iyi doğruluk değeri almıştır.
dc.identifier.citation Arı, E. (2018). Trangling weratedogs Twtter data to create interesting and trustworthy explosatory/predictive anaylses and visulation using different machine learning algorithms, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye
dc.identifier.uri https://hdl.handle.net/20.500.11779/1168
dc.language.iso en
dc.publisher MEF Üniversitesi, Fen Bilimleri Enstitüsü
dc.rights info:eu-repo/semantics/openAccess
dc.subject Text-Hashing
dc.subject Data Wrangling
dc.subject WeRateDogs
dc.subject Machine Learning
dc.subject Twitter Data
dc.subject Principle Component Analysis
dc.subject Random Forest
dc.subject Decision Tree
dc.subject Logistic Regression
dc.subject Azure Machine Learning Studio
dc.subject Veri İnceleme
dc.subject Makine Öğrenmesi
dc.subject Twitter Verisi
dc.subject Princible Component Analizi
dc.subject Karar Ağacı
dc.subject Lojistik Regresyon
dc.title Trangling Weratedogs Twitter Data To Create Interesting and Trustworthy Explosatory/Predictive Anaylses and Visulation Using Different Machine Learning Algorithms
dc.title.alternative Farklı makine öğrenme algoritmalarını kullanarak weratedogs twitter hesabının verilerinin keşfedici ve tahminsel analizlerinin yapılması ve görselleştirilmesi
dc.type Master's Degree Project
dspace.entity.type Publication
gdc.author.institutional Arı, Esra
gdc.author.institutional Çakar, Tuna
gdc.coar.access open access
gdc.coar.type text::thesis::master thesis
gdc.description.department Lisansüstü Eğitim Enstitüsü, Büyük Veri Analitiği Yüksek Lisans Programı
gdc.description.publicationcategory YL-Bitirme Projesi
gdc.description.scopusquality N/A
gdc.description.wosquality N/A
relation.isAuthorOfPublication 10f8ce3b-94c2-40f0-9381-0725723768fe
relation.isAuthorOfPublication.latestForDiscovery 10f8ce3b-94c2-40f0-9381-0725723768fe
relation.isOrgUnitOfPublication 05ffa8cd-2a88-4676-8d3b-fc30eba0b7f3
relation.isOrgUnitOfPublication 0d54cd31-4133-46d5-b5cc-280b2c077ac3
relation.isOrgUnitOfPublication a6e60d5c-b0c7-474a-b49b-284dc710c078
relation.isOrgUnitOfPublication.latestForDiscovery 05ffa8cd-2a88-4676-8d3b-fc30eba0b7f3

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
EsraArı.pdf
Size:
1.16 MB
Format:
Adobe Portable Document Format
Description:
YL-Proje Dosyası

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
0 B
Format:
Item-specific license agreed upon to submission
Description: