Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11779/1168
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorÇakar, Tuna-
dc.contributor.authorArı, Esra-
dc.date.accessioned2019-11-12T13:42:00Z
dc.date.available2019-11-12T13:42:00Z
dc.date.issued2018-
dc.identifier.citationArı, E. (2018). Trangling weratedogs Twtter data to create interesting and trustworthy explosatory/predictive anaylses and visulation using different machine learning algorithms, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiyeen_US
dc.identifier.urihttps://hdl.handle.net/20.500.11779/1168-
dc.description.abstractSocial media usage has rapidly grown in recent years and knowledge in these environments increased due to this expansion. Therefore, doing exploratory and predictive analysis from intensive data of social media became so popular. However, almost all of the large datasets obtained are uncleaned / raw data. Therefore, the assessing and cleaning of the data is at least as important as the exploratory and predictive analysis. The open source WeRateDogs twitter account tweets have been gathered, assessed, cleaned, analyzed and predicted for this thesis. As a result of the study, it was understood that the most important and most time-consuming part of the predictive data analysis is the data gathering and cleaning. As a result of this project, probability of dog’s breed whether retriever or not is predicted from the tweet’s text body. 24 points increase (%34 change) in accuracy values has been achieved by doing oversampling in the data sets which contain low event observation. At the same time, the decision tree, logistic regression and random forest algorithms are compared and it is shown that the random forest's model performance is better than the others. The algorithm works 13 points better than logistic regression, 21 points better than decision tree.en_US
dc.description.abstractSon yıllarda artan sosyal medya kullanımı, bu mecralardaki bilgi birikimi arttırmıştır. Artan bu bilgi yoğunluğu sosyal medyadan veri elde etmeyi ve bununla hem keşifçi hem de tahminsel analizler yapmayı popüler hale getirmiştir. Fakat elde edilen büyük verilerin neredeyse hepsi temizlenmemiş/ham veri durumundadır. Dolayısla verinin doğru bir şekilde temizlenmesi ve incelenmesi en az keşifçi ve tahminsel analizler kadar önemlidir Bu bitirme tezi için farklı kaynaklardan kirli veriyi toplamak, değerlendirmek, temizlemek, keşifçi ve tahminsel analizler yapmak amacı ile açık kaynaklı olan WeRateDogs twitter hesabının tweetleri kullanılmıştır. Yapılan çalışma sonucunda tahminsel veri analizinde aslında en önemli ve en çok zaman alan kısımın veriyi toplama ve temizleme olduğu anlaşılmıştır. Bu projenin çıktısı olarak sadece atılan tweet’in içerdiği yazı bilgisi ile köpeğin türünün retriever olup olmadığı tahminlenmiştir. Yapılan tahminleme sürecinde düşük olay gözlemi içeren veri setlerinde fazladan örneklem yapılarak modelin doğruluk değerini 24 puan artması sağlanmıştır. Aynı zamanda karar ağacı, lojistik regresyon ve random forest algoritmaları karşılaştırılmış, random forest’ın model performansı açısından karar ağacı modellerinden iyi olduğu görüşmüştür. Bu doğrultuda random forest modeli karar ağacı modelinden 21 puan, lojistik regresyon modelinden ise 13 puan daha iyi doğruluk değeri almıştır.en_US
dc.language.isoenen_US
dc.publisherMEF Üniversitesi, Fen Bilimleri Enstitüsüen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectText-Hashingen_US
dc.subjectData Wranglingen_US
dc.subjectWeRateDogsen_US
dc.subjectMachine Learningen_US
dc.subjectTwitter Dataen_US
dc.subjectPrinciple Component Analysisen_US
dc.subjectRandom Foresten_US
dc.subjectDecision Treeen_US
dc.subjectLogistic Regressionen_US
dc.subjectAzure Machine Learning Studioen_US
dc.subjectVeri İncelemeen_US
dc.subjectMakine Öğrenmesien_US
dc.subjectTwitter Verisien_US
dc.subjectPrincible Component Analizien_US
dc.subjectKarar Ağacıen_US
dc.subjectLojistik Regresyonen_US
dc.titleTrangling weratedogs twitter data to create interesting and trustworthy explosatory/predictive anaylses and visulation using different machine learning algorithmsen_US
dc.title.alternativeFarklı makine öğrenme algoritmalarını kullanarak weratedogs twitter hesabının verilerinin keşfedici ve tahminsel analizlerinin yapılması ve görselleştirilmesien_US
dc.typeMaster's Degree Projecten_US
dc.relation.publicationcategoryYL-Bitirme Projesien_US
dc.departmentBüyük Veri Analitigi Yüksek Lisans Programıen_US
dc.institutionauthorArı, Esra-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.grantfulltextopen-
item.languageiso639-1en-
item.cerifentitytypePublications-
item.fulltextWith Fulltext-
item.openairetypeMaster's Degree Project-
Appears in Collections:FBE, Yüksek Lisans, Proje Koleksiyonu
Files in This Item:
File Description SizeFormat 
EsraArı.pdfYL-Proje Dosyası1.18 MBAdobe PDFThumbnail
View/Open
Show simple item record



CORE Recommender

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.