Yüksek Lisans Tezleri
Permanent URI for this collectionhttps://hdl.handle.net/20.500.11779/1785
Browse
Search Results
Master Thesis Comparing audio features for speech emotion recognition using machine learning algorithms(MEF Üniversitesi, 2022) Gümüş, Fatma; Çakar, TunaSes, hayatımızın tamamlayıcı bir parçasıdır. Son yıllarda ses teknolojisine olan talep sanat ve insan-makine etkileşimi sistemlerinde artmaktadır. Ses ile daha fazla bilgi daha hızlı bir şekilde aktarılabilmektedir. Konuşma iletişim kurmanın doğal bir yoludur ve bunun sonucu olarak teknolojik alanlarda kullanıcı ile temas kurmada öncelikli tercih edilir. Sesimiz konuşma sırasında hem dilsel hem de dilsel olmayan bilgileri taşır. Dilsel olmayan ritim, perde gibi bilgiler konuşmacının duygu durumu ile ilgili ipucu sağlar. Duygular bilişsel, fizyolojik ve davranışsal değişikliklerden oluşur ve tüm bu fenomenler birbirleriyle ilişkilidir. Genel anlamda duygu, düşünceleri etkileyen, davranışları belirleyebilen, fiziksel ve psikolojik değişiklikleri oluşturan durum olarak açıklanabilir. Konuşmadan Duygu Çıkarımı konusu 'Nasıl söyledi?' sorusunun cevabını inceler ve kayıt edilmiş bir sesten algoritma yardımı ile duyguyu belirlemeye çalışır. Bu çalışmada, Konuşmadan Duygu Çıkarımı problemine makine öğrenimi türlerinden sınıflandırma yöntemi ile çözüm aranmıştır. Ses çok fazla sayıda karakteristikten oluşmaktadır, bu karakteristiklerin duygu ile ilişkili olan optimize seti henüz tespit edilememiştir. Bu özellikleri karşılaştırmak ve en ayırt edici özelliği belirleyebilmek için sesin farklı boyutlardaki Root Mean Square Energy (RMSE), Zero Crossing Rate (ZCR), Chroma ve Mel Frequency Cepstral Coefficients (MFCC) özellikleri duygu tahmini için incelenmiştir. Daha yakın zamanlarda geliştirilmeye başlanan ön eğitimli model ile girdilerin oluşturulabilmesi için wav2vec Large modeli de kullanılmıştır. Geleneksel yöntemler ile elde edilen öznitelik ve ön eğitimli model girdilerinin duygu tahmini karşılaştırması için Destek Vektör Makineleri, Çok Katmanlı Algılayıcılar ve Evrişimsel Sinir Ağı algoritmaları ile modeller geliştirilmiştir. Çalışmada Mutlu, Sakin, Kızgın, Can Sıkıntısı, İğrenme, Korku, Nötr, Üzüntü ve Şaşkın duyguları sınıflandırılmaya çalışılmış, İngilizce ve Almanca konuşma setleri kullanılarak modeller eğitilmiş ve test edilmiştir. Sınıflandırma sonuçları incelendiğinde en başarılı tahminlerin ön eğitimli modeller ile elde edildiği görülmektedir. Evrişimsel Sinir Ağı ve Çok Katmanlı Algılayıcılar için %91 ağırlıklı doğruluk oranı ön eğitimli modeller için ortak iken bu oran Destek Vektör Makineleri'nde %87'dir. Duygular arasında ise en iyi tahmin ön eğitimli model kullanılan Evrişimsel Sinir Ağı yöntemiyle Korku duygusu için %95 f- skor ile elde edilmiştir.
