Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11779/2071
Title: Comparing audio features for speech emotion recognition using machine learning algorithms
Other Titles: Konuşmadan duygu çıkarımı için makine öğrenimi algoritmaları kullanılarak ses özelliklerinin karşılaştırılması
Authors: Gümüş, Fatma
Advisors: Çakar, Tuna
Keywords: Bilim ve Teknoloji
Science and Technology
Publisher: MEF Üniversitesi
Source: Gümüş, F. (2022). Comparing audio features for speech emotion recognition using machine learning algorithms = Konuşmadan duygu çıkarımı için makine öğrenimi algoritmaları kullanılarak ses özelliklerinin karşılaştırılması, MEF Üniversitesi, Fen Bilimleri Enstitüsü, Bilişim Teknolojileri Ana Bilim Dalı, ss. 1-120
Abstract: Ses, hayatımızın tamamlayıcı bir parçasıdır. Son yıllarda ses teknolojisine olan talep sanat ve insan-makine etkileşimi sistemlerinde artmaktadır. Ses ile daha fazla bilgi daha hızlı bir şekilde aktarılabilmektedir. Konuşma iletişim kurmanın doğal bir yoludur ve bunun sonucu olarak teknolojik alanlarda kullanıcı ile temas kurmada öncelikli tercih edilir. Sesimiz konuşma sırasında hem dilsel hem de dilsel olmayan bilgileri taşır. Dilsel olmayan ritim, perde gibi bilgiler konuşmacının duygu durumu ile ilgili ipucu sağlar. Duygular bilişsel, fizyolojik ve davranışsal değişikliklerden oluşur ve tüm bu fenomenler birbirleriyle ilişkilidir. Genel anlamda duygu, düşünceleri etkileyen, davranışları belirleyebilen, fiziksel ve psikolojik değişiklikleri oluşturan durum olarak açıklanabilir. Konuşmadan Duygu Çıkarımı konusu 'Nasıl söyledi?' sorusunun cevabını inceler ve kayıt edilmiş bir sesten algoritma yardımı ile duyguyu belirlemeye çalışır. Bu çalışmada, Konuşmadan Duygu Çıkarımı problemine makine öğrenimi türlerinden sınıflandırma yöntemi ile çözüm aranmıştır. Ses çok fazla sayıda karakteristikten oluşmaktadır, bu karakteristiklerin duygu ile ilişkili olan optimize seti henüz tespit edilememiştir. Bu özellikleri karşılaştırmak ve en ayırt edici özelliği belirleyebilmek için sesin farklı boyutlardaki Root Mean Square Energy (RMSE), Zero Crossing Rate (ZCR), Chroma ve Mel Frequency Cepstral Coefficients (MFCC) özellikleri duygu tahmini için incelenmiştir. Daha yakın zamanlarda geliştirilmeye başlanan ön eğitimli model ile girdilerin oluşturulabilmesi için wav2vec Large modeli de kullanılmıştır. Geleneksel yöntemler ile elde edilen öznitelik ve ön eğitimli model girdilerinin duygu tahmini karşılaştırması için Destek Vektör Makineleri, Çok Katmanlı Algılayıcılar ve Evrişimsel Sinir Ağı algoritmaları ile modeller geliştirilmiştir. Çalışmada Mutlu, Sakin, Kızgın, Can Sıkıntısı, İğrenme, Korku, Nötr, Üzüntü ve Şaşkın duyguları sınıflandırılmaya çalışılmış, İngilizce ve Almanca konuşma setleri kullanılarak modeller eğitilmiş ve test edilmiştir. Sınıflandırma sonuçları incelendiğinde en başarılı tahminlerin ön eğitimli modeller ile elde edildiği görülmektedir. Evrişimsel Sinir Ağı ve Çok Katmanlı Algılayıcılar için %91 ağırlıklı doğruluk oranı ön eğitimli modeller için ortak iken bu oran Destek Vektör Makineleri'nde %87'dir. Duygular arasında ise en iyi tahmin ön eğitimli model kullanılan Evrişimsel Sinir Ağı yöntemiyle Korku duygusu için %95 f- skor ile elde edilmiştir.
Voice is an integral part of our lives. The demand for voice technology in both art and human-machine interaction systems has recently been increased. More information can be transferred quickly by voice. Speech is a natural way of communicating and as a result of this, it is primarily preferred for contacting users in technological areas. Our voice conveys both linguistic and paralinguistic messages in the course of speaking. The paralinguistic part, for example, rhythm and pitch, provides emotional cues to the speaker. Emotions consist of cognitive, physiological and behavioural changes and all these phenomena are interrelated. Generally, an emotion is a state that affects the thoughts and is capable of determining behaviour. Emotion also creates physical and psychological changes. Speech Emotion Recognition topic examines the question 'How is it said?' and an algorithm detects the emotional state of the speaker from an audio record. Within the scope of this study, machine learning models are developed with classification methods to resolve the problem of speech emotion recognition. Voice consists of a lot of characteristics. However, the optimal audio feature set related to the emotional state cannot be determined yet. The main aim in this study is obtaining the most distinctive emotional features. For this purpose, in order to compare audio features based on different domains Root Mean Square Energy (RMSE), Zero Crossing Rate (ZCR), Chroma and Mel Frequency Cepstral Coefficients (MFCC) features are examined for emotion recognition. A pre-trained model namely wav2vec Large which has been developed more recently is used to create the inputs also. Support Vector Machine, Multi-Layer Perceptron and Convolutional Neural Network techniques are utilized for developing learning models for comparing traditional features and the pre-trained model representations. In this paper emotions namely, Happy, Calm, Angry, Boredom, Disgust, Fear, Neutral, Sad and Surprise are classified, and furthermore, the models are trained and tested with English and German speech datasets. When the classification results are examined, it is concluded that the most successful predictions are obtained with the pre-trained representations. The weighted accuracy ratio is 91% for both Convolutional Neural Network and Multilayer Perceptrons models while this ratio is 87% for the Support Vector Machine models. Among the emotional states, Fear has the highest recognition ratio with 95% f-score with Convolutional Neural Network technique which uses a pre-trained model.
URI: https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=qVqOZFj2DwNmvdf1oGFYiC7ASMYskOzZTGeSoPy_J3Z8PI9Lau_f6dIjG10NlhFd
https://hdl.handle.net/20.500.11779/2071
Appears in Collections:FBE, Yüksek Lisans - Tez Koleksiyonu

Files in This Item:
File Description SizeFormat 
Fatma_Gümüş_MSc_Thesis_Speech Emotion Recognition.pdfTez Dosyası5.25 MBAdobe PDFThumbnail
View/Open
Show full item record



CORE Recommender

Page view(s)

2
checked on Jun 26, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.