Browsing by Author "Cemgil, Ali Taylan"

Now showing 1 - 5 of 5

Audio Source Separation Using Variational Autoencoders and Weak Class Supervision
(IEEE-Inst Electrical Electronics Engineers Inc, 2019) Karamatli, Ertug; Kirbiz, Serap; Cemgil, Ali Taylan
In this letter, we propose a source separation method that is trained by observing the mixtures and the class labels of the sources present in the mixture without any access to isolated sources. Since our method does not require source class labels for every time-frequency bin but only a single label for each source constituting the mixture signal, we call this scenario as weak class supervision. We associate a variational autoencoder (VAE) with each source class within a non negative (compositional) model. Each VAE provides a prior model to identify the signal from its associated class in a sound mixture. After training the model on mixtures, we obtain a generative model for each source class and demonstrate our method on one-second mixtures of utterances of digits from 0 to 9. We show that the separation performance obtained by source class supervision is as good as the performance obtained by source signal supervision.
Değişimli Oto-Kodlayıcılar Kullanılarak Birleşik Kaynak Ayırtstırma ve Sınıflandırma
(Institute of Electrical and Electronics Engineers Inc., 2020) Karamatli, Ertug; Kirbiz, Serap; Cemgil, Ali Taylan; Hizli, Caglar
Diyalog Geliştirme için Bağlaşımlı Tensör Ayrıştırma Yöntemleri
(TÜBİTAK, 2021) Şimşek, Serap Kırbız; Lıutkus, Antoine; Cemgil, Ali Taylan; Cemgil, Ali Taylan; Liutkus, Antoine
Ayrıştırma tabanlı ses modelleme yöntemleri, hesaplama gücünün artmasıyla ve istatistiksel modelleme yöntemlerinin gelişmesiyle birlikte yaygın olarak kullanılmaktadır. Bu yöntemler, ses kodlama, müziksel bilgi çıkarımı, müziğin notaya dökülmesi, içerik analizi, kaynak ayrıştırma, ses onarımı ve gürbüz konuşmacı tanımanın da aralarında bulunduğu birçok alanda kullanılmaktadır. Bizim bu projede temel amacımız, birden fazla kaynak içeren ses kayıtlarındaki konuşma işaretlerini güçlendirmek için kaynak ayrıştırma algoritmalarından faydalanarak bir yöntem geliştirmektir. Diyalog ve ortamdaki diğer sesler arasındaki doğru dengeyi bulmak ses mühendisleri için önemli bir problem olup, dinleyici şikayetlerinin de gittikçe artan bir sebebini oluşturmaktadır. Dinleyiciler, kendi kişisel tercihlerine, dinleme ortamlarına ve duymalarına uygun olarak diyalog ve çevresel sesler arasındaki ses dengesini kendileri ayarlamak istemektedirler. Bu projedeki temel amaçlar ve aşamalar aşağıdaki gibidir: i) Durağan olmayan çok boyutlu zaman serilerinde, matris ve tensör ayrıştırma modellerini kullanarak diyalog içeren ses kayıtlarından diyalogların ayrıştırılması ve bunun daha sonra kayıtta bulunan diğer seslerle farklı oranlarda yeniden birleştirilmesiyle, kullanıcının ihtiyaçlarına ya da zevkine dayalı bir kayıt dinlemesini sağlama ii) Televizyon programları gibi akan veri üzerinde de çalışabilmek üzere, önerilen yöntemin gerçek zamanda çalışması. Bu bağlamda, veri geldikçe gerçek zamanlı olarak işlenecektir. iii) Geliştirilen yöntemlerin etkinliğinin gerçek uygulamalarda kullanımı. Projenin çıktıları olan modelleme, çıkarım ve model seçimi yöntemleri; işaret işleme, yapay öğrenme ve istatistik alanlarında temel metodolojik katkılar yapmaktatır. Bunun dışında çıktılar, bilgi madenciliği, biyoinformatik, sistem biyolojisi, yer bilimleri, karmaşık sistemler, algılayıcı ağları, finans veya akustik konularındaki büyük veri öbeklerinin incelendiği çalışmaları destekleyecektir. Bu bağlamda, MEF Üniversitesi bünyesinde yerli ve uluslararası alanda süren işbirliklerinin sürdürülmesi ve geliştirilmesi de planlanmaktadır.
Joint Source Separation and Classiﬁcation Using Variational Autoencoders
(IEEE, 2020) Karamatlı, Ertuğ; Kırbız, Serap; Hızlı, Çağlar; Cemgil, Ali Taylan
In this paper, we propose a novel multi-task variational auto encoder (VAE) based approach for joint source separation and classification. The network uses a probabilistic encoder for each sources to map the input data to latent space. The latent representation is then used by a probabilistic decoder for the two tasks: source separation and source classification. Throughout a variety of experiments performed on various image and audio datasets, source separation performance of our method is as good as the method that performs source separation under source class supervision. In addition, the proposed method does not require the class labels and can predict the labels.
Weak Label Supervision for Monaural Source Separation Using Non-Negative Denoising Variational Autoencoders
(IEEE, 2019) Karamatli, Ertug; Kirbiz, Serap; Cemgil, Ali Taylan
Deep learning models are very effective in source separation when there are large amounts of labeled data available. However it is not always possible to have carefully labeled datasets. In this paper, we propose a weak supervision method that only uses class information rather than source signals for learning to separate short utterance mixtures. We associate a variational autoencoder (VAE) with each class within a non-negative model. We demonstrate that deep convolutional VAEs provide a prior model to identify complex signals in a sound mixture without having access to any source signal. We show that the separation results are on par with source signal supervision.