Використання глибинного навчання у задачах класифікації звуків навколишнього середовища

Л. П. Добуляк; Д. О. Фербей; С. Б. Костенко

doi:10.24144/2616-7700.2022.41(2).118-127

Автор(и)

Л. П. Добуляк Львівський національний університет ім. Івана Франка, Україна https://orcid.org/0000-0001-8665-8783
Д. О. Фербей Львівський національний університет ім. Івана Франка, Україна https://orcid.org/0000-0003-2329-9693
С. Б. Костенко Львівський національний університет ім. Івана Франка, Україна https://orcid.org/0000-0003-0823-9801

DOI:

https://doi.org/10.24144/2616-7700.2022.41(2).118-127

Ключові слова:

класифікація, звуки навколишнього середовища, збільшення даних, спектрограма, згорткова нейронна мережа

Анотація

У даній статті розглянуто різні аспекти, пов'язані з розпізнаванням звуків навколишнього середовища, що є прикладною задачею в багатьох сферах діяльності людини. На відміну від музики та мови, звук навколишнього середовища насичений шумом і не має ритму та мелодії музики або семантичної послідовності мови. Це ускладнює пошук спільних рис серед звукових сигналів навколишнього середовища. У даному дослідженні розв'язання задачі розпізнавання звуків базуються на використанні методів класифікації зображень. Для цього виконується перетворення кожного аудіо-запису вибірки у спеціальні зображення — спектрограму Мела, що є його компактним інформативним візуальним представленням. Щоб підвищити точність розпізнавання звуків, досліджуються різні методи збільшення навчального набору даних. В основі цих методів лежить створення нових екземплярів аудіозаписів шляхом деформації існуючих. За допомогою такого підходу ми можемо збільшити в рази кількість елементів набору даних, таким чином вирішити проблему його обмеженості. Для класифікації звуків навколишнього середовища з набору аудіоданих UrbanSound8K було використано глибинну згорткову нейронну мережу. Щоб оцінити якість (точність та втрати) представленої моделі було застосовано 10-кратну перехресну перевірку.

Біографії авторів

Л. П. Добуляк, Львівський національний університет ім. Івана Франка

Доцент кафедри математичного моделювання соціально-економічних процесів. Кандидат економічних наук

Д. О. Фербей, Львівський національний університет ім. Івана Франка

Магістр

С. Б. Костенко, Львівський національний університет ім. Івана Франка

Доцент кафедри математичного моделювання соціально-економічних процесів. Кандидат фізико-математичних наук

Посилання

Radzyshevsky, A. Yu. (2006). Fundamentals of analog and digital audio. Moskow: Williams [in Russian].
Kutkovetskyj, V. Ya. (2017). Recognition of images. Mykolaiv: [in Ukrainian].
Rashkevych, Yu. M., Tkachenko, R. O., Cmoc, I. G., & Peleshko, D. D. (2014). Neural-like methods, algorithms and frameworks for real-time image processing. Lviv [in Ukrainian].
Subbotin, S. O. (2020). Neural networks. Theory and practice. Jytomyr [in Ukrainian].
Novotarskyj, M. A., & Nesterenko, B. B. (2004). Artificial neural networks: calculations. Proceedings of the Institute of Mathematics of the National Academy of Sciences of Ukraine. (Vol. 50). Kyiv [in Ukrainian].
Palanisamy, K., Singhania, D., & Yao, A. Rethinking CNN Models for Audio Classification. Retrieved from: https://arxiv.org/pdf/2007.11154.pdf
Maccagno, A., Mastropietro, A., Mazziotta, U., Scarpiniti, M., Lee, Y.-Ch., & Uncini, A. A CNN Approach for Audio Classification in Construction Sites. Retrieved from: https://iris.uniroma1.it/bitstream/11573/1444275/2/Maccagno_postprint_CNNApproach_2021.pdf
Barazida, N. 40 Open-Source Audio Datasets for ML. Retrieved from: https://towardsdatascience.com/40-open-source-audio-datasets-for-ml-59dc39d48f06
Keras API reference. Retrieved from: https://keras.io/api/
Lillelund, C. Classify MNIST Audio using Spectrograms/Keras CNN. Retrieved from: https://www.kaggle.com/code/christianlillelund/classify-mnist-audio-using-pectrogramskeras-cnn/data
Boddapati, V., Petef, A., Rasmusson, J., & Lundberg, L. (2020). Classifying environmental sounds using image recognition networks. Procedia computer science, 112, 2048–2056.
Perelygin, B. V., Tkach, T. B., & Gorjev, S. A. (2018). Spectral-temporal analysis of monitoring data. Odesa [in Ukrainian].
Cotton, C. V.& Ellis, D. (2011). Spectral vs. spectro-temporal features for acoustic event detection. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 69–72.
Swedia, E. R., Mutiara, A. B., Subali, M., & Ernastuti. (2018). Deep Learning Long-Short Term Memory (LSTM) for Indonesian Speech Digit Recognition using LPC and MFCC Feature. Third International Conference on Informatics and Computing (ICIC). Palembang. Indonesia, 1–5.
Bahmei, B., Birmingham, E.,& Arzanpour, S. (2022). Cnn-rnn and data augmentation using deep convolutional generative adversarial network for environmental sound classification. IEEE Signal Processing Letters, 29, 682–686.
Gaussionnoise. Retrieved from: https://hasty.ai/docs/mp-wiki/augmentations/gaussian-noise
Salamon, J., Jacoby, C., & Bello, J. P. "UrbanSound8k Dataset". Urban Sound Datasets. Retrieved from: https://urbansounddataset.weebly.com/urbansound8k.html
Salamon, J., & Bello, J. P. (2017). "Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification", submitted. Retrieved from: https://arxiv.org/pdf/1608.04363.pdf