Використання глибинного навчання у задачах класифікації звуків навколишнього середовища
DOI:
https://doi.org/10.24144/2616-7700.2022.41(2).118-127Ключові слова:
класифікація, звуки навколишнього середовища, збільшення даних, спектрограма, згорткова нейронна мережаАнотація
У даній статті розглянуто різні аспекти, пов'язані з розпізнаванням звуків навколишнього середовища, що є прикладною задачею в багатьох сферах діяльності людини. На відміну від музики та мови, звук навколишнього середовища насичений шумом і не має ритму та мелодії музики або семантичної послідовності мови. Це ускладнює пошук спільних рис серед звукових сигналів навколишнього середовища. У даному дослідженні розв'язання задачі розпізнавання звуків базуються на використанні методів класифікації зображень. Для цього виконується перетворення кожного аудіо-запису вибірки у спеціальні зображення — спектрограму Мела, що є його компактним інформативним візуальним представленням. Щоб підвищити точність розпізнавання звуків, досліджуються різні методи збільшення навчального набору даних. В основі цих методів лежить створення нових екземплярів аудіозаписів шляхом деформації існуючих. За допомогою такого підходу ми можемо збільшити в рази кількість елементів набору даних, таким чином вирішити проблему його обмеженості. Для класифікації звуків навколишнього середовища з набору аудіоданих UrbanSound8K було використано глибинну згорткову нейронну мережу. Щоб оцінити якість (точність та втрати) представленої моделі було застосовано 10-кратну перехресну перевірку.
Посилання
Radzyshevsky, A. Yu. (2006). Fundamentals of analog and digital audio. Moskow: Williams [in Russian].
Kutkovetskyj, V. Ya. (2017). Recognition of images. Mykolaiv: [in Ukrainian].
Rashkevych, Yu. M., Tkachenko, R. O., Cmoc, I. G., & Peleshko, D. D. (2014). Neural-like methods, algorithms and frameworks for real-time image processing. Lviv [in Ukrainian].
Subbotin, S. O. (2020). Neural networks. Theory and practice. Jytomyr [in Ukrainian].
Novotarskyj, M. A., & Nesterenko, B. B. (2004). Artificial neural networks: calculations. Proceedings of the Institute of Mathematics of the National Academy of Sciences of Ukraine. (Vol. 50). Kyiv [in Ukrainian].
Palanisamy, K., Singhania, D., & Yao, A. Rethinking CNN Models for Audio Classification. Retrieved from: https://arxiv.org/pdf/2007.11154.pdf
Maccagno, A., Mastropietro, A., Mazziotta, U., Scarpiniti, M., Lee, Y.-Ch., & Uncini, A. A CNN Approach for Audio Classification in Construction Sites. Retrieved from: https://iris.uniroma1.it/bitstream/11573/1444275/2/Maccagno_postprint_CNNApproach_2021.pdf
Barazida, N. 40 Open-Source Audio Datasets for ML. Retrieved from: https://towardsdatascience.com/40-open-source-audio-datasets-for-ml-59dc39d48f06
Keras API reference. Retrieved from: https://keras.io/api/
Lillelund, C. Classify MNIST Audio using Spectrograms/Keras CNN. Retrieved from: https://www.kaggle.com/code/christianlillelund/classify-mnist-audio-using-pectrogramskeras-cnn/data
Boddapati, V., Petef, A., Rasmusson, J., & Lundberg, L. (2020). Classifying environmental sounds using image recognition networks. Procedia computer science, 112, 2048–2056.
Perelygin, B. V., Tkach, T. B., & Gorjev, S. A. (2018). Spectral-temporal analysis of monitoring data. Odesa [in Ukrainian].
Cotton, C. V.& Ellis, D. (2011). Spectral vs. spectro-temporal features for acoustic event detection. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 69–72.
Swedia, E. R., Mutiara, A. B., Subali, M., & Ernastuti. (2018). Deep Learning Long-Short Term Memory (LSTM) for Indonesian Speech Digit Recognition using LPC and MFCC Feature. Third International Conference on Informatics and Computing (ICIC). Palembang. Indonesia, 1–5.
Bahmei, B., Birmingham, E.,& Arzanpour, S. (2022). Cnn-rnn and data augmentation using deep convolutional generative adversarial network for environmental sound classification. IEEE Signal Processing Letters, 29, 682–686.
Gaussionnoise. Retrieved from: https://hasty.ai/docs/mp-wiki/augmentations/gaussian-noise
Salamon, J., Jacoby, C., & Bello, J. P. "UrbanSound8k Dataset". Urban Sound Datasets. Retrieved from: https://urbansounddataset.weebly.com/urbansound8k.html
Salamon, J., & Bello, J. P. (2017). "Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification", submitted. Retrieved from: https://arxiv.org/pdf/1608.04363.pdf
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2022 L. P. Dobuliak, D. O. Ferbey, S. B. Kostenko
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.