Адаптивна нормалізація CNNMVN
DOI:
https://doi.org/10.24144/2616-7700.2025.46(1).166-177Ключові слова:
згорткові нейромережі, комплекснозначні мережі, багатозначні нейрони, CNNMVN, MLMVN, розпізнавання зображень, частотна областьАнотація
Адаптивні методи зміни швидкості навчання широко використовуються для підвищення ефективності навчання нейронних мереж, оскільки вони покращують швидкість та точність збіжності та зменшують ризик застрягання в локальних мінімумах або сідлоподібних точках. У цій статті ми представляємо підходи до адаптивної швидкості навчання для згорткової нейронної мережі з багатозначними нейронами (CNNMVN), яка є повністю комплекснозначною нейронною мережею, що оперує комплексними вхідними даними, комплексними вагами та комплекснозначними активаційними функціями.
На відміну від традиційних дійснозначних нейронних мереж, CNNMVN використовує принцип поділу помилки замість градієнтної оптимізації, що усуває проблему локальних мінімумів і дозволяє більш гнучко коригувати швидкість навчання. Ми пропонуємо дві стратегії адаптивної швидкості навчання (ALR), спеціально розроблені для CNNMVN. Перша стратегія модифікує коефіцієнти швидкості навчання у формулах корекції похибки, тоді як друга регулює параметри нормалізації у процесах зворотного поширення похибки та її корекції. Обидва методи динамічно адаптують швидкість навчання на основі точності на валідаційній вибірці.
Результати показують, що адаптивна швидкість навчання суттєво покращує швидкість збіжності та точність, особливо при поєднанні з самоналаштовуваною швидкістю навчання. Крім того, наше дослідження підкреслює вплив нормалізації на динаміку навчання та розглядає сценарії, у яких нормалізацію мінімізовано або повністю виключено.
Наші результати демонструють, що методи ALR покращують ефективність навчання CNNMVN, забезпечуючи надійну основу для оптимізації швидкості навчання в комплекснозначних нейронних мережах.
Посилання
- Aizenberg, I., & Vasko, A. (21–25 August, 2020). Convolutional Neural Network with MultiValued Neurons. In 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP). Lviv: Ukraine. https://doi.org/10.1109/DSMP47368.2020.9204076
- Aizenberg, I., Herman, J., & Vasko, A. (26–29 October, 2022). A Convolutional Neural Network with Multi-Valued Neurons: A Modified Learning Algorithm and Analysis of Performance. In 2022 IEEE 13th Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON). New York: USA. https://doi.org/10.1109/UEMCON54665.2022.9965659
- Aizenberg, I., & Vasko, A. (2024). Frequency-Domain and Spatial-Domain MLMVN-Based Convolutional Neural Networks. Algorithms, 17(8), 361. https://doi.org/10.3390/a17080361
- Duchi, J., Hazan, E. & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research, 12, 2121–2159. Retrieved from https://web.stanford.edu/~jduchi/projects/DuchiHaSi11.pdf
- Hinton, G., Srivastava, N., & Swersky, K. (2012). Neural networks for machine learning. Lecture 6a Overview of mini-batch gradient descent. Retrieved from https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
- Kingma, D. P., & Ba, J. (2017). Adam: A Method for Stochastic Optimization. Machine Learning, arXiv. https://doi.org/10.48550/arXiv.1412.6980
- Huang, J., Tang, T., Ding, Y., Tatikonda, S., Dvornek, N., Papademetris, X., & Duncan, J. S. (2020). AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients Machine Learning, arXiv. https://doi.org/10.48550/arXiv.2010.07468
- Cheng, W., Pu, R., & Wang, B. (2025). AMC: Adaptive Learning Rate Adjustment Based on Model Complexity. Mathematics, 13(4), 650. https://doi.org/10.3390/math13040650
- Takase, T., Oyama, S., & Kurihara, M. (2018). Effective neural network training with adaptive learning rate based on training loss. Neural Networks: The Official Journal of the International Neural Network Society, 101, 68–78. https://doi.org/10.1016/j.neunet.2018.01.016
- Li, Q., Wang, B., Zhu, Y., Lioma, C., & Liu, Q. (2023). Adapting Pre-trained Language Models for Quantum Natural Language Processing. Quantum Physics, arXiv. https://doi.org/10.48550/arXiv.2302.13812
- Zhao, W., & Huang, H. (2023). Adaptive orthogonal gradient descent algorithm for fully complex-valued neural networks. Neurocomputing, 546, 126358. https://doi.org/10.1016/j.neucom.2023.126358
- Zhang, Y., & Huang, H. (2020). Adaptive complex-valued stepsize based fast learning of complex-valued neural networks. Neural Networks, 124, 233–242. https://doi.org/10.1016/j.neunet.2020.01.011
- Dong, Z., & Huang, H. (2021). A training algorithm with selectable search direction for complex-valued feedforward neural networks. Neural Networks, 137, 75–84. https://doi.org/10.1016/j.neunet.2021.01.014
- Aizenberg, I., & Moraga, C. (2007). Multilayer Feedforward Neural Network Based on Multivalued Neurons (MLMVN) and a Backpropagation Learning Algorithm. Soft Computing, 11(2), 169–183. https://doi.org/10.1007/s00500-006-0075-5
- Aizenberg, E., & Aizenberg, I. (09–12 December, 2014). Batch linear least squaresbased learning algorithm for MLMVN with soft margins. In 2014 IEEE Symposium on Computational Intelligence and Data Mining (CIDM). Orlando, FL: USA. https://doi.org/10.1109/CIDM.2014.7008147
- Aizenberg, I. (2011). Complex-Valued Neural Networks with Multi-Valued Neurons. Studies in Computational Intelligence. (Vol. 353). Springer, Berlin Heidelberg. https://doi.org/10.1007/978-3-642-20353-4
- LeCun, Y., Cortes, C., & Burges, C. J. C. (August 9, 2024). The MNIST Database of handwritten digits. [Dataset]. Retrieved from https://www.kaggle.com/datasets/zalando-research/fashionmnist
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 О. Ю. Васько, А. Ю. Брила

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.