Adaptive learning rate for CNNMVN

О. Ю. Васько; А. Ю. Брила

doi:10.24144/2616-7700.2025.46(1).166-177

Автор(и)

О. Ю. Васько ДВНЗ «Ужгородський нацiональний унiверситет», Україна https://orcid.org/0009-0006-1527-505X
А. Ю. Брила ДВНЗ «Ужгородський нацiональний унiверситет», Україна https://orcid.org/0000-0003-2518-9877

DOI:

https://doi.org/10.24144/2616-7700.2025.46(1).166-177

Ключові слова:

згорткові нейромережі, комплекснозначні мережі, багатозначні нейрони, CNNMVN, MLMVN, розпізнавання зображень, частотна область

Анотація

Адаптивні методи зміни швидкості навчання широко використовуються для підвищення ефективності навчання нейронних мереж, оскільки вони покращують швидкість та точність збіжності та зменшують ризик застрягання в локальних мінімумах або сідлоподібних точках. У цій статті ми представляємо підходи до адаптивної швидкості навчання для згорткової нейронної мережі з багатозначними нейронами (CNNMVN), яка є повністю комплекснозначною нейронною мережею, що оперує комплексними вхідними даними, комплексними вагами та комплекснозначними активаційними функціями.

На відміну від традиційних дійснозначних нейронних мереж, CNNMVN використовує принцип поділу помилки замість градієнтної оптимізації, що усуває проблему локальних мінімумів і дозволяє більш гнучко коригувати швидкість навчання. Ми пропонуємо дві стратегії адаптивної швидкості навчання (ALR), спеціально розроблені для CNNMVN. Перша стратегія модифікує коефіцієнти швидкості навчання у формулах корекції похибки, тоді як друга регулює параметри нормалізації у процесах зворотного поширення похибки та її корекції. Обидва методи динамічно адаптують швидкість навчання на основі точності на валідаційній вибірці.

Результати показують, що адаптивна швидкість навчання суттєво покращує швидкість збіжності та точність, особливо при поєднанні з самоналаштовуваною швидкістю навчання. Крім того, наше дослідження підкреслює вплив нормалізації на динаміку навчання та розглядає сценарії, у яких нормалізацію мінімізовано або повністю виключено.

Наші результати демонструють, що методи ALR покращують ефективність навчання CNNMVN, забезпечуючи надійну основу для оптимізації швидкості навчання в комплекснозначних нейронних мережах.

Біографії авторів

О. Ю. Васько, ДВНЗ «Ужгородський нацiональний унiверситет»

Аспірант кафедри системного аналізу та теорії оптимізації

А. Ю. Брила, ДВНЗ «Ужгородський нацiональний унiверситет»

Доцент кафедри системного аналізу та теорії оптимізації. Кандидат фізико-математичних наук, доцент

Посилання

Aizenberg, I., & Vasko, A. (21–25 August, 2020). Convolutional Neural Network with MultiValued Neurons. In 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP). Lviv: Ukraine. https://doi.org/10.1109/DSMP47368.2020.9204076
Aizenberg, I., Herman, J., & Vasko, A. (26–29 October, 2022). A Convolutional Neural Network with Multi-Valued Neurons: A Modified Learning Algorithm and Analysis of Performance. In 2022 IEEE 13th Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON). New York: USA. https://doi.org/10.1109/UEMCON54665.2022.9965659
Aizenberg, I., & Vasko, A. (2024). Frequency-Domain and Spatial-Domain MLMVN-Based Convolutional Neural Networks. Algorithms, 17(8), 361. https://doi.org/10.3390/a17080361
Duchi, J., Hazan, E. & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research, 12, 2121–2159. Retrieved from https://web.stanford.edu/~jduchi/projects/DuchiHaSi11.pdf
Hinton, G., Srivastava, N., & Swersky, K. (2012). Neural networks for machine learning. Lecture 6a Overview of mini-batch gradient descent. Retrieved from https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
Kingma, D. P., & Ba, J. (2017). Adam: A Method for Stochastic Optimization. Machine Learning, arXiv. https://doi.org/10.48550/arXiv.1412.6980
Huang, J., Tang, T., Ding, Y., Tatikonda, S., Dvornek, N., Papademetris, X., & Duncan, J. S. (2020). AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients Machine Learning, arXiv. https://doi.org/10.48550/arXiv.2010.07468
Cheng, W., Pu, R., & Wang, B. (2025). AMC: Adaptive Learning Rate Adjustment Based on Model Complexity. Mathematics, 13(4), 650. https://doi.org/10.3390/math13040650
Takase, T., Oyama, S., & Kurihara, M. (2018). Effective neural network training with adaptive learning rate based on training loss. Neural Networks: The Official Journal of the International Neural Network Society, 101, 68–78. https://doi.org/10.1016/j.neunet.2018.01.016
Li, Q., Wang, B., Zhu, Y., Lioma, C., & Liu, Q. (2023). Adapting Pre-trained Language Models for Quantum Natural Language Processing. Quantum Physics, arXiv. https://doi.org/10.48550/arXiv.2302.13812
Zhao, W., & Huang, H. (2023). Adaptive orthogonal gradient descent algorithm for fully complex-valued neural networks. Neurocomputing, 546, 126358. https://doi.org/10.1016/j.neucom.2023.126358
Zhang, Y., & Huang, H. (2020). Adaptive complex-valued stepsize based fast learning of complex-valued neural networks. Neural Networks, 124, 233–242. https://doi.org/10.1016/j.neunet.2020.01.011
Dong, Z., & Huang, H. (2021). A training algorithm with selectable search direction for complex-valued feedforward neural networks. Neural Networks, 137, 75–84. https://doi.org/10.1016/j.neunet.2021.01.014
Aizenberg, I., & Moraga, C. (2007). Multilayer Feedforward Neural Network Based on Multivalued Neurons (MLMVN) and a Backpropagation Learning Algorithm. Soft Computing, 11(2), 169–183. https://doi.org/10.1007/s00500-006-0075-5
Aizenberg, E., & Aizenberg, I. (09–12 December, 2014). Batch linear least squaresbased learning algorithm for MLMVN with soft margins. In 2014 IEEE Symposium on Computational Intelligence and Data Mining (CIDM). Orlando, FL: USA. https://doi.org/10.1109/CIDM.2014.7008147
Aizenberg, I. (2011). Complex-Valued Neural Networks with Multi-Valued Neurons. Studies in Computational Intelligence. (Vol. 353). Springer, Berlin Heidelberg. https://doi.org/10.1007/978-3-642-20353-4
LeCun, Y., Cortes, C., & Burges, C. J. C. (August 9, 2024). The MNIST Database of handwritten digits. [Dataset]. Retrieved from https://www.kaggle.com/datasets/zalando-research/fashionmnist