Адаптивна нормалізація CNNMVN

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2025.46(1).166-177

Ключові слова:

згорткові нейромережі, комплекснозначні мережі, багатозначні нейрони, CNNMVN, MLMVN, розпізнавання зображень, частотна область

Анотація

Адаптивні методи зміни швидкості навчання широко використовуються для підвищення ефективності навчання нейронних мереж, оскільки вони покращують швидкість та точність збіжності та зменшують ризик застрягання в локальних мінімумах або сідлоподібних точках. У цій статті ми представляємо підходи до адаптивної швидкості навчання для згорткової нейронної мережі з багатозначними нейронами (CNNMVN), яка є повністю комплекснозначною нейронною мережею, що оперує комплексними вхідними даними, комплексними вагами та комплекснозначними активаційними функціями.

На відміну від традиційних дійснозначних нейронних мереж, CNNMVN використовує принцип поділу помилки замість градієнтної оптимізації, що усуває проблему локальних мінімумів і дозволяє більш гнучко коригувати швидкість навчання. Ми пропонуємо дві стратегії адаптивної швидкості навчання (ALR), спеціально розроблені для CNNMVN. Перша стратегія модифікує коефіцієнти швидкості навчання у формулах корекції похибки, тоді як друга регулює параметри нормалізації у процесах зворотного поширення похибки та її корекції. Обидва методи динамічно адаптують швидкість навчання на основі точності на валідаційній вибірці.

Результати показують, що адаптивна швидкість навчання суттєво покращує швидкість збіжності та точність, особливо при поєднанні з самоналаштовуваною швидкістю навчання. Крім того, наше дослідження підкреслює вплив нормалізації на динаміку навчання та розглядає сценарії, у яких нормалізацію мінімізовано або повністю виключено.

Наші результати демонструють, що методи ALR покращують ефективність навчання CNNMVN, забезпечуючи надійну основу для оптимізації швидкості навчання в комплекснозначних нейронних мережах.

Біографії авторів

О. Ю. Васько, ДВНЗ «Ужгородський нацiональний унiверситет»

Аспірант кафедри системного аналізу та теорії оптимізації

А. Ю. Брила, ДВНЗ «Ужгородський нацiональний унiверситет»

Доцент кафедри системного аналізу та теорії оптимізації. Кандидат фізико-математичних наук, доцент

Посилання

  1. Aizenberg, I., & Vasko, A. (21–25 August, 2020). Convolutional Neural Network with MultiValued Neurons. In 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP). Lviv: Ukraine. https://doi.org/10.1109/DSMP47368.2020.9204076
  2. Aizenberg, I., Herman, J., & Vasko, A. (26–29 October, 2022). A Convolutional Neural Network with Multi-Valued Neurons: A Modified Learning Algorithm and Analysis of Performance. In 2022 IEEE 13th Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON). New York: USA. https://doi.org/10.1109/UEMCON54665.2022.9965659
  3. Aizenberg, I., & Vasko, A. (2024). Frequency-Domain and Spatial-Domain MLMVN-Based Convolutional Neural Networks. Algorithms, 17(8), 361. https://doi.org/10.3390/a17080361
  4. Duchi, J., Hazan, E. & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. Journal of Machine Learning Research, 12, 2121–2159. Retrieved from https://web.stanford.edu/~jduchi/projects/DuchiHaSi11.pdf
  5. Hinton, G., Srivastava, N., & Swersky, K. (2012). Neural networks for machine learning. Lecture 6a Overview of mini-batch gradient descent. Retrieved from https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
  6. Kingma, D. P., & Ba, J. (2017). Adam: A Method for Stochastic Optimization. Machine Learning, arXiv. https://doi.org/10.48550/arXiv.1412.6980
  7. Huang, J., Tang, T., Ding, Y., Tatikonda, S., Dvornek, N., Papademetris, X., & Duncan, J. S. (2020). AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients Machine Learning, arXiv. https://doi.org/10.48550/arXiv.2010.07468
  8. Cheng, W., Pu, R., & Wang, B. (2025). AMC: Adaptive Learning Rate Adjustment Based on Model Complexity. Mathematics, 13(4), 650. https://doi.org/10.3390/math13040650
  9. Takase, T., Oyama, S., & Kurihara, M. (2018). Effective neural network training with adaptive learning rate based on training loss. Neural Networks: The Official Journal of the International Neural Network Society, 101, 68–78. https://doi.org/10.1016/j.neunet.2018.01.016
  10. Li, Q., Wang, B., Zhu, Y., Lioma, C., & Liu, Q. (2023). Adapting Pre-trained Language Models for Quantum Natural Language Processing. Quantum Physics, arXiv. https://doi.org/10.48550/arXiv.2302.13812
  11. Zhao, W., & Huang, H. (2023). Adaptive orthogonal gradient descent algorithm for fully complex-valued neural networks. Neurocomputing, 546, 126358. https://doi.org/10.1016/j.neucom.2023.126358
  12. Zhang, Y., & Huang, H. (2020). Adaptive complex-valued stepsize based fast learning of complex-valued neural networks. Neural Networks, 124, 233–242. https://doi.org/10.1016/j.neunet.2020.01.011
  13. Dong, Z., & Huang, H. (2021). A training algorithm with selectable search direction for complex-valued feedforward neural networks. Neural Networks, 137, 75–84. https://doi.org/10.1016/j.neunet.2021.01.014
  14. Aizenberg, I., & Moraga, C. (2007). Multilayer Feedforward Neural Network Based on Multivalued Neurons (MLMVN) and a Backpropagation Learning Algorithm. Soft Computing, 11(2), 169–183. https://doi.org/10.1007/s00500-006-0075-5
  15. Aizenberg, E., & Aizenberg, I. (09–12 December, 2014). Batch linear least squaresbased learning algorithm for MLMVN with soft margins. In 2014 IEEE Symposium on Computational Intelligence and Data Mining (CIDM). Orlando, FL: USA. https://doi.org/10.1109/CIDM.2014.7008147
  16. Aizenberg, I. (2011). Complex-Valued Neural Networks with Multi-Valued Neurons. Studies in Computational Intelligence. (Vol. 353). Springer, Berlin Heidelberg. https://doi.org/10.1007/978-3-642-20353-4
  17. LeCun, Y., Cortes, C., & Burges, C. J. C. (August 9, 2024). The MNIST Database of handwritten digits. [Dataset]. Retrieved from https://www.kaggle.com/datasets/zalando-research/fashionmnist

##submission.downloads##

Опубліковано

2025-06-03

Як цитувати

Васько, О. Ю., & Брила, А. Ю. (2025). Адаптивна нормалізація CNNMVN. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 46(1), 166–177. https://doi.org/10.24144/2616-7700.2025.46(1).166-177

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика