Мультимодальна нейромережева модель верифікації на основі злиття ознак візуального контексту та просторових атрибутів

С. В. Шкіря; Ю. В. Андрашко

doi:10.24144/2616-7700.2026.49(2).317-323

Автор(и)

С. В. Шкіря ДВНЗ «Ужгородський нацiональний унiверситет», Україна https://orcid.org/0009-0006-7129-2823
Ю. В. Андрашко ДВНЗ «Ужгородський нацiональний унiверситет», Україна https://orcid.org/0000-0003-2306-8377

DOI:

https://doi.org/10.24144/2616-7700.2026.49(2).317-323

Ключові слова:

мультимодальна нейромережа, верифікація осіб, комп'ютерний зір, злиття ознак, сіамська архітектура, ResNet-50, LFW

Анотація

У статтi розроблено та дослiджено нову мультимодальну нейромережеву архiтектуру для систем верифiкацiї осiб, що поєднує аналiз вiзуального контексту та просторових атрибутiв. Запропоновано двоетапний пiдхiд. На першому етапi реалiзовано гiбридну згорткову нейромережу, яка використовує попередньо навчену архiтектуру ResNet-50 та кастомну гiлку для екстракцiї вiзуальних ознак, що дозволило досягти точностi 94.52% на наборi даних LFW. На другому етапi розроблено модель глибокого мультимодального злиття, яка додатково iнтегрує багатовимiрний вектор нормалiзованих ключових точок обличчя. Використання сiамської архiтектури з контрастивною функцiєю втрат та алгоритмом Hard Negative Mining забезпечило фiнальну цiльову точнiсть розпiзнавання на рiвнi 96.93%. Експериментально доведено, що глибоке злиття вiзуальних та геометричних ознак суттєво знижує ймовiрнiсть помилок автентифiкацiї порiвняно з унiмодальними та базовими гiбридними пiдходами.

Спонсор дослідження

Дослiдження здiйснено в рамках кафедральної науково-дослiдної роботи «Моделi i методи системного аналiзу в мiждисциплiнарних дослiдженнях» (державний облiковий номер 0125U003246).

Біографії авторів

С. В. Шкіря, ДВНЗ «Ужгородський нацiональний унiверситет»

Аспірант кафедри системного аналізу та теорії оптимізації

Ю. В. Андрашко, ДВНЗ «Ужгородський нацiональний унiверситет»

Доцент кафедри системного аналізу та теорії оптимізації. Кандидат технічних наук, доцент

Посилання

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (pp. 770–778). https://doi.org/10.1109/CVPR.2016.90
Huang, G. B., Mattar, M., Berg, T., & Learned-Miller, E. (2008). Labeled faces in the wild: A database for studying face recognition in unconstrained environments. University of Massachusetts, Amherst, Technical Report 07-49.
Chopra, S., Hadsell, R., & LeCun, Y. (2005). Learning a similarity metric discriminatively, with application to face verification. In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). (Vol. 1, pp. 539–546). https://doi.org/10.1109/CVPR.2005.202
Schroff, F., Kalenichenko, D., & Philbin, J. (2015). FaceNet: A unified embedding for face recognition and clustering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (pp. 815–823).
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. In Proceedings of the 37th International Conference on Machine Learning. (pp. 1597–1607). Proceedings of Machine Learning Research, 119. https://proceedings.mlr.press/v119/chen20j.html
Wang, M., & Deng, W. (2021). Deep face recognition: A survey. Neurocomputing, 429, 215–244. https://doi.org/10.1016/j.neucom.2020.10.081
Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. https://doi.org/10.1109/TPAMI.2013.50
Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., & et al. (2019). MediaPipe: A framework for building perception pipelines. Google Research. https://doi.org/10.48550/arXiv.1906.08172
Phan, T. H., Huynh, C. T., Nguyen, M. S., Tran, T., & Nguyen, T. Q. (2026). A deep Siamese ResNet-50 framework with triplet loss for high-precision face verification. Research Square. https://doi.org/10.21203/rs.3.rs-8414686/v1