Міждоменне узагальнення багаторівневих CNN-представлень зображень для задач оцінки подібності

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2026.49(2).197-204

Ключові слова:

подібність зображень, згорткові нейронні мережі, багаторівневі представлення, ResNet-50, міждоменне узагальнення, виявлення майже дублікатів, перенесення навчання, INRIA Holidays

Анотація

Запропоновано та дослiджено багаторiвневе векторне представлення зображень, яке агрегує ознаки з промiжних шарiв C2, C3 та C5 згорткової нейронної мережi ResNet-50 за допомогою глобального усереднення, конкатенацiї та L2-нормалiзацiї, формуючи єдиний 2816-вимiрний дескриптор. Принциповою особливiстю пiдходу є архiтектурне вiдокремлення побудови унiверсального представлення вiд залежного вiд задачi механiзму прийняття рiшень, реалiзованого як компактний багатошаровий перцептрон. Проведено оцiнку мiждоменної переносимостi цього представлення на незалежному наборi даних INRIA Holidays, який суттєво вiдрiзняється вiд домену первинної апробацiї методу: багаторiвневий дескриптор перевершив одношарове CNN-представлення на 9 вiдсоткових пунктiв за F1 при адаптацiї лише компактного MLP на 100 розмiчених прикладах. Опублiкованi результати на фiксованому наборi даних пiдтвердили обґрунтованiсть вибору ResNet-50 як базової архiтектури: R-MAC на основi ResNet-50 перевершує R-MAC на основi VGG-19 на 4,9 в.п. mAP при шестиразово меншiй кiлькостi параметрiв, а також є конкурентоспроможним порiвняно з ViT-дескрипторами, якi мають у 4–13 разiв бiльший обсяг моделi.

Спонсор дослідження

  • Дослідження було проведено без фінансової підтримки.

Біографії авторів

В. О. Кубицький, Київський національний університет імені Тараса Шевченка

Аспiрант кафедри теорiї та технологiї програмування

А. В. Божок, Київський національний університет імені Тараса Шевченка

Аспірант кафедри теорії та технології програмування

Посилання

  1. Thyagharajan, K. K., & Kalaiarasi, G. A. (2021). A review on near-duplicate detection of images using computer vision techniques. Archives of Computational Methods in Engineering, 28(3), 897–916. https://doi.org/10.1007/s11831-020-09400-w
  2. Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2), 91–110. https://doi.org/10.1023/B:VISI.0000029664.99615.94
  3. Razavian, A. S., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). CNN features off-theshelf: An astounding baseline for recognition. In Proceedings of CVPRW 2014. (pp. 806–813). https://doi.org/10.48550/arXiv.1403.6382
  4. Kordopatis-Zilos, G., Papadopoulos, S., Patras, I., & Kompatsiaris, Y. (2017). Near-duplicate video retrieval by aggregating intermediate CNN layers. In Multimedia Modeling. Springer. https://doi.org/10.1007/978-3-319-51811-4_21
  5. Kubytskyi, V., & Panchenko, T. (2023). Enriched image embeddings as a combined outputs from different layers of CNN for various image similarity problems. In Lecture Notes on Data Engineering and Communications Technologies. (Vol. 180, pp. 321–333). Springer. https://doi.org/10.1007/978-3-031-36115-9_30
  6. Panchenko, T., Bozhok, A., & Kubytskyi, V. (2026). Multi-level CNN feature fusion from ResNet50 for near-duplicate image detection in real estate imagery. Informatica, 50(9). https://doi.org/10.31449/inf.v50i9.12111
  7. Dosovitskiy, A., Beyer, L., Kolesnikov, A., & et al. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In Proceedings of ICLR 2021. https://doi.org/10.48550/arXiv.2010.11929
  8. Radford, A., Kim, J. W., Hallacy, C., & et al. (2021). Learning transferable visual models from natural language supervision. In Proceedings of ICML 2021. https://doi.org/10.48550/arXiv.2103.00020
  9. Jegou, H., Douze, M., & Schmid, C. (2008). Hamming embedding and weak geometric consistency for large scale image search. In ECCV 2008. (pp. 304–317). Springer. https://doi.org/10.1007/978-3-540-88682-2_24
  10. Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In ECCV 2014. (pp. 818–833). https://doi.org/10.48550/arXiv.1311.2901
  11. Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556. https://doi.org/10.48550/arXiv.1409.1556
  12. Szegedy, C., Liu, W., Jia, Y., & et al. (2015). Going deeper with convolutions. In Proceedings of CVPR 2015. https://doi.org/10.48550/arXiv.1409.4842
  13. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of CVPR 2016. (pp. 770–778). https://doi.org/10.48550/arXiv.1512.03385
  14. Clevert, D.-A., Unterthiner, T., & Hochreiter, S. (2016). Fast and accurate deep network learning by exponential linear units (ELUs). In Proceedings of ICLR 2016. https://doi.org/10.48550/arXiv.1511.07289
  15. Mousavian, A., & Kosecka, J. (2015). Deep convolutional features for image based retrieval and scene categorization. arXiv:1509.06033. https://doi.org/10.48550/arXiv.1509.06033
  16. Hariharan, B., Arbel´aez, P., Girshick, R., & Malik, J. (2015). Hypercolumns for object localization and fine-grained localization. In Proceedings of CVPR 2015. (pp. 447–456). https://doi.org/10.48550/arXiv.1411.5752
  17. Lin, T.-Y., Doll´ar, P., Girshick, R., & et al. (2017). Feature pyramid networks for object detection. In Proceedings of CVPR 2017. (pp. 2117–2125). https://doi.org/10.48550/arXiv.1612.03144
  18. Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861–874. https://doi.org/10.1016/j.patrec.2005.10.010
  19. Cataldo, A., Bianco, S., Napoletano, P., & Schettini, R. (2018). An accurate retrieval through R-MAC+ descriptors for landmark recognition. In Proceedings of ICIAP 2018.
  20. Gkelios, S., Boutalis, Y., & Chatzichristofis, S. A. (2021). Investigating the vision transformer model for image retrieval tasks. In Proceedings of IEEE MMSP 2021. https://doi.org/10.1109/MMSP53017.2021.9733553

##submission.downloads##

Опубліковано

2026-04-30

Як цитувати

Кубицький, В. О., & Божок, А. В. (2026). Міждоменне узагальнення багаторівневих CNN-представлень зображень для задач оцінки подібності. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 49(2), 197–204. https://doi.org/10.24144/2616-7700.2026.49(2).197-204

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика