Міждоменне узагальнення багаторівневих CNN-представлень зображень для задач оцінки подібності

В. О. Кубицький; А. В. Божок

doi:10.24144/2616-7700.2026.49(2).197-204

Автор(и)

В. О. Кубицький Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0002-1529-8677
А. В. Божок Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0009-0009-9572-6501

DOI:

https://doi.org/10.24144/2616-7700.2026.49(2).197-204

Ключові слова:

подібність зображень, згорткові нейронні мережі, багаторівневі представлення, ResNet-50, міждоменне узагальнення, виявлення майже дублікатів, перенесення навчання, INRIA Holidays

Анотація

Запропоновано та дослiджено багаторiвневе векторне представлення зображень, яке агрегує ознаки з промiжних шарiв C2, C3 та C5 згорткової нейронної мережi ResNet-50 за допомогою глобального усереднення, конкатенацiї та L2-нормалiзацiї, формуючи єдиний 2816-вимiрний дескриптор. Принциповою особливiстю пiдходу є архiтектурне вiдокремлення побудови унiверсального представлення вiд залежного вiд задачi механiзму прийняття рiшень, реалiзованого як компактний багатошаровий перцептрон. Проведено оцiнку мiждоменної переносимостi цього представлення на незалежному наборi даних INRIA Holidays, який суттєво вiдрiзняється вiд домену первинної апробацiї методу: багаторiвневий дескриптор перевершив одношарове CNN-представлення на 9 вiдсоткових пунктiв за F1 при адаптацiї лише компактного MLP на 100 розмiчених прикладах. Опублiкованi результати на фiксованому наборi даних пiдтвердили обґрунтованiсть вибору ResNet-50 як базової архiтектури: R-MAC на основi ResNet-50 перевершує R-MAC на основi VGG-19 на 4,9 в.п. mAP при шестиразово меншiй кiлькостi параметрiв, а також є конкурентоспроможним порiвняно з ViT-дескрипторами, якi мають у 4–13 разiв бiльший обсяг моделi.

Спонсор дослідження

Дослідження було проведено без фінансової підтримки.

Біографії авторів

В. О. Кубицький, Київський національний університет імені Тараса Шевченка

Аспiрант кафедри теорiї та технологiї програмування

А. В. Божок, Київський національний університет імені Тараса Шевченка

Аспірант кафедри теорії та технології програмування

Посилання

Thyagharajan, K. K., & Kalaiarasi, G. A. (2021). A review on near-duplicate detection of images using computer vision techniques. Archives of Computational Methods in Engineering, 28(3), 897–916. https://doi.org/10.1007/s11831-020-09400-w
Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2), 91–110. https://doi.org/10.1023/B:VISI.0000029664.99615.94
Razavian, A. S., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). CNN features off-theshelf: An astounding baseline for recognition. In Proceedings of CVPRW 2014. (pp. 806–813). https://doi.org/10.48550/arXiv.1403.6382
Kordopatis-Zilos, G., Papadopoulos, S., Patras, I., & Kompatsiaris, Y. (2017). Near-duplicate video retrieval by aggregating intermediate CNN layers. In Multimedia Modeling. Springer. https://doi.org/10.1007/978-3-319-51811-4_21
Kubytskyi, V., & Panchenko, T. (2023). Enriched image embeddings as a combined outputs from different layers of CNN for various image similarity problems. In Lecture Notes on Data Engineering and Communications Technologies. (Vol. 180, pp. 321–333). Springer. https://doi.org/10.1007/978-3-031-36115-9_30
Panchenko, T., Bozhok, A., & Kubytskyi, V. (2026). Multi-level CNN feature fusion from ResNet50 for near-duplicate image detection in real estate imagery. Informatica, 50(9). https://doi.org/10.31449/inf.v50i9.12111
Dosovitskiy, A., Beyer, L., Kolesnikov, A., & et al. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In Proceedings of ICLR 2021. https://doi.org/10.48550/arXiv.2010.11929
Radford, A., Kim, J. W., Hallacy, C., & et al. (2021). Learning transferable visual models from natural language supervision. In Proceedings of ICML 2021. https://doi.org/10.48550/arXiv.2103.00020
Jegou, H., Douze, M., & Schmid, C. (2008). Hamming embedding and weak geometric consistency for large scale image search. In ECCV 2008. (pp. 304–317). Springer. https://doi.org/10.1007/978-3-540-88682-2_24
Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In ECCV 2014. (pp. 818–833). https://doi.org/10.48550/arXiv.1311.2901
Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556. https://doi.org/10.48550/arXiv.1409.1556
Szegedy, C., Liu, W., Jia, Y., & et al. (2015). Going deeper with convolutions. In Proceedings of CVPR 2015. https://doi.org/10.48550/arXiv.1409.4842
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of CVPR 2016. (pp. 770–778). https://doi.org/10.48550/arXiv.1512.03385
Clevert, D.-A., Unterthiner, T., & Hochreiter, S. (2016). Fast and accurate deep network learning by exponential linear units (ELUs). In Proceedings of ICLR 2016. https://doi.org/10.48550/arXiv.1511.07289
Mousavian, A., & Kosecka, J. (2015). Deep convolutional features for image based retrieval and scene categorization. arXiv:1509.06033. https://doi.org/10.48550/arXiv.1509.06033
Hariharan, B., Arbel´aez, P., Girshick, R., & Malik, J. (2015). Hypercolumns for object localization and fine-grained localization. In Proceedings of CVPR 2015. (pp. 447–456). https://doi.org/10.48550/arXiv.1411.5752
Lin, T.-Y., Doll´ar, P., Girshick, R., & et al. (2017). Feature pyramid networks for object detection. In Proceedings of CVPR 2017. (pp. 2117–2125). https://doi.org/10.48550/arXiv.1612.03144
Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861–874. https://doi.org/10.1016/j.patrec.2005.10.010
Cataldo, A., Bianco, S., Napoletano, P., & Schettini, R. (2018). An accurate retrieval through R-MAC+ descriptors for landmark recognition. In Proceedings of ICIAP 2018.
Gkelios, S., Boutalis, Y., & Chatzichristofis, S. A. (2021). Investigating the vision transformer model for image retrieval tasks. In Proceedings of IEEE MMSP 2021. https://doi.org/10.1109/MMSP53017.2021.9733553