Міждоменне узагальнення багаторівневих CNN-представлень зображень для задач оцінки подібності
DOI:
https://doi.org/10.24144/2616-7700.2026.49(2).197-204Ключові слова:
подібність зображень, згорткові нейронні мережі, багаторівневі представлення, ResNet-50, міждоменне узагальнення, виявлення майже дублікатів, перенесення навчання, INRIA HolidaysАнотація
Запропоновано та дослiджено багаторiвневе векторне представлення зображень, яке агрегує ознаки з промiжних шарiв C2, C3 та C5 згорткової нейронної мережi ResNet-50 за допомогою глобального усереднення, конкатенацiї та L2-нормалiзацiї, формуючи єдиний 2816-вимiрний дескриптор. Принциповою особливiстю пiдходу є архiтектурне вiдокремлення побудови унiверсального представлення вiд залежного вiд задачi механiзму прийняття рiшень, реалiзованого як компактний багатошаровий перцептрон. Проведено оцiнку мiждоменної переносимостi цього представлення на незалежному наборi даних INRIA Holidays, який суттєво вiдрiзняється вiд домену первинної апробацiї методу: багаторiвневий дескриптор перевершив одношарове CNN-представлення на 9 вiдсоткових пунктiв за F1 при адаптацiї лише компактного MLP на 100 розмiчених прикладах. Опублiкованi результати на фiксованому наборi даних пiдтвердили обґрунтованiсть вибору ResNet-50 як базової архiтектури: R-MAC на основi ResNet-50 перевершує R-MAC на основi VGG-19 на 4,9 в.п. mAP при шестиразово меншiй кiлькостi параметрiв, а також є конкурентоспроможним порiвняно з ViT-дескрипторами, якi мають у 4–13 разiв бiльший обсяг моделi.
Спонсор дослідження
- Дослідження було проведено без фінансової підтримки.
Посилання
- Thyagharajan, K. K., & Kalaiarasi, G. A. (2021). A review on near-duplicate detection of images using computer vision techniques. Archives of Computational Methods in Engineering, 28(3), 897–916. https://doi.org/10.1007/s11831-020-09400-w
- Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2), 91–110. https://doi.org/10.1023/B:VISI.0000029664.99615.94
- Razavian, A. S., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). CNN features off-theshelf: An astounding baseline for recognition. In Proceedings of CVPRW 2014. (pp. 806–813). https://doi.org/10.48550/arXiv.1403.6382
- Kordopatis-Zilos, G., Papadopoulos, S., Patras, I., & Kompatsiaris, Y. (2017). Near-duplicate video retrieval by aggregating intermediate CNN layers. In Multimedia Modeling. Springer. https://doi.org/10.1007/978-3-319-51811-4_21
- Kubytskyi, V., & Panchenko, T. (2023). Enriched image embeddings as a combined outputs from different layers of CNN for various image similarity problems. In Lecture Notes on Data Engineering and Communications Technologies. (Vol. 180, pp. 321–333). Springer. https://doi.org/10.1007/978-3-031-36115-9_30
- Panchenko, T., Bozhok, A., & Kubytskyi, V. (2026). Multi-level CNN feature fusion from ResNet50 for near-duplicate image detection in real estate imagery. Informatica, 50(9). https://doi.org/10.31449/inf.v50i9.12111
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., & et al. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In Proceedings of ICLR 2021. https://doi.org/10.48550/arXiv.2010.11929
- Radford, A., Kim, J. W., Hallacy, C., & et al. (2021). Learning transferable visual models from natural language supervision. In Proceedings of ICML 2021. https://doi.org/10.48550/arXiv.2103.00020
- Jegou, H., Douze, M., & Schmid, C. (2008). Hamming embedding and weak geometric consistency for large scale image search. In ECCV 2008. (pp. 304–317). Springer. https://doi.org/10.1007/978-3-540-88682-2_24
- Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In ECCV 2014. (pp. 818–833). https://doi.org/10.48550/arXiv.1311.2901
- Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556. https://doi.org/10.48550/arXiv.1409.1556
- Szegedy, C., Liu, W., Jia, Y., & et al. (2015). Going deeper with convolutions. In Proceedings of CVPR 2015. https://doi.org/10.48550/arXiv.1409.4842
- He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of CVPR 2016. (pp. 770–778). https://doi.org/10.48550/arXiv.1512.03385
- Clevert, D.-A., Unterthiner, T., & Hochreiter, S. (2016). Fast and accurate deep network learning by exponential linear units (ELUs). In Proceedings of ICLR 2016. https://doi.org/10.48550/arXiv.1511.07289
- Mousavian, A., & Kosecka, J. (2015). Deep convolutional features for image based retrieval and scene categorization. arXiv:1509.06033. https://doi.org/10.48550/arXiv.1509.06033
- Hariharan, B., Arbel´aez, P., Girshick, R., & Malik, J. (2015). Hypercolumns for object localization and fine-grained localization. In Proceedings of CVPR 2015. (pp. 447–456). https://doi.org/10.48550/arXiv.1411.5752
- Lin, T.-Y., Doll´ar, P., Girshick, R., & et al. (2017). Feature pyramid networks for object detection. In Proceedings of CVPR 2017. (pp. 2117–2125). https://doi.org/10.48550/arXiv.1612.03144
- Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861–874. https://doi.org/10.1016/j.patrec.2005.10.010
- Cataldo, A., Bianco, S., Napoletano, P., & Schettini, R. (2018). An accurate retrieval through R-MAC+ descriptors for landmark recognition. In Proceedings of ICIAP 2018.
- Gkelios, S., Boutalis, Y., & Chatzichristofis, S. A. (2021). Investigating the vision transformer model for image retrieval tasks. In Proceedings of IEEE MMSP 2021. https://doi.org/10.1109/MMSP53017.2021.9733553
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 В. О. Кубицький, А. В. Божок

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
