Порівняльна оцінка сучасних методів багаторакурсної 3D-реконструкції сцен за RGB-зображеннями: точність, повнота та ресурсоємність

М. Ю. Сміленко

doi:10.24144/2616-7700.2026.49(2).269-275

Автор(и)

М. Ю. Сміленко ВНЗ «Унiверситет економiки та права “КРОК”», Україна https://orcid.org/0000-0001-7690-3765

DOI:

https://doi.org/10.24144/2616-7700.2026.49(2).269-275

Ключові слова:

3D-реконструкція, RGB-зображення, замір продуктивності, навчувані моделі, трансформерні моделі

Анотація

У роботi розглянуто сучаснi методи багаторакурсної 3D-реконструкцiї сцен за RGB-зображеннями та виконано їх порiвняльне оцiнювання за показниками геометричної якостi й обчислювальної ефективностi. Для аналiзу обрано класичний алгоритм COLMAP як базовий орiєнтир, а також DUSt3R, MASt3R, CUT3R, VGGT i Fast3R як представникiв нової хвилi моделей. Оцiнювання виконано на основi стандартизованого сценарiю, на якому тестувались три типи сцен: контрольованi (лабораторнi), реалiстичнi (внутрiшнi/зовнiшнi) та складнi великомасштабнi (внутрiшнi сцени). Для порiвняння використано метрики точностi, повноти, F1-показника, часу обробки, використання вiдеопам’ятi та масштабованiсть зi збiльшенням кiлькостi вхiдних зображень. Продемонстровано, що унiверсального методу, який би одночасно забезпечував найкращу якiсть реконструкцiї та мiнiмальну ресурсоємнiсть, не iснує. Найвищу якiсть продемонстрував VGGT, найкращу швидкодiю та масштабованiсть — Fast3R, а найбiльш збалансованим методом виявився CUT3R.

Спонсор дослідження

Дослідження було проведено без фінансової підтримки.

Біографія автора

М. Ю. Сміленко, ВНЗ «Унiверситет економiки та права “КРОК”»

Аспiрант кафедри управлiнських технологiй

Посилання

Schonberger, J. L., Zheng, E., Frahm, J.-M., & Pollefeys, M. (2016). Pixelwise view selection for unstructured multi-view stereo. In B. Leibe, J. Matas, N. Sebe, & M. Welling (Eds.), Computer Vision — ECCV 2016. Lecture Notes in Computer Science. (Vol. 9907, pp. 501–518). Springer. https://doi.org/10.1007/978-3-319-46487-9_31
Wang, S., Leroy, V., Cabon, Y., Chidlovskii, B., & Revaud, J. (2024). DUSt3R: Geometric 3D Vision Made Easy. In Proceedings: IEEE/CVF Conference on Computer Vision and Pattern Recognition. (pp. 20697–20709). https://doi.org/10.1109/CVPR52733.2024.01956
Leroy, V., Cabon, Y., & Revaud, J. (2024). Grounding Image Matching in 3D with MASt3R. Computer Vision — ECCV 2024: Springer. https://doi.org/10.1007/978-3-031-73220-1_5
Wang, Q., Zhang, Y., Holynski, A., Efros, A. A., & Kanazawa, A. (2025). Continuous 3D perception model with persistent state. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. (pp. 10510–10522). IEEE. https://doi.org/10.1109/CVPR52734.2025.00983
Wang, J., Chen, M., Karaev, N., Vedaldi, A., Rupprecht, C., & Novotny, D. (2025). VGGT: Visual Geometry Grounded Transformer. Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN: USA. pp. 5294–5306. https://doi.org/10.1109/CVPR52734.2025.00499
Yang, J., & et al. (2025). Fast3R: Towards 3D reconstruction of 1000+ images in one forward pass. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). (pp. 21924–21935). IEEE. https://doi.org/10.1109/CVPR52734.2025.02042
Aanæs, H., Jensen, R. R., Vogiatzis, G., & et al. (2016). Large-Scale Data for Multiple-View Stereopsis. International Journal of Computer Vision, 120, 153–168. https://doi.org/10.1007/s11263-016-0902-9
Knapitsch, A., Park, J., Zhou, Q. Y., & Koltun, V. (2017). Tanks and temples: Benchmarking large-scale scene reconstruction. ACM Transactions on Graphics (ToG), 36(4), 1–13. https://doi.org/10.1145/3072959.3073599
Yeshwanth, C., Liu, Y. C., Nießner, M., & Dai, A. (2023). ScanNet++: A high-fidelity dataset of 3D indoor scenes. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). (pp. 12–22). https://doi.org/10.1109/ICCV51070.2023.00008