Гібридні архітектури глибокого навчання для класифікації веб-контенту

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2026.48(1).137-145

Ключові слова:

класифiкацiя веб-контенту, глибоке навчання, гібридні архітектури, обробка природної мови, згорткові нейронні мережі (CNN), рекурентні нейронні мережі (RNN), трансформери, графові нейронні мережі (GNN), мультимодальність

Анотація

У статтi розглянуто проблему класифiкацiї веб-контенту, що має критичне значення в умовах експоненцiйного зростання цифрових даних та є фундаментальною задачею обробки природної мови. Традицiйнi моделi глибокого навчання, попри свою ефективнiсть, мають певнi обмеження, що стимулювало розвиток гiбридних архiтектур. Метою даної статтi є огляд гiбридних архiтектур глибокого навчання за останнє десятилiття.

Методологiя дослiдження включає огляд та порiвняльний аналiз ключових пiдходiв, починаючи вiд фундаментальних комбiнацiй згорткових (CNN) та рекурентних (RNN) нейронних мереж, через моделi, посиленi механiзмами уваги, до сучасних архiтектур на основi трансформерiв, графових нейронних мереж (GNN) та мультимодальних моделей, що iнтегрують текст, DOM-структуру та вiзуальнi ознаки. Показано еволюцiю вiд текстових моделей до iнтеграцiї потужних попередньо навчених мовних моделей (PLM), таких як BERT, що виступають у ролi основи для гiбридних класифiкаторiв та графово-мультимодальних рiшень.

Встановлено, що сучаснi гiбриднi архiтектури, особливо тi, що використовують трансформери та враховують структурнi й мультимодальнi аспекти веб-контенту, демонструють найвищу ефективнiсть, проте водночас ставлять новi виклики, пов’язанi з обчислювальною складнiстю, iнтерпретованiстю та дефiцитом сучасних вiдкритих датасетiв саме для веб-класифiкацiї.

Спонсор дослідження

  • Дослiдження було проведено без фiнансової пiдтримки

Біографія автора

В. В. Коворданій, ДВНЗ «Ужгородський нацiональний унiверситет»

Аспiрант кафедри системного аналiзу та теорiї оптимiзацiї

Посилання

  1. Aggarwal, C. C., & Zhai, C. (2012). A survey of text classification algorithms. In C. C. Aggarwal & C. Zhai (Eds.), Mining text data (pp. 163-222). Springer. Retrieved from https://scispace.com/pdf/a-survey-of-text-classification-algorithms-29nuhpcf91.pdf
  2. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. Retrieved from https://www.cs.toronto.edu/ hinton/absps/NatureDeepReview.pdf
  3. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Retrieved from https://doi.org/10.48550/arXiv.1408.5882
  4. Liu, P., Qiu, X., & Huang, X. (2016). Recurrent neural network for text classification with multi-task learning. Retrieved from https://doi.org/10.48550/arXiv.1605.05101
  5. Zhou, C., Sun, C., Liu, Z., & Lau, F. C. (2015). A C-LSTM Neural Network for Text Classification. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1511.08630
  6. Lai, S., Xu, L., Liu, K., & Zhao, J. (2015). Recurrent Convolutional Neural Networks for Text Classification. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Retrieved from https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745
  7. Yang, Z., Yang, D., Dyer, C., He, X., Smola, A., & Hovy, E. (2016). Hierarchical attention networks for document classification. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 1480–1489). Association for Computational Linguistics. Retrieved from https://doi.org/10.18653/v1/N16-1174
  8. Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1810.04805
  9. Abas, A. R., Elhenawy, I., Zidan, M., & Othman, M. (2022). BERT-CNN: A deep learning model for detecting emotions from text. Computers, Materials & Continua, 71(2), 2943–2961. Retrieved from https://doi.org/10.32604/cmc.2022.021671
  10. Gou, Z., & Li, Y. (2023). Integrating BERT embeddings and BiLSTM for emotion analysis of dialogue. Computational Intelligence and Neuroscience, 2023, 6618452. Retrieved from https://doi.org/10.1155/2023/6618452
  11. Xiong, Y., Chen, G., & Cao, J. (2024). Research on public service request text classification based on BERT-BiLSTM-CNN feature fusion. Applied Sciences, 14(14), 6282. Retrieved from https://doi.org/10.3390/app14146282
  12. Wang, K., Ding, Y., & Han, S. C. (2023). Graph Neural Networks for Text Classification: A Survey. ArXiv. Retrieved from https://doi.org/10.1007/s10462-024-10808-0
  13. Yao, L., Mao, C., & Luo, Y. (2018). Graph Convolutional Networks for Text Classification. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1809.05679
  14. Lin, Y., Meng, Y., Sun, X., Han, Q., Kuang, K., Li, J., & Wu, F. (2021). BertGCN: Transductive Text Classification by Combining GCN and BERT. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2105.05727
  15. Gupta, S., & Kishan, B. (2025). A performance-driven hybrid text-image classification model for multimodal data. Scientific Reports, 15, 11598. Retrieved from https://doi.org/10.1038/s41598-025-95674-8
  16. Deng, X., Shiralkar, P., Lockard, C., Huang, B., & Sun, H. (2022). DOM-LM: Learning Generalizable Representations for HTML Documents. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2201.10608
  17. Li, J., Xu, Y., Cui, L., & Wei, F. (2021). MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2110.08518
  18. Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., & Zhou, L. (2020). LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2012.14740
  19. Xu, H., Chen, L., Zhao, Z., Ma, D., Cao, R., Zhu, Z., & Yu, K. (2024). Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2402.18262
  20. Lang, Q., Zhou, J., Wang, H., Lyu, S., & Zhang, R. (2023). PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2305.05378

##submission.downloads##

Опубліковано

2026-01-29

Як цитувати

Коворданій, В. В. (2026). Гібридні архітектури глибокого навчання для класифікації веб-контенту. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 48(1), 137–145. https://doi.org/10.24144/2616-7700.2026.48(1).137-145

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика