Гібридні архітектури глибокого навчання для класифікації веб-контенту
DOI:
https://doi.org/10.24144/2616-7700.2026.48(1).137-145Ключові слова:
класифiкацiя веб-контенту, глибоке навчання, гібридні архітектури, обробка природної мови, згорткові нейронні мережі (CNN), рекурентні нейронні мережі (RNN), трансформери, графові нейронні мережі (GNN), мультимодальністьАнотація
У статтi розглянуто проблему класифiкацiї веб-контенту, що має критичне значення в умовах експоненцiйного зростання цифрових даних та є фундаментальною задачею обробки природної мови. Традицiйнi моделi глибокого навчання, попри свою ефективнiсть, мають певнi обмеження, що стимулювало розвиток гiбридних архiтектур. Метою даної статтi є огляд гiбридних архiтектур глибокого навчання за останнє десятилiття.
Методологiя дослiдження включає огляд та порiвняльний аналiз ключових пiдходiв, починаючи вiд фундаментальних комбiнацiй згорткових (CNN) та рекурентних (RNN) нейронних мереж, через моделi, посиленi механiзмами уваги, до сучасних архiтектур на основi трансформерiв, графових нейронних мереж (GNN) та мультимодальних моделей, що iнтегрують текст, DOM-структуру та вiзуальнi ознаки. Показано еволюцiю вiд текстових моделей до iнтеграцiї потужних попередньо навчених мовних моделей (PLM), таких як BERT, що виступають у ролi основи для гiбридних класифiкаторiв та графово-мультимодальних рiшень.
Встановлено, що сучаснi гiбриднi архiтектури, особливо тi, що використовують трансформери та враховують структурнi й мультимодальнi аспекти веб-контенту, демонструють найвищу ефективнiсть, проте водночас ставлять новi виклики, пов’язанi з обчислювальною складнiстю, iнтерпретованiстю та дефiцитом сучасних вiдкритих датасетiв саме для веб-класифiкацiї.
Спонсор дослідження
- Дослiдження було проведено без фiнансової пiдтримки
Посилання
- Aggarwal, C. C., & Zhai, C. (2012). A survey of text classification algorithms. In C. C. Aggarwal & C. Zhai (Eds.), Mining text data (pp. 163-222). Springer. Retrieved from https://scispace.com/pdf/a-survey-of-text-classification-algorithms-29nuhpcf91.pdf
- LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. Retrieved from https://www.cs.toronto.edu/ hinton/absps/NatureDeepReview.pdf
- Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Retrieved from https://doi.org/10.48550/arXiv.1408.5882
- Liu, P., Qiu, X., & Huang, X. (2016). Recurrent neural network for text classification with multi-task learning. Retrieved from https://doi.org/10.48550/arXiv.1605.05101
- Zhou, C., Sun, C., Liu, Z., & Lau, F. C. (2015). A C-LSTM Neural Network for Text Classification. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1511.08630
- Lai, S., Xu, L., Liu, K., & Zhao, J. (2015). Recurrent Convolutional Neural Networks for Text Classification. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Retrieved from https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745
- Yang, Z., Yang, D., Dyer, C., He, X., Smola, A., & Hovy, E. (2016). Hierarchical attention networks for document classification. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 1480–1489). Association for Computational Linguistics. Retrieved from https://doi.org/10.18653/v1/N16-1174
- Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1810.04805
- Abas, A. R., Elhenawy, I., Zidan, M., & Othman, M. (2022). BERT-CNN: A deep learning model for detecting emotions from text. Computers, Materials & Continua, 71(2), 2943–2961. Retrieved from https://doi.org/10.32604/cmc.2022.021671
- Gou, Z., & Li, Y. (2023). Integrating BERT embeddings and BiLSTM for emotion analysis of dialogue. Computational Intelligence and Neuroscience, 2023, 6618452. Retrieved from https://doi.org/10.1155/2023/6618452
- Xiong, Y., Chen, G., & Cao, J. (2024). Research on public service request text classification based on BERT-BiLSTM-CNN feature fusion. Applied Sciences, 14(14), 6282. Retrieved from https://doi.org/10.3390/app14146282
- Wang, K., Ding, Y., & Han, S. C. (2023). Graph Neural Networks for Text Classification: A Survey. ArXiv. Retrieved from https://doi.org/10.1007/s10462-024-10808-0
- Yao, L., Mao, C., & Luo, Y. (2018). Graph Convolutional Networks for Text Classification. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1809.05679
- Lin, Y., Meng, Y., Sun, X., Han, Q., Kuang, K., Li, J., & Wu, F. (2021). BertGCN: Transductive Text Classification by Combining GCN and BERT. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2105.05727
- Gupta, S., & Kishan, B. (2025). A performance-driven hybrid text-image classification model for multimodal data. Scientific Reports, 15, 11598. Retrieved from https://doi.org/10.1038/s41598-025-95674-8
- Deng, X., Shiralkar, P., Lockard, C., Huang, B., & Sun, H. (2022). DOM-LM: Learning Generalizable Representations for HTML Documents. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2201.10608
- Li, J., Xu, Y., Cui, L., & Wei, F. (2021). MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2110.08518
- Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., & Zhou, L. (2020). LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2012.14740
- Xu, H., Chen, L., Zhao, Z., Ma, D., Cao, R., Zhu, Z., & Yu, K. (2024). Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2402.18262
- Lang, Q., Zhou, J., Wang, H., Lyu, S., & Zhang, R. (2023). PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2305.05378
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 В. В. Коворданій

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
