Гібридні архітектури глибокого навчання для класифікації веб-контенту

В. В. Коворданій

doi:10.24144/2616-7700.2026.48(1).137-145

Автор(и)

В. В. Коворданій ДВНЗ «Ужгородський нацiональний унiверситет», Україна https://orcid.org/0009-0005-2097-4392

DOI:

https://doi.org/10.24144/2616-7700.2026.48(1).137-145

Ключові слова:

класифiкацiя веб-контенту, глибоке навчання, гібридні архітектури, обробка природної мови, згорткові нейронні мережі (CNN), рекурентні нейронні мережі (RNN), трансформери, графові нейронні мережі (GNN), мультимодальність

Анотація

У статтi розглянуто проблему класифiкацiї веб-контенту, що має критичне значення в умовах експоненцiйного зростання цифрових даних та є фундаментальною задачею обробки природної мови. Традицiйнi моделi глибокого навчання, попри свою ефективнiсть, мають певнi обмеження, що стимулювало розвиток гiбридних архiтектур. Метою даної статтi є огляд гiбридних архiтектур глибокого навчання за останнє десятилiття.

Методологiя дослiдження включає огляд та порiвняльний аналiз ключових пiдходiв, починаючи вiд фундаментальних комбiнацiй згорткових (CNN) та рекурентних (RNN) нейронних мереж, через моделi, посиленi механiзмами уваги, до сучасних архiтектур на основi трансформерiв, графових нейронних мереж (GNN) та мультимодальних моделей, що iнтегрують текст, DOM-структуру та вiзуальнi ознаки. Показано еволюцiю вiд текстових моделей до iнтеграцiї потужних попередньо навчених мовних моделей (PLM), таких як BERT, що виступають у ролi основи для гiбридних класифiкаторiв та графово-мультимодальних рiшень.

Встановлено, що сучаснi гiбриднi архiтектури, особливо тi, що використовують трансформери та враховують структурнi й мультимодальнi аспекти веб-контенту, демонструють найвищу ефективнiсть, проте водночас ставлять новi виклики, пов’язанi з обчислювальною складнiстю, iнтерпретованiстю та дефiцитом сучасних вiдкритих датасетiв саме для веб-класифiкацiї.

Спонсор дослідження

Дослiдження було проведено без фiнансової пiдтримки

Біографія автора

В. В. Коворданій, ДВНЗ «Ужгородський нацiональний унiверситет»

Аспiрант кафедри системного аналiзу та теорiї оптимiзацiї

Посилання

Aggarwal, C. C., & Zhai, C. (2012). A survey of text classification algorithms. In C. C. Aggarwal & C. Zhai (Eds.), Mining text data (pp. 163-222). Springer. Retrieved from https://scispace.com/pdf/a-survey-of-text-classification-algorithms-29nuhpcf91.pdf
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. Retrieved from https://www.cs.toronto.edu/ hinton/absps/NatureDeepReview.pdf
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Retrieved from https://doi.org/10.48550/arXiv.1408.5882
Liu, P., Qiu, X., & Huang, X. (2016). Recurrent neural network for text classification with multi-task learning. Retrieved from https://doi.org/10.48550/arXiv.1605.05101
Zhou, C., Sun, C., Liu, Z., & Lau, F. C. (2015). A C-LSTM Neural Network for Text Classification. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1511.08630
Lai, S., Xu, L., Liu, K., & Zhao, J. (2015). Recurrent Convolutional Neural Networks for Text Classification. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Retrieved from https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745
Yang, Z., Yang, D., Dyer, C., He, X., Smola, A., & Hovy, E. (2016). Hierarchical attention networks for document classification. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 1480–1489). Association for Computational Linguistics. Retrieved from https://doi.org/10.18653/v1/N16-1174
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1810.04805
Abas, A. R., Elhenawy, I., Zidan, M., & Othman, M. (2022). BERT-CNN: A deep learning model for detecting emotions from text. Computers, Materials & Continua, 71(2), 2943–2961. Retrieved from https://doi.org/10.32604/cmc.2022.021671
Gou, Z., & Li, Y. (2023). Integrating BERT embeddings and BiLSTM for emotion analysis of dialogue. Computational Intelligence and Neuroscience, 2023, 6618452. Retrieved from https://doi.org/10.1155/2023/6618452
Xiong, Y., Chen, G., & Cao, J. (2024). Research on public service request text classification based on BERT-BiLSTM-CNN feature fusion. Applied Sciences, 14(14), 6282. Retrieved from https://doi.org/10.3390/app14146282
Wang, K., Ding, Y., & Han, S. C. (2023). Graph Neural Networks for Text Classification: A Survey. ArXiv. Retrieved from https://doi.org/10.1007/s10462-024-10808-0
Yao, L., Mao, C., & Luo, Y. (2018). Graph Convolutional Networks for Text Classification. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.1809.05679
Lin, Y., Meng, Y., Sun, X., Han, Q., Kuang, K., Li, J., & Wu, F. (2021). BertGCN: Transductive Text Classification by Combining GCN and BERT. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2105.05727
Gupta, S., & Kishan, B. (2025). A performance-driven hybrid text-image classification model for multimodal data. Scientific Reports, 15, 11598. Retrieved from https://doi.org/10.1038/s41598-025-95674-8
Deng, X., Shiralkar, P., Lockard, C., Huang, B., & Sun, H. (2022). DOM-LM: Learning Generalizable Representations for HTML Documents. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2201.10608
Li, J., Xu, Y., Cui, L., & Wei, F. (2021). MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2110.08518
Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., Wang, G., Lu, Y., Florencio, D., Zhang, C., Che, W., Zhang, M., & Zhou, L. (2020). LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2012.14740
Xu, H., Chen, L., Zhao, Z., Ma, D., Cao, R., Zhu, Z., & Yu, K. (2024). Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2402.18262
Lang, Q., Zhou, J., Wang, H., Lyu, S., & Zhang, R. (2023). PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network. ArXiv. Retrieved from https://doi.org/10.48550/arXiv.2305.05378