Мультимодальний додаток здорового харчування та дієти на основі великої мовної моделі

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2025.47(2).289-302

Ключові слова:

здорове харчування, харчова цінність, велика мовна модель, сегментація зображень, мобільні обчислення, крайові обчислення, комп'ютерний зір

Анотація

Дотримання здорового харчування є одним з ключових факторів, що впливають на тривалість і якість життя. Однак ми не завжди знаємо, які страви є шкідливими. Існуючі додатки для відстеження харчування вимагають ручного введення спожитих страв, що є трудомістким і неточним. Нейронні мережі добре справляються з оцінкою інгредієнтів і поживної цінності їжі на основі фотографій. У цій роботі ми пропонуємо новий двоетапний підхід, який поєднує адаптивну після навчання нейронну мережу для сегментації інгредієнтів на зображенні, доповнену великою мовною моделлю (LLM), яка перетворює інформацію про інгредієнти в дані про поживну цінність, дає відомості про поліпшення харчової цінності та має чат-інтерфейс, де користувач може уточнити будь-які питання. Як візуальні, так і мовні моделі повністю працюють на пристрої користувача. Таким чином, підключення до сервера не потрібне, а дані користувача залишаються конфіденційними. В роботі розроблено кілька підказок для моделі вилучення харчової цінності та проаналізовано Qwen 2.5 LLM з 0.5, 1.5, 3 мільярдами параметрів. Для оцінки харчової цінності ми пропонуємо метод LLM-судді. Розроблена LLM-підказка покращує оцінку харчової цінності з 2.66 до 3.68 при використанні моделі Qwen 2.5 на 3 мільярди параметрів. Запропонований додаток є більш зручним для користувача і забезпечує відстеження поживної цінності з меншими зусиллями в порівнянні з існуючими додатками, забезпечуючи швидше відстеження їжі з детальною інформацією про поліпшення харчової цінності.

Спонсор дослідження

  • Робота підтримується державним бюджетним науково-дослідним проектом Дніпровського технологічного університету «Розробка нових адаптивних інформаційних технологій розпізнавання об’єктів у навколишньому середовищі» (номер державної реєстрації 0123U100012).

Біографія автора

К. С. Хабарлак, Дніпровський технологічний університет

Доцент кафедри системного аналізу та управління. Кандидат комп'ютерних наук

Посилання

  1. Samsung Health | Fitness & Health Tracking App. (2025). Retrieved from https://www.samsung.com/us/apps/samsung-health
  2. Calorie Tracker & BMR Calculator to Reach Your Goal | MyFitnessPal. (2025). Retrieved from https://www.myfitnesspal.com/en
  3. Wu, X., Fu, X., Liu, Y., Lim, E.-P., Hoi, S. C. H., & Sun, Q. (October 20–24, 2021). A largescale benchmark for food image segmentation. MM ’21: ACM Multimedia Conference. Virtual Event: China, 506–515. https://doi.org/10.1145/3474085.3475201
  4. Thames, Q., Karpur, A., Norris, W., Xia, F., Panait, L., Weyand, T., & Sim, J. (June 19–25, 2021). Nutrition5k: Towards automatic nutritional understanding of generic food. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021. Virtual, 8903–8911. https://doi.org/10.1109/CVPR46437.2021.00879
  5. Salvador, A., Drozdzal, M., Giró-i-Nieto, X., & Romero, A. (June 16–20, 2019). Inverse cooking: Recipe generation from food images. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019. Long Beach, CA: USA, 10453–10462. https://doi.org/10.1109/CVPR.2019.01070
  6. Khabarlak, K. (2022). Post-train adaptive U-Net for image segmentation. Information Technology: Computer Science, Software Engineering and Cyber Security, 2, 73–78. https://doi.org/10.32782/IT/2022-2-8
  7. Yang, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Li, C., Liu, D., Huang, F., Wei, H., Lin, H., Yang, J., Tu, J., Zhang, J., Yang, J., Yang, J., Zhou, J., Lin, J., Dang, K., . . . , & Qiu, Z. (2024). Qwen2.5 technical report. CoRR, abs/2412.15115. https://doi.org/10.48550/ARXIV.2412.15115
  8. Kaur, P., Sikka, K., Wang, W., Belongie, S. J., & Divakaran, A. (2019). FoodX-251: A dataset for fine-grained food classification. CoRR, abs/1907.06167. https://doi.org/10.48550/arXiv.1907.06167
  9. Yin, Y., Qi, H., Zhu, B., Chen, J., Jiang, Y.-G., & Ngo, C.-W. (2023). FoodLMM: A versatile food assistant using large multi-modal model. CoRR, abs/2312.14991. https://doi.org/10.48550/ARXIV.2312.14991
  10. Introducing ChatGPT | OpenAI. (2025). Retrieved from https://openai.com/index/chatgpt
  11. Kamath, A., Ferret, J., Pathak, S., Vieillard, N., Merhej, R., Perrin, S., Matejovicova, T., Ramé, A., Rivière, M., Rouillard, L., Mesnard, T., Cideron, G., Grill, J.-B., Ramos, S., Yvinec, E., Casbon, M., Pot, E., Penchev, I., Liu, G., . . . , & Nardini, I. (2025). Gemma 3 technical report. CoRR, abs/2503.19786. https://doi.org/10.48550/ARXIV.2503.19786
  12. Ronneberger, O., Fischer, P., & Brox, T. (October 5–9, 2015). U-net: Convolutional networks for biomedical image segmentation. Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015 – 18th International Conference Munich, Proceedings, Part III. Germany, 9351, 234–241. https://doi.org/10.1007/978-3-319-24574-4%255C_28
  13. Khabarlak, K. (March 23–25, 2022). Post-train adaptive MobileNet for fast anti-spoofing. Proceedings of the 3rd International Workshop on Intelligent Information Technologies & Systems of Information Security. Khmelnytskyi: Ukraine, 3156, 44–53. Retrieved from https://ceur-ws.org/Vol-3156/keynote5.pdf
  14. Khabarlak, K. (September 17–19, 2025). Improved post-trained adaptive network with texture bias robustness. 2025 14th International Conference on Advanced Computer Information Technologies (ACIT). Sibernik: Croatia.
  15. Khabarlak, K., Koriashkina, L., Laktionov, I., & Diachenko, G. (2025). Zero-Shot Plant Disease Recognition Using Open Large Vision-Language Models. Information Technology: Computer Science, Software Engineering and Cyber Security, 3.
  16. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E. H., Le, Q. V., & Zhou, D. (November 28 – December 9, 2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022. New Orleans, LA: USA. Retrieved from https://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html
  17. Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., Zheng, C., Liu, D., Zhou, F., Huang, F., Hu, F., Ge, H., Wei, H., Lin, H., Tang, J., . . . , & Qiu, Z. (2025). Qwen3 technical report. CoRR, abs/2505.09388. https://doi.org/10.48550/ARXIV.2505.09388
  18. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., . . . , & Amodei, D. (December 6–12, 2020). Language models are few-shot learners. Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020. NeurIPS 2020, Virtual. Retrieved from https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
  19. Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., Zhang, F., Chang, C.-L., Yong, M. G., Lee, J., Chang, W.-T., Hua, W., Georg, M., & Grundmann, M. (2019). MediaPipe: A framework for building perception pipelines. CoRR, abs/1906.08172. https://doi.org/10.48550/arXiv.1906.08172

##submission.downloads##

Опубліковано

2025-10-28

Як цитувати

Хабарлак, К. С. (2025). Мультимодальний додаток здорового харчування та дієти на основі великої мовної моделі. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 47(2), 289–302. https://doi.org/10.24144/2616-7700.2025.47(2).289-302

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика