Мультимодальний додаток здорового харчування та дієти на основі великої мовної моделі
DOI:
https://doi.org/10.24144/2616-7700.2025.47(2).289-302Ключові слова:
здорове харчування, харчова цінність, велика мовна модель, сегментація зображень, мобільні обчислення, крайові обчислення, комп'ютерний зірАнотація
Дотримання здорового харчування є одним з ключових факторів, що впливають на тривалість і якість життя. Однак ми не завжди знаємо, які страви є шкідливими. Існуючі додатки для відстеження харчування вимагають ручного введення спожитих страв, що є трудомістким і неточним. Нейронні мережі добре справляються з оцінкою інгредієнтів і поживної цінності їжі на основі фотографій. У цій роботі ми пропонуємо новий двоетапний підхід, який поєднує адаптивну після навчання нейронну мережу для сегментації інгредієнтів на зображенні, доповнену великою мовною моделлю (LLM), яка перетворює інформацію про інгредієнти в дані про поживну цінність, дає відомості про поліпшення харчової цінності та має чат-інтерфейс, де користувач може уточнити будь-які питання. Як візуальні, так і мовні моделі повністю працюють на пристрої користувача. Таким чином, підключення до сервера не потрібне, а дані користувача залишаються конфіденційними. В роботі розроблено кілька підказок для моделі вилучення харчової цінності та проаналізовано Qwen 2.5 LLM з 0.5, 1.5, 3 мільярдами параметрів. Для оцінки харчової цінності ми пропонуємо метод LLM-судді. Розроблена LLM-підказка покращує оцінку харчової цінності з 2.66 до 3.68 при використанні моделі Qwen 2.5 на 3 мільярди параметрів. Запропонований додаток є більш зручним для користувача і забезпечує відстеження поживної цінності з меншими зусиллями в порівнянні з існуючими додатками, забезпечуючи швидше відстеження їжі з детальною інформацією про поліпшення харчової цінності.
Спонсор дослідження
- Робота підтримується державним бюджетним науково-дослідним проектом Дніпровського технологічного університету «Розробка нових адаптивних інформаційних технологій розпізнавання об’єктів у навколишньому середовищі» (номер державної реєстрації 0123U100012).
Посилання
- Samsung Health | Fitness & Health Tracking App. (2025). Retrieved from https://www.samsung.com/us/apps/samsung-health
- Calorie Tracker & BMR Calculator to Reach Your Goal | MyFitnessPal. (2025). Retrieved from https://www.myfitnesspal.com/en
- Wu, X., Fu, X., Liu, Y., Lim, E.-P., Hoi, S. C. H., & Sun, Q. (October 20–24, 2021). A largescale benchmark for food image segmentation. MM ’21: ACM Multimedia Conference. Virtual Event: China, 506–515. https://doi.org/10.1145/3474085.3475201
- Thames, Q., Karpur, A., Norris, W., Xia, F., Panait, L., Weyand, T., & Sim, J. (June 19–25, 2021). Nutrition5k: Towards automatic nutritional understanding of generic food. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021. Virtual, 8903–8911. https://doi.org/10.1109/CVPR46437.2021.00879
- Salvador, A., Drozdzal, M., Giró-i-Nieto, X., & Romero, A. (June 16–20, 2019). Inverse cooking: Recipe generation from food images. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019. Long Beach, CA: USA, 10453–10462. https://doi.org/10.1109/CVPR.2019.01070
- Khabarlak, K. (2022). Post-train adaptive U-Net for image segmentation. Information Technology: Computer Science, Software Engineering and Cyber Security, 2, 73–78. https://doi.org/10.32782/IT/2022-2-8
- Yang, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Li, C., Liu, D., Huang, F., Wei, H., Lin, H., Yang, J., Tu, J., Zhang, J., Yang, J., Yang, J., Zhou, J., Lin, J., Dang, K., . . . , & Qiu, Z. (2024). Qwen2.5 technical report. CoRR, abs/2412.15115. https://doi.org/10.48550/ARXIV.2412.15115
- Kaur, P., Sikka, K., Wang, W., Belongie, S. J., & Divakaran, A. (2019). FoodX-251: A dataset for fine-grained food classification. CoRR, abs/1907.06167. https://doi.org/10.48550/arXiv.1907.06167
- Yin, Y., Qi, H., Zhu, B., Chen, J., Jiang, Y.-G., & Ngo, C.-W. (2023). FoodLMM: A versatile food assistant using large multi-modal model. CoRR, abs/2312.14991. https://doi.org/10.48550/ARXIV.2312.14991
- Introducing ChatGPT | OpenAI. (2025). Retrieved from https://openai.com/index/chatgpt
- Kamath, A., Ferret, J., Pathak, S., Vieillard, N., Merhej, R., Perrin, S., Matejovicova, T., Ramé, A., Rivière, M., Rouillard, L., Mesnard, T., Cideron, G., Grill, J.-B., Ramos, S., Yvinec, E., Casbon, M., Pot, E., Penchev, I., Liu, G., . . . , & Nardini, I. (2025). Gemma 3 technical report. CoRR, abs/2503.19786. https://doi.org/10.48550/ARXIV.2503.19786
- Ronneberger, O., Fischer, P., & Brox, T. (October 5–9, 2015). U-net: Convolutional networks for biomedical image segmentation. Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015 – 18th International Conference Munich, Proceedings, Part III. Germany, 9351, 234–241. https://doi.org/10.1007/978-3-319-24574-4%255C_28
- Khabarlak, K. (March 23–25, 2022). Post-train adaptive MobileNet for fast anti-spoofing. Proceedings of the 3rd International Workshop on Intelligent Information Technologies & Systems of Information Security. Khmelnytskyi: Ukraine, 3156, 44–53. Retrieved from https://ceur-ws.org/Vol-3156/keynote5.pdf
- Khabarlak, K. (September 17–19, 2025). Improved post-trained adaptive network with texture bias robustness. 2025 14th International Conference on Advanced Computer Information Technologies (ACIT). Sibernik: Croatia.
- Khabarlak, K., Koriashkina, L., Laktionov, I., & Diachenko, G. (2025). Zero-Shot Plant Disease Recognition Using Open Large Vision-Language Models. Information Technology: Computer Science, Software Engineering and Cyber Security, 3.
- Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E. H., Le, Q. V., & Zhou, D. (November 28 – December 9, 2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022. New Orleans, LA: USA. Retrieved from https://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html
- Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., Zheng, C., Liu, D., Zhou, F., Huang, F., Hu, F., Ge, H., Wei, H., Lin, H., Tang, J., . . . , & Qiu, Z. (2025). Qwen3 technical report. CoRR, abs/2505.09388. https://doi.org/10.48550/ARXIV.2505.09388
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., . . . , & Amodei, D. (December 6–12, 2020). Language models are few-shot learners. Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020. NeurIPS 2020, Virtual. Retrieved from https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
- Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., Zhang, F., Chang, C.-L., Yong, M. G., Lee, J., Chang, W.-T., Hua, W., Georg, M., & Grundmann, M. (2019). MediaPipe: A framework for building perception pipelines. CoRR, abs/1906.08172. https://doi.org/10.48550/arXiv.1906.08172
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 К. С. Хабарлак

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
