Multi-modal LLM-assisted healthy nutrition and diet smartphone application

К. С. Хабарлак

doi:10.24144/2616-7700.2025.47(2).289-302

Автор(и)

К. С. Хабарлак Національний технічний університет "Дніпровська політехніка", Україна https://orcid.org/0000-0003-4263-0871

DOI:

https://doi.org/10.24144/2616-7700.2025.47(2).289-302

Ключові слова:

здорове харчування, харчова цінність, велика мовна модель, сегментація зображень, мобільні обчислення, крайові обчислення, комп'ютерний зір

Анотація

Дотримання здорового харчування є одним з ключових факторів, що впливають на тривалість і якість життя. Однак ми не завжди знаємо, які страви є шкідливими. Існуючі додатки для відстеження харчування вимагають ручного введення спожитих страв, що є трудомістким і неточним. Нейронні мережі добре справляються з оцінкою інгредієнтів і поживної цінності їжі на основі фотографій. У цій роботі ми пропонуємо новий двоетапний підхід, який поєднує адаптивну після навчання нейронну мережу для сегментації інгредієнтів на зображенні, доповнену великою мовною моделлю (LLM), яка перетворює інформацію про інгредієнти в дані про поживну цінність, дає відомості про поліпшення харчової цінності та має чат-інтерфейс, де користувач може уточнити будь-які питання. Як візуальні, так і мовні моделі повністю працюють на пристрої користувача. Таким чином, підключення до сервера не потрібне, а дані користувача залишаються конфіденційними. В роботі розроблено кілька підказок для моделі вилучення харчової цінності та проаналізовано Qwen 2.5 LLM з 0.5, 1.5, 3 мільярдами параметрів. Для оцінки харчової цінності ми пропонуємо метод LLM-судді. Розроблена LLM-підказка покращує оцінку харчової цінності з 2.66 до 3.68 при використанні моделі Qwen 2.5 на 3 мільярди параметрів. Запропонований додаток є більш зручним для користувача і забезпечує відстеження поживної цінності з меншими зусиллями в порівнянні з існуючими додатками, забезпечуючи швидше відстеження їжі з детальною інформацією про поліпшення харчової цінності.

Спонсор дослідження

Робота підтримується державним бюджетним науково-дослідним проектом Дніпровського технологічного університету «Розробка нових адаптивних інформаційних технологій розпізнавання об’єктів у навколишньому середовищі» (номер державної реєстрації 0123U100012).

Біографія автора

К. С. Хабарлак, Національний технічний університет "Дніпровська політехніка"

Доцент кафедри системного аналізу та управління. Доктор філософії з комп'ютерних наук

Посилання

Samsung Health | Fitness & Health Tracking App. (2025). Retrieved from https://www.samsung.com/us/apps/samsung-health
Calorie Tracker & BMR Calculator to Reach Your Goal | MyFitnessPal. (2025). Retrieved from https://www.myfitnesspal.com/en
Wu, X., Fu, X., Liu, Y., Lim, E.-P., Hoi, S. C. H., & Sun, Q. (October 20–24, 2021). A largescale benchmark for food image segmentation. MM ’21: ACM Multimedia Conference. Virtual Event: China, 506–515. https://doi.org/10.1145/3474085.3475201
Thames, Q., Karpur, A., Norris, W., Xia, F., Panait, L., Weyand, T., & Sim, J. (June 19–25, 2021). Nutrition5k: Towards automatic nutritional understanding of generic food. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021. Virtual, 8903–8911. https://doi.org/10.1109/CVPR46437.2021.00879
Salvador, A., Drozdzal, M., Giró-i-Nieto, X., & Romero, A. (June 16–20, 2019). Inverse cooking: Recipe generation from food images. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019. Long Beach, CA: USA, 10453–10462. https://doi.org/10.1109/CVPR.2019.01070
Khabarlak, K. (2022). Post-train adaptive U-Net for image segmentation. Information Technology: Computer Science, Software Engineering and Cyber Security, 2, 73–78. https://doi.org/10.32782/IT/2022-2-8
Yang, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Li, C., Liu, D., Huang, F., Wei, H., Lin, H., Yang, J., Tu, J., Zhang, J., Yang, J., Yang, J., Zhou, J., Lin, J., Dang, K., . . . , & Qiu, Z. (2024). Qwen2.5 technical report. CoRR, abs/2412.15115. https://doi.org/10.48550/ARXIV.2412.15115
Kaur, P., Sikka, K., Wang, W., Belongie, S. J., & Divakaran, A. (2019). FoodX-251: A dataset for fine-grained food classification. CoRR, abs/1907.06167. https://doi.org/10.48550/arXiv.1907.06167
Yin, Y., Qi, H., Zhu, B., Chen, J., Jiang, Y.-G., & Ngo, C.-W. (2023). FoodLMM: A versatile food assistant using large multi-modal model. CoRR, abs/2312.14991. https://doi.org/10.48550/ARXIV.2312.14991
Introducing ChatGPT | OpenAI. (2025). Retrieved from https://openai.com/index/chatgpt
Kamath, A., Ferret, J., Pathak, S., Vieillard, N., Merhej, R., Perrin, S., Matejovicova, T., Ramé, A., Rivière, M., Rouillard, L., Mesnard, T., Cideron, G., Grill, J.-B., Ramos, S., Yvinec, E., Casbon, M., Pot, E., Penchev, I., Liu, G., . . . , & Nardini, I. (2025). Gemma 3 technical report. CoRR, abs/2503.19786. https://doi.org/10.48550/ARXIV.2503.19786
Ronneberger, O., Fischer, P., & Brox, T. (October 5–9, 2015). U-net: Convolutional networks for biomedical image segmentation. Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015 – 18th International Conference Munich, Proceedings, Part III. Germany, 9351, 234–241. https://doi.org/10.1007/978-3-319-24574-4%255C_28
Khabarlak, K. (March 23–25, 2022). Post-train adaptive MobileNet for fast anti-spoofing. Proceedings of the 3rd International Workshop on Intelligent Information Technologies & Systems of Information Security. Khmelnytskyi: Ukraine, 3156, 44–53. Retrieved from https://ceur-ws.org/Vol-3156/keynote5.pdf
Khabarlak, K. (September 17–19, 2025). Improved post-trained adaptive network with texture bias robustness. 2025 14th International Conference on Advanced Computer Information Technologies (ACIT). Sibernik: Croatia.
Khabarlak, K., Koriashkina, L., Laktionov, I., & Diachenko, G. (2025). Zero-Shot Plant Disease Recognition Using Open Large Vision-Language Models. Information Technology: Computer Science, Software Engineering and Cyber Security, 3.
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E. H., Le, Q. V., & Zhou, D. (November 28 – December 9, 2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022. New Orleans, LA: USA. Retrieved from https://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html
Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., Zheng, C., Liu, D., Zhou, F., Huang, F., Hu, F., Ge, H., Wei, H., Lin, H., Tang, J., . . . , & Qiu, Z. (2025). Qwen3 technical report. CoRR, abs/2505.09388. https://doi.org/10.48550/ARXIV.2505.09388
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., . . . , & Amodei, D. (December 6–12, 2020). Language models are few-shot learners. Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020. NeurIPS 2020, Virtual. Retrieved from https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., Zhang, F., Chang, C.-L., Yong, M. G., Lee, J., Chang, W.-T., Hua, W., Georg, M., & Grundmann, M. (2019). MediaPipe: A framework for building perception pipelines. CoRR, abs/1906.08172. https://doi.org/10.48550/arXiv.1906.08172