Розпізнавання математичних формул на базі даних CROHME.
DOI:
https://doi.org/10.24144/2616-7700.2021.38(1).137-142Ключові слова:
розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHMEАнотація
У наш час найбільш точні моделі для розпізнавання об’єктів базуються на двоступеневому підході, популяризованому як R-CNN. На відміну від них, одноступеневі моделі, що застосовуються під час регулярного, детального відбору зразків, можуть бути швидшими та простішими, але вони не досягають точності двоступеневих моделей. Проте з новою функцією втрат, дисбаланс класу, який виникає під час тренування на наборі даних, зникає. Саме тому одноступенева модель має переваги в продуктивності та точності на відміну від двоступеневої. У роботі використано цей дисбаланс класів, щоб переформувати стандартні, перехресні ентропійні втрати таким чином, щоб зменшити їх. В архітектурі RetinaNet[1], функція втрат Focal Loss[1] сфокусовує навчання на наборі даних, які зустрічаються рідше, і запобігає перевантаженню моделі під час тренувань. Архітектура RetinaNet була протестована на наборі даних CROHME[4], що був розширений за допомогою алгоритму Data Augmentation[9] для збільшення частоти входження певних елементів формул. Також було порівняно дві бібліотеки машинного навчання: TensorFlow та Torch. Отримані результати показують, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрі результати та має хорошу швидкість виконання. Окрім того, отриману модель було інтегровано в веб-застосунок на основі мікросервісної архітектури. Основними веб-фреймворками було використано NodeJs для серверної частини та VueJs для рівня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання програми відбувається за допомогою хмарної служби AWS на основі Lambda-функцій, що дає змогу виокремити процеси навчання, обробки, візуалізації та контролювати ресурси серверу окремо для кожного процесу.
Посилання
Lin, T., Goyal, P., Girshick, R., He, K., & Dollar’, P. (2018). Focal Loss for Dense Object Detection, 1–10. https://arxiv.org/pdf/1708.02002.pdf
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition, 1–12. https://arxiv.org/pdf/1512.03385v1.pdf
puppeteer (n.d). Retrieved from: https://www.npmjs.com/package/puppeteer-core.
CROHME (n.d). Retrieved from: http://www.iapr-tc11.org/mediawiki/index.php/CROHME:_Competition_on_Recognition_of_Online_Handwritten_Mathematical_Expressions.
Gaussian noise (n.d). Retrieved from: https://en.wikipedia.org/wiki/Gaussian_noise.
AWS Lambda (n.d). Retrieved from: https://en.wikipedia.org/wiki/AWS_Lambda.
PyTorch (n.d). Retrieved from: https://pytorch.org/.
TensorFlow (n.d). Retrieved from: https://www.tensorflow.org/.
Data Augmentation (n.d). Retrieved from: https://en.wikipedia.org/wiki/Data_augmentation.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Марта Кондор, Лілія Дяконюк, Ярослав Корольчук, Андрій Мудрик
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.