Розпізнавання математичних формул на базі даних CROHME.

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2021.38(1).137-142

Ключові слова:

розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME

Анотація

У  наш час найбільш точні моделі для розпізнавання об’єктів базуються на двоступеневому підході, популяризованому як R-CNN. На відміну від них, одноступеневі моделі, що застосовуються під час регулярного, детального відбору зразків, можуть бути швидшими та простішими, але вони не досягають точності двоступеневих моделей. Проте з новою функцією втрат, дисбаланс класу, який виникає під час тренування на наборі даних,  зникає. Саме тому одноступенева модель має переваги в  продуктивності та точності на відміну від двоступеневої. У роботі використано цей дисбаланс класів, щоб переформувати стандартні, перехресні ентропійні втрати таким чином, щоб зменшити їх. В архітектурі RetinaNet[1], функція втрат Focal Loss[1] сфокусовує навчання на наборі даних, які зустрічаються рідше, і запобігає перевантаженню моделі під час тренувань. Архітектура RetinaNet  була протестована на наборі даних CROHME[4], що був розширений за допомогою алгоритму Data Augmentation[9] для збільшення частоти входження певних елементів формул. Також було порівняно дві бібліотеки машинного навчання: TensorFlow та Torch. Отримані результати показують, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрі результати та має хорошу швидкість виконання. Окрім того, отриману модель було інтегровано в веб-застосунок на основі мікросервісної архітектури. Основними веб-фреймворками було використано NodeJs для серверної частини та VueJs для рівня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання програми відбувається за допомогою хмарної служби AWS на основі Lambda-функцій, що дає змогу виокремити процеси навчання, обробки, візуалізації та контролювати ресурси серверу окремо для кожного процесу.

Посилання

Lin, T., Goyal, P., Girshick, R., He, K., & Dollar’, P. (2018). Focal Loss for Dense Object Detection, 1–10. https://arxiv.org/pdf/1708.02002.pdf

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition, 1–12. https://arxiv.org/pdf/1512.03385v1.pdf

puppeteer (n.d). Retrieved from: https://www.npmjs.com/package/puppeteer-core.

CROHME (n.d). Retrieved from: http://www.iapr-tc11.org/mediawiki/index.php/CROHME:_Competition_on_Recognition_of_Online_Handwritten_Mathematical_Expressions.

Gaussian noise (n.d). Retrieved from: https://en.wikipedia.org/wiki/Gaussian_noise.

AWS Lambda (n.d). Retrieved from: https://en.wikipedia.org/wiki/AWS_Lambda.

PyTorch (n.d). Retrieved from: https://pytorch.org/.

TensorFlow (n.d). Retrieved from: https://www.tensorflow.org/.

Data Augmentation (n.d). Retrieved from: https://en.wikipedia.org/wiki/Data_augmentation.

##submission.downloads##

Опубліковано

2021-05-27

Як цитувати

Дяконюк, Л. М., Мудрик, А. С., Корольчук, Я. А., & Кондор, М. І. (2021). Розпізнавання математичних формул на базі даних CROHME. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 38(1), 137–142. https://doi.org/10.24144/2616-7700.2021.38(1).137-142

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика