Розпізнавання математичних формул на базі даних CROHME.

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2021.38(1).137-142

Ключові слова:

розпiзнавання об’єктiв, Retina.Net, набiр даних, машинне навчання, CROHME

Анотація

У  наш час найбільш точні моделі для розпізнавання об’єктів базуються на двоступеневому підході, популяризованому як R-CNN. На відміну від них, одноступеневі моделі, що застосовуються під час регулярного, детального відбору зразків, можуть бути швидшими та простішими, але вони не досягають точності двоступеневих моделей. Проте з новою функцією втрат, дисбаланс класу, який виникає під час тренування на наборі даних,  зникає. Саме тому одноступенева модель має переваги в  продуктивності та точності на відміну від двоступеневої. У роботі використано цей дисбаланс класів, щоб переформувати стандартні, перехресні ентропійні втрати таким чином, щоб зменшити їх. В архітектурі RetinaNet[1], функція втрат Focal Loss[1] сфокусовує навчання на наборі даних, які зустрічаються рідше, і запобігає перевантаженню моделі під час тренувань. Архітектура RetinaNet  була протестована на наборі даних CROHME[4], що був розширений за допомогою алгоритму Data Augmentation[9] для збільшення частоти входження певних елементів формул. Також було порівняно дві бібліотеки машинного навчання: TensorFlow та Torch. Отримані результати показують, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрі результати та має хорошу швидкість виконання. Окрім того, отриману модель було інтегровано в веб-застосунок на основі мікросервісної архітектури. Основними веб-фреймворками було використано NodeJs для серверної частини та VueJs для рівня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання програми відбувається за допомогою хмарної служби AWS на основі Lambda-функцій, що дає змогу виокремити процеси навчання, обробки, візуалізації та контролювати ресурси серверу окремо для кожного процесу.

Біографії авторів

Л. М. Дяконюк, Львівський нацiональний унiверситет iм. І. Франка

доцент кафедри прикладної математики та інформатики, кандидат фізико-математичних наук

А. С. Мудрик, Львівський нацiональний унiверситет iм. І. Франка

магістр 2-го року навчання

Я. А. Корольчук, Львівський нацiональний унiверситет iм. І. Франка

магістр 2-го року навчання 

М. І. Кондор, Львівський нацiональний унiверситет iм. І. Франка

магістрантка 2-го року навчання 

Посилання

Lin, T., Goyal, P., Girshick, R., He, K., & Dollar’, P. (2018). Focal Loss for Dense Object Detection, 1–10. https://arxiv.org/pdf/1708.02002.pdf

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition, 1–12. https://arxiv.org/pdf/1512.03385v1.pdf

puppeteer (n.d). Retrieved from: https://www.npmjs.com/package/puppeteer-core.

CROHME (n.d). Retrieved from: http://www.iapr-tc11.org/mediawiki/index.php/CROHME:_Competition_on_Recognition_of_Online_Handwritten_Mathematical_Expressions.

Gaussian noise (n.d). Retrieved from: https://en.wikipedia.org/wiki/Gaussian_noise.

AWS Lambda (n.d). Retrieved from: https://en.wikipedia.org/wiki/AWS_Lambda.

PyTorch (n.d). Retrieved from: https://pytorch.org/.

TensorFlow (n.d). Retrieved from: https://www.tensorflow.org/.

Data Augmentation (n.d). Retrieved from: https://en.wikipedia.org/wiki/Data_augmentation.

##submission.downloads##

Опубліковано

2021-05-27

Як цитувати

Дяконюк, Л. М., Мудрик, А. С., Корольчук, Я. А., & Кондор, М. І. (2021). Розпізнавання математичних формул на базі даних CROHME. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 38(1), 137–142. https://doi.org/10.24144/2616-7700.2021.38(1).137-142

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика