Аналіз технік зменшення розмірності в машинному навчанні
DOI:
https://doi.org/10.24144/2616-7700.2023.42(1).181-187Ключові слова:
редукція, зменшення розмірності, візуалізація даних, високорозмірні даніАнотація
Багато сучасних наборiв даних мають високу розмiрнiсть, яка може призводити до проблем з перевантаженням моделей, зменшенням ефективностi обробки даних та збiльшення часу навчання. Тому дослiдження застосування технiк зменшення розмiрностi даних є важливою задачею для покращення продуктивностi та швидкостi аналiзу. В роботi проведено огляд та оцiнка ефективностi сучасних технiк для зменшення розмiрностi високорозмiрного ознакового простору даних з метою вiзуалiзацiї та попередньої обробки даних. Для цього розроблено iнформацiйно-аналiтичну систему на Python, що реалiзує PSA, t-SNE, Isomap, UMAP. В якостi тестового набору даних був обраний високорозмiрний набiр «DARWIN» з 451 ознакою. В результатi експерименту всi технiки в цiлому показали подiбнi результати вiзуалiзацiї даних. t-SNE виявився найефективнiшим методом попередньої обробки даних для цього датасету, покращивши точнiсть kNN на 21% i SVC на 4%. Отриманi результати доводять, що застосування сучасних методiв зменшення розмiрностi даних може сприяти побудовi бiльш ефективних моделей та прогнозiв. Майбутнi дослiдження передбачають оцiнку синергiї технiк аналiзу даних та машинного навчання для вирiшення конкретних прикладних задач.
Посилання
Gisbrecht, A., & Hammer, B. (2015). Data visualization by nonlinear dimensionality reduction. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 5, 51–73. https://doi.org/10.1002/widm.1147
Bro, R., & Smilde, A. (2014). Principal component analysis. Analytical methods, 6(9), 2812–2831. https://doi.org/10.1039/c3ay41907j
Maaten, L., & Hinton, G. (2008). Visualizing Data using t-SNE, Journal of Machine Learning Research, 9, 2579–2605.
Hinton, G., & Roweis, S. (2002). Stochastic Neighbor Embedding. Neural Information Processing Systems, 15, 1–8.
Tenenbaumm, J., Silva, V., & Langford, J. (2000). A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science, 290, 2319–2323. https://doi.org/10.1126/science.290.5500.2319
McInnes, L., Healy, J., & Melville, J. (2020). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv:1802.03426 [stat.ML], 1–63. https://doi.org/10.48550/arXiv.1802.03426
Fontanella, F. DARWIN. UCI Machine Learning Repository. Retrieved from https://archivebeta.ics.uci.edu/dataset/732/darwin
Cilia, N. D. (2018). An experimental protocol to support cognitive impairment diagnosis by using handwriting analysis. Procedia Computer Science, 141, 466–471. https://doi.org/10.1016/j.procs.2018.10.141
Cilia, N. D. (2022). Diagnosing Alzheimer’s disease from online handwriting. Engineering Applications of Artificial Intelligence, 111, 104822. https://doi.org/10.1016/j.engappai.2022.104822
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13, 21–27.
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273–297.
Kondruk, N. E. (2021). Use of similarity measures in classification methods. Scientific Bulletin of Uzhhorod University. Series of Mathematics and Informatics, 1(38), 85–91. https://doi.org/10.24144/2616-7700.2021.38(1).143-148
Kondruk, N. E. (2018). Use of length-based similarity measure in clustering problems. Radio Electronics. Computer Science. Control, 3(46), 98–105. https://doi.org/10.15588/1607-3274-2018-3-11
Kondruk, N. E., & Malyar, M. M. (2021). Analysis of Cluster Structures by Different Similarity Measures. Cybern. Syst. Anal., 57, 436–441. https://doi.org/10.1007/s10559-021-00368-4
Kondruk, N., & Malyar, M. (2021). Dimensionality Reduction of the Criterion Space in Some Optimization Problems, Kyiv-Uzhhorod. Retrieved from https://ceur-ws.org/Vol-3018/Paper_11.pdf
Kondruk, N. E. (2022). Models of multivariate forecasting. Scientific Bulletin of Uzhhorod University. Series of Mathematics and Informatics, 40(1), 168–174. https://doi.org/10.24144/2616-7700.2022.40(1).168-174
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Н. Е. Кондрук
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.