Аналіз технік зменшення розмірності в машинному навчанні

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2023.42(1).181-187

Ключові слова:

редукція, зменшення розмірності, візуалізація даних, високорозмірні дані

Анотація

Багато сучасних наборiв даних мають високу розмiрнiсть, яка може призводити до проблем з перевантаженням моделей, зменшенням ефективностi обробки даних та збiльшення часу навчання. Тому дослiдження застосування технiк зменшення розмiрностi даних є важливою задачею для покращення продуктивностi та швидкостi аналiзу. В роботi проведено огляд та оцiнка ефективностi сучасних технiк для зменшення розмiрностi високорозмiрного ознакового простору даних з метою вiзуалiзацiї та попередньої обробки даних. Для цього розроблено iнформацiйно-аналiтичну систему на Python, що реалiзує PSA, t-SNE, Isomap, UMAP. В якостi тестового набору даних був обраний високорозмiрний набiр «DARWIN» з 451 ознакою. В результатi експерименту всi технiки в цiлому показали подiбнi результати вiзуалiзацiї даних. t-SNE виявився найефективнiшим методом попередньої обробки даних для цього датасету, покращивши точнiсть kNN на 21% i SVC на 4%. Отриманi результати доводять, що застосування сучасних методiв зменшення розмiрностi даних може сприяти побудовi бiльш ефективних моделей та прогнозiв. Майбутнi дослiдження передбачають оцiнку синергiї технiк аналiзу даних та машинного навчання для вирiшення конкретних прикладних задач.

Посилання

Gisbrecht, A., & Hammer, B. (2015). Data visualization by nonlinear dimensionality reduction. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 5, 51–73. https://doi.org/10.1002/widm.1147

Bro, R., & Smilde, A. (2014). Principal component analysis. Analytical methods, 6(9), 2812–2831. https://doi.org/10.1039/c3ay41907j

Maaten, L., & Hinton, G. (2008). Visualizing Data using t-SNE, Journal of Machine Learning Research, 9, 2579–2605.

Hinton, G., & Roweis, S. (2002). Stochastic Neighbor Embedding. Neural Information Processing Systems, 15, 1–8.

Tenenbaumm, J., Silva, V., & Langford, J. (2000). A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science, 290, 2319–2323. https://doi.org/10.1126/science.290.5500.2319

McInnes, L., Healy, J., & Melville, J. (2020). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv:1802.03426 [stat.ML], 1–63. https://doi.org/10.48550/arXiv.1802.03426

Fontanella, F. DARWIN. UCI Machine Learning Repository. Retrieved from https://archivebeta.ics.uci.edu/dataset/732/darwin

Cilia, N. D. (2018). An experimental protocol to support cognitive impairment diagnosis by using handwriting analysis. Procedia Computer Science, 141, 466–471. https://doi.org/10.1016/j.procs.2018.10.141

Cilia, N. D. (2022). Diagnosing Alzheimer’s disease from online handwriting. Engineering Applications of Artificial Intelligence, 111, 104822. https://doi.org/10.1016/j.engappai.2022.104822

Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13, 21–27.

Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273–297.

Kondruk, N. E. (2021). Use of similarity measures in classification methods. Scientific Bulletin of Uzhhorod University. Series of Mathematics and Informatics, 1(38), 85–91. https://doi.org/10.24144/2616-7700.2021.38(1).143-148

Kondruk, N. E. (2018). Use of length-based similarity measure in clustering problems. Radio Electronics. Computer Science. Control, 3(46), 98–105. https://doi.org/10.15588/1607-3274-2018-3-11

Kondruk, N. E., & Malyar, M. M. (2021). Analysis of Cluster Structures by Different Similarity Measures. Cybern. Syst. Anal., 57, 436–441. https://doi.org/10.1007/s10559-021-00368-4

Kondruk, N., & Malyar, M. (2021). Dimensionality Reduction of the Criterion Space in Some Optimization Problems, Kyiv-Uzhhorod. Retrieved from https://ceur-ws.org/Vol-3018/Paper_11.pdf

Kondruk, N. E. (2022). Models of multivariate forecasting. Scientific Bulletin of Uzhhorod University. Series of Mathematics and Informatics, 40(1), 168–174. https://doi.org/10.24144/2616-7700.2022.40(1).168-174

##submission.downloads##

Опубліковано

2023-05-04

Як цитувати

Кондрук, Н. Е. (2023). Аналіз технік зменшення розмірності в машинному навчанні. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 42(1), 181–187. https://doi.org/10.24144/2616-7700.2023.42(1).181-187

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика