Аналіз технік зменшення розмірності в машинному навчанні

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2023.42(1).181-187

Ключові слова:

редукція, зменшення розмірності, візуалізація даних, високорозмірні дані

Анотація

Багато сучасних наборiв даних мають високу розмiрнiсть, яка може призводити до проблем з перевантаженням моделей, зменшенням ефективностi обробки даних та збiльшення часу навчання. Тому дослiдження застосування технiк зменшення розмiрностi даних є важливою задачею для покращення продуктивностi та швидкостi аналiзу. В роботi проведено огляд та оцiнка ефективностi сучасних технiк для зменшення розмiрностi високорозмiрного ознакового простору даних з метою вiзуалiзацiї та попередньої обробки даних. Для цього розроблено iнформацiйно-аналiтичну систему на Python, що реалiзує PSA, t-SNE, Isomap, UMAP. В якостi тестового набору даних був обраний високорозмiрний набiр «DARWIN» з 451 ознакою. В результатi експерименту всi технiки в цiлому показали подiбнi результати вiзуалiзацiї даних. t-SNE виявився найефективнiшим методом попередньої обробки даних для цього датасету, покращивши точнiсть kNN на 21% i SVC на 4%. Отриманi результати доводять, що застосування сучасних методiв зменшення розмiрностi даних може сприяти побудовi бiльш ефективних моделей та прогнозiв. Майбутнi дослiдження передбачають оцiнку синергiї технiк аналiзу даних та машинного навчання для вирiшення конкретних прикладних задач.

Біографія автора

Н. Е. Кондрук, ДВНЗ «Ужгородський національний університет»

Доцент кафедри кібернетики і прикладної математики. Кандидат технiчних наук

Посилання

  1. Gisbrecht, A., & Hammer, B. (2015). Data visualization by nonlinear dimensionality reduction. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 5, 51–73. https://doi.org/10.1002/widm.1147
  2. Bro, R., & Smilde, A. (2014). Principal component analysis. Analytical methods, 6(9), 2812–2831. https://doi.org/10.1039/c3ay41907j
  3. Maaten, L., & Hinton, G. (2008). Visualizing Data using t-SNE, Journal of Machine Learning Research, 9, 2579–2605.
  4. Hinton, G., & Roweis, S. (2002). Stochastic Neighbor Embedding. Neural Information Processing Systems, 15, 1–8.
  5. Tenenbaumm, J., Silva, V., & Langford, J. (2000). A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science, 290, 2319–2323. https://doi.org/10.1126/science.290.5500.2319
  6. McInnes, L., Healy, J., & Melville, J. (2020). UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv:1802.03426 [stat.ML], 1–63. https://doi.org/10.48550/arXiv.1802.03426
  7. Fontanella, F. DARWIN. UCI Machine Learning Repository. Retrieved from https://archivebeta.ics.uci.edu/dataset/732/darwin
  8. Cilia, N. D. (2018). An experimental protocol to support cognitive impairment diagnosis by using handwriting analysis. Procedia Computer Science, 141, 466–471. https://doi.org/10.1016/j.procs.2018.10.141
  9. Cilia, N. D. (2022). Diagnosing Alzheimer’s disease from online handwriting. Engineering Applications of Artificial Intelligence, 111, 104822. https://doi.org/10.1016/j.engappai.2022.104822
  10. Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13, 21–27.
  11. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273–297.
  12. Kondruk, N. E. (2021). Use of similarity measures in classification methods. Scientific Bulletin of Uzhhorod University. Series of Mathematics and Informatics, 1(38), 85–91. https://doi.org/10.24144/2616-7700.2021.38(1).143-148
  13. Kondruk, N. E. (2018). Use of length-based similarity measure in clustering problems. Radio Electronics. Computer Science. Control, 3(46), 98–105. https://doi.org/10.15588/1607-3274-2018-3-11
  14. Kondruk, N. E., & Malyar, M. M. (2021). Analysis of Cluster Structures by Different Similarity Measures. Cybern. Syst. Anal., 57, 436–441. https://doi.org/10.1007/s10559-021-00368-4
  15. Kondruk, N., & Malyar, M. (2021). Dimensionality Reduction of the Criterion Space in Some Optimization Problems, Kyiv-Uzhhorod. Retrieved from https://ceur-ws.org/Vol-3018/Paper_11.pdf
  16. Kondruk, N. E. (2022). Models of multivariate forecasting. Scientific Bulletin of Uzhhorod University. Series of Mathematics and Informatics, 40(1), 168–174. https://doi.org/10.24144/2616-7700.2022.40(1).168-174

##submission.downloads##

Опубліковано

2023-05-04

Як цитувати

Кондрук, Н. Е. (2023). Аналіз технік зменшення розмірності в машинному навчанні. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 42(1), 181–187. https://doi.org/10.24144/2616-7700.2023.42(1).181-187

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика