Алгоритми та методи кластеризації для різноманітних даних

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2023.42(1).129-147

Ключові слова:

максимізація очікування, моделювання структурних рівнянь, KAy-середні для даних MIxedLArge, найменший спільний предок, карта самоорганізації, теорія адаптивного резонансу, оцінка щільності ядра

Анотація

Дослідження присвячено комплексному вивченню методів кластеризації різнотипових даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х компонент й подальшого ортогонального накладання кластерів на них. Наводиться застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки даного підходу. Наведена складність проведення кластеризації, яка полягає у представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по швидкодії.

Біографії авторів

Н. І. Бойко, Національний університет "Львівська політехніка"

Доцент кафедри штучного інтелекту

О. А. Ткачик, Національний університет "Львівська політехніка"

Аспірант кафедри штучного інтелекту

Посилання

  1. Sarker, A. (2018). Employee’s performance analysis and prediction using K-means clustering & decision tree algorithm. Global Journal of Computer Science and Technology. 18(1), 1–5.
  2. Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? Answers Via Model-Based Cluster Analysis. Technical Report, 41(8), 578–588. https://doi.org/10.1093/comjnl/41.8.578
  3. Murtagh, F. (2020). A survey of recent advances in hierarchical clustering algorithms which use cluster centers. Computer Journal, 26(4), 354–359. https://doi.org/10.1093/comjnl/26.4.354
  4. Saxena, A., Prasad, M., Gupta, A., Bharill, N., Patel, O. P., Tiwari, A., & Lin, C. T. (2017). A review of clustering techniques and developments. Neurocomputing, 267, 664–681. https://doi.org/10.1016/j.neucom.2017.06.053
  5. Sneath, P., & Sokal, R. (1973). Numerical Taxonomy. Human Biology, 47(2), 285–288.
  6. Ptitsyn, A., Hulver, M., Cefalu, W., York, D., & Smith, S. R. (2006). Unsupervised clustering of gene expression data points at hypoxia as possible trigger for metabolic syndrome. BMC Genomics, 7(318), https://doi.org/10.1186/1471-2164-7-318
  7. Tung, A. K., Hou, J., & Han, J. (2001). Spatial clustering in the presence of obstacles. Proceedings 17th International Conference on Data Engineering. Heidelberg. https://doi.org/10.1109/ICDM.2002.1184042
  8. Bohm, C., Railing, K., Kriegel, H., & Kroger, P. (2004). Density connected clustering with local subspace preferences. Proc. of the 4th IEEE Intern. conf. on data mining. Los Alamitos. https://doi.org/10.1007/978-0-387-39940-9_605
  9. Boyko, N., Kmetyk-Podubinska, K., & Andrusiak, I. (2021). Application of Ensemble Methods of Strengthening in Search of Legal Information. Lecture Notes on Data Engineering and Communications Technologies, 77, 188–200. https://doi.org/10.1007/978-3-030-82014-5_13
  10. Boyko, N., Hetman, S., & Kots, I. (2021). Comparison of Clustering Algorithms for Revenue and Cost Analysis. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. Kharkiv [in Ukrainian].
  11. Procopiuc, C. M., Jones, M., Agarwal, P. K., & Murali, T. M. (2002). A Monte Carlo algorithm for fast projective clustering. ACM SIGMOD Intern. conf. on management of data. Madison.
  12. Boyko, N. (2016). Application of mathematical models for improvement of “cloud” data processes organization. Mathematical Modeling and Computing, 3(2), 111–119. https://doi.org/10.23939/mmc2016.02.111
  13. Hossain, M. Z., Akhtar, M. N., Ahmad, R. B., & Rahman, M. (2017). A dynamic K-means clustering for data mining. Indonesian Journal of Electrical Engineering and Computer Science, 13(2), 521–526. https://doi.org/10.11591/ijeecs.v13.i2.pp521-526
  14. Slamet, C., Rahman, A., Ramdhani, M. A., & Darmalaksana, W. (2016). Clustering the verses of the Holy Qur’an using K-means algorithm. Asian Journal of Information Technology, 15(24), 5159–5162.
  15. Bekiros, S., Nguyen, D. K., Sandoval, J. L., & Uddin, G. S. (2017). Information diffusion, cluster formation and entropy-based network dynamics in equity and commodity markets. European Journal of Operational Research, 256(3), 945–961. https://doi.org/10.1016/j.ejor.2016.06.052

##submission.downloads##

Опубліковано

2023-05-04

Як цитувати

Бойко, Н. І., & Ткачик, О. А. (2023). Алгоритми та методи кластеризації для різноманітних даних. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 42(1), 129–147. https://doi.org/10.24144/2616-7700.2023.42(1).129-147

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика