Clustering algorithms and methods for diverse data

Н. І. Бойко; О. А. Ткачик

doi:10.24144/2616-7700.2023.42(1).129-147

Автор(и)

Н. І. Бойко Національний університет "Львівська політехніка", Україна https://orcid.org/0000-0002-6962-9363
О. А. Ткачик Національний університет "Львівська політехніка", Україна https://orcid.org/0000-0002-0728-4208

DOI:

https://doi.org/10.24144/2616-7700.2023.42(1).129-147

Ключові слова:

максимізація очікування, моделювання структурних рівнянь, KAy-середні для даних MIxedLArge, найменший спільний предок, карта самоорганізації, теорія адаптивного резонансу, оцінка щільності ядра

Анотація

Дослідження присвячено комплексному вивченню методів кластеризації різнотипових даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х компонент й подальшого ортогонального накладання кластерів на них. Наводиться застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки даного підходу. Наведена складність проведення кластеризації, яка полягає у представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по швидкодії.

Біографії авторів

Н. І. Бойко, Національний університет "Львівська політехніка"

Доцент кафедри штучного інтелекту

О. А. Ткачик, Національний університет "Львівська політехніка"

Аспірант кафедри штучного інтелекту

Посилання

Sarker, A. (2018). Employee’s performance analysis and prediction using K-means clustering & decision tree algorithm. Global Journal of Computer Science and Technology. 18(1), 1–5.
Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? Answers Via Model-Based Cluster Analysis. Technical Report, 41(8), 578–588. https://doi.org/10.1093/comjnl/41.8.578
Murtagh, F. (2020). A survey of recent advances in hierarchical clustering algorithms which use cluster centers. Computer Journal, 26(4), 354–359. https://doi.org/10.1093/comjnl/26.4.354
Saxena, A., Prasad, M., Gupta, A., Bharill, N., Patel, O. P., Tiwari, A., & Lin, C. T. (2017). A review of clustering techniques and developments. Neurocomputing, 267, 664–681. https://doi.org/10.1016/j.neucom.2017.06.053
Sneath, P., & Sokal, R. (1973). Numerical Taxonomy. Human Biology, 47(2), 285–288.
Ptitsyn, A., Hulver, M., Cefalu, W., York, D., & Smith, S. R. (2006). Unsupervised clustering of gene expression data points at hypoxia as possible trigger for metabolic syndrome. BMC Genomics, 7(318), https://doi.org/10.1186/1471-2164-7-318
Tung, A. K., Hou, J., & Han, J. (2001). Spatial clustering in the presence of obstacles. Proceedings 17th International Conference on Data Engineering. Heidelberg. https://doi.org/10.1109/ICDM.2002.1184042
Bohm, C., Railing, K., Kriegel, H., & Kroger, P. (2004). Density connected clustering with local subspace preferences. Proc. of the 4th IEEE Intern. conf. on data mining. Los Alamitos. https://doi.org/10.1007/978-0-387-39940-9_605
Boyko, N., Kmetyk-Podubinska, K., & Andrusiak, I. (2021). Application of Ensemble Methods of Strengthening in Search of Legal Information. Lecture Notes on Data Engineering and Communications Technologies, 77, 188–200. https://doi.org/10.1007/978-3-030-82014-5_13
Boyko, N., Hetman, S., & Kots, I. (2021). Comparison of Clustering Algorithms for Revenue and Cost Analysis. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. Kharkiv [in Ukrainian].
Procopiuc, C. M., Jones, M., Agarwal, P. K., & Murali, T. M. (2002). A Monte Carlo algorithm for fast projective clustering. ACM SIGMOD Intern. conf. on management of data. Madison.
Boyko, N. (2016). Application of mathematical models for improvement of “cloud” data processes organization. Mathematical Modeling and Computing, 3(2), 111–119. https://doi.org/10.23939/mmc2016.02.111
Hossain, M. Z., Akhtar, M. N., Ahmad, R. B., & Rahman, M. (2017). A dynamic K-means clustering for data mining. Indonesian Journal of Electrical Engineering and Computer Science, 13(2), 521–526. https://doi.org/10.11591/ijeecs.v13.i2.pp521-526
Slamet, C., Rahman, A., Ramdhani, M. A., & Darmalaksana, W. (2016). Clustering the verses of the Holy Qur’an using K-means algorithm. Asian Journal of Information Technology, 15(24), 5159–5162.
Bekiros, S., Nguyen, D. K., Sandoval, J. L., & Uddin, G. S. (2017). Information diffusion, cluster formation and entropy-based network dynamics in equity and commodity markets. European Journal of Operational Research, 256(3), 945–961. https://doi.org/10.1016/j.ejor.2016.06.052