Алгоритми та методи кластеризації для різноманітних даних

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2023.42(1).129-147

Ключові слова:

максимізація очікування, моделювання структурних рівнянь, KAy-середні для даних MIxedLArge, найменший спільний предок, карта самоорганізації, теорія адаптивного резонансу, оцінка щільності ядра

Анотація

Дослідження присвячено комплексному вивченню методів кластеризації різнотипових даних. Досліджуються проблеми алгоритмів графічного формату, що зумовлені наявністю 12-ти різних ознак для кластеризації, 7 з яких були категоріальні. Представлене подання даних по 12-ти осях в графічному форматі. Було вирішено застосувати алгоритм PCA з перетворенням категоріальних ознак в числові для зменшення розмірності даних до 2-х компонент й подальшого ортогонального накладання кластерів на них. Наводиться застосування кластеризації методу к-прототипів. Показане використання PCA для зменшення розмірності в 6 разів приводить до значної втрати інформації. Проведені експерименти щодо ієрархічної кластеризації різнотипових даних, можна відзначити переваги й недоліки даного підходу. Наведена складність проведення кластеризації, яка полягає у представленні результатів аналізу великих даних. Описаний алгоритм KAMILA, який реалізований на моделі розподілених обчислень MapReduce і дає значну перевагу по швидкодії.

Посилання

Sarker, A. (2018). Employee’s performance analysis and prediction using K-means clustering & decision tree algorithm. Global Journal of Computer Science and Technology. 18(1), 1–5.

Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? Answers Via Model-Based Cluster Analysis. Technical Report, 41(8), 578–588. https://doi.org/10.1093/comjnl/41.8.578

Murtagh, F. (2020). A survey of recent advances in hierarchical clustering algorithms which use cluster centers. Computer Journal, 26(4), 354–359. https://doi.org/10.1093/comjnl/26.4.354

Saxena, A., Prasad, M., Gupta, A., Bharill, N., Patel, O. P., Tiwari, A., & Lin, C. T. (2017). A review of clustering techniques and developments. Neurocomputing, 267, 664–681. https://doi.org/10.1016/j.neucom.2017.06.053

Sneath, P., & Sokal, R. (1973). Numerical Taxonomy. Human Biology, 47(2), 285–288.

Ptitsyn, A., Hulver, M., Cefalu, W., York, D., & Smith, S. R. (2006). Unsupervised clustering of gene expression data points at hypoxia as possible trigger for metabolic syndrome. BMC Genomics, 7(318), https://doi.org/10.1186/1471-2164-7-318

Tung, A. K., Hou, J., & Han, J. (2001). Spatial clustering in the presence of obstacles. Proceedings 17th International Conference on Data Engineering. Heidelberg. https://doi.org/10.1109/ICDM.2002.1184042

Bohm, C., Railing, K., Kriegel, H., & Kroger, P. (2004). Density connected clustering with local subspace preferences. Proc. of the 4th IEEE Intern. conf. on data mining. Los Alamitos. https://doi.org/10.1007/978-0-387-39940-9_605

Boyko, N., Kmetyk-Podubinska, K., & Andrusiak, I. (2021). Application of Ensemble Methods of Strengthening in Search of Legal Information. Lecture Notes on Data Engineering and Communications Technologies, 77, 188–200. https://doi.org/10.1007/978-3-030-82014-5_13

Boyko, N., Hetman, S., & Kots, I. (2021). Comparison of Clustering Algorithms for Revenue and Cost Analysis. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems. Kharkiv [in Ukrainian].

Procopiuc, C. M., Jones, M., Agarwal, P. K., & Murali, T. M. (2002). A Monte Carlo algorithm for fast projective clustering. ACM SIGMOD Intern. conf. on management of data. Madison.

Boyko, N. (2016). Application of mathematical models for improvement of “cloud” data processes organization. Mathematical Modeling and Computing, 3(2), 111–119. https://doi.org/10.23939/mmc2016.02.111

Hossain, M. Z., Akhtar, M. N., Ahmad, R. B., & Rahman, M. (2017). A dynamic K-means clustering for data mining. Indonesian Journal of Electrical Engineering and Computer Science, 13(2), 521–526. https://doi.org/10.11591/ijeecs.v13.i2.pp521-526

Slamet, C., Rahman, A., Ramdhani, M. A., & Darmalaksana, W. (2016). Clustering the verses of the Holy Qur’an using K-means algorithm. Asian Journal of Information Technology, 15(24), 5159–5162.

Bekiros, S., Nguyen, D. K., Sandoval, J. L., & Uddin, G. S. (2017). Information diffusion, cluster formation and entropy-based network dynamics in equity and commodity markets. European Journal of Operational Research, 256(3), 945–961. https://doi.org/10.1016/j.ejor.2016.06.052

##submission.downloads##

Опубліковано

2023-05-04

Як цитувати

Бойко, Н. І., & Ткачик, О. А. (2023). Алгоритми та методи кластеризації для різноманітних даних. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 42(1), 129–147. https://doi.org/10.24144/2616-7700.2023.42(1).129-147

Номер

Розділ

Iнформатика, комп’ютернi науки та прикладна математика