Валідація ефективності експертно-орієнтованого кодування для аналізу схожості ординальних даних

Н. Е. Кондрук

doi:10.24144/2616-7700.2026.48(1).146-152

Автор(и)

Н. Е. Кондрук ДВНЗ «Ужгородський нацiональний унiверситет», Україна https://orcid.org/0000-0002-9277-5131

DOI:

https://doi.org/10.24144/2616-7700.2026.48(1).146-152

Ключові слова:

категорiальнi данi, ординальнi ознаки, кластерний аналiз, ранжування, експертнi оцiнки

Анотація

У роботi розв’язується задача пiдвищення ефективностi кластерного аналiзу об’єктiв, що характеризуються категорiальними впорядкованими (ординальними) ознаками. Дослiджено ефективнiсть нової метрики вiдстанi, яка, на вiдмiну вiд традицiйних пiдходiв (SMC, коефiцiєнт Жаккарда), враховуює рангову природу атрибутiв та величину iнтервалiв мiж ними. На основi експериментального дослiдження з використанням набору даних UCI «Car Evaluation». Показано, що iнтеграцiя експертних знань через механiзм нерiвномiрного ранжування призводить до збiльшення дисперсiї попарних вiдстаней та суттєвого покращення сепарабельностi кластерiв. Ефективнiсть запропонованого пiдходу пiдтверджено зростанням iндексу Adjusted Rand Index та зниженням iндексу Девiса-Болдiна порiвняно з метрикою Говера та стандартними методами.

Спонсор дослідження

Дослiдження здiйснено в рамках кафедральної науково-дослiдної роботи «Методи обчислювального iнтелекту для обробки i аналiзу даних» (державний реєстрацiйний номер 0121U109279)

Біографія автора

Н. Е. Кондрук, ДВНЗ «Ужгородський нацiональний унiверситет»

Доцент кафедри кiбернетики i прикладної математики. Кандидат технiчних наук, доцент

Посилання

Kondruk, N. E. (2023). Methods for determining similarity of categorical ordered data. Radio Electronics, Computer Science, Control, (2), 31. https://doi.org/10.15588/1607-3274-2023-2-4 [in Ukrainian].
Su´arez, J., Garc´ia, S., & Herrera, F. (2021). A tutorial on distance metric learning: Mathematical foundations, algorithms, experimental analysis, prospects and challenges. Neurocomputing, 425, 300–322. https://doi.org/10.1016/j.neucom.2020.08.017
Mathisen, B., Aamodt, A., Bach, K., & Langseth, H. (2019). Learning similarity measures from data. Progress in Artificial Intelligence, 9, 129–143. https://doi.org/10.1007/s13748-019-00201-2
Desai, A., Singh, H., Pudi, V., & Gopalan, S. (2011). DISC: Data-Intensive similarity measure for categorical data. Advances in Knowledge Discovery and Data Mining, 6635, 469–481. https://doi.org/10.1007/978-3-642-20847-8_39
Cunningham, P. (2009). A taxonomy of similarity mechanisms for case-based reasoning. IEEE Transactions on Knowledge and Data Engineering, 21, 1532–1543. https://doi.org/10.1109/TKDE.2008.227
Nikpour, N., Aamodt, A., & Bach, K. (2018). Bayesian-supported retrieval in BNCreek: A knowledge-intensive case-based reasoning system. Case-Based Reasoning Research and Development, 11156, 323–338. https://doi.org/10.1007/978-3-030-01081-2_22
Bohanec, M. (1988). Car Evaluation [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5JP48. Retrieved from: https://archive.ics.uci.edu/dataset/19/car+evaluation
Dyussenbayev, A. (2017). Age periods of human life. Advances in Social Sciences Research Journal, 4(6), 258–263. https://doi.org/10.14738/assrj.46.2924
Kondruk, N. (2017). Clustering method based on fuzzy binary relation. Eastern-European Journal of Enterprise Technologies, 2(4), 10–16. https://doi.org/10.15587/1729-4061.2017.94961
Kaufman, L., & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons, 355 pp. https://doi.org/10.1002/9780470316801
Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 27(4), 857–871. https://doi.org/10.2307/2528823
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53–65. https://doi.org/10.1016/0377-0427(87)90125-7
Kondruk, N. E., & Malyar, M. M. (2021). Analysis of cluster structures by different similarity measures. Cybernetics and Systems Analysis, 57, 436–441. https://doi.org/10.1007/s10559-021-00368-4