Використання мiр подiбностi в методах класифiкацiї

Н. Е. Кондрук

doi:10.24144/2616-7700.2021.38(1).143-148

Автор(и)

Н. Е. Кондрук ДВНЗ «Ужгородський національний університет», Україна https://orcid.org/0000-0002-9277-5131

DOI:

https://doi.org/10.24144/2616-7700.2021.38(1).143-148

Ключові слова:

класифікація, алгоритм k найближчих сусідів, KNN, міра подібності, контрольоване машинне навчання

Анотація

Дане дослідження є розвитком напрямку застосування різних видів мір подібності в задачах інтелектуального аналізу даних. Майнінг даних - це процес видобутку неявної інформації з бази даних, якa характеризує приховані зв’язки та структури. Прогнозується, що цей вид аналізу стане надзвичайно затребуваним протягом наступного десятиліття. В роботі наведено огляд сучасних напрямків контрольованої класифікації. Найпопулярнішим прийомом класифікації об’єктів із числовими атрибутами вважається метод K-найближчих сусідів (KNN). Встановлено, що прогнозне значення мітки класу можна покращити, якщо використовувати зважений вплив кожного сусіда на результат. Таким чином, доцільно модифікувати метод KNN. При цьому, запропоновано ввести функцію, що характеризує схожість неміченого об’єкта із його найближчими сусідами у вигляді міри подібності. На її основі введено індикатори зваженого підрахунку голосів «сусідів» за певну мітку класу. Розроблено програмне забезпечення, що реалізує описаний підхід. Проведення практичних експериментів показало його ефективність при розв’язанні певних класів прикладних задач.

Біографія автора

Н. Е. Кондрук, ДВНЗ «Ужгородський національний університет»

доцент кафедри кібернетики і прикладної математики, кандидат технiчних наук

Посилання

Oprea, C. (2014). Performance evaluation of the data mining classification methods. Information society and sustainable development, 1, 249-253. https://doi.org/10.9790/0661-1060106
Jain, N., & Vishal, S. (2013). Data mining techniques: a survey paper. IJRET: International Journal of Research in Engineering and Technology, 2(11), 116-119. https://doi.org/10.15623/ijret.2013.0211019
Kumari, M., & Godara, S. (2011). Comparative Study of Data Mining Classification Methods in Cardiovascular Disease Prediction. IJCST, 2, 304-308.
Jantawan, B., & Tsai, C. (2013). The Application of Data Mining to Build Classification Model for Predicting Graduate Employment. International Journal of Computer Science and Information Security, 11(10). 1-7.
Xhemali, D., Hinde, C., & Stone, R. (2009). Na¨ive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages. IJSCI: International Journal of Computer Science, 4(1), 16-23.
Zhang, C., Liu, C., Zhang, X., & Almpanidis, G. (2017). An up-to-date comparison of state-of-the-art classification algorithms. Expert Systems with Applications, 82, 128-150. https://doi.org/10.1016/j.eswa.2017.04.003
Hamid, P., Hoseinali, A., & Behrouz, M. (2010). A Modification on K-Nearest Neighbor Classifier. Global Journal of Computer Science and Technology, 10(14), 37-41.
Singh, A., & Patel, S. (2014). Applying Modified KNearest Neighborn to Detect Threat in Collaborative Information Information Systems. International Journal of Innovative Research in Science, Engineering and Technology, 3(6). 14141-14151
Malyar, M. M., & Kondruk, N. E. (2020). Structuring of the ctriterional space by an anglesimilarity measure. Scientific Bulletin of Uzhhorod University. SIeries of Mathematics and Informatics, 1(36), 85-91. https://doi.org/10.24144/2616-7700.2020.1(36).85-91
Кondruk, N. E. (2018). Use of length-based similarity measure in clustering problems. Radio Electronics. Computer Science. Control, 3(46), 98-105. https://doi.org/10.15588/1607-3274-2018-3-11
Кondruk, N. E. (2019). A comparative study of cluster validity indices. Radio Electronics. Computer Science. Contro, 4, 59-67. https://doi.org/10.15588/1607-3274-2019-4-6
Kondruk, N. (2017). Clustering method based on fuzzy binary relation. Eastern-European Journal of Enterprise Technologies, 2(4(86)), 10-16. https://doi.org/10.15587/1729-4061.2017.94961