Как оценивать результаты классификации несбалансированных больших данных?

Старовойтов, В. В.; Голуб, Ю. И.; Starovoitov, V. V.; Golub, Y. I.

Классификация больших данных неравномерно распределенных по классам является серьезной проблемой интеллектуального анализа данных. При массовом скрининге пациентов в соотношении больных и здоровых всегда имеет место дисбаланс классов. При определении, например, степени заболевания раком – аналогично. При существенном дисбалансе данных классическая функция точности (Accuracy) не учитывает особенности малых классов и может ошибочно посчитать лучшим вариант с множеством ошибок в малых классах. В статье приведены результаты сравнительного анализа 17 функций оценки качества классификации на примерах матриц ошибок для 7 классов реальных и искусственных данных. Показано, что 4 функции инвариантны к дисбалансу данных. Описаны их достоинства и недостатки. Classification of imbalanced big data is an important data mining problem. In mass screening, there is always a class imbalance in the ratio of sick and healthy. When determining, for example, the degree of cancer, it is the same. If there is a significant imbalance in the data, the classic Accuracy function does not take into account the peculiarities of small classes and may erroneously consider the best option with many errors in small classes. The article presents the results of a comparative analysis of 17 functions for quality assessment of classification on examples of confusion matrices for 7 classes of real and artificial data. It is shown that 4 functions are invariant to data imbalance. Their advantages and disadvantages are described.

Как оценивать результаты классификации несбалансированных больших данных?

Связанные документы (рекомендация CORE)

Партнеры

Индексация