Материалов:
1 005 021

Репозиториев:
30

Авторов:
761 409

Проблемы статистических оценок при анализе несбалансированных классов больших данных

Дата публикации: 2020

Дата публикации в реестре: 2021-08-05T17:51:29Z

Аннотация:

В статье утверждается что прикладная статистика в настоящее время не готова к анализу и обработке больших данных. Вычислять средние значения, дисперсию и прочие статистические характеристики для многочисленных и разнообразных классов объектов, относящихся к категории больших данных, бессмысленно и бесполезно. Одной из актуальных задач является классификация множества объектов на существенно различные по объему классы. К ним относятся реальные задачи разделения людей на заболевших некоторой болезнью и здоровых, сортировка электронной почты на спам и обычные сообщения и т.п. Разработано множество методов классификации данных. Результаты их работы описываются матрицами ошибок. По этим матрицам можно оценить качество классификации и выбрать лучший метод классификации определенных данных. До настоящего времени для оценки качества результатов классификации данных чаще всего используются функции Accuracy, Sensitivity, Specificity и F1. В результате экспериментальных исследований установлено, что указанные функции искажают истинные результаты классификации в случае существенного дисбаланса классов. Показано, что для оценки бинарной классификации из известных функций наиболее инвариантной к дисбалансу классов является функция AUC, которая вычисляет площадь под ROCкривой. В случае бинарной классификации она равна среднему арифметическому значению функций Sensitivity и Specificity.

Тип: Статья


Связанные документы (рекомендация CORE)