Подготовка данных для их обработки формальными алгоритмами анализа (классификации, кластеризации, регрессии и др.) имеет важное значение, поскольку существенно влияет на результат принимаемых решений. В работе рассматриваются типовые операции препроцессинга данных на примере набора данных о пожарах. Наряду с тривиальными операциями по очистке и форматированию, этап подготовки данных включает неформальные процедуры, которые требуют участия как специалистов по анализу данных, так и экспертов из предметной области. Показывается, как некоторые
признаки необходимо преобразовывать из разряда порядковых, номинальных, необрабатываемых, в числовые значения, а также придавать вес в принятии решений.