В условиях увеличивающегося объѐма данных, накапливающегося в современных хранилищах,
увеличивается и потребность в их эффективной обработке. В настоящее время для обработки больших
объѐмов данных как правило используют технологии из инфраструктуры Hadoop: HDFS, Hive, Cassandra,
MapReduce, Spark и другие. В настоящей работе приводятся результаты исследования совместного
использования Apache Spark и платформы для параллельных вычислений OpenCL. Данная связка позволяет
более эффективно использовать ресурсы каждого вычислительного узла.