Ускорение объединения распределенных наборов данных по заданному критерию

Тырышкина, Е. С.

В данной работе исследуется вопрос снижения затрат машинного времени за счет разработки и внедрения метода ускорения операции соединения распределенных массивов данных по заданному критерию. Был проведен обзор литературы по архитектуре распределенных хранилищ данных и алгоритмам параллельных вычислений в результате которого выделены лимитирующие стадии, замедляющие процесс выполнения операции соединения, которые были исключены в предлагаемом в данной работе методе, на основе которого создан алгоритм и реализована библиотека, расширяющая функционал коммерческого программного продукта. Для оценки результата проведены экспериментальные исследования. Работа данного метода сравнивалась со стандартной библиотекой Spark SQL и показала сокращение времени на ~ 37% для данных размером 2 ТБ и ~ 47% для данных 7 ТБ.

Ускорение объединения распределенных наборов данных по заданному критерию

Связанные документы (рекомендация CORE)

Партнеры

Индексация