Материалов:
1 005 012

Репозиториев:
30

Авторов:
761 409

Ускорение объединения распределенных наборов данных по заданному критерию

Дата публикации: 2022

Дата публикации в реестре: 2024-03-01T13:41:01Z

Аннотация:

В данной работе исследуется вопрос снижения затрат машинного времени за счет разработки и внедрения метода ускорения операции соединения распределенных массивов данных по заданному критерию. Был проведен обзор литературы по архитектуре распределенных хранилищ данных и алгоритмам параллельных вычислений в результате которого выделены лимитирующие стадии, замедляющие процесс выполнения операции соединения, которые были исключены в предлагаемом в данной работе методе, на основе которого создан алгоритм и реализована библиотека, расширяющая функционал коммерческого программного продукта. Для оценки результата проведены экспериментальные исследования. Работа данного метода сравнивалась со стандартной библиотекой Spark SQL и показала сокращение времени на ~ 37% для данных размером 2 ТБ и ~ 47% для данных 7 ТБ.

Тип: Article


Связанные документы (рекомендация CORE)