Материалов:
1 005 012

Репозиториев:
30

Авторов:
761 409

Разработка методов для формирования кросс-языковых векторных представлений текстов и их фрагментов на базе многослойной модели, основанной на архитектуре «Трансформер»

Дата публикации в реестре: 2024-03-01T14:31:27Z

Аннотация:

Сфера приложений интеллектуального анализа текстовых данных включает целый ряд взаимосвязанных задач, для решения которых часто используются общие принципы и подходы. К числу таких задач относятся задача определения смысловой близости слов (word similarity), задача поиска аналогий (word analogies), задача классификации текстов (document classification, text categorization). Одним из эффективных подходов к решению задач стало использование векторных представлений слов (word embeddings). Работа с текстовыми данными сильно ресурсозатратна, поэтому сжатие текста до вектора может помочь эффективной обработке больших массивов данных. В простом случае для получения векторов применяется метод прямого кодирования (one-hot encoding). Но размерность векторов линейно зависима от объёма словаря. Поэтому вектора для разных текстов будут иметь разную размерность, что для задач семантического сходства текстов становится проблемой. Такое ограничение решается моделями векторных представлений текстов. В данной работе рассматривается возможность применения данных моделей для задачи измерения семантического сходства текстов. Для исследования была выбрана многослойная модель Longformer, основанная на архитектуре Трансформер, которая преобразует тексты в векторное представление. Возможности модели ограничены максимальной длиной текста, которую она может обработать. Поэтому настоящая работа посвящена разработке методов для формирования векторных представлений текстов любой размерности.

Тип: Article

Права: open access

Источник: Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем


Связанные документы (рекомендация CORE)