Материалов:
1 005 021

Репозиториев:
30

Авторов:
761 409

Оптимизация больших языковых моделей

Дата публикации в реестре: 2025-05-27T14:20:58Z

Аннотация:

Язык - это сложная запутанная система выражений, управляемая грамматическими правилами. Разработка эффективных алгоритмов искусственного интеллекта (ИИ), способных понимать естественный язык, представляет собой сложную задачу. В последние два десятилетия в языковом моделировании широко изучались задачи понимания и генерации языка, эволюционируя от статистических языковых моделей к нейронным языковым моделям. Так, недавно появились предварительно обученные языковые модели (Pre-trained Language Models, PLMs) путем предварительного обучения моделей Трансформеров [1] на крупномасштабных корпусах (то есть с большим числом параметров), демонстрирующих мощные возможности в решении различных задач обработки естественного языка (Natural Language Processing, NLP). Поскольку исследователи обнаружили, что масштабирование модели может привести к повышению ее производительности, они дополнительно изучили эффект масштабирования, увеличивая масштаб параметров до еще большего размера. Результаты показали, что когда масштаб параметров превышает определенный уровень, эти расширенные языковые модели не только достигают значительного улучшения производительности, но и проявляют некоторые особые способности (например, обучение без контекста), которых нет в маломасштабных языковых моделях (например, BERT [2]). Чтобы различать языковые модели в различных масштабах параметров, исследовательское сообщество ввело термин ”большие языковые модели” (Large Language Models, LLMs) для PLMs значительного размера (например, содержащих десятки или сотни миллиардов параметров). В последнее время исследования LLMs в значительной степени продвинулись как в академических, так и промышленных кругах, но особенно важной вехой является запуск ChatGPT (мощного чат-бота с искусственным интеллектом, разработанного на основе LLMs), который привлек широкое внимание общественности. Техническая эволюция LLMs оказала важное влияние на все сообщество искусственного интеллекта, что произвело революцию в разработке и использовании алгоритмов искусственного интеллекта. Целью данной работы является анализ способов оптимизации больших языковых моделей для повышения производительности и эффективности таких моделей.

Тип: Article

Источник: Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем


Связанные документы (рекомендация CORE)