Сегодня социальные сети — это повседневный инструмент пользователя для выражения своих мнений и предпочтений. Цифровые следы, создаваемые в сети, являются ценным источником данных для выделения проблем населения в различных сферах жизнедеятельности. Фокус данной работы сосредоточен на разработке алгоритма, позволяющего автоматически классифицировать текстовый контент социальной сети «ВКонтакте», являющейся одной из популярных платформ среди пользователей, по категориям качества жизни: «образование», «здравоохранение», «безопасность», «социальное обеспечение», «работа органов власти», «экология» и «доступность товаров и услуг». Для реализации поставленной задачи в рамках работы использованы статичные и контекстуализированные модели создания векторных представлений и эффективные алгоритмы классификации русскоязычного контента социальных сетей (LSTM, BiLSTM, GRU, RuBERT). На сегодняшний день мы отдаем предпочтение модели RuBERT-tiny за счет лучших показателей полноты в большинстве категорий.
Источник: Компьютерная лингвистика и интеллектуальные технологии : по материалам ежегодной международной конференции "Диалог" (2022). М., 2022. Вып. 21, дополнительный том. С. 1001-1016