В данной работе рассмотрен один из методов тематического моделирования - аддитивная регуляризация тематического моделирования для больших коллекций текстовых документов. Он основан на максимизации взвешенной суммы логарифмического правдоподобия и дополнительных критериев регуляризации. Основной целью данного исследования является разработка алгоритма, который автоматически интерпретирует темы в больших коллекциях текстовых документов. Для выполнения поставленной задачи был исследован метод комбинирования регуляризаторов для сглаживания и повышения интерпретируемости тем тематического моделирования. В экспериментальной части показано, что комбинация разрежевания, сглаживания и декорреляции улучшает сразу несколько показателей качества без потери вероятности. Эксперименты проводились с помощью Python3, используя сервис интерактивных вычислений Jupyter Notebook.
Источник: Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.