Материалов:
1 005 012

Репозиториев:
30

Авторов:
761 409

Алгоритм с элементами формальной грамматики для контент-анализа мнений

Дата публикации: 2014

Дата публикации в реестре: 2020-03-03T21:03:21Z

Аннотация:

Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна 0.872.

Тип: Article

Права: open access


Связанные документы (рекомендация CORE)