В данной работе рассматривается задача выявления поддельных новостных сообщений. Предлагаемый подход состоит в классификации позиции (уровня соответствия) основного текста относительно заголовка новостной статьи. В частности, основной текст может быть согласованным, несогласованным, быть связным или бессвязным. В ходе решения задачи был предложен и реализован алгоритм автоматической классификации новостных сообщений с помощью методов машинного обучения, а именно комбинация методов, основанная на средневзвешенном значении между деревьями решений с градиентным усилением и глубокой свёрточной нейронной сетью. Для обучения модели использовался размеченный корпус новостных сообщений. Для проверки алгоритма, в свою очередь, был предложен неразмеченный корпус новостных сообщений. В качестве результата мы определяем позицию основного текста относительно утверждения в заголовке, которая принадлежит одному из четырёх классов: согласованна, не согласованна, связна, бессвязна.
Источник: Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.