В статье рассматривается актуальная задача анализа и классификации видео-контента. Ввиду лавинообразного роста объёма генерируемой человечеством видеоинформации возможность её «ручного» просмотра и сортировки чрезвычайно затруднена. Особенно это касается рутинных и монотонных записей видеонаблюдения, где 99% времени занимает «мусорный» контент, ввиду чего концентрация человека-оператора резко снижается, и он способен пропустить важный кадр или сцену. В связи с этим всё острее встаёт задача автоматической классификации видеозаписей по их контенту. В представленной работе исследуется возможность применения свёрточных и рекуррентных нейронных сетей к задаче анализа видео и автоматического извлечения мета-данных. На текущий момент опубликовано малое количество работ, в которых рассматривается задача комплексного анализа видео. Целью работы является тщательное исследование существующих подходов к анализу видео и создание алгоритма, способного разбивать видео на сегменты, определять ключевые слова фрагментов: основной объект, действие, сцену (место) и тегировать контент на основе полученных данных. В результате анализа существующих подходов был сформирован алгоритм анализа видео-контента. Предполагается, что в будущем, на основе тегов возможно составление лингвистического портрета. Описанный алгоритм предполагает следующие ограничения: число переходов заранее известно, объекты известны и различимы, объекты совершают известные действия, переходы между сценами различимы, ярко выражены и заметны. Используемые в алгоритме методы машинного обучения были модульно протестированы и в дальнейшем предполагается проведение полноценного тестирования на различных наборах данных и дальнейшее развитие предложенного алгоритма.
Источник: Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 16–20 апреля 2018 г.