Сравнительный анализ специальных корпусов текстов для задач безопасности

Лаврентьев А.М.; Рябова Д.М.; Тихомирова Е.А.; Фокина А.И.; Чеповский А.М.; Шерстинова Т.Ю.

Цель исследования: разработка методики сравнения специальных корпусов текстов для последующего применения в задачах идентификации экстремистских текстов. Метод: применялись частотные методы и показатель специфичности для анализа текстов в рамках корпусной платформы TXM. Полученные результаты: разработана методика сравнительного анализа специальных корпусов текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов; показана возможность использования индекса специфичности для составления своего рода «профиля» подкорпуса (набора текстов); проведен сравнительный анализ корпуса текстов террористической, экстремистской направленности и корпуса русских рассказов первой трети двадцатого века; обнаружены взаимосвязи лексики противоправных и литературных текстов; показаны возможности использования корпусной лингвистики для исследования свойств экстремистских текстов с целью обнаружения противоправных ресурсов и сообщений в Интернете; показаны возможности использования как морфологических характеристик слов, так и псевдооснов словоупотреблений в анализе специфичности при корпусном анализе; результаты исследований показывают, что инструменты частотного анализа, предоставляемые платформой TXM, эффективны для прикладных задач, когда необходимо выявить неявные лексические совпадения различных корпусов текстов.

Сравнительный анализ специальных корпусов текстов для задач безопасности

Связанные документы (рекомендация CORE)

Партнеры

Индексация