Разработка ML-подхода идентификации аномалий по логам компьютерных систем с помощью методов обработки естественного языка

Кирячёк В.А.; Салпагаров С.И.

Разработка ML-подхода идентификации аномалий по логам компьютерных систем с помощью методов обработки естественного языка

Дата публикации в реестре: 2025-05-27T14:21:00Z

Аннотация:

Данная работа посвящена проблеме детекции аномалий в компьютерных системах на примере базы данных (БД) Vertica по их логам с целью обеспечения безопасной, бесперебойной и надежной работы. В основе разработанного подхода детекции аномалий лежат методы машинного обучения с частичным привлечением учителя (Semi-Supervised Learning) совместно с NLP-алгоритмами (Natural Language Processing), такими как fastText и TF-IDF. В работе приведены результаты, полученные для собственного датасета, собранного из лог-файлов работы базы данных Vertica крупной IT-компании, содержащие периоды нормального функционирования БД и аномального, которое привело к отказу работы. В ходе исследования протестированы различные методы обнаружения аномалий, такие как метод k ближайших соседей (k-Nearest Neighbors), Isolation Forest, Local Outlier Factor, One Class SVM и Elliptic Envelope. Для каждого из этих алгоритмов были построены графики аномальности, позволяющие визуализировать периоды отклонений от нормы. Кроме того, определены интервалы времени, в которых значения аномальности превышают пороговый уровень, рассчитанный на основе данных, соответствующих штатному режиму работы системы.

Ключевые слова:
искусственный интеллект, детекция аномалий, машинное обучение, NLPалгоритмы, artificial intelligence, anomaly detection, machine learning, NLP algorithms

Тип: Article

Источник: Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем