Материалов:
1 005 012

Репозиториев:
30

Авторов:
761 409

СЕМАНТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ПЕРСИДСКИХ СЛОВ

Дата публикации в реестре: 2024-10-01T18:20:42Z

Аннотация:

Кластеризация - это одна из основных задач интеллектуального анализа данных, целью которой является разделение набора объектов на группы таким образом, чтобы похожие объекты попадали в одну группу, а объекты с различными функциями помещались в разные и отдельные группы. В этой статье представлена методика семантической кластеризации слов, которая является одним из приложений методов интеллектуального анализа данных в задаче обработки естественного языка. Кластеризация слов используется в различных областях интеллектуального анализа текста, таких как устранение неоднозначности слов, поиск информации, моделирование языка и классификация текста. В этой статье предлагается метод на основе графа для кластеризации персидских слов. Предложенный метод представляет собой тип кластеризации на основе шаблонов. Этот метод состоит из двух частей. В первой части с использованием статистических мер сходства, таких как хи-квадрат, поточечная взаимная информация (PMI) и косинус, получается граф совпадения слов. Во второй части граф подразделяется на соответствующие кластеры по алгоритму кластеризации графа Ньюмана. Наши исследования показывают, что хи-квадрат является наилучшей мерой для объединения слов на персидском языке.

Тип: Article

Источник: Инновационные направления исследований в сфере естественных и технических наук


Связанные документы (рекомендация CORE)