Применение алгоритма кластеризации k-means для анализа вариативности языковой
картины мира носителей арабского и русского языков: корпусный подход

Аль Дауд Джаафар; Козеренко Е.Б.

Cтатья посвящена исследованию возможностей применения алгоритмов кластеризации и обработки естественного языка при изучении вариативности языковой картины мира носителей русского и арабского языков. Эта статья актуальна, поскольку сегодня необходимо изучить возможности алгоритмов кластеризации в рамках корпусной лингвистики, особенно в исследовании вариативности языковой картины мира. Новизна этого исследования заключается в том, что впервые алгоритм k-means используется для анализа вариативности языковой картины мира носителей русского и арабского языков. Автор использует алгоритм кластеризации k-means из-за его простоты, масштабируемости, скорости и универсальности. Задачи исследования являются как теоретическими, так и практическими. Теоретические включают объяснение механизмов работы алгоритма кластеризации и описание корпусного подхода исследования. Практические задачи включают в себя сбор наборов данных в формате JSON как для арабского, так и для русского языков, проведение экспериментов для оценки точности с использованием моделей TF-IDF, а затем визуализацию лучших результатов. Это исследование демонстрирует потенциал алгоритмов кластеризации в понимании вариативности языковой картины мира, особенно в контексте арабского и русского языков. Оно предоставляет доказательства вариативности языковой картины мира, показывая, что алгоритмы кластеризации работают по-разному с разными языками. Полученные результаты имеют практическое применение в таких областях, как лингвистика, межкультурное общение, преподавание языков, машинный перевод и программирование.

Применение алгоритма кластеризации k-means для анализа вариативности языковой картины мира носителей арабского и русского языков: корпусный подход

Связанные документы (рекомендация CORE)

Партнеры

Индексация