Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера

Захарик, Ю. А.; Прокурат, Д. М.

Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера

Дата публикации: 2020

Дата публикации в реестре: 2021-08-05T17:52:09Z

Аннотация:

В данной работе была рассмотрена проблема нахождения схожих сообщений на основе выборки из Твиттера. Рассмотрены следующие алгоритмы: расстояние Левенштейна, нормализованное расстояние Левенштейна, Soundex, Phonex, алгоритм Джаро, Q-граммы, алгоритм LCS, алгоритм Metric LCS, SIFT4, алгоритм Дамерлау-Левенштейна, алгоритм косинусов и алгоритм подсчета букв. Было произведено сокращение выборки и упрощение твитов. Предложен оптимальный алгоритм решения задачи.

Ключевые слова:
материалы конференций, перцептивный хэш, сравнение текстов, алгоритм Джаро

Тип: Статья