В данной работе была рассмотрена проблема нахождения схожих сообщений на основе выборки из Твиттера. Рассмотрены следующие алгоритмы: расстояние Левенштейна, нормализованное расстояние Левенштейна, Soundex, Phonex, алгоритм Джаро, Q-граммы, алгоритм LCS, алгоритм Metric LCS, SIFT4, алгоритм Дамерлау-Левенштейна, алгоритм косинусов и алгоритм подсчета букв. Было произведено сокращение выборки и упрощение твитов. Предложен оптимальный алгоритм решения задачи.