Материалов:
1 005 012

Репозиториев:
30

Авторов:
761 409

Using TXM Platform for Research on Language Changes over Time: the Dynamics of Vocabulary and Punctuation in Russian Literary Texts

Дата публикации в реестре: 2022-10-06T17:22:10Z

Аннотация:

Цель настоящей статьи - испытать инструменты анализа, которые предоставляет платформа TXM для исследования динамики словарного состава и пунктуации в диахронических корпусах текстов. TXM представляет собой комплекс программного обеспечения для количественного и качественного анализа текстов, построенный на принципах прозрачной архитектуры и открытого кода. В статье демонстрируется, как можно использовать платформу для диахронического исследования текстов с учетом внешних факторов, оказывающих влияние на эволюцию языка. Исследование проводилось на Корпусе русских рассказов первой трети XX в. Корпус создавался независимо от TXM с целью отразить максимально широкий спектр произведений русских писателей и служить, таким образом, испытательной площадкой для различных методик математического анализа текстов. Результаты этого пилотного исследования показывают эффективность использования TXM для исследования динамики развития языка и подтверждают явное влияние диахронического фактора на статистическое распределение текстов изучаемого корпуса. Основными методами, использованными в статье, явились анализ соответствий и индекс специфичности, вычислявшиеся на различных разбивках корпуса (по годам, по периодам и индивидуально по текстам) на базе 200 самых частотных лемм (слов и знаков препинания). Использование базовой лексики (включающей служебные слова) и пунктуации позволяет сконцентрироваться на глубинных изменениях языка, абстрагируясь от индивидуальных стилистических факторов. В качестве периодов были выделены: мирное время до революции (1901-1913), Первая мировая война (1914-1916), революция и Гражданская война (1917-1922) и постреволюционное мирное время (1923-1930). Относительная несбалансированность периодов и размеров отдельных текстов компенсируется методикой статистического анализа. В результате исследования было показано, что наиболее существенные изменения в употреблении базовой лексики и пунктуации происходят сразу после революционного 1917 г. При анализе соответствий периоды располагаются строго в хронологическом порядке по первому измерению факторного плана. В то же время сопоставление периодов не выявило четкого противопоставления по признаку мирное / военное время. Анализ специфичности позволил выявить характерные для каждого периода леммы, в том числе местоимения, служебные слова и знаки препинания, которые интуитивно не ассоциируются с изменениями в языке рассматриваемой исторической эпохи. Например, местоимения третьего лица он и она характерны для периода до революции, а частотность точки, тире и двоеточия повышается статистически значимым образом после 1917 г. Представленная методика анализа в дальнейшем может использоваться как для диахронических исследований в литературоведении, так и для решения различных задач автоматической обработки текста, направленных на выявление эволюции в лингвистических, стилистических и эмоциональных аспектах под влиянием каких-либо внешних факторов.

Тип: Article

Права: open access

Источник: Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya


Связанные документы (рекомендация CORE)