Статья посвящена рассмотрению специфики лексической сочетаемости и синтаксической комбинаторики глагольной лексемы говорить в русскоязычных
интернет-текстах, принадлежащих различным эмоциональным классам. Целью публикации является обоснование валидности использования выявленных специфических характеристик сочетаемости и комбинаторики лексемы в качестве дискриминантных черт для автоматического определения 8 эмоциональных тональностей в интернет-текстах на русском языке.
В качестве материала исследования выступает коллекция текстов, отобранных из паблика «Подслушано» в социальной сети «ВКонтакте». Используя восьмичастную классификацию эмоций, предложенную Г. Лёвхеймом, авторы соотносят каждый из текстов выборки объемом более 1 млн токенов с определенной эмоцией посредством опоры на соответствующие хештеги и эмоциональную разметку текстов, осуществленную 36 асессорами, носителями русского языка от 19 до 45 лет.
Применение метода TF-IDF взвешивания, а также учет значений относительной частотности лексем в 8 сформированных эмоциональных подкорпусах текстов показали, что статус лексемы говорить неравноценен в разных подкорпусах: в 4 из них она имеет высокие относительную частотность и показатели статистической специфичности, а в оставшихся 4 подкорпусах — нет.