This article describes the experience of robot devel-
opment that crawls multilingual web documents, their language
identification and extracting the metadata based on the metadata
model of corpus manager of the electronic corpus of Tatar
language “Tugan Tel”.В данной статье рассказывается об опыте разработки робота для обхода многоязычных веб-документов,
определении их языка и извлечении метаданных на
основе модели метаданных в корпус-менеджере электронного корпуса татарского языка Туган Телл. В
разделе II описывается структура и модель представления метаданных, применяемая в корпус-менеджере.
Раздел III раскрывает информацию о необходимых
для работы робота технических метаданных. В разделе
IV рассказано о дополнительных метаданных, которые
могут быть извлечены из веб-документов. V раздел
включает в себя описание процесса сбора URI для обхода роботом, метод распознавания языка веб-документа,
описание процесса обхода веб-документов и извлечения
метаданных.