Метод извлечения основного содержимого из веб-страницы

Каргин, Н. С.; Гурин, Николай Иванович

Метод извлечения основного содержимого из веб-страницы

Дата публикации: 2021

Дата публикации в реестре: 2021-08-05T16:17:45Z

Аннотация:

В работе предлагаются собственные алгоритмы извлечения основного содержимого из веб-страниц и методы решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. Для решения задачи извлечения основного содержимого разработан метод, который ориентируется на визуальные характеристики элементов, текстовые узлы документа и стремится определить только один корневой элемент с основным содержимым веб-страницы.

Ключевые слова:
рендеринг HTML, информация веб-страницы, шаблонизаторы, извлечение основного содержимого, преобразование рекламных блоков, основное содержимое, веб-документы, семантика веб-документов

Тип: Article

Метод извлечения основного содержимого из веб-страницы

Связанные документы (рекомендация CORE)

Партнеры

Индексация