Материалов:
1 005 021

Репозиториев:
30

Авторов:
761 409

Метод извлечения основного содержимого из веб-страницы

Дата публикации: 2021

Дата публикации в реестре: 2021-08-05T16:17:45Z

Аннотация:

В работе предлагаются собственные алгоритмы извлечения основного содержимого из веб-страниц и методы решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. Для решения задачи извлечения основного содержимого разработан метод, который ориентируется на визуальные характеристики элементов, текстовые узлы документа и стремится определить только один корневой элемент с основным содержимым веб-страницы.

Тип: Article


Связанные документы (рекомендация CORE)