reader

Получает из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд):

Получаем контент по адресу веб страницы, переданному в качестве параметра командной строки.
Вытаскиваем из контента только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд):

Будем основываться на том принципе, что весь важный контент сосредоточен либо в нескольких последовательных тегах, либо в одном теге содержащем много текста, либо значение атрибутов class или id элемента имеют значение, предположительно означающее место сосредоточение контента.

Т.о. мы будем давать оценку родительскому элементу тегов с контентом.

В результате мы сформируем словарь DOM элементов каждому из которых будет проставлена оценка, в соответствие со значением атрибутов элемента, именем элемента, плотности ссылок в элементе и количеством частей текста разделенных запятыми в элементе.

Выберем из словаря элемент с наибольшим весом.

После выбора элемента возможны ситуации содержания в дочерних узлах элемента "плохих" элементов, которые не содержат "полезной" информации. Постараемся очистить такие элементы на основе веса элемента и плотности ссылок в элементе.
Форматируем контент для максимально комфортного чтения в любом текстовом редакторе.
Сохраняем форматированный контент по принципу: http://lenta.ru/news/2013/03/dtp/index.html => [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt
Результаты храняться в директории results

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
lib		lib
tests		tests
README.md		README.md
config.yml		config.yml
main.py		main.py
requirements.txt		requirements.txt
test-requirements.txt		test-requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

lib

lib

tests

tests

README.md

README.md

config.yml

config.yml

main.py

main.py

requirements.txt

requirements.txt

test-requirements.txt

test-requirements.txt

Repository files navigation

reader

About

Releases

Packages

Languages

kdrake/reader

Folders and files

Latest commit

History

Repository files navigation

reader

About

Topics

Resources

Stars

Watchers

Forks

Languages