You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Добрый день, как я понимаю вопрос нехватки оперативка связан с тем что парсер забирает все данные каждой организации, а можно ли как то его ограничить по выкачиванию данных, например
Выкачивать только компании у которых есть email или телефон
Выкачивать все компании но только поля название, email, телефон, сайт без не нужных забивающих память ссылок
The text was updated successfully, but these errors were encountered:
По сути сайт 2GIS - это SPA, с каждым кликом, каждым переходом на очередную страницу поисковой выдачи приложение гидрируется API и перестраивает свой DOM, потребляя память под новые данные и не освобождая старую, что приводит к утечке памяти. Такое происходит по разным причинам, часто из-за неправильной отвязке хандлеров событий разработчиками сайта.
В планах написать восстановление процесса парсинга с последней успешно спарсеной страницы, это даст возможность парсить на любом размере памяти.
Я вас понял, звучит логично. А что если в момент когда загрузка память превышает заданную в настройках например 3 гигабайта копировать (с /page/2) и принудительно обрубать эту ссылку, после чего подставлять ее в самый низ массива ссылок.
Добрый день, как я понимаю вопрос нехватки оперативка связан с тем что парсер забирает все данные каждой организации, а можно ли как то его ограничить по выкачиванию данных, например
The text was updated successfully, but these errors were encountered: