Запуск и останов Scrapy

Хотелось бы как-то управлять процессом скана сайта, особенно когда сайт большой

Пока со станлартными средствами не очень:

команда Scrapinghub предлагают Scrapyrt https://github.com/scrapinghub/scrapyrt

все нормально ставится под Windows, работает, но!

Ничем от запуска из командной строки пока не отличается,
вернее, отличается возможностью задания стартового URLа и callback функции.

Все остальное - статус, текущая статистика и т.п. - никаким образом до окончания парсинга не возвращаются.

Остановить тоже нельзя.

В целом состояние проблемы можно почитать в ответе известного популяризатора Scrapy Михаила Коробова в этом топике:

http://stackoverflow.com/questions/32724537/building-a-restful-flask-api-for-scrapy

коротко: все только начинается ))

ну а по сабжу: через OS запускаем/останавливаем (надо бы попробовать, остановится ли),
а из дата приемника считываем данные

вот тут подробная инструкция про scrapyd
http://stackoverflow.com/questions/22646323/windows-scrapyd-deploy-is-not-recognized

но дело в том, что он и так запускается, непонятно как емуegg сделать

Python заметки

Поиск по этому блогу

Запуск и останов Scrapy

Комментарии

Отправить комментарий