Запуск и останов Scrapy

Хотелось бы как-то управлять процессом скана сайта, особенно когда сайт большой


Пока со станлартными средствами не очень:

команда Scrapinghub  предлагают Scrapyrt https://github.com/scrapinghub/scrapyrt

все нормально ставится под Windows, работает, но!

Ничем от запуска из командной строки пока не отличается,
вернее, отличается возможностью задания стартового URLа и callback  функции.

Все остальное - статус, текущая статистика и т.п. - никаким образом до окончания парсинга не возвращаются.

Остановить тоже нельзя.

В целом состояние проблемы можно почитать в ответе известного популяризатора Scrapy Михаила Коробова в этом топике:

http://stackoverflow.com/questions/32724537/building-a-restful-flask-api-for-scrapy

коротко: все только начинается ))

ну а по сабжу: через OS запускаем/останавливаем (надо бы попробовать, остановится ли),
а из дата приемника считываем данные


вот тут подробная инструкция про scrapyd
http://stackoverflow.com/questions/22646323/windows-scrapyd-deploy-is-not-recognized

но дело в том, что он и так запускается, непонятно как емуegg сделать

Комментарии