Хотелось бы как-то управлять процессом скана сайта, особенно когда сайт большой
Пока со станлартными средствами не очень:
команда Scrapinghub предлагают Scrapyrt https://github.com/scrapinghub/scrapyrt
все нормально ставится под Windows, работает, но!
Ничем от запуска из командной строки пока не отличается,
вернее, отличается возможностью задания стартового URLа и callback функции.
Все остальное - статус, текущая статистика и т.п. - никаким образом до окончания парсинга не возвращаются.
Остановить тоже нельзя.
В целом состояние проблемы можно почитать в ответе известного популяризатора Scrapy Михаила Коробова в этом топике:
http://stackoverflow.com/questions/32724537/building-a-restful-flask-api-for-scrapy
коротко: все только начинается ))
ну а по сабжу: через OS запускаем/останавливаем (надо бы попробовать, остановится ли),
а из дата приемника считываем данные
вот тут подробная инструкция про scrapyd
http://stackoverflow.com/questions/22646323/windows-scrapyd-deploy-is-not-recognized
но дело в том, что он и так запускается, непонятно как емуegg сделать
Пока со станлартными средствами не очень:
команда Scrapinghub предлагают Scrapyrt https://github.com/scrapinghub/scrapyrt
все нормально ставится под Windows, работает, но!
Ничем от запуска из командной строки пока не отличается,
вернее, отличается возможностью задания стартового URLа и callback функции.
Все остальное - статус, текущая статистика и т.п. - никаким образом до окончания парсинга не возвращаются.
Остановить тоже нельзя.
В целом состояние проблемы можно почитать в ответе известного популяризатора Scrapy Михаила Коробова в этом топике:
http://stackoverflow.com/questions/32724537/building-a-restful-flask-api-for-scrapy
коротко: все только начинается ))
ну а по сабжу: через OS запускаем/останавливаем (надо бы попробовать, остановится ли),
а из дата приемника считываем данные
вот тут подробная инструкция про scrapyd
http://stackoverflow.com/questions/22646323/windows-scrapyd-deploy-is-not-recognized
но дело в том, что он и так запускается, непонятно как емуegg сделать
Комментарии
Отправить комментарий