В общем, с proxy scrapy работает хуево
рабочий код тут: https://github.com/aivarsk/scrapy-proxies
(выложу у себя с поправленными актуальными параметрами)
однако сам процесс организован хз как
на русском - тут: http://scrapt.readthedocs.org/ru/latest/proxying-in-scrapy.html
видимо, особенности Twisted, не знаю, не спец.
Еле-еле перебирает десяток-другой прокси и отваливается по количеству неудачных attempt
Подозреваю, что на самом деле огромные скрытые резервы, а этот middleware просто криво написан.
Ибо в волшебном Scrapy еще есть параметр скорости сканирования, и, верояно, в нем можно отрегулировать, чтобы прокси он перебирал не по одному,а хотя бы по 50-100.
Где-то еще обитает middleware для socks4,5, попозже поищу, поставлю, может, там другой автор )) но и так от нас, зеленых, спасибо!
Тем почетнее на этом месте вспомниить о
https://github.com/Lispython/pycurl/blob/master/examples/retriever-multi.py
этот монстр, ограниченный только числом соединений, выше которого вас режет ваш же провайдер ( у меня такое число - 200 + - , с сервера пока не пробовал), тоже нуждается в доработке (чтобы удалять неработающие на лету) рвет любые сайты на раз-два - десять секунд и готово.
ХТТП, СОКС4, СОКС5 - успевай только настройки менять.
(автору Grablib привет, кажется, я начал понимать...)
Без Twisted, без заумных "создаем окружение", просто влет.
К сожалению, у Scrapy выглядит поразвитее инфраструктурв, и, похоже, до поры до времени под разные задачи и пробив придется использовать обе эти библиотеки
рабочий код тут: https://github.com/aivarsk/scrapy-proxies
(выложу у себя с поправленными актуальными параметрами)
однако сам процесс организован хз как
на русском - тут: http://scrapt.readthedocs.org/ru/latest/proxying-in-scrapy.html
видимо, особенности Twisted, не знаю, не спец.
Еле-еле перебирает десяток-другой прокси и отваливается по количеству неудачных attempt
Подозреваю, что на самом деле огромные скрытые резервы, а этот middleware просто криво написан.
Ибо в волшебном Scrapy еще есть параметр скорости сканирования, и, верояно, в нем можно отрегулировать, чтобы прокси он перебирал не по одному,а хотя бы по 50-100.
Где-то еще обитает middleware для socks4,5, попозже поищу, поставлю, может, там другой автор )) но и так от нас, зеленых, спасибо!
Тем почетнее на этом месте вспомниить о
https://github.com/Lispython/pycurl/blob/master/examples/retriever-multi.py
этот монстр, ограниченный только числом соединений, выше которого вас режет ваш же провайдер ( у меня такое число - 200 + - , с сервера пока не пробовал), тоже нуждается в доработке (чтобы удалять неработающие на лету) рвет любые сайты на раз-два - десять секунд и готово.
ХТТП, СОКС4, СОКС5 - успевай только настройки менять.
(автору Grablib привет, кажется, я начал понимать...)
Без Twisted, без заумных "создаем окружение", просто влет.
К сожалению, у Scrapy выглядит поразвитее инфраструктурв, и, похоже, до поры до времени под разные задачи и пробив придется использовать обе эти библиотеки
Комментарии
Отправить комментарий