Scrapy и прокси, ода Grablib

В общем, с proxy scrapy работает хуево

рабочий код тут: https://github.com/aivarsk/scrapy-proxies
(выложу у себя с поправленными актуальными параметрами)
однако сам процесс организован хз как

на русском - тут: http://scrapt.readthedocs.org/ru/latest/proxying-in-scrapy.html

видимо, особенности Twisted, не знаю, не спец.

Еле-еле перебирает десяток-другой прокси и отваливается по количеству неудачных attempt

Подозреваю, что на самом деле огромные скрытые резервы, а этот middleware просто криво написан.

Ибо в волшебном Scrapy еще есть параметр скорости сканирования, и, верояно, в нем можно отрегулировать, чтобы прокси он перебирал не по одному,а хотя бы по 50-100.

Где-то еще обитает middleware для socks4,5, попозже поищу, поставлю, может, там другой автор )) но и так от нас, зеленых, спасибо!

Тем почетнее на этом месте вспомниить о
https://github.com/Lispython/pycurl/blob/master/examples/retriever-multi.py

этот монстр, ограниченный только числом соединений, выше которого вас режет ваш же провайдер ( у меня такое число - 200 + - , с сервера пока не пробовал), тоже нуждается в доработке (чтобы удалять неработающие на лету) рвет любые сайты на раз-два - десять секунд и готово.

ХТТП, СОКС4, СОКС5 - успевай только настройки менять.

(автору Grablib привет, кажется, я начал понимать...)

Без Twisted, без заумных "создаем окружение", просто влет.

К сожалению, у Scrapy выглядит поразвитее инфраструктурв, и, похоже, до поры до времени под разные задачи и пробив придется использовать обе эти библиотеки

Python заметки

Поиск по этому блогу

Scrapy и прокси, ода Grablib

Комментарии

Отправить комментарий