Scrapy заметки

1) url  страницы, которую обрабатываем / извлекаем данные

item["url"] = response.request.url

2) нескачивание страниц повторно - чуть сложнее

http://stackoverflow.com/questions/12553117/how-to-filter-duplicate-requests-based-on-url-in-scrapy


3) формат файла, сохраняющего уникальные ссылки
http://stackoverflow.com/questions/20414711/what-are-the-values-stored-in-requests-seen-file-in-scrapy


4) нередко полезно конвертить сохраняемые ссылки в абсолютные (следует помнить о месте в базе)

http://stackoverflow.com/questions/6499603/python-scrapy-convert-relative-paths-to-absolute-paths


5) gzip в заголовках для увеличения передачи через прокси


6) скачать и обработать список ссылок
немного невнятное
http://stackoverflow.com/questions/9561020/how-do-i-use-the-python-scrapy-module-to-list-all-the-urls-from-my-website
http://stackoverflow.com/questions/23677812/scrapy-crawl-list-of-links
http://stackoverflow.com/questions/8376630/scrapy-read-list-of-urls-from-file-to-scrape  вот это оно, разумеется, в RULE -  никаких переходов

7)  scrapy proxy https://github.com/aivarsk/scrapy-proxies , обратите внимание на непривычный формат http://
по умолчанию, именно у этого скрипта работа так себе, в основном из-за твистеда: один поток неработающий прокси удаляет, второй к нему обращается, получает ошибку, в итоге все плохо
при этом через те же прокси multicurl  работает прекрасно, видимо, еще и timeout  имеет место

еще ссылки http://mahmoud.abdel-fattah.net/2012/04/07/using-scrapy-with-proxies/
https://groups.google.com/forum/?fromgroups#!msg/scrapy-users/mX9d05qcZw8/RkjWkqBT-HIJ
http://stackoverflow.com/questions/14945873/enabling-httpproxymiddleware-in-scrapyd
http://stackoverflow.com/questions/4710483/scrapy-and-proxies
https://groups.google.com/forum/#!topic/scrapy-users/21AscpeyQFA

вот тут, видимо, эта проблема решается
http://pythonr.blogspot.com/2014/10/random-proxy-middleware-for-scrapy.html



8) сохранять лог в файл, а не в stdout
http://stackoverflow.com/questions/16650397/how-to-save-scrapy-crawl-command-output

9) получать абсолютные, а не относительные ссылки
http://stackoverflow.com/questions/6499603/python-scrapy-convert-relative-paths-to-absolute-paths

Комментарии