crawlspider的使用

2017-07-11
学习笔记

crawlspider的使用

2017-07-11

crawlspider的使用

创建爬虫 scarpy genspider -t crawl spider_name allow_domain
完善spider
- 1.start_url
- 2.完善rules
  - 元组
  - Rule(LinkExtractor,callback，follow)
    - LinkExtractor 连接提取器，提取url
    - callback url的响应会交给该callback处理
    - follow= True url的响应会继续被Rule提取地址
- 3.完善callback

下载中间件的使用

定义类
process_request 处理请求，不需要return
process_response 处理响应，需要return request response
settings中开启

scrapy如何模拟登陆

携带cookie登录
- 准备cookie字典
- scrapy.Request(url,callback,cookies=cookies_dict)
scrapy.FormRequest(post_url,formdata={},callback)
scrapy.FormRequest.from_response(response,formdata,callback)

赏