crawlspider的使用

  • 创建爬虫 scarpy genspider -t crawl spider_name allow_domain
  • 完善spider
    • 1.start_url
    • 2.完善rules
      • 元组
      • Rule(LinkExtractor,callback,follow)
        • LinkExtractor 连接提取器,提取url
        • callback url的响应会交给该callback处理
        • follow= True url的响应会继续被Rule提取地址
    • 3.完善callback

下载中间件的使用

  • 定义类
  • process_request 处理请求,不需要return
  • process_response 处理响应,需要return request response
  • settings中开启

scrapy如何模拟登陆

  • 携带cookie登录

    • 准备cookie字典
    • scrapy.Request(url,callback,cookies=cookies_dict)
  • scrapy.FormRequest(post_url,formdata={},callback)

  • scrapy.FormRequest.from_response(response,formdata,callback)