各大数据库的区别以及url去重原理

mongodb mysql redis的区别和使用场景

mysql是关系型数据库，支持事物
mongodb，redis非关系型数据库，不支持事物
mysql，mongodb，redis的使用根据如何方便进行选择
- 希望速度快的时候，选择mongodb或者是redis
- 数据量过大的时候，选择频繁使用的数据存入redis，其他的存入mongodb
- mongodb不用提前建表建数据库，使用方便，字段数量不确定的时候使用mongodb
- 后续需要用到数据之间的关系，此时考虑mysql

爬虫数据去重，实现增量式爬虫

使用数据库建立关键字段（一个或者多个）建立索引进行去重
根据url地址进行去重
- 使用场景：
  - url地址对应的数据不会变的情况，url地址能够唯一判别一个条数据的情况
- 思路
  - url存在redis中
  - 拿到url地址，判断url在redis的url的集合中是够存在
  - 存在：说明url已经被请求过，不再请求
  - 不存在：url地址没有被请求过，请求，把该url存入redis的集合中
- 布隆过滤器
  - 使用多个加密算法加密url地址，得到多个值
  - 往对应值的位置把结果设置为1
  - 新来一个url地址，一样通过加密算法生成多个值
  - 如果对应位置的值全为1，说明这个url地址已经抓过
  - 否则没有抓过，就把对应位置的值设置为1
根据数据本省进行去重
- 选择特定的字段，使用加密算法（md5，sha1）讲字段进行假面，生成字符串，存入redis的集合中
- 后续新来一条数据，同样的方法进行加密，如果得到的字符串在redis中存在，说明数据存在，对数据进行更新，否则说明数据不存在，直接插入

request对象什么时候入队

dont_filter = True ,构造请求的时候，把dont_filter置为True，该url会被反复抓取（url地址对应的内容会更新的情况）
一个全新的url地址被抓到的时候，构造request请求
url地址在start_urls中的时候，会入队，不管之前是否请求过
- 构造start_url地址的请求时候，dont_filter = True

def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        # dont_filter=False Ture  True request指纹已经存在  #不会入队
        # dont_filter=False Ture  False  request指纹已经存在 全新的url  #会入队
        # dont_filter=Ture False  #会入队
        self.df.log(request, self.spider)
        return False
    self.queue.push(request) #入队
    return True

scrapy_redis去重方法

使用sha1加密request得到指纹
把指纹存在redis的集合中
下一次新来一个request，同样的方式生成指纹，判断指纹是否存在reids的集合中

生成指纹

fp = hashlib.sha1()
fp.update(to_bytes(request.method))  #请求方法
fp.update(to_bytes(canonicalize_url(request.url))) #url
fp.update(request.body or b'')  #请求体
return fp.hexdigest()

判断数据是否存在redis的集合中，不存在插入

1 2	added = self.server.sadd(self.key, fp) return added != 0

各大数据库的区别以及url去重原理

mongodb mysql redis的区别和使用场景

爬虫数据去重，实现增量式爬虫

request对象什么时候入队

scrapy_redis去重方法

生成指纹

判断数据是否存在redis的集合中，不存在插入

感谢支持~