第 40 篇:数据存储——Redis 缓存与分布式工具

第 40 篇:数据存储——Redis 缓存与分布式工具

前三篇我们学习了文件、MySQL、MongoDB 三种存储方案,它们都是"持久化存储"——数据永久保存在磁盘上。

但爬虫中还有很多"临时性、高频访问、对速度要求极高"的场景,比如:

  • URL 去重:判断某个 URL 有没有爬过;
  • 限速控制:控制某个 IP 每秒请求数;
  • 任务队列:分布式爬虫的任务分发;
  • 缓存:临时存一些热点数据;
  • 计数器:统计爬了多少条、失败了多少次。

这些场景用 MySQL / MongoDB 也能做,但性能不够。这时候就轮到Redis登场了。

Redis 是一个开源的内存数据库,数据存在内存中,读写极快(10万+ QPS),支持多种数据结构,是爬虫工程师的又一把"瑞士军刀"。


一、Redis 是什么

Redis(Remote Dictionary Server)是一个开源的键值型内存数据库

  • 内存存储:数据存在内存中,速度极快;
  • 持久化:支持 RDB 和 AOF 两种持久化方式,断电不丢;
  • <