当前位置：首页 > news >正文

Python Scrapy 爬虫实战：整站科普栏目分层遍历采集全攻略

news 2026/6/8 0:19:17

前言

在网络数据采集领域，Scrapy 作为 Python 生态中最成熟、高效的异步爬虫框架，凭借高并发、易扩展、模块化的核心优势，成为企业级爬虫开发的首选工具。整站分层遍历采集是爬虫开发中最常用的业务场景，广泛应用于资讯站点、科普平台、内容门户网站的数据采集工作，核心目标是通过层级化的页面解析，精准遍历目标栏目下的所有子页面，完整提取结构化数据。

本文将以整站科普栏目分层遍历采集为核心场景，从环境搭建、项目创建、爬虫编写、数据解析到优化扩展，进行全流程、深度化的实战讲解。全文采用专家级书面语，结合原理剖析、可直接运行的代码案例、命令实操，覆盖 Scrapy 爬虫开发的核心知识点，帮助开发者快速掌握整站分层采集的核心逻辑与实战技巧。

本文涉及的核心依赖库与官方资源如下，读者可直接点击超链接获取详细文档：

Python 官方下载地址
Scrapy 官方文档
lxml 解析库官方文档
Twisted 异步网络框架官方文档
PyPI 仓库（Scrapy 安装源）

一、Scrapy 框架核心基础认知

1.1 Scrapy 框架定义与核心优势

Scrapy 是一个基于 Python 开发的高性能异步爬虫框架，采用 Twisted 异步网络引擎处理网络请求，无需手动管理多线程 / 协程，即可实现高并发数据采集。相较于 requests+beautifulsoup 组合，Scrapy 具备模块化设计、内置数据提取、自动去重、中间件扩展、管道处理等核心能力，尤其适合整站大规模、分层级的数据采集任务。

针对科普栏目整站采集场景，Scrapy 的核心优势体现为：

支持递归式页面解析，完美适配栏目 - 列表 - 详情的三层 / 多层页面结构；
内置链接提取器，可精准筛选目标 URL，避免无效请求；
异步请求处理，大幅提升整站采集效率；
模块化架构，可轻松扩展数据清洗、会话保持、定时任务等功能。

1.2 Scrapy 框架核心组件（整站采集适配版）

在整站分层遍历采集项目中，Scrapy 五大核心组件各司其职，协同完成采集任务：

引擎（Engine）：框架核心，负责调度所有组件的数据流，控制爬虫执行流程；
调度器（Scheduler）：接收引擎发送的请求，对请求进行排队、去重，等待下载器执行；
下载器（Downloader）：执行网络请求，下载网页源码，是爬虫与目标服务器的交互核心；
爬虫（Spiders）：自定义解析逻辑，提取页面数据、生成新的请求，是分层遍历的核心实现组件；
管道（Item Pipeline）：接收爬虫提取的数据，进行清洗、验证、存储等后续处理。

1.3 整站科普栏目分层采集核心逻辑

科普类网站的页面结构通常遵循顶级栏目页 → 二级列表页 → 三级详情页的分层架构，采集核心逻辑为：

访问顶级科普栏目首页，提取所有二级子栏目链接；
遍历二级栏目链接，提取列表页中的文章详情页链接；
遍历详情页链接，提取标题、正文、发布时间、作者等结构化数据；
递归执行上述逻辑，完成整站科普栏目的全量采集。

二、开发环境搭建与项目初始化

2.1 环境依赖要求

本项目适配的环境版本要求如下，兼容 Windows、MacOS、Linux 全平台：

表格

依赖名称	最低版本要求	作用
Python	3.8+	项目运行基础环境
Scrapy	2.9.0+	核心爬虫框架
lxml	4.9.0+	网页解析依赖库
Twisted	22.10.0+	异步网络请求引擎

2.2 环境安装步骤

打开系统命令行工具，执行以下命令完成环境安装，全程无需额外配置：

bash

运行

# 升级 pip 工具（推荐） python -m pip install --upgrade pip # 安装 Scrapy 核心框架（自动关联依赖库） pip install scrapy==2.9.0

安装完成后，执行验证命令，确认环境搭建成功：

bash

运行

# 查看 Scrapy 版本 scrapy version

若输出 Scrapy 版本信息，代表环境安装完成。

2.3 Scrapy 项目创建

整站采集项目需遵循 Scrapy 官方规范创建，命令行执行以下操作：

bash

运行

# 创建项目（项目名：science_crawler，可自定义） scrapy startproject science_crawler # 进入项目根目录 cd science_crawler

项目创建完成后，默认目录结构如下，核心文件已标注作用：

plaintext

science_crawler/ ├── science_crawler/ # 项目核心配置目录 │ ├── __init__.py │ ├── items.py # 定义数据结构（字段） │ ├── middlewares.py # 中间件配置文件 │ ├── pipelines.py # 数据处理管道 │ ├── settings.py # 全局配置文件 │ └── spiders/ # 爬虫文件存放目录 │ └── __init__.py └── scrapy.cfg # 项目部署配置文件

2.4 数据结构定义（items.py）

在整站科普栏目采集中，需要提前定义需要提取的结构化数据字段。打开items.py文件，编写代码如下：

python

运行

# Define here the models for your scraped items import scrapy class ScienceCrawlerItem(scrapy.Item): """ 科普栏目数据结构定义 字段：栏目名称、文章标题、发布时间、文章作者、文章正文、详情页链接 """ # 所属科普栏目名称 column_name = scrapy.Field() # 文章标题 article_title = scrapy.Field() # 发布时间 publish_time = scrapy.Field() # 文章作者 article_author = scrapy.Field() # 文章正文内容 article_content = scrapy.Field() # 文章详情页URL article_url = scrapy.Field()

代码原理

scrapy.Item是 Scrapy 提供的数据容器类，用于标准化存储采集到的数据。通过定义scrapy.Field()声明字段，确保爬虫提取的数据格式统一，便于后续管道处理与数据存储。该设计实现了数据结构与解析逻辑的解耦，符合模块化开发规范。

三、全局配置优化（settings.py）

全局配置是整站采集的核心，合理配置可提升爬虫稳定性、避免被目标服务器封禁。打开settings.py文件，替换为以下配置代码：

python

运行

# 项目名称 BOT_NAME = "science_crawler" # 爬虫文件路径 SPIDER_MODULES = ["science_crawler.spiders"] NEWSPIDER_MODULE = "science_crawler.spiders" # ===================== 整站采集核心配置 ===================== # 1. 禁用 robots.txt 协议（科普站点通常允许爬虫采集，根据目标站点调整） ROBOTSTXT_OBEY = False # 2. 设置请求并发数（整站采集建议 16-32，避免过高导致服务器封禁） CONCURRENT_REQUESTS = 32 # 3. 设置下载延迟（单位：秒，避免请求过于频繁，建议 0.5-1 秒） DOWNLOAD_DELAY = 0.5 # 启用随机延迟，进一步模拟人工访问 RANDOMIZE_DOWNLOAD_DELAY = True # 4. 请求头配置（模拟浏览器访问，必须配置） DEFAULT_REQUEST_HEADERS = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "zh-CN,zh;q=0.9", } # 5. 启用数据管道（优先级数字越小，执行越早） ITEM_PIPELINES = { "science_crawler.pipelines.ScienceCrawlerPipeline": 300, } # 6. 启用自动去重（避免重复采集页面） DUPEFILTER_CLASS = "scrapy.dupefilters.RFPDupeFilter" # 7. 超时时间配置（整站采集避免长时间等待） DOWNLOAD_TIMEOUT = 15

代码原理

ROBOTSTXT_OBEY：控制是否遵守目标站点的 robots 协议，科普类非商业站点通常无严格限制，禁用后可正常采集；
CONCURRENT_REQUESTS：设置异步并发请求数量，数值越大采集效率越高，需根据服务器承受能力调整；
DOWNLOAD_DELAY：下载延迟，用于控制请求频率，是反爬应对的核心配置；
DEFAULT_REQUEST_HEADERS：请求头模拟浏览器，User-Agent是服务器识别客户端的核心参数，缺失会导致请求被拦截；
ITEM_PIPELINES：启用数据处理管道，确保爬虫提取的数据能进入清洗、存储流程。

四、整站分层遍历爬虫核心开发

4.1 爬虫文件创建

在项目的spiders目录下，创建爬虫文件，命令行执行：

bash

运行

# 创建爬虫：名称为 science_spider，允许的域名（示例：kepu.com），起始URL（栏目首页） scrapy genspider science_spider kepu.com

创建完成后，打开spiders/science_spider.py文件，编写分层遍历核心逻辑。

4.2 分层遍历爬虫核心代码

以下代码适配栏目页 → 列表页 → 详情页三层结构，支持递归遍历整站科普栏目，可直接替换使用：

python

运行

import scrapy from science_crawler.items import ScienceCrawlerItem class ScienceSpider(scrapy.Spider): # 爬虫名称（启动爬虫时使用） name = "science_spider" # 允许爬取的域名（防止爬虫爬取外部站点） allowed_domains = ["kepu.com"] # 起始URL：科普栏目顶级首页（替换为目标站点实际栏目地址） start_urls = ["https://www.kepu.com/science/"] def parse(self, response): """ 第一层解析：解析顶级栏目页，提取所有二级子栏目链接 :param response: 网页响应对象 """ # 提取二级栏目链接（XPath 匹配，根据目标站点HTML结构调整） # 示例：匹配栏目列表中所有 <a> 标签的 href 属性 column_links = response.xpath('//div[@class="column-list"]/a/@href').extract() # 遍历所有二级栏目链接，发起请求，回调函数解析列表页 for link in column_links: # 拼接完整URL（处理相对路径） full_link = response.urljoin(link) # 发起请求，meta 参数传递栏目名称，用于后续数据关联 yield scrapy.Request( url=full_link, callback=self.parse_list, meta={"column_name": self.get_column_name(full_link)} ) def parse_list(self, response): """ 第二层解析：解析二级栏目列表页，提取文章详情页链接 :param response: 网页响应对象 """ # 获取上一层传递的栏目名称 column_name = response.meta.get("column_name", "未知栏目") # 提取文章详情页链接（XPath 匹配列表页文章链接） article_links = response.xpath('//ul[@class="article-list"]/li/a/@href').extract() # 遍历详情页链接，发起请求，回调函数解析详情页 for link in article_links: full_link = response.urljoin(link) yield scrapy.Request( url=full_link, callback=self.parse_detail, meta={"column_name": column_name} ) # 提取列表页分页链接，递归遍历所有列表页（核心：实现整站全量采集） next_page = response.xpath('//a[@class="next-page"]/@href').extract_first() if next_page: full_next_page = response.urljoin(next_page) yield scrapy.Request( url=full_next_page, callback=self.parse_list, meta={"column_name": column_name} ) def parse_detail(self, response): """ 第三层解析：解析文章详情页，提取结构化数据 :param response: 网页响应对象 """ # 初始化数据容器 item = ScienceCrawlerItem() # 获取栏目名称 item["column_name"] = response.meta.get("column_name", "未知栏目") # 文章详情页链接 item["article_url"] = response.url # 提取文章标题（XPath 匹配，根据实际结构调整） item["article_title"] = response.xpath('//h1[@class="article-title"]/text()').extract_first() # 提取发布时间 item["publish_time"] = response.xpath('//span[@class="publish-time"]/text()').extract_first() # 提取作者 item["article_author"] = response.xpath('//span[@class="author"]/text()').extract_first() # 提取正文（合并所有正文段落） content_list = response.xpath('//div[@class="article-content"]//p/text()').extract() item["article_content"] = "".join(content_list).strip() # 提交数据到管道 yield item def get_column_name(self, url): """ 自定义工具方法：从URL中提取栏目名称 :param url: 栏目链接 :return: 栏目名称 """ if "physics" in url: return "物理科普" elif "chemistry" in url: return "化学科普" elif "biology" in url: return "生物科普" else: return "综合科普"

代码原理

爬虫核心属性：name是爬虫唯一标识，allowed_domains限制爬取域名，start_urls定义采集入口；
parse 方法：默认回调函数，负责解析顶级栏目页，提取二级栏目链接，是分层遍历的起点；
递归请求机制：通过yield scrapy.Request()发起新请求，指定回调函数，实现栏目页→列表页→详情页的层级跳转；
分页遍历：在列表页解析中，提取下一页链接并递归调用parse_list，确保遍历所有列表数据；
数据传递：通过meta参数在不同解析方法间传递数据（如栏目名称），实现数据关联；
XPath 解析：Scrapy 内置支持 XPath 语法，精准提取网页元素，是网页数据解析的核心方式。

4.3 核心解析语法说明（XPath 适配整站采集）

在分层遍历中，XPath 是提取链接与数据的核心工具，本文使用的核心语法如下：

表格

XPath 语法	作用
`//标签[@属性="值"]/@href`	提取指定属性的链接地址
`//标签[@属性="值"]/text()`	提取标签内的文本内容
`extract()`	将匹配结果转换为列表
`extract_first()`	提取匹配结果的第一个值，避免索引报错
`response.urljoin(link)`	将相对路径转换为绝对路径，解决链接不完整问题

原理说明

XPath 是一门在 XML/HTML 文档中查找信息的语言，Scrapy 基于 lxml 库实现 XPath 解析，解析效率远高于正则表达式。在整站分层采集中，XPath 可精准定位不同层级页面的目标元素，确保链接提取与数据解析的准确性。

五、数据管道基础配置（pipelines.py）

为保证采集数据的有效性，基础管道实现数据简单清洗与打印验证，打开pipelines.py文件，编写代码：

python

运行

class ScienceCrawlerPipeline: def process_item(self, item, spider): """ 数据处理核心方法：爬虫提交的每条数据都会经过该方法 :param item: 采集到的数据对象 :param spider: 当前运行的爬虫实例 :return: 处理后的数据 """ # 基础数据清洗：去除空白字符、空值替换 for key in item: if item[key] is None: item[key] = "暂无数据" elif isinstance(item[key], str): item[key] = item[key].strip() # 打印采集数据（测试用，正式环境可注释） spider.logger.info(f"采集成功：【{item['column_name']}】-{item['article_title']}") # 返回处理后的数据，可后续扩展存储到数据库/文件 return item

代码原理

process_item是管道的核心方法，Scrapy 引擎会将爬虫提取的Item对象自动传入该方法。本文实现了空值替换、空白字符去除的基础清洗逻辑，确保数据格式规范。管道支持多阶段处理，可扩展数据存储、去重、过滤等功能。

六、爬虫启动与整站采集测试

6.1 启动命令

在项目根目录下，执行以下命令启动爬虫，开始整站科普栏目分层采集：

bash

运行

# 启动爬虫（science_spider 为爬虫名称） scrapy crawl science_spider

6.2 日志说明

启动后，命令行会输出实时日志，核心日志含义：

INFO: Spider opened：爬虫启动成功；
INFO: Crawled 200 (referer: None)：页面请求成功；
INFO: 采集成功：【物理科普】-量子力学基础科普：数据提取成功；
INFO: Closing spider (finished)：整站采集完成。

6.3 采集验证

爬虫运行过程中，会实时打印采集到的栏目名称与文章标题，若无报错且持续输出数据，说明整站分层遍历采集逻辑正常运行。

七、整站采集核心问题解决方案

7.1 相对路径链接处理

问题：目标站点列表页、栏目页的链接为相对路径（如/science/physics/），直接请求会报错。解决方案：使用response.urljoin(link)拼接完整绝对路径，本文爬虫代码已内置该逻辑。原理：urljoin方法会自动根据当前页面的 URL，将相对路径转换为可直接访问的绝对路径，适配所有站点的链接格式。

7.2 分页遍历失效

问题：列表页下一页链接无法提取，导致仅能采集第一页数据。解决方案：

打开目标站点列表页，按 F12 查看 HTML 结构，修正 XPath 语法；
确认分页标签的属性，如next-page、pagination等，精准匹配元素。原理：不同站点的分页 HTML 结构不同，需根据实际页面调整 XPath 匹配规则，递归调用列表页解析方法实现全量采集。

7.3 数据为空 / 乱码

问题：文章标题、正文提取为空，或出现乱码。解决方案：

空数据：检查 XPath 语法是否匹配目标元素；
乱码：在settings.py中添加编码配置FEED_EXPORT_ENCODING = 'utf-8'。原理：XPath 匹配错误会导致数据提取失败，网页编码不统一会导致乱码，UTF-8 是通用编码格式。

7.4 爬虫被服务器封禁

问题：请求失败、返回 403/429 状态码。解决方案：

增大DOWNLOAD_DELAY延迟时间；
降低CONCURRENT_REQUESTS并发数；
更换User-Agent请求头。原理：目标服务器会识别高频请求，通过降低请求频率、模拟真实浏览器访问，可有效避免封禁。

八、项目扩展与进阶优化

8.1 多栏目并行采集

在start_urls中添加多个栏目首页地址，即可实现多栏目并行采集，代码示例：

python

运行

start_urls = [ "https://www.kepu.com/science/physics/", "https://www.kepu.com/science/chemistry/", "https://www.kepu.com/science/biology/" ]

原理

Scrapy 调度器会自动对多个起始 URL 进行排队、并发处理，无需额外代码即可实现多栏目并行采集，提升整站采集效率。

8.2 数据持久化存储

在管道中扩展代码，将采集的数据存储到 MySQL、MongoDB 或 Excel 文件中，示例（存储为 JSON 文件）：

python

运行

import json class ScienceCrawlerPipeline: def __init__(self): # 打开文件，以追加模式写入JSON数据 self.file = open("science_data.json", "a", encoding="utf-8") def process_item(self, item, spider): # 数据清洗 for key in item: if item[key] is None: item[key] = "暂无数据" elif isinstance(item[key], str): item[key] = item[key].strip() # 转换为JSON字符串并写入文件 line = json.dumps(dict(item), ensure_ascii=False) + "\n" self.file.write(line) return item def close_spider(self, spider): # 爬虫关闭时关闭文件 self.file.close()

8.3 异常处理优化

在请求方法中添加异常捕获，避免因个别页面请求失败导致爬虫中断，代码示例：

python

运行

def parse_list(self, response): # 捕获页面解析异常 try: column_name = response.meta.get("column_name", "未知栏目") article_links = response.xpath('//ul[@class="article-list"]/li/a/@href').extract() for link in article_links: full_link = response.urljoin(link) yield scrapy.Request(url=full_link, callback=self.parse_detail, meta={"column_name": column_name}) except Exception as e: self.logger.error(f"列表页解析失败：{response.url}，错误信息：{str(e)}")