当前位置: 首页 > news >正文

Selenium实战指南:用浏览器驱动轻松实现网络爬虫

Selenium 介绍

1、Selenium 是什么?

Selenium 最初是一款用于 Web 应用程序测试的工具,它可以驱动浏览器执行特定操作,自动按照脚本代码完成点击、输入、打开页面、验证结果等一系列行为,就像真实用户在操作一样。

目前 Selenium 已不仅限于测试领域,还广泛用于网络爬虫、网页自动化、批量操作等场景。

它支持多种主流浏览器,包括:

Internet Explorer(IE)

Firefox

Safari

Microsoft Edge

Google Chrome

等,几乎覆盖了日常开发与爬虫工作中会遇到的所有浏览器类型。

2、Selenium 与 requests 库的区别

很多人在做爬虫时会用到 Python 的 requests库,它通过直接发送 HTTP 请求来获取网页内容,速度快、资源占用少,但只能拿到服务器返回的原始 HTML,对于由 JavaScript 动态渲染生成的数据无能为力。

而 Selenium​ 是基于浏览器驱动程序来控制浏览器执行操作的,浏览器会对网页进行完整的渲染(包括执行 JS、加载 Ajax 数据等),因此 Selenium 可以轻松获取渲染后的页面数据。

简单来说:

requests→ 静态抓取,速度快,适合结构简单、无 JS 渲染的页面。

selenium→ 动态抓取,能获取 JS 渲染后的内容,适合复杂交互或现代前端框架(如 React、Vue)生成的页面,但速度较慢、资源占用高。

3、Selenium 的工作原理

Selenium 的核心是通过 WebDriver​ 与浏览器进行通信。其工作流程如下:

浏览器内核驱动(WebDriver)​

每种浏览器都有自己的 WebDriver,例如 ChromeDriver(Chrome)、GeckoDriver(Firefox)、msedgedriver(Edge)等,并且驱动版本必须与浏览器版本匹配,否则可能无法正常工作。

驱动程序与浏览器内核交互​

WebDriver 会通过浏览器内核提供的接口,将脚本发出的指令(如打开网址、点击按钮、填写表单)转化为浏览器可执行的操作。

浏览器执行并返回结果​

浏览器完成操作后,会将渲染完成的页面信息返回给 WebDriver,再由 WebDriver 将数据传递给我们的脚本进行后续处理。

关键点:不同浏览器使用不同的 WebDriver,且必须对应相应版本的浏览器,否则会出现兼容性问题。

如何使用 Selenium?

(1)使用前准备

要开始使用 Selenium,需要完成以下两个步骤:

a. 安装 Selenium 库​

在命令行中使用 pip 安装(这里以 4.11.0 版本为例):

pipinstallselenium==4.11.0 -i https://pypi.mirrors.ustc.edu.cn/simple/

也可以在 PyCharm 等 IDE 的包管理界面直接搜索安装。
b. 下载并配置浏览器驱动​

不同浏览器需要对应的驱动程序:

Edge 驱动:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

Chrome 驱动:https://chromedriver.storage.googleapis.com/index.html

Firefox 驱动(GeckoDriver):https://github.com/mozilla/geckodriver/releases

注意浏览器内核对应关系:

新版 360 安全浏览器、360 极速浏览器​ 使用的是 Edge 内核​

QQ 浏览器​ 有的版本使用 IE 内核(需注意具体版本)

如果目标网页在 IE 中才能正常显示,则需要用 IE 驱动

(2)驱动程序的放置

Windows 系统:将下载并解压后的驱动文件放到 Python 安装目录下的 Scripts 文件夹​ 中(确保该路径已加入系统环境变量)。

Linux / macOS 系统:同样放在 Python 的 Scripts(或对应可执行路径)目录下;如果系统中有多个 Python 版本,要确定当前运行脚本的 Python 环境,并将其路径配置到环境变量中,避免版本冲突。

实例1:打开网页

fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptions edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get('https://www.ptpress.com.cn/')input('dengdai')

实例2:打开多个网页

fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptions edge_options=Options()edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"driver=webdriver.Edge(options=edge_options)driver.get('https://www.baidu.com')driver.execute_script("window.open('https://www.bilibili.com/','_blank');")driver.execute_script("window.open('https://www.shuyishe.com/','_blank');")driver.execute_script("window.open('https://www.shuyishe.com/course','_blank');")input('dengdai')
http://www.zskr.cn/news/83896.html

相关文章:

  • 2025 最新货代方案服务商 / 厂家 TOP5 评测!深度覆盖欧美加专线,全链路协同 + 跨境直达权威榜单发布,赋能电商全球化布局新生态 - 全局中转站
  • 基于Java Spring Boot的相机租赁系统的设计与实现-毕业设计源码50424
  • Python学习日记:探索列表的奥秘与编程乐趣
  • Windows上解决test.c LINK : fatal error LNK1181: 无法打开输入文件“aio.lib” 无法打开输入文件“cufile.lib”
  • 第十一章篇 实现拦截器
  • Docker Buildx构建缓慢?你必须知道的7个Agent镜像优化实践
  • 8 个自考论文降重工具,AI 免费网站推荐
  • 新手鱼竿推荐:新手买钓鱼竿怎么选?2025年鱼竿新手入门推荐 - 品牌2026
  • 卡内基跨学科团队利用随机森林模型,基于406份样本成功捕捉33亿年前生命遗迹
  • 【STM32】低功耗
  • 区间DP第2课:区间DP应用案例实践1
  • 基于 ESP32 的对话机器人实现:整合 Coze 大模型、百度千帆 ASR 与 TTS
  • MySQL 主从同步与读写分离详解
  • OpenHarmony Flutter 分布式安全与隐私保护:跨设备可信交互与数据防泄漏方案
  • http协议中各个网段含义
  • MagicTime: Time-Lapse Video Generation Models asMetamorphic Simulators论文精读(1)
  • MediaPipe Hands实战指南:从算法原理到工程部署的深度解密
  • Python列表类型详解
  • Windows系统文件netshell.dll缺失损坏问题 下载修复
  • [Windows] 谷歌浏览器 v142.0.7444.135老毛子优化版
  • 详细介绍:Docker 多服务镜像构建完整教程
  • 2025国产鱼竿十大名牌榜单 从第一名到第十名实力排行 - 品牌2026
  • JVM内存、GC与JConsole实战全解析:从理论到可视化的完整指南
  • PPT每一页都要加小标题?拒绝复制粘贴,这3招让你效率翻倍!
  • [Android] B站第三方电视TVapp BV_0.3.10
  • 98465
  • 为什么比话能把论文的ai率降低下来?比话的技术优势分析拆解!
  • AI如何帮你快速搭建MVC框架项目?
  • 【程序员必备技能】:VSCode + Quantum SDK 环境搭建全解析
  • 每個人都應該知道的命名約束