当前位置：首页 > news >正文

Boss直聘反爬破解：Selenium无头模式与动态URL加密实战

news 2026/5/24 6:32:34

1. 这不是“爬个招聘网站”那么简单为什么Boss直聘的反爬机制让90%的初学者直接卡死在登录页你肯定试过——用requests发个GET请求填上headers甚至加了cookie结果返回的页面里连一个职位标题都看不到全是空div或者“请开启JavaScript”。再换Selenium常规模式浏览器一闪而过刚输完手机号验证码页面就弹出“检测到异常操作”账号被临时限制。这不是你代码写错了是Boss直聘从2021年起就全面升级了前端风控体系它不只看User-Agent、IP频率或Referer而是通过WebDriver特征指纹识别Canvas字体渲染熵检测鼠标轨迹模拟度评分URL参数动态签名验证四层嵌套防御。我去年帮三个团队做招聘数据支持无一例外都在第二周遇到“能登录但搜不到结果”“能翻页但第3页开始返回空列表”“本地跑通、部署到服务器就403”的问题。根本原因在于他们把“Selenium自动化”等同于“绕过反爬”却忽略了Boss直聘真正拦截的从来不是“有没有浏览器”而是“这个浏览器像不像真人”。标题里写的“无头模式动态URL”其实是两个关键破局点无头模式必须抹除所有WebDriver暴露的自动化痕迹比如navigator.webdriver值、chrome.runtime存在性、window.outerWidth/Height与innerWidth/Height的不合理比值而动态URL则指向其搜索接口的签名机制——每次请求的_l参数定位城市ID、page参数、ka参数点击来源标识都必须与当前会话的utrace用户行为追踪ID和uuid设备级唯一标识强绑定且_l和ka在页面JS中是通过AES加密后再Base64编码生成的。关键词“Selenium”“无头模式”“动态URL”“Python3.8”不是堆砌术语而是实操中每个环节都踩过坑后提炼出的精准锚点。这篇文章适合两类人一是已经用过requestsBeautifulSoup但被Boss直聘彻底拦住、正打算转向Selenium的中级开发者二是已能用Selenium打开页面但始终无法稳定获取搜索结果、对“为什么加了等待还是拿不到数据”感到困惑的实战派。接下来的内容不讲原理图、不列抽象概念全部来自我在三台不同配置服务器CentOS7/Ubuntu20.04/Alpine3.15上累计276小时的调试日志、Chrome DevTools Network面板逐帧分析、以及反编译其前端webpack打包JS后还原出的加密逻辑。2. 无头模式不是“加个options”而是重构整个浏览器指纹生态2.1 真正致命的三个WebDriver特征它们比User-Agent更难伪造很多人以为无头模式只要加上--headlessnew和--no-sandbox就万事大吉结果一运行就被拦截。我抓包对比了正常人工操作与Selenium无头模式的完整HTTP请求头发现Boss直聘后端校验的并非表面字段而是三个深埋在JavaScript执行环境中的“指纹钉”navigator.webdriver属性标准Selenium驱动下该值恒为true而真实Chrome用户永远是undefined。Boss直聘的首页JS里有一段持续轮询代码if (navigator.webdriver true) { window.location.href /block }。这不是防君子是直接熔断。chrome.runtime对象存在性无头模式默认注入chrome.runtime用于扩展通信但真实用户在未安装任何插件时该对象不存在。Boss直聘用chrome in window runtime in chrome作为第二道过滤器。window.outerWidth与window.innerWidth的比值异常真实用户浏览器窗口有边框、标题栏、书签栏outerWidth必然大于innerWidth通常差100~200px。而Selenium无头模式默认两者相等这个硬伤会被其Canvas字体渲染检测模块捕获——它用canvas绘制特定字体后读取像素熵值若窗口尺寸比例失真熵值低于阈值即判定为脚本。提示这三个特征在Selenium 4.10版本中仍默认开启官方文档从未说明如何关闭因为它们本就是WebDriver协议的固有行为。解决方案不是“禁用”而是“覆盖”。2.2 实战级无头配置12行代码抹除所有自动化痕迹Python3.8实测以下是我在线上环境稳定运行147天的ChromeOptions配置每行都有明确作用绝非网上流传的“万能options合集”from selenium import webdriver from selenium.webdriver.chrome.options import Options def get_chrome_options(): options Options() # 1. 启用新版无头模式旧版--headless已弃用 options.add_argument(--headlessnew) # 2. 关键禁用自动化控制标志覆盖navigator.webdriver options.add_experimental_option(excludeSwitches, [enable-automation]) options.add_experimental_option(useAutomationExtension, False) # 3. 关键移除Chrome正受到自动测试软件控制的提示条 options.add_argument(--disable-blink-featuresAutomationControlled) # 4. 关键伪造真实的窗口尺寸必须与后续JS注入匹配 options.add_argument(--window-size1920,1080) # 5. 关键禁用沙盒线上服务器必需 options.add_argument(--no-sandbox) # 6. 关键禁用/dev/shm使用Alpine系统必加否则内存溢出 options.add_argument(--disable-dev-shm-usage) # 7. 关键禁用GPU加速避免Canvas渲染异常 options.add_argument(--disable-gpu) # 8. 关键禁用图片加载提速且降低指纹特征 options.add_argument(--blink-settingsimagesEnabledfalse) # 9. 关键设置真实User-Agent需定期更新 options.add_argument(--user-agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36) # 10. 关键禁用WebRTC防止IP泄露 options.add_argument(--disable-webrtc) # 11. 关键禁用媒体设备枚举 options.add_argument(--disable-media-device-enumeration) # 12. 关键禁用地理位置API options.add_argument(--disable-geolocation) return options这段配置的核心逻辑是先切断所有自动化协议通道再注入真实环境变量最后屏蔽可能暴露虚拟环境的硬件特征。特别注意第2、3、4行——excludeSwitches和useAutomationExtension必须同时设置单设无效--window-size必须与后续JS注入的window.resizeTo()调用一致否则Canvas检测失败。2.3 必须注入的JavaScript补丁3段代码修复剩余指纹漏洞即使配置完美Selenium驱动的Chrome仍会在window对象上残留自动化痕迹。我在driver.get()之后、执行任何业务操作前强制注入以下三段JS# 注入1彻底覆盖navigator.webdriver必须用Object.defineProperty driver.execute_cdp_cmd(Page.addScriptToEvaluateOnNewDocument, { source: Object.defineProperty(navigator, webdriver, { get: () undefined }) }) # 注入2删除chrome.runtime对象防止被检测到扩展通信能力 driver.execute_cdp_cmd(Page.addScriptToEvaluateOnNewDocument, { source: window.chrome {runtime: {}}; Object.defineProperty(navigator, plugins, { get: () [1, 2, 3, 4, 5] }); }) # 注入3修复window.outerWidth/Height模拟真实窗口边框 driver.execute_cdp_cmd(Page.addScriptToEvaluateOnNewDocument, { source: window.outerWidth 1920; window.outerHeight 1080; window.innerWidth 1880; // 模拟10px边框20px标题栏 window.innerHeight 1040; })这三段代码利用Chrome DevTools ProtocolCDP在每个新文档加载前注入确保所有JS上下文都生效。其中第一段用Object.defineProperty而非简单赋值是因为Boss直聘的检测代码用了Object.getOwnPropertyDescriptor(navigator, webdriver)来判断是否被篡改。第二段不仅删除chrome.runtime还伪造了navigator.plugins数组长度真实Chrome通常返回20项但Boss直聘只校验是否存在且长度0。第三段的尺寸差值1880 vs 1920是我实测得出的最优解——差值太小如1910会被Canvas熵检测识别为“无边框”太大如1800则触发鼠标轨迹模型异常。注意execute_cdp_cmd在Selenium 4.0才支持Python3.8完全兼容。若用旧版Selenium请升级至4.11否则上述方案无效。3. 动态URL不是拼接字符串而是逆向其前端AES加密签名链3.1 Boss直聘搜索URL的三层结构为什么直接拼接?page2必然失败你以为搜索URL长这样https://www.zhipin.com/web/geek/job?querypythoncity101020100page2错。这是你F12看到的“表象”。实际发出的请求URL是https://www.zhipin.com/web/geek/job?querypythoncity101020100page2_l1234567890abcdef_kaweb_geek_job_list_next_2utraceabc123def456uuidxyz789uvw012其中_l、_ka、utrace、uuid四个参数才是Boss直聘真正的“门禁卡”。它们不是静态值而是由前端JS实时生成的动态签名_llocation ID并非简单的城市编码而是城市ID经AES-128-CBC加密后Base64编码密钥硬编码在JS中aHR0cHM6Ly93d3cuemhpcGluLmNvbQ解码后是https://www.zhipin.com但实际密钥是其SHA256哈希前16位。_kaclick action表示用户点击行为来源如web_geek_job_list_next_2代表“职位列表页第2页”该字符串本身被AES加密且加密IV初始化向量随每次页面加载随机生成。utrace用户行为追踪ID由Math.random().toString(36).substr(2, 9)生成但Boss直聘会校验其生成时间戳是否在当前会话有效期内通常5分钟。uuid设备级唯一标识存储在localStorage中首次访问时生成并持久化后续请求必须携带相同值。我反编译了其main.xxx.js文件定位到加密函数encryptParam核心逻辑如下已脱敏还原function encryptParam(str, key, iv) { // key 是硬编码字符串的SHA256前16字节 const cipher CryptoJS.AES.encrypt(str, key, { mode: CryptoJS.mode.CBC, padding: CryptoJS.pad.Pkcs7, iv: CryptoJS.enc.Utf8.parse(iv) }); return cipher.toString(); } // 调用示例encryptParam(101020100, b1a2c3d4e5f67890, a1b2c3d4e5f67890)3.2 Python端AES解密还原从JS源码到可复用的加密模块要生成合法URL必须在Python中完全复现其前端加密逻辑。我提取了其JS中所有硬编码参数构建了boss_encrypt.py模块import base64 import hashlib from Crypto.Cipher import AES from Crypto.Util.Padding import pad class BossEncrypt: # 从JS中提取的固定密钥SHA256(https://www.zhipin.com)[:16] KEY b\x1a\x2b\x3c\x4d\x5e\x6f\x7a\x8b\x9c\x0d\x1e\x2f\x3a\x4b\x5c\x6d # IV生成规则取当前毫秒时间戳的十六进制字符串取前16位 staticmethod def generate_iv(): import time ts str(int(time.time() * 1000)) iv_hex hashlib.md5(ts.encode()).hexdigest()[:16] return iv_hex.encode() staticmethod def encrypt_l_param(city_id: str) - str: 加密_city参数 iv BossEncrypt.generate_iv() cipher AES.new(BossEncrypt.KEY, AES.MODE_CBC, iv) # Boss直聘要求PKCS7填充且明文必须是UTF-8字节 padded pad(city_id.encode(utf-8), AES.block_size) encrypted cipher.encrypt(padded) # Base64编码后转URL安全格式替换/为-_ return base64.urlsafe_b64encode(encrypted).decode().rstrip() staticmethod def encrypt_ka_param(page_num: int, source: str web_geek_job_list) - str: 加密_ka参数 iv BossEncrypt.generate_iv() ka_str f{source}_next_{page_num} cipher AES.new(BossEncrypt.KEY, AES.MODE_CBC, iv) padded pad(ka_str.encode(utf-8), AES.block_size) encrypted cipher.encrypt(padded) return base64.urlsafe_b64encode(encrypted).decode().rstrip() # 使用示例 if __name__ __main__: print(加密后的_l参数:, BossEncrypt.encrypt_l_param(101020100)) print(加密后的_ka参数:, BossEncrypt.encrypt_ka_param(2))这个模块的关键细节KEY是硬编码密钥我通过Chrome DevTools的Sources面板搜索CryptoJS.AES.encrypt定位到其JS文件再用debugger断点捕获到实际传入的key值generate_iv()必须严格复现JS逻辑Boss直聘用Date.now().toString(16)生成IV但Python中time.time()返回浮点数所以用int(time.time() * 1000)模拟毫秒时间戳urlsafe_b64encode后必须rstrip()因为Boss直聘的URL中_l参数末尾没有填充符所有字符串必须用utf-8编码否则AES加密结果与JS不一致。实测经验AES密钥在2023年10月后有过一次更新如果你发现加密后URL仍返回403请检查JS源码中CryptoJS.AES.encrypt调用处的key参数重新计算SHA256。3.3 动态URL组装全流程从登录态保持到分页请求的完整链路生成动态URL只是第一步真正的难点在于维持会话一致性。Boss直聘要求utrace和uuid必须与登录时的值完全一致且utrace有效期仅5分钟。我的完整组装流程如下首次访问首页用Selenium打开https://www.zhipin.com注入前述JS补丁执行driver.get()后立即执行# 获取localStorage中的uuid uuid driver.execute_script(return localStorage.getItem(uuid);) # 获取utrace从页面HTML中提取因其在meta标签中 utrace driver.find_element(By.XPATH, //meta[nameutrace]).get_attribute(content)登录操作手动输入手机号验证码或接入打码平台登录成功后再次提取uuid和utrace确认它们未变更。构造第一页URLfrom urllib.parse import urlencode params { query: python, city: 101020100, page: 1, _l: BossEncrypt.encrypt_l_param(101020100), _ka: BossEncrypt.encrypt_ka_param(1), utrace: utrace, uuid: uuid } url fhttps://www.zhipin.com/web/geek/job?{urlencode(params)}分页请求每翻一页必须重新生成_l和_ka因IV变化但utrace和uuid复用登录时的值。注意_ka中的source字段必须与当前页面来源匹配职位列表页是web_geek_job_list公司详情页是web_geek_company_jobs。这个流程的脆弱点在于utrace超时。我的解决方案是每发起4次请求后用Selenium重新访问首页不刷新用driver.get(https://www.zhipin.com)重新提取utrace确保其始终在有效期内。4. 稳定获取数据的终极技巧避开DOM陷阱、处理异步加载、应对反爬升级4.1 不是“等元素出现”而是等“渲染完成数据注入防抖结束”Boss直聘的职位列表采用React虚拟滚动懒加载直接WebDriverWait(driver, 10).until(EC.presence_of_element_located(...))大概率失败。我观察到其真实加载流程是页面先渲染空白容器div classjob-list-boxJS发起AJAX请求获取JSON数据数据注入React状态后触发虚拟列表渲染渲染完成后执行setTimeout(() { /* 防抖上报 */ }, 300)。因此正确的等待策略是三重校验from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def wait_for_job_list(driver): # 第一层等待容器DOM存在 WebDriverWait(driver, 15).until( EC.presence_of_element_located((By.CLASS_NAME, job-list-box)) ) # 第二层等待AJAX请求完成通过监控performance API driver.execute_script( window.__xhr_done false; const originalOpen XMLHttpRequest.prototype.open; XMLHttpRequest.prototype.open function() { this.addEventListener(load, () { if (this.responseURL.includes(/api/zpgeek/search/job)) { window.__xhr_done true; } }); return originalOpen.apply(this, arguments); }; ) # 第三层等待React渲染完成且防抖结束 WebDriverWait(driver, 20).until( lambda d: d.execute_script(return window.__xhr_done true document.querySelectorAll(.job-card-wrapper).length 0;) )这段代码通过劫持XMLHttpRequest.prototype.open监听关键API请求再结合document.querySelectorAll(.job-card-wrapper).length确认DOM已渲染比单纯等元素存在可靠得多。4.2 解析数据时的两个致命陷阱动态类名与Shadow DOMBoss直聘在2023年Q4启用了CSS-in-JS技术职位卡片的class名每天变化如.css-1a2b3c4、.css-5d6e7f8。用find_element(By.CLASS_NAME, job-card-wrapper)会失效。正确做法是用XPath定位不变的结构特征//div[contains(class, job-card-wrapper)]//span[contains(text(), 薪资)]/following-sibling::span利用文本内容而非class名稳定性提升90%。处理Shadow DOM公司名称、工作地点等字段被封装在bp-shadow-root内自定义Shadow DOM。Selenium默认无法访问必须用shadow_root属性# 先找到包含shadow-root的元素 shadow_host driver.find_element(By.CSS_SELECTOR, bp-shadow-root) # 获取shadow root shadow_root shadow_host.shadow_root # 在shadow root内查找 company_name shadow_root.find_element(By.CSS_SELECTOR, .company-name).text4.3 应对反爬升级的实时响应机制当403突然增多时怎么办即使配置完美Boss直聘也会不定期升级检测规则。我建立了三重响应机制请求成功率监控每100次请求统计200/302/403状态码比例若403占比15%自动触发降频UA轮换池维护50个真实UA字符串从https://developers.whatismybrowser.com/抓取每次请求随机选取IP代理熔断当单IP连续3次403立即切换代理我用的是商业代理池非免费IP因免费IP已被Boss直聘拉黑。最有效的应急方案是当检测到403时不重试而是用Selenium重新打开首页执行driver.refresh()等待3秒后重新提取utrace和uuid再构造新URL。实测此方案可将单IP日请求上限从200提升至1200。最后分享一个血泪教训不要在循环中反复创建/销毁driver实例。我曾因每页新建driver导致服务器内存暴涨最终用driver.quit()后进程未释放引发OOM。正确做法是复用同一个driver用driver.get(url)跳转配合time.sleep(1)模拟人工间隔。5. 完整可运行代码框架从环境搭建到数据落库的闭环实现5.1 环境依赖与安装要点Python3.8专属Boss直聘爬虫对环境极其敏感以下是我的生产环境配置清单# 基础依赖必须用pip installconda会冲突 pip install selenium4.15.0 pip install pycryptodome3.19.0 # 注意不是pycrypto后者已废弃 pip install beautifulsoup44.12.2 pip install requests2.31.0 # ChromeDriver版本必须严格匹配Chrome # Ubuntu/Debian: apt install chromium-chromedriver # CentOS: yum install chromium-chromedriver # Alpine: apk add chromium-chromedriver # 验证命令chromedriver --version # 必须输出119.0.6045.105或更高关键点pycryptodome必须用3.19.0高版本如3.20的AES CBC模式默认启用PKCS7填充但Boss直聘JS用的是Pkcs7首字母小写导致填充字节不一致。我为此调试了17小时才定位到。5.2 主程序骨架模块化设计开箱即用# boss_spider.py from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time import json from urllib.parse import urlencode from boss_encrypt import BossEncrypt class BossSpider: def __init__(self, headlessTrue): self.driver None self.uuid None self.utrace None self.headless headless self.setup_driver() def setup_driver(self): options self.get_chrome_options() self.driver webdriver.Chrome(optionsoptions) # 注入JS补丁 self.inject_js_patches() def get_chrome_options(self): # 此处复用2.2节的get_chrome_options()函数 pass def inject_js_patches(self): # 此处复用2.3节的三段execute_cdp_cmd pass def login_manual(self): 手动登录入口接入打码平台时替换此方法 self.driver.get(https://www.zhipin.com) input(请手动登录登录成功后按回车继续...) self.extract_session_info() def extract_session_info(self): 提取uuid和utrace self.uuid self.driver.execute_script(return localStorage.getItem(uuid);) self.utrace self.driver.find_element(By.XPATH, //meta[nameutrace]).get_attribute(content) def build_url(self, query, city, page): 构建动态URL params { query: query, city: city, page: str(page), _l: BossEncrypt.encrypt_l_param(city), _ka: BossEncrypt.encrypt_ka_param(page), utrace: self.utrace, uuid: self.uuid } return fhttps://www.zhipin.com/web/geek/job?{urlencode(params)} def parse_job_list(self): 解析职位列表 jobs [] elements self.driver.find_elements(By.XPATH, //div[contains(class, job-card-wrapper)]) for el in elements: try: title el.find_element(By.XPATH, .//span[contains(class, job-name)]).text.strip() salary el.find_element(By.XPATH, .//span[contains(class, salary)]).text.strip() # 处理Shadow DOM中的公司名 company_host el.find_element(By.CSS_SELECTOR, bp-shadow-root) shadow_root company_host.shadow_root company shadow_root.find_element(By.CSS_SELECTOR, .company-name).text.strip() jobs.append({title: title, salary: salary, company: company}) except Exception as e: continue return jobs def run(self, querypython, city101020100, max_pages10): self.login_manual() all_jobs [] for page in range(1, max_pages 1): url self.build_url(query, city, page) print(f正在抓取第{page}页: {url}) self.driver.get(url) wait_for_job_list(self.driver) # 复用4.1节的等待函数 jobs self.parse_job_list() all_jobs.extend(jobs) print(f第{page}页抓取完成共{len(jobs)}条) time.sleep(2) # 模拟人工间隔 return all_jobs if __name__ __main__: spider BossSpider(headlessTrue) results spider.run(querypython, city101020100, max_pages5) with open(boss_jobs.json, w, encodingutf-8) as f: json.dump(results, f, ensure_asciiFalse, indent2) print(抓取完成数据已保存至boss_jobs.json)这个框架的特点所有关键模块driver配置、JS注入、URL加密、等待策略、解析逻辑均解耦为独立方法login_manual()预留了打码平台接入接口wait_for_job_list()和parse_job_list()可直接替换为你自己的业务逻辑输出JSON格式便于后续导入MySQL或Elasticsearch。5.3 生产环境部署建议Docker化与资源隔离在服务器上运行时我用Docker隔离环境Dockerfile如下FROM python:3.8-slim # 安装Chrome RUN apt-get update apt-get install -y \ chromium \ libglib2.0-0 \ libnss3 \ libgconf-2-4 \ libfontconfig1 \ rm -rf /var/lib/apt/lists/* # 复制代码 COPY . /app WORKDIR /app # 安装Python依赖 RUN pip install --no-cache-dir -r requirements.txt # 设置Chrome路径 ENV CHROMEDRIVER_PATH/usr/bin/chromedriver ENV PATH$PATH:/usr/bin CMD [python, boss_spider.py]启动命令docker build -t boss-spider . docker run -d --name boss-crawler \ --shm-size2g \ -v /path/to/data:/app/data \ boss-spider关键点--shm-size2g解决无头模式共享内存不足问题-v挂载数据卷确保JSON文件持久化。我在阿里云2核4G ECS上实测单容器可稳定并发抓取3个不同城市日均获取职位数据12,000条CPU占用率峰值45%内存稳定在1.2G以内。这套方案已上线半年零故障。我在实际使用中发现最大的风险不是技术失效而是心态失衡——总想“多抓一点”结果触发风控。现在我的原则是单IP每小时不超过180次请求每次请求间隔≥1.8秒宁可少抓也要稳。毕竟招聘数据的价值不在数量而在持续可获取的确定性。

查看全文

http://www.zskr.cn/news/1364193.html