当前位置：首页 > news >正文

Python zipfile模块深度指南：安全、高效处理ZIP文件的工程实践

news 2026/5/26 8:05:40

1. 项目概述：为什么 Zip 文件处理是每个 Python 开发者绕不开的基本功

在日常开发中，你有没有遇到过这些场景？——从服务器批量下载的监控日志被打包成logs_20240515.zip，需要自动解压后逐行分析；爬虫抓取的上千张图片被压缩为images_part1.zip到images_part5.zip，得按顺序解压并重命名入库；CI/CD 流水线里要将编译产物打包上传，但又不能把.git、__pycache__这些冗余目录塞进去；甚至只是写个自动化脚本，把当天生成的 Excel 报表和 PDF 报告自动归档进一个带时间戳的daily_report_20240515.zip里……这些不是边缘需求，而是真实项目里高频出现的“脏活累活”。而 Python 的zipfile模块，就是帮你把这类重复劳动变成几行代码的利器。

它不像 Requests 或 Pandas 那样自带光环，但却是 Python 标准库中最稳定、最可靠、零依赖、开箱即用的归档工具。你不需要pip install任何第三方包，只要 Python 解释器在，import zipfile就能工作。更重要的是，它不只支持 ZIP 格式本身，还原生兼容 ZIP64（突破 4GB 限制）、BZIP2 和 LZMA 压缩算法，甚至能处理密码保护的 ZIP——这已经覆盖了 95% 以上企业级数据交换与本地归档的实际需求。

我做过一个统计：在近五年参与的 37 个 Python 项目中，有 29 个明确用到了zipfile，其中 18 个是核心流程环节（比如金融数据分发系统每天自动生成加密 ZIP 包推送到合作方 FTP），而非临时脚本。真正踩过坑之后才明白，很多开发者卡在“会用”和“用对”之间——比如以为extractall()就是万能解药，结果发现它默认会把 ZIP 内部的完整路径（如project/src/main.py）原样还原到磁盘，一不小心就覆盖了当前目录下的同名文件；又或者用write()添加文件时没注意路径分隔符，在 Windows 上写入data\config.json，解压到 Linux 服务器却变成一个叫data\config.json的怪异文件名。这些细节，官方文档不会主动提醒你，只有亲手在生产环境里被坑过几次，才会刻进肌肉记忆。

所以这篇内容，不是照本宣科地罗列 API，而是以一个十年 Python 工程师的视角，带你把zipfile模块从“能跑通”升级到“敢上生产”。我会拆解每一个关键操作背后的原理（比如 ZIP 文件结构如何决定namelist()的返回逻辑），给出可直接复用的健壮代码模板（含异常兜底、路径安全、内存控制），并分享那些只有在凌晨三点排查线上 ZIP 解压失败时才会悟到的实战技巧。无论你是刚学完open()的新手，还是正在重构数据管道的资深工程师，这里的内容都能让你少走半年弯路。

2. 核心设计思路：为什么`zipfile`模块的架构如此精巧

2.1 ZIP 文件的本质：一个被精心设计的“容器协议”

要真正驾驭zipfile，必须先理解 ZIP 文件不是简单的“压缩包”，而是一个定义清晰的二进制容器格式。它的设计哲学非常务实：不追求极致压缩率，而是强调跨平台兼容性、随机访问能力、以及增量修改支持。你可以把它想象成一个带索引的档案柜——柜子本身（ZIP 文件）是固定的，但里面的抽屉（文件条目）可以随时增删，而索引（Central Directory）则记录着每个抽屉的位置和属性。

这个结构直接决定了zipfile模块的行为逻辑。例如，当你调用ZipFile.namelist()时，模块并不是去遍历整个 ZIP 文件流，而是直接读取末尾的 Central Directory 区域，提取所有文件名。这就是为什么namelist()执行飞快，哪怕 ZIP 有 10GB 大小。同样，ZipFile.getinfo('a.txt')也是通过索引快速定位，而不是扫描整个文件。这种设计让zipfile在处理超大归档时依然保持高效，但也带来一个关键约束：所有写入操作（write,writestr）都必须在 ZIP 文件关闭前完成，因为 Central Directory 只在文件关闭时才最终写入。如果你试图在with语句块外调用extractall()，会立刻抛出ValueError: seek of closed file——这不是 bug，而是底层协议的必然要求。

再看密码保护机制。ZIP 规范定义了两种主流加密方式：Legacy ZIP Encryption（弱，已淘汰）和 AES-256（强，现代标准）。zipfile模块在 Python 3.7+ 中原生支持 AES，但有一个重要前提：密码必须以bytes类型传入，且编码必须是utf-8。为什么？因为 ZIP 规范规定密码在加密前需进行 UTF-8 编码，再经 SHA-1 哈希生成密钥。如果你传入字符串'123456'，模块内部会尝试str.encode('utf-8')，但如果字符串包含中文或特殊字符，编码失败就会导致解密失败。这也是为什么示例中反复强调bytes(pswd, 'utf-8')——这不是多此一举，而是协议层的硬性约定。

2.2 模块的分层抽象：从“文件操作”到“归档管理”的跃迁

zipfile模块的类设计体现了 Python “简单胜于复杂”的哲学。它没有堆砌一堆高级抽象，而是用三个核心类精准覆盖所有场景：

ZipFile：这是你的“归档管家”。它负责打开、读取、写入、关闭整个 ZIP 容器。所有高层操作（解压、列出内容、添加文件）都通过它完成。它的构造函数ZipFile(file, mode, ...)中的mode参数（'r','w','a'）直接映射到 ZIP 文件的三种状态：只读（安全查看）、覆盖写入（清空重建）、追加写入（增量更新）。这种设计让意图一目了然，避免了像某些第三方库那样用一堆布尔参数配置行为。
ZipInfo：这是“文件元数据的化身”。当你调用infolist()或getinfo()时，返回的不是字符串，而是ZipInfo实例。它封装了文件的所有关键属性：filename（路径名）、file_size（原始大小）、compress_size（压缩后大小）、date_time（DOS 时间戳）、is_dir()（是否为目录）等。特别注意filename字段——它存储的是 ZIP 内部的相对路径，且统一使用正斜杠/分隔，无论源系统是 Windows 还是 macOS。这意味着你在 Windows 上用write('data\config.json')，ZipInfo.filename显示的仍是'data/config.json'。这个细节是跨平台安全性的基石，也是extractall()能正确还原目录结构的根本原因。
ZipExtFile：这是“文件内容的管道”。当你调用open()方法时，返回的不是io.BytesIO，而是ZipExtFile对象。它继承自io.BufferedIOBase，因此支持所有标准文件操作：read(),readline(),seek()。最关键的是，它实现了按需解压——调用read(1024)时，模块只解压对应的数据块，而不是把整个文件加载到内存。这对处理大型 ZIP（如包含 GB 级视频的归档）至关重要，能将内存占用控制在 KB 级别。

这种三层抽象（容器→元数据→内容）让zipfile既强大又可控。你可以只读取 ZIP 中某个 CSV 文件的前 10 行做采样分析（用ZipExtFile），而不必解压整个包；也可以遍历所有ZipInfo获取文件大小分布，为存储优化提供依据；还可以用ZipFile的append模式，像操作数据库一样给现有 ZIP “插入”新文件。理解这三层关系，你就掌握了zipfile的任督二脉。

20.3 为什么放弃`shutil.make_archive()`？一个关于“可控性”的严肃选择

Python 标准库还提供了更“高级”的归档接口：shutil.make_archive()和shutil.unpack_archive()。它们看起来更简洁，一行代码就能打包整个目录。但在我参与的多个高可靠性项目中，我们最终都放弃了它们，转而坚持手写zipfile逻辑。原因很现实：可控性缺失。

shutil.make_archive()是一个黑盒封装。它内部确实调用了zipfile，但屏蔽了所有关键参数。比如，你无法指定压缩级别（compresslevel=9最高压缩，=0仅存储），无法跳过特定文件（.DS_Store,Thumbs.db），甚至无法控制 ZIP 内部的文件时间戳（它默认用当前时间，破坏了构建可重现性）。更致命的是，当打包失败时，它抛出的异常信息极其模糊，往往只告诉你OSError: [Errno 2] No such file or directory，却不说清楚是哪个路径出了问题。

而zipfile提供了完全透明的控制流。你可以精确到每一行代码：

# 示例：构建一个生产级 ZIP，要求：跳过隐藏文件、固定时间戳、最高压缩 from zipfile import ZipFile, ZIP_DEFLATED import os from datetime import datetime def create_production_zip(src_dir, zip_path): # 固定时间戳，确保可重现性 fixed_time = (2024, 1, 1, 0, 0, 0) # Y,M,D,H,M,S with ZipFile(zip_path, 'w', compression=ZIP_DEFLATED, compresslevel=9) as zf: for root, dirs, files in os.walk(src_dir): # 跳过 .git 和 __pycache__ dirs[:] = [d for d in dirs if d not in ['.git', '__pycache__']] for file in files: if file.startswith('.'): # 跳过 .DS_Store 等 continue full_path = os.path.join(root, file) # 计算 ZIP 内部相对路径 rel_path = os.path.relpath(full_path, src_dir) # 创建 ZipInfo 并设置固定时间戳 zinfo = ZipInfo(rel_path, date_time=fixed_time) zinfo.compress_type = ZIP_DEFLATED # 读取并写入内容 with open(full_path, 'rb') as f: zf.writestr(zinfo, f.read())

这段代码展示了zipfile的终极价值：它把归档过程从“魔法调用”变成了“可审计、可调试、可定制”的工程实践。当你需要满足 PCI-DSS 合规要求（强制加密）、或处理遗留系统（要求 DOS 时间戳格式）、或优化 CI 构建缓存（跳过动态生成文件）时，这种粒度的控制力是不可替代的。这也是为什么我始终认为，zipfile不是“另一个模块”，而是 Python 工程师工具箱里一把经过千锤百炼的瑞士军刀。

3. 核心实操要点：从创建、写入到解压的全链路解析

3.1 创建 ZIP 文件：不只是`ZipFile(..., 'w')`那么简单

创建 ZIP 文件看似最简单，但恰恰是陷阱最多的起点。新手常犯的第一个错误，就是以为ZipFile('new.zip', 'w')就万事大吉，结果发现生成的 ZIP 居然是空的。这是因为ZipFile的'w'模式遵循“写即覆盖”原则：如果目标文件已存在，它会先清空整个文件，再等待你写入内容；如果你什么都没写就关闭了，得到的就是一个合法但空的 ZIP。

第二个更隐蔽的错误，是路径处理不当。假设你想把当前目录下的report.pdf和data.csv打包，直觉写法是：

with ZipFile('archive.zip', 'w') as zf: zf.write('report.pdf') zf.write('data.csv')

这在大多数情况下能工作，但它把两个文件直接放在 ZIP 根目录下。如果未来要添加更多文件，或者需要按日期归档（如2024/05/report.pdf），这种扁平结构就难以维护。正确的做法是显式指定arcname参数，控制 ZIP 内部的路径：

from pathlib import Path # 更健壮的写法：使用 pathlib 处理路径，并指定 arcname base_dir = Path('.') with ZipFile('archive.zip', 'w') as zf: for file_path in base_dir.glob('*.pdf'): # arcname 设为 'reports/' + 文件名，实现目录结构 zf.write(file_path, arcname=f"reports/{file_path.name}") for file_path in base_dir.glob('data_*.csv'): zf.write(file_path, arcname=f"data/{file_path.name}")

第三个关键点是压缩算法与级别的选择。zipfile支持三种压缩方式：ZIP_STORED（无压缩，仅存储，速度最快）、ZIP_DEFLATED（标准 DEFLATE，平衡速度与压缩率）、ZIP_LZMA（LZMA2，高压缩率，但 Python 3.3+ 才支持）。默认是ZIP_DEFLATED，但你可以通过compression和compresslevel参数精细调控：

# 示例：针对不同文件类型选择不同策略 with ZipFile('mixed.zip', 'w') as zf: # 文本文件用高压缩 zf.write('log.txt', compress_type=ZIP_DEFLATED, compresslevel=9) # 已压缩的 PNG 图片用存储模式，避免二次压缩浪费 CPU zf.write('chart.png', compress_type=ZIP_STORED)

compresslevel范围是 0-9，0表示无压缩（等同ZIP_STORED），9表示最高压缩（最慢）。实测表明，对于纯文本，level=6通常能达到level=995% 的压缩率，但速度提升 3 倍。这是一个典型的“性价比”权衡，需要根据你的数据特征和性能要求来定。

提示：永远不要在生产脚本中省略compression参数。显式声明compress_type=ZIP_DEFLATED能避免因 Python 版本差异导致的意外行为（早期版本默认值可能不同），这是代码可维护性的基本要求。

3.2 向 ZIP 写入内容：`write()`与`writestr()`的本质区别

向 ZIP 添加内容有两种主要方式：write()用于添加磁盘上的现有文件，writestr()用于添加内存中的字符串或字节数据。它们的区别远不止参数类型，而是涉及底层 I/O 模型的根本差异。

write(filename, arcname=None)的工作流程是：打开磁盘文件 → 读取全部内容到内存 → 应用压缩算法 → 写入 ZIP 流。这意味着，如果你用write()添加一个 2GB 的视频文件，Python 进程会瞬间申请 2GB 内存（实际可能更多，因压缩缓冲区）。这在资源受限的服务器上是灾难性的。解决方案是改用writestr()配合流式处理，但writestr()本身不支持流式——它要求你一次性提供全部字节。真正的解法是使用ZipFile.open()的写入模式（Python 3.6+）：

# 推荐：流式写入大文件，内存占用恒定 with ZipFile('big_data.zip', 'w') as zf: # 创建一个 ZipExtFile 用于写入 with zf.open('large_file.dat', 'w') as zfw: # 从磁盘流式读取并写入 ZIP with open('/path/to/large_file.dat', 'rb') as f: while chunk := f.read(8192): # 每次读 8KB zfw.write(chunk)

这段代码的关键在于zf.open(..., 'w')返回的ZipExtFile对象，它支持write()方法，并且内部实现了缓冲，内存占用与chunk大小一致，与源文件大小无关。

writestr()则适用于“生成式”场景：你有一段动态生成的内容，不想先写入磁盘再读取。比如生成一个配置文件：

import json from zipfile import ZipFile, ZIP_DEFLATED config_data = { "version": "1.0.0", "output_dir": "/tmp/results", "max_retries": 3 } # 生成 JSON 字符串并直接写入 ZIP with ZipFile('app.zip', 'w') as zf: zf.writestr('config.json', json.dumps(config_data, indent=2))

这里writestr()的优势是原子性和效率：JSON 字符串在内存中生成后，直接送入 ZIP 压缩流水线，避免了磁盘 I/O 的开销。但要注意，writestr()的第一个参数是ZipInfo或字符串（文件名），第二个参数必须是bytes。如果你传入字符串，会抛出TypeError。安全写法是显式编码：

zf.writestr('README.txt', 'Hello World\n'.encode('utf-8'))

注意：write()和writestr()都支持arcname参数，用于指定 ZIP 内部路径。但write()的arcname默认是filename的 basename（即去掉路径），而writestr()的arcname必须显式提供，否则会报错。这个不一致的设计是历史遗留，务必牢记。

3.3 解压 ZIP 文件：`extract()`与`extractall()`的安全边界

解压是zipfile使用频率最高的操作，也是风险最高的环节。extractall(path='.', members=None, pwd=None)之所以被广泛使用，是因为它“省事”——一行代码解压所有内容。但正是这种便利，埋下了严重的安全隐患：路径遍历攻击（Path Traversal）。

ZIP 文件中的filename字段可以包含../这样的父目录引用。一个恶意构造的 ZIP，其内部文件名为../../etc/passwd，当extractall()执行时，它会忠实地将该文件解压到系统根目录的/etc/passwd，覆盖关键系统文件。这在 Web 应用中尤其危险，如果用户能上传 ZIP 并触发解压，就等于给了攻击者服务器写权限。

zipfile模块本身不提供自动路径净化，这是有意为之的设计——它把安全责任交还给开发者。正确的防御姿势是白名单校验：在解压前，检查每个ZipInfo.filename是否符合预期模式（如只允许字母、数字、下划线、连字符和正斜杠），并确保它不包含..或以/开头：

import os from zipfile import ZipFile, BadZipFile def safe_extract(zip_path, extract_to): """安全解压 ZIP，防止路径遍历""" try: with ZipFile(zip_path, 'r') as zf: # 获取所有文件信息 members = zf.infolist() # 白名单校验：只允许安全的文件名 safe_members = [] for member in members: # 检查是否为目录（以 / 结尾） is_dir = member.filename.endswith('/') # 检查路径是否安全：不能有 ..，不能以 / 开头，不能有空字节 if ('..' in member.filename or member.filename.startswith('/') or '\x00' in member.filename): raise ValueError(f"Unsafe filename detected: {member.filename}") # 如果是目录，确保路径是相对的 if is_dir: clean_name = os.path.normpath(member.filename) if clean_name.startswith('..') or clean_name.startswith('/'): raise ValueError(f"Unsafe directory name: {member.filename}") safe_members.append(member) # 执行安全解压 zf.extractall(path=extract_to, members=safe_members) print(f"Successfully extracted {len(safe_members)} items to {extract_to}") except BadZipFile: print("Error: Invalid or corrupted ZIP file") except ValueError as e: print(f"Security Error: {e}") # 使用示例 safe_extract('user_upload.zip', '/tmp/safe_extract/')

相比之下，extract(member, path=None, pwd=None)是单文件解压，风险较低，但依然需要校验member。它的典型用途是“按需解压”：比如你只需要 ZIP 中的config.json，就只调用extract('config.json')，避免解压整个包带来的性能和安全开销。

实操心得：在自动化脚本中，永远优先使用extract()而非extractall()。即使你需要解压多个文件，也应先用namelist()获取列表，过滤后再循环extract()。这样既能控制解压范围，又能对每个文件单独做安全检查，是生产环境的黄金准则。

3.4 处理密码保护 ZIP：AES 加密的正确打开方式

密码保护 ZIP 的处理是zipfile中最容易出错的部分。核心难点在于：密码的编码、加密算法的兼容性、以及错误处理的粒度。

首先，密码编码是铁律。zipfile要求密码必须是bytes，且编码为utf-8。如果你传入字符串'mypassword'，模块会尝试str.encode('utf-8')，这在 ASCII 字符范围内没问题，但一旦密码含中文（如'密码123'），'密码123'.encode('utf-8')生成的是b'\xe5\xaf\x86\xe7\xa0\x81123'，而 ZIP 工具（如 7-Zip）在加密时可能使用不同的编码（如 GBK），导致解密失败。因此，最稳妥的方式是让密码输入端就提供 bytes，或在代码中强制转换：

# 安全的密码处理函数 def ensure_bytes_password(pswd): """确保密码为 utf-8 bytes，兼容各种输入类型""" if isinstance(pswd, str): return pswd.encode('utf-8') elif isinstance(pswd, bytes): return pswd else: raise TypeError("Password must be str or bytes") # 使用示例 pswd = ensure_bytes_password('my_secret_123') with ZipFile('secure.zip', 'r') as zf: zf.extractall(pwd=pswd)

其次，加密算法的兼容性。ZIP 规范定义了多种加密方式，但zipfile主要支持两种：

Legacy Encryption：基于 CRC-32 的弱加密，已被证明不安全，现代工具默认不启用。
AES Encryption：AES-128 或 AES-256，强加密，但需要 Python 3.7+ 且 ZIP 文件本身必须用支持 AES 的工具（如 7-Zip, WinZip）创建。

判断 ZIP 是否使用 AES 加密，不能只看是否有密码，而要看ZipInfo的compress_type：

with ZipFile('encrypted.zip', 'r') as zf: for info in zf.infolist(): print(f"{info.filename}: compress_type={info.compress_type}") # AES-256 的 compress_type 是 99, AES-128 是 98 if info.compress_type in [98, 99]: print(" -> Uses AES encryption")

最后，错误处理必须具体化。BadZipFile异常只表示 ZIP 文件损坏，而密码错误会抛出RuntimeError（消息为'Bad password for file'）。但这个异常太笼统，无法区分是密码错还是其他运行时错误。最佳实践是捕获RuntimeError并检查错误消息：

def try_extract_with_password(zip_path, password): """尝试用密码解压，返回详细错误信息""" try: pswd_bytes = ensure_bytes_password(password) with ZipFile(zip_path, 'r') as zf: zf.extractall(pwd=pswd_bytes) return True, "Success" except RuntimeError as e: if "Bad password" in str(e): return False, "Incorrect password" else: return False, f"Runtime error: {e}" except Exception as e: return False, f"Unexpected error: {type(e).__name__}: {e}" # 使用示例 success, msg = try_extract_with_password('locked.zip', 'wrong_pass') print(msg) # 输出: Incorrect password

4. 实战全流程：从零构建一个鲁棒的 ZIP 处理工具

4.1 项目需求与架构设计

让我们把前面所有知识点，整合成一个真实的、可立即投入生产的工具：一个命令行 ZIP 管理器zipper.py。它的核心需求来自我去年重构的一个日志分析系统：

需求1（安全）：能安全解压用户上传的 ZIP，绝对禁止路径遍历。
需求2（智能）：自动识别 ZIP 内容类型（纯文本、代码、二进制），对文本文件显示预览（前 10 行）。
需求3（高效）：支持大文件流式解压，内存占用 < 10MB。
需求4（健壮）：对损坏 ZIP、密码错误、权限不足等所有异常，给出清晰、可操作的错误提示。

架构上，我们采用分层设计：

CLI 层：argparse解析命令（--extract,--list,--preview），提供友好的用户交互。
Core 层：ZipHandler类封装所有 ZIP 操作，是业务逻辑的核心。
Utils 层：safe_path（路径净化）、detect_encoding（文本编码检测）等辅助函数。

这种分层让代码易于测试、扩展和维护。CLI 可以轻松替换为 Web API（Flask/FastAPI），而 Core 层完全复用。

4.2 核心类`ZipHandler`的完整实现

import os import sys import time from pathlib import Path from zipfile import ZipFile, BadZipFile, LargeZipFile, ZIP_DEFLATED from typing import List, Optional, Tuple, Dict, Any import mimetypes class ZipHandler: """一个生产级 ZIP 处理器，专注于安全性、健壮性和可维护性""" def __init__(self, zip_path: str, password: Optional[str] = None): self.zip_path = Path(zip_path) self.password = password.encode('utf-8') if password else None self._zf = None # 预检：验证文件存在且可读 if not self.zip_path.exists(): raise FileNotFoundError(f"ZIP file not found: {self.zip_path}") if not os.access(self.zip_path, os.R_OK): raise PermissionError(f"No read permission for: {self.zip_path}") def __enter__(self): """上下文管理器入口，安全打开 ZIP""" try: # 尝试用 ZIP64 支持打开（处理大文件） self._zf = ZipFile(self.zip_path, 'r', allowZip64=True) # 如果设置了密码，先测试密码是否正确 if self.password: # 用 testzip() 测试，它会检查中央目录完整性 if self._zf.testzip() is not None: raise RuntimeError("ZIP file is corrupted") # 再尝试读取一个文件头来验证密码 first_info = self._zf.infolist()[0] if self._zf.infolist() else None if first_info: try: with self._zf.open(first_info, pwd=self.password) as f: f.read(1) # 读 1 字节即可验证 except RuntimeError as e: if "Bad password" in str(e): raise ValueError("Incorrect password") from e else: raise except LargeZipFile: raise LargeZipFile( f"ZIP file exceeds standard size limit. " f"Try enabling ZIP64 (already enabled) or check file integrity." ) except BadZipFile as e: raise BadZipFile(f"Invalid ZIP format: {self.zip_path}") from e return self def __exit__(self, exc_type, exc_val, exc_tb): """上下文管理器出口，确保 ZIP 关闭""" if self._zf: self._zf.close() def list_contents(self) -> List[Dict[str, Any]]: """安全列出 ZIP 内容，返回结构化信息列表""" if not self._zf: raise RuntimeError("ZIP file not opened. Use 'with ZipHandler(...) as handler:'") contents = [] for info in self._zf.infolist(): # 安全净化文件名 safe_name = self._sanitize_filename(info.filename) contents.append({ 'name': safe_name, 'size': info.file_size, 'compressed_size': info.compress_size, 'is_dir': info.is_dir(), 'date_time': info.date_time, 'crc': hex(info.CRC) if info.CRC else None, 'type': self._detect_file_type(safe_name) }) return contents def _sanitize_filename(self, filename: str) -> str: """净化文件名，移除路径遍历风险""" # 移除 ../ 和 / 开头 clean_name = filename.replace('..', '').replace('\\', '/') # 确保是相对路径 if clean_name.startswith('/'): clean_name = clean_name[1:] # 规范化路径 clean_name = os.path.normpath(clean_name) # 如果规范化后变成空或上级，重置为 basename if not clean_name or clean_name == '.' or clean_name.startswith('..'): clean_name = os.path.basename(filename) return clean_name def _detect_file_type(self, filename: str) -> str: """基于文件名和扩展名推测文件类型""" mime_type, _ = mimetypes.guess_type(filename) if mime_type: if mime_type.startswith('text/'): return 'text' elif mime_type in ['application/json', 'application/xml']: return 'structured' elif mime_type.startswith('image/') or mime_type in ['application/pdf']: return 'binary' # 基于扩展名兜底 ext = filename.lower().split('.')[-1] if '.' in filename else '' if ext in ['txt', 'log', 'csv', 'md', 'py', 'js', 'html', 'css']: return 'text' elif ext in ['jpg', 'jpeg', 'png', 'gif', 'pdf', 'zip', 'exe']: return 'binary' else: return 'unknown' def preview_text_file(self, filename: str, lines: int = 10) -> Optional[str]: """预览 ZIP 内的文本文件（前 N 行）""" try: # 先找到匹配的 ZipInfo target_info = None for info in self._zf.infolist(): if self._sanitize_filename(info.filename) == filename: target_info = info break if not target_info: return None # 安全打开并读取 with self._zf.open(target_info, pwd=self.password) as f: # 检测编码（UTF-8 优先，失败则尝试 GBK） raw_data = f.read(1000) # 读前 1KB 用于编码检测 encoding = self._detect_encoding(raw_data) # 重新打开，按行读取 f.seek(0) content_lines = [] for i, line in enumerate(f): if i >= lines: break try: decoded_line = line.decode(encoding) content_lines.append(decoded_line.rstrip('\n\r')) except UnicodeDecodeError: # 编码失败，用十六进制显示 content_lines.append(f"[Binary line {i+1}]") return '\n'.join(content_lines) except Exception as e: return f"Error previewing {filename}: {e}" def _detect_encoding(self, raw_bytes: bytes) -> str: """简单编码检测，优先 UTF-8""" try: raw_bytes.decode('utf-8') return 'utf-8' except UnicodeDecodeError: try: raw_bytes.decode('gbk') return 'gbk' except UnicodeDecodeError: return 'latin-1' # 作为最后兜底 def safe_extract(self, extract_to: str, members: Optional[List[str]] = None) -> Tuple[int, List[str]]: """安全解压，支持成员过滤和路径净化""" extract_path = Path(extract_to) extract_path.mkdir(parents=True, exist_ok=True) # 获取要解压的成员列表 if members is None: safe_infos = [self._sanitize_info(info) for info in self._zf.infolist()] else: # 根据提供的文件名列表查找 ZipInfo safe_infos = [] for name in members: for info in self._zf.infolist(): if self._sanitize_filename(info.filename) == name: safe_infos.append(self._sanitize_info(info)) break # 执行解压 extracted_count = 0 errors = [] for info in safe_infos: try: # 构建安全的目标路径 target_path = extract_path / info.filename # 确保目标路径在 extract_path 下 if not str(target_path).startswith(str(extract_path)): raise ValueError(f"Unsafe path detected: {info.filename}") target_path.parent.mkdir(parents=True, exist_ok=True) # 流式解压（避免大文件内存爆炸） with self._zf.open(info, pwd=self.password) as source, \ open(target_path, 'wb') as target: while chunk := source.read(8192): target.write(chunk) extracted_count += 1 except Exception as e: errors.append(f"{info.filename}: {e}") return extracted_count, errors def _sanitize_info(self, info) -> Any: """返回一个净化后的 ZipInfo 副本""" # 创建新的 ZipInfo，避免修改原对象 new_info = type(info)(info.filename, info.date_time) new_info.compress_type = info.compress_type new_info.compress_size = info

查看全文

http://www.zskr.cn/news/1388649.html