当前位置：首页 > news >正文

别再头疼了！用Python-docx按顺序提取Word里的文字、表格和图片（附完整代码）

news 2026/6/11 4:42:53

Python-docx实战：精准提取Word文档中的文字、表格与图片

在日常办公自动化场景中，我们经常需要从复杂的Word文档中提取各类内容元素。无论是技术报告、商业提案还是学术论文，这些文档通常包含文字段落、数据表格和说明性图片。传统的手动复制粘贴不仅效率低下，还容易出错。本文将深入探讨如何利用Python-docx库实现文档内容的顺序提取，并提供可直接集成到生产环境中的完整解决方案。

1. 环境准备与基础概念

在开始之前，我们需要确保开发环境配置正确。Python-docx是一个专门用于处理.docx格式文件的强大库，它能够让我们以编程方式读取和修改Word文档内容。

安装依赖库非常简单：

pip install python-docx pip install pillow # 用于处理图片

理解Word文档的结构对于后续开发至关重要。一个.docx文件本质上是一个ZIP压缩包，包含多个XML文件。python-docx库将这些XML元素抽象为Python对象，主要包括：

Paragraph：代表文档中的段落
Table：代表文档中的表格
Run：段落中具有相同格式的文本片段
Image：文档中嵌入的图片

提示：在处理复杂文档时，建议先使用Document对象的paragraphs和tables属性快速查看文档结构。

2. 基础提取方法解析

我们先来看最基本的文档内容提取方式。python-docx提供了直接访问段落和表格的接口：

from docx import Document def basic_extraction(doc_path): doc = Document(doc_path) # 提取所有段落文本 for para in doc.paragraphs: print(f"段落: {para.text}") # 提取所有表格内容 for table in doc.tables: for row in table.rows: for cell in row.cells: print(f"表格单元格: {cell.text}")

这种方法虽然简单，但存在明显局限性：

无法保持文档原始顺序
无法识别图片内容
对嵌套表格处理不够灵活

3. 高级顺序提取方案

为了完整保留文档结构，我们需要深入python-docx的底层XML处理机制。下面介绍两种实用的顺序提取方案。

3.1 迭代器方案

第一种方案利用文档元素的迭代器，按照文档原始顺序遍历所有内容：

from docx.document import Document from docx.text.paragraph import Paragraph from docx.table import Table, _Cell from docx.oxml.table import CT_Tbl from docx.oxml.text.paragraph import CT_P def iter_block_items(parent): """ 按文档顺序生成段落、表格和图片 """ if isinstance(parent, Document): parent_elm = parent.element.body elif isinstance(parent, _Cell): parent_elm = parent._tc else: raise ValueError("无效的父元素类型") for child in parent_elm.iterchildren(): if isinstance(child, CT_P): paragraph = Paragraph(child, parent) if contains_image(paragraph): yield ('image', extract_image(paragraph, parent)) else: yield ('paragraph', paragraph) elif isinstance(child, CT_Tbl): yield ('table', Table(child, parent)) def contains_image(paragraph): return bool(paragraph._element.xpath('.//pic:pic')) def extract_image(paragraph, doc): blip = paragraph._element.xpath('.//a:blip/@r:embed')[0] return doc.part.related_parts[blip]

这种方案的优点是代码简洁，能够自动按顺序处理所有内容。缺点是控制粒度较粗，无法灵活处理特定场景。

3.2 手动控制方案

当需要更精细的控制时，可以采用手动迭代方案：

def manual_extraction(doc_path): doc = Document(doc_path) iterator = iter(doc.element.body) while True: try: element = next(iterator) if isinstance(element, CT_P): process_paragraph(element, doc) elif isinstance(element, CT_Tbl): process_table(element, doc) except StopIteration: break def process_paragraph(element, doc): paragraph = Paragraph(element, doc) if contains_image(paragraph): image = extract_image(paragraph, doc) print(f"发现图片: {image.filename}") else: print(f"段落内容: {paragraph.text}") def process_table(element, doc): table = Table(element, doc) for row in table.rows: for cell in row.cells: print(f"表格单元格: {cell.text}")

手动控制方案的优势在于可以灵活处理特定元素序列，适合需要条件判断的复杂场景。

4. 图片提取与处理

Word文档中的图片处理相对复杂，因为它们以二进制形式嵌入在文档中。我们需要特别注意以下几点：

图片识别：通过检查段落元素是否包含图片标记
图片提取：从文档部件中获取图片二进制数据
图片保存：将二进制数据写入文件

完整图片处理示例：

from PIL import Image import io def save_images_from_doc(doc_path, output_dir): doc = Document(doc_path) for block in iter_block_items(doc): if block[0] == 'image': image_part = block[1] image_data = image_part.blob filename = f"{output_dir}/image_{image_part.partname[-5:]}.png" # 使用PIL处理图片 img = Image.open(io.BytesIO(image_data)) img.save(filename) print(f"图片已保存: {filename}")

注意：不同版本的Word可能使用不同的图片封装格式，建议在实际应用中加入格式检测逻辑。

5. 实战应用与性能优化

将上述技术整合到实际工作流程中时，还需要考虑以下关键点：

5.1 内容分类存储

我们可以将提取的内容分类存储，便于后续处理：

def extract_to_structured_data(doc_path): doc = Document(doc_path) result = { 'paragraphs': [], 'tables': [], 'images': [] } for block in iter_block_items(doc): if block[0] == 'paragraph': result['paragraphs'].append(block[1].text) elif block[0] == 'table': table_data = [] for row in block[1].rows: row_data = [cell.text for cell in row.cells] table_data.append(row_data) result['tables'].append(table_data) elif block[0] == 'image': result['images'].append(block[1].blob) return result

5.2 性能优化技巧

处理大型文档时，可以采取以下优化措施：

惰性加载：只在需要时处理特定部分内容
并行处理：对独立部分使用多线程处理
内存管理：及时释放不再需要的大型对象

from concurrent.futures import ThreadPoolExecutor def parallel_extraction(doc_path): doc = Document(doc_path) sections = split_document_into_sections(doc) with ThreadPoolExecutor() as executor: results = list(executor.map(process_section, sections)) return merge_results(results)

6. 错误处理与边界情况

在实际应用中，我们需要处理各种异常情况：

损坏的文档结构：捕获并记录解析错误
不受支持的元素类型：跳过或特殊处理
编码问题：统一文本编码处理

健壮的错误处理实现：

def safe_extraction(doc_path): try: doc = Document(doc_path) for block in iter_block_items(doc): try: if block[0] == 'paragraph': process_paragraph_safely(block[1]) elif block[0] == 'table': process_table_safely(block[1]) elif block[0] == 'image': process_image_safely(block[1]) except Exception as e: print(f"处理元素时出错: {e}") continue except Exception as e: print(f"文档打开失败: {e}") return False return True

7. 完整解决方案示例

下面是一个可直接集成到项目中的完整实现：

import os from docx import Document from docx.document import Document as DocType from docx.oxml.table import CT_Tbl from docx.oxml.text.paragraph import CT_P from docx.parts.image import ImagePart from docx.table import _Cell, Table from docx.text.paragraph import Paragraph import hashlib class WordExtractor: def __init__(self, doc_path): self.doc = Document(doc_path) self.output = { 'metadata': { 'filename': os.path.basename(doc_path), 'elements_count': 0 }, 'content': [] } def extract_all(self): for item in self._iter_elements(): self._process_item(item) return self.output def _iter_elements(self): for child in self.doc.element.body.iterchildren(): if isinstance(child, CT_P): paragraph = Paragraph(child, self.doc) if self._has_image(paragraph): yield ('image', self._extract_image(paragraph)) else: yield ('paragraph', paragraph) elif isinstance(child, CT_Tbl): yield ('table', Table(child, self.doc)) def _has_image(self, paragraph): return bool(paragraph._element.xpath('.//pic:pic')) def _extract_image(self, paragraph): embed_id = paragraph._element.xpath('.//a:blip/@r:embed')[0] image_part = self.doc.part.related_parts[embed_id] return { 'data': image_part.blob, 'hash': hashlib.md5(image_part.blob).hexdigest(), 'format': self._detect_image_format(image_part.blob) } def _process_item(self, item): element_type, content = item if element_type == 'paragraph': self.output['content'].append({ 'type': 'text', 'content': content.text, 'style': content.style.name }) elif element_type == 'table': table_data = [] for row in content.rows: table_data.append([cell.text for cell in row.cells]) self.output['content'].append({ 'type': 'table', 'content': table_data }) elif element_type == 'image': self.output['content'].append({ 'type': 'image', 'content': content }) self.output['metadata']['elements_count'] += 1 def _detect_image_format(self, image_data): # 简化的图片格式检测 if image_data.startswith(b'\x89PNG'): return 'png' elif image_data.startswith(b'\xff\xd8'): return 'jpg' elif image_data.startswith(b'GIF'): return 'gif' return 'unknown'

这个解决方案提供了结构化输出、图片哈希处理、元素计数等实用功能，可以直接用于内容管理系统集成或数据分析流程。

查看全文

http://www.zskr.cn/news/1501724.html