Python批量合并Word文档实战教程

随着企业数字化转型的加速，办公自动化已成为提升工作效率的关键手段。Python凭借其简洁易读的语法与强大的第三方库支持，广泛应用于自动化文档处理领域，尤其在Word文档的批量操作中展现出巨大潜力。通过自动化脚本，用户可实现文档的批量读取、内容提取、合并与格式调整，大幅减少重复性人工操作。本章将简要介绍Python在办公自动化中的角色，重点解析其在.docx文档处理中的核心优势，并引出后续章节将使用

高傲的大白杨

1311人浏览 · 2025-09-14 13:23:58

高傲的大白杨 · 2025-09-14 13:23:58 发布

本文还有配套的精品资源，点击获取

简介：在办公自动化或数据处理中，Python提供了高效的文件处理能力。本文通过 python-docx 库实现批量合并多个 .docx 文档的操作。教程包含库的安装、文档读写、段落合并及批量文件处理方法，并提供完整示例代码，帮助开发者快速掌握Word文档自动化合并技巧，提升工作效率。

1. Python办公自动化概述

2. Python-docx库安装与配置

在使用 Python 进行 Word 文档自动化处理之前，必须首先完成 python-docx 库的安装与配置。本章将从库的基本功能入手，逐步引导读者了解其安装流程、开发环境的配置方法，并深入解析 .docx 文件的内部结构，帮助开发者建立对文档对象（Document）的基本认知，为后续章节的高级操作打下坚实基础。

2.1 Python-docx库简介

python-docx 是一个用于读写 .docx 格式 Word 文档的 Python 第三方库。它允许开发者以编程方式创建、修改和提取 Word 文档中的内容，包括段落、表格、图片等元素。该库非常适合用于自动化文档生成、批量报告输出、内容提取等办公自动化场景。

2.1.1 Python-docx的基本功能与应用场景

python-docx 的核心功能包括：

创建新的 .docx 文件；
读取现有 .docx 文件的内容；
添加段落、标题、列表、表格、图片等；
修改段落样式、字体、颜色等；
删除文档内容；
保存文档为新的 .docx 文件。

典型应用场景 ：

场景类型	说明
报告生成	自动生成周报、月报、财务报告等
数据整合	从数据库、Excel 等导入数据并生成文档
模板填充	基于预设模板自动填充内容
内容分析	提取文档中的关键词、统计字数等
文档转换	将其他格式（如 Markdown）转换为 Word 文档

2.1.2 与其他文档处理库的对比分析

除了 python-docx ，Python 中还有一些用于文档处理的库，如下表所示：

库名	功能	支持格式	优点	缺点
python-docx	读写 `.docx` 文件	.docx	简单易用，支持样式、表格、图片等	不支持 `.doc` （旧版 Word 格式）
python-doc	操作 `.doc` 文件	.doc	可处理旧版 Word 文档	功能有限，不支持 `.docx`
docxtpl	基于模板填充	.docx	支持变量替换、条件判断	依赖 python-docx
PyWin32	调用 Windows COM 接口操作 Word	.doc / .docx	支持复杂操作，如打印、格式设置	仅适用于 Windows 平台
Aspose.Words	商业库，功能强大	多种格式	支持所有 Word 操作，跨平台	付费，体积大

综上所述， python-docx 是处理 .docx 格式文档的理想选择，尤其适合跨平台、轻量级的文档自动化任务。

2.2 安装与环境配置

在开始使用 python-docx 之前，需要完成其安装和开发环境的配置。以下是详细的安装步骤和配置建议。

2.2.1 使用pip安装python-docx模块

python-docx 是一个标准的 Python 包，可以通过 pip 快速安装。

pip install python-docx

⚠️ 注意：在某些系统中可能需要使用 pip3 或加上 --user 参数安装到本地用户目录。

安装验证

安装完成后，可以通过以下 Python 代码测试是否安装成功：

from docx import Document
doc = Document()
doc.add_paragraph('Hello, this is a test document.')
doc.save('test.docx')

执行后，会在当前目录下生成一个名为 test.docx 的 Word 文档，并包含一段文字内容。这说明 python-docx 已成功安装并可以使用。

2.2.2 配置开发环境与版本兼容性问题

开发环境推荐

Python 版本 ：建议使用 Python 3.7 及以上版本；
操作系统 ：Windows、macOS、Linux 均支持；
IDE ：推荐使用 PyCharm、VS Code 或 Jupyter Notebook；
依赖库 ： lxml 是 python-docx 的依赖库，安装时会自动处理；
虚拟环境 ：建议使用 venv 或 conda 创建独立环境，避免依赖冲突。

常见版本兼容性问题

Python 2.x 不支持 ： python-docx 从版本 0.8 开始不再支持 Python 2；
旧版本库冲突 ：如果系统中存在多个版本的 python-docx ，建议使用 pip list 查看并清理；
权限问题 ：在 Linux 或 macOS 上安装时，若遇到权限错误，可尝试添加 --user 参数；
路径问题 ：保存文件时注意路径是否存在，避免出现 FileNotFoundError 。

2.3 初识Word文档结构

理解 .docx 文件的结构有助于更高效地操作文档内容。 .docx 是一种基于 XML 的开放文档格式（ZIP 压缩包），其内部由多个 XML 文件组成。

2.3.1 Word文档的内部组成（.docx格式解析）

.docx 文件实际上是一个 ZIP 压缩包，解压后可以看到以下主要目录和文件：

word/
├── document.xml         # 主文档内容
├── styles.xml           # 样式定义
├── fontTable.xml        # 字体信息
├── media/               # 图片资源
├── tables/              # 表格资源
└── ...
_rels/
[Content_Types].xml

document.xml ：存储文档的段落、表格等主要内容；
styles.xml ：定义所有段落、字符样式；
fontTable.xml ：记录文档中使用的字体；
media/ ：存放插入的图片资源；
_rels/ ：记录各部分之间的关系。

使用 Python 查看 `.docx` 文件结构

可以通过以下代码查看 .docx 文件的内部结构：

import zipfile

def list_docx_structure(docx_path):
    with zipfile.ZipFile(docx_path) as docx_zip:
        for file in docx_zip.namelist():
            print(file)

list_docx_structure('test.docx')

输出示例 ：

[Content_Types].xml
_rels/.rels
word/_rels/document.xml.rels
word/document.xml
word/styles.xml
word/theme/theme1.xml

2.3.2 Document对象的基本属性与操作方式

在 python-docx 中， Document 类是操作 Word 文档的核心类。它提供了创建文档、添加段落、表格、图片等功能。

创建 Document 对象的两种方式：

创建新文档 ：

from docx import Document
doc = Document()

加载现有文档 ：

doc = Document('test.docx')

Document 对象常用属性与方法：

方法/属性	描述
`add_paragraph(text, style=None)`	添加段落
`add_heading(text, level=1)`	添加标题（level 为 0~9）
`add_table(rows, cols)`	添加表格
`add_picture(image_path)`	插入图片
`paragraphs`	获取文档中所有段落对象列表
`save(path)`	保存文档到指定路径

示例代码：创建文档并添加内容

from docx import Document

doc = Document()

# 添加标题
doc.add_heading('Python-docx 使用入门', level=1)

# 添加段落
p = doc.add_paragraph('这是一个使用 python-docx 创建的文档。')
p.add_run(' 加粗文本').bold = True
p.add_run(' 斜体文本').italic = True

# 添加图片
doc.add_picture('example.jpg')

# 添加表格
table = doc.add_table(rows=2, cols=2)
cell = table.cell(0, 0)
cell.text = '表格内容'

# 保存文档
doc.save('demo.docx')

代码逐行解读：

Document() ：创建一个新的空文档对象；
add_heading() ：添加一级标题；
add_paragraph() ：添加普通段落；
add_run() ：在段落中添加文本片段，并设置样式；
add_picture() ：插入图片；
add_table() ：添加表格；
table.cell() ：访问表格单元格；
save() ：将文档保存为 demo.docx 。

2.4 开发前的准备事项

为了保证后续开发的顺利进行，需在开发前完成一些基础准备工作，包括文件路径管理、调试工具配置、日志记录等。

2.4.1 文件路径管理规范

良好的文件路径管理有助于程序的可维护性和跨平台兼容性。

示例代码：路径管理

import os

current_dir = os.getcwd()
file_name = 'output.docx'
file_path = os.path.join(current_dir, file_name)

print(f"文档将保存至：{file_path}")

2.4.2 调试工具与日志记录方法

在开发过程中，合理使用调试工具和日志记录可以显著提高问题排查效率。

调试建议：

使用 IDE 的断点调试功能（如 PyCharm、VS Code）；
使用 print() 输出关键变量；
使用 logging 模块记录日志信息。

示例代码：日志记录配置

import logging

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# 记录日志
logging.info("开始处理文档...")
try:
    doc = Document()
    logging.info("文档对象创建成功。")
except Exception as e:
    logging.error(f"创建文档失败：{e}")

日志输出示例：

2025-04-05 14:30:00,000 - INFO - 开始处理文档...
2025-04-05 14:30:00,001 - INFO - 文档对象创建成功。

通过本章的学习，读者已经掌握了 python-docx 的基本安装流程、文档结构解析方法以及开发前的准备工作。这些内容为后续章节中更复杂的文档操作（如读取、修改、合并等）奠定了坚实的基础。接下来的章节将深入讲解如何读取 .docx 文件内容，并对 Document 对象进行更细致的操作。

3. Word文档读取与Document对象操作

在掌握了 Python-docx 的基本安装与配置后，我们进入了文档操作的核心阶段：读取 .docx 文件并使用 Document 对象进行内容访问与管理。本章将围绕 Document 类展开，详细讲解如何通过 Python 打开 Word 文档、读取其中的段落、表格、图片等内容，并实现基本的遍历、筛选与修改操作。通过本章的学习，您将具备操作 Word 文档的基本能力，并为后续的合并、样式处理等高级功能打下坚实基础。

3.1 打开与读取.docx文件

在 Python 中，使用 python-docx 读取 .docx 文件非常简单，核心在于调用 Document 类。我们可以通过传入文件路径来加载文档内容，并将其存储在一个对象中以便后续操作。

3.1.1 使用Document类加载本地文件

要读取一个 Word 文档，我们需要先导入 Document 类，然后传入文件路径进行初始化。下面是一个简单的示例：

from docx import Document

# 加载本地 .docx 文件
doc = Document("example.docx")

# 输出文档中段落的数量
print(f"文档中共有 {len(doc.paragraphs)} 个段落")

代码逻辑分析：

from docx import Document ：从 python-docx 模块中导入 Document 类。
doc = Document("example.docx") ：通过传入文件路径 "example.docx" 创建一个 Document 对象。该对象将包含整个文档的结构和内容。
doc.paragraphs ：这是一个列表，包含了文档中所有的段落对象。
len(doc.paragraphs) ：获取段落数量。

参数说明 ：
- "example.docx" ：需替换为实际存在的 .docx 文件路径，若文件不在当前工作目录中，需提供完整路径。

拓展思考：

如果你不确定文件路径是否正确，可以使用 os.path.exists() 方法进行判断。
若文件路径错误， Document() 会抛出 FileNotFoundError 异常，建议在生产代码中加入异常处理逻辑。

3.1.2 多文档并行读取的实现方式

在实际办公场景中，我们常常需要同时处理多个 Word 文档，例如合并多个报告、提取多个简历信息等。这时，我们可以使用循环结构，批量加载多个文档。

import os
from docx import Document

# 假设所有文档存放在 "reports" 文件夹中
folder_path = "reports"
doc_files = [f for f in os.listdir(folder_path) if f.endswith(".docx")]

# 创建一个文档对象列表
documents = []
for file in doc_files:
    file_path = os.path.join(folder_path, file)
    try:
        doc = Document(file_path)
        documents.append(doc)
        print(f"成功加载文档: {file}")
    except Exception as e:
        print(f"加载文档失败: {file}，错误信息: {e}")

代码逻辑分析：

os.listdir(folder_path) ：列出指定目录下的所有文件。
f.endswith(".docx") ：筛选出 .docx 文件。
os.path.join(folder_path, file) ：拼接完整文件路径。
Document(file_path) ：加载文档。
documents.append(doc) ：将加载成功的文档对象加入列表。
try-except ：用于捕获加载过程中可能发生的异常。

参数说明 ：
- folder_path ：文档所在目录路径，需确保该路径存在。
- doc_files ：包含所有 .docx 文件名的列表。

实际应用场景：

可用于批量提取多个文档的标题、作者、段落内容等信息。
在合并多个文档前，可以先进行内容预览或内容筛选。

3.2 Document对象的核心操作

Document 对象是 python-docx 中的核心结构，它不仅包含了文档的段落、表格、图片等信息，还提供了丰富的操作方法。本节将详细介绍如何获取段落内容、提取图片和表格。

3.2.1 获取段落内容与文本结构

每个 Document 对象都有一个 paragraphs 属性，它是一个包含所有段落的列表。每个段落是一个 Paragraph 对象，可以通过 .text 属性获取其文本内容。

from docx import Document

doc = Document("example.docx")

# 遍历所有段落并输出文本
for i, para in enumerate(doc.paragraphs):
    print(f"段落 {i + 1}: {para.text}")

代码逻辑分析：

enumerate(doc.paragraphs) ：用于同时获取段落索引和段落对象。
para.text ：获取段落中的文本内容。
i + 1 ：从1开始编号段落。

参数说明 ：
- para.style ：可获取段落样式（如“标题1”、“正文”等）。
- para.alignment ：可获取段落对齐方式（左对齐、居中、右对齐等）。

拓展功能：

可用于提取特定样式的段落，如标题、正文、列表项等。
可结合正则表达式提取段落中的关键信息。

3.2.2 图片、表格等元素的提取方法

除了文本内容，Word 文档中还常常包含图片和表格。虽然 python-docx 不支持直接访问图片和表格的二进制数据，但我们可以通过遍历文档元素来提取它们的位置和结构信息。

提取表格内容

from docx import Document

doc = Document("example.docx")

# 遍历所有表格
for table_index, table in enumerate(doc.tables):
    print(f"表格 {table_index + 1}:")
    # 遍历每一行
    for row_index, row in enumerate(table.rows):
        # 获取每一行的单元格内容
        row_data = [cell.text for cell in row.cells]
        print(f"  第 {row_index + 1} 行: {row_data}")

代码逻辑分析：

doc.tables ：获取文档中的所有表格对象。
table.rows ：表格的每一行。
row.cells ：行中的每一个单元格。
cell.text ：单元格中的文本内容。

参数说明 ：
- table.style ：表格样式名称。
- len(table.columns) ：获取表格列数。

提取图片信息

虽然 python-docx 无法直接读取图片内容，但我们可以获取图片的占位信息和嵌入位置。

from docx import Document

doc = Document("example.docx")

# 遍历所有段落
for para in doc.paragraphs:
    if para.runs:
        for run in para.runs:
            if run.element.xpath('.//w:drawing'):
                print("发现图片插入位置")

代码逻辑分析：

para.runs ：段落中的运行对象（Run），用于管理文本样式和嵌入元素。
run.element.xpath('.//w:drawing') ：使用 XPath 查询是否包含图片元素。

参数说明 ：
- 此方法仅用于检测图片是否存在，若需提取图片内容，需深入解析 .docx 文件的 XML 结构。

3.3 文档内容的遍历与筛选

在处理文档内容时，往往需要对段落、表格等元素进行遍历和条件筛选。例如：提取所有标题段落、过滤掉空段落、查找特定关键词等。

3.3.1 遍历段落与样式分析

通过段落的 style.name 属性，我们可以获取其应用的样式名称。这在提取标题、正文、列表项等内容时非常有用。

from docx import Document

doc = Document("example.docx")

# 遍历段落并输出样式名称
for para in doc.paragraphs:
    print(f"段落内容: {para.text[:30]}..., 样式: {para.style.name}")

代码逻辑分析：

para.style.name ：获取段落应用的样式名称，如“正文”、“标题 1”、“列表项目”等。
para.text[:30] ：截取前30个字符用于展示，避免输出过长。

参数说明 ：
- 样式名称与 Word 中设置的样式一致，支持自定义样式。

应用场景：

提取所有“标题 1”段落，构建文档目录。
提取所有“列表项目”段落，生成结构化数据。

3.3.2 基于条件的内容过滤与处理逻辑

我们可以使用条件语句来筛选特定段落，例如包含关键字的段落、空段落、特定样式段落等。

from docx import Document

doc = Document("example.docx")

# 筛选包含关键字的段落
keyword = "项目"
filtered_paragraphs = [para for para in doc.paragraphs if keyword in para.text]

print(f"包含关键字 '{keyword}' 的段落有 {len(filtered_paragraphs)} 个:")
for i, para in enumerate(filtered_paragraphs):
    print(f"  {i + 1}. {para.text[:50]}...")

代码逻辑分析：

if keyword in para.text ：判断段落是否包含指定关键字。
列表推导式用于构建符合条件的段落列表。

参数说明 ：
- 可结合正则表达式实现更复杂的匹配逻辑。

3.4 文档对象的修改与保存

在实际应用中，我们不仅需要读取文档内容，还需要对其进行修改并保存为新文件。 python-docx 提供了丰富的 API 来实现段落的添加、删除、样式修改等操作。

3.4.1 添加与删除段落内容

我们可以通过 add_paragraph() 方法添加新段落，也可以通过 clear() 方法清空段落内容。

from docx import Document

doc = Document("example.docx")

# 添加新段落
new_para = doc.add_paragraph("这是新增的一段内容。")

# 删除第一个段落
first_paragraph = doc.paragraphs[0]
first_paragraph.clear()

# 保存为新文件
doc.save("modified_example.docx")

代码逻辑分析：

doc.add_paragraph() ：在文档末尾添加一个新段落。
first_paragraph.clear() ：清空段落内容，保留段落结构。
doc.save() ：保存修改后的文档。

参数说明 ：
- new_para.style ：可设置新段落的样式。
- doc.add_paragraph("内容", style="标题 1") ：添加指定样式的段落。

3.4.2 修改样式并保存为新文件

除了内容修改，我们还可以修改段落样式并保存为新文件。

from docx import Document

doc = Document("example.docx")

# 修改第一个段落的样式
first_paragraph = doc.paragraphs[0]
first_paragraph.style = "标题 1"

# 保存为新文件
doc.save("styled_example.docx")

代码逻辑分析：

first_paragraph.style = "标题 1" ：将段落样式修改为“标题 1”。
保存为 styled_example.docx 文件，原文件不变。

样式修改的进阶应用：

批量修改某类段落样式（如所有“正文”段落改为“引用”）。
自定义样式名称，实现更灵活的文档排版。

流程图：文档读取与操作流程

graph TD
    A[开始] --> B[导入 python-docx 模块]
    B --> C[加载 .docx 文件为 Document 对象]
    C --> D[遍历段落获取文本]
    D --> E[提取图片与表格信息]
    E --> F[根据条件筛选内容]
    F --> G[修改段落内容或样式]
    G --> H[保存为新文件]
    H --> I[结束]

表格：Document对象常用属性与方法

属性/方法	描述
`paragraphs`	获取文档中所有段落列表
`tables`	获取文档中所有表格对象列表
`add_paragraph()`	添加新段落
`save()`	保存文档
`style.name`	获取段落样式名称
`clear()`	清空段落内容

通过本章的学习，我们掌握了使用 python-docx 加载 Word 文档、读取内容、提取元素、筛选内容以及修改文档的基本技能。这些知识将为后续章节中的文档合并、样式处理等高级操作提供坚实的基础。

4. 段落提取与合并逻辑实现

在处理多个 Word 文档时，常常需要将文档中的段落内容提取出来，并按照一定的逻辑进行合并。段落作为 Word 文档的基本内容单元，其结构清晰、易于操作，是自动化处理中的关键对象。本章将深入探讨段落的提取策略、内容合并的逻辑设计、样式与格式的保留技术，以及如何将整个合并流程模块化和自动化。通过本章内容，读者将掌握如何高效、准确地实现多个 Word 文档的段落合并任务。

4.1 段落提取策略

在进行文档合并之前，首要任务是从各个 Word 文件中提取出所需的段落内容。这一过程不仅涉及到如何选择特定段落，还需考虑段落的顺序和层级结构。

4.1.1 提取特定段落与全文段落的差异处理

提取段落的方式可以分为两种： 提取全文段落 和 提取符合条件的特定段落 。

提取全文段落 ：适用于需要合并整个文档内容的场景。此时只需遍历 .docx 文件中的所有段落即可。

from docx import Document

def extract_all_paragraphs(doc_path):
    doc = Document(doc_path)
    return [para.text for para in doc.paragraphs]

提取特定段落 ：适用于根据关键词、样式或格式筛选段落的场景。例如，提取包含“摘要”字样的段落：

def extract_keyword_paragraphs(doc_path, keyword):
    doc = Document(doc_path)
    return [para.text for para in doc.paragraphs if keyword in para.text]

提取方式	适用场景	优点	缺点
全文段落提取	需要合并整个文档内容	简单高效	信息冗余，难以过滤无用内容
特定段落提取	按条件筛选所需内容	精准提取目标信息	需定义筛选条件，增加复杂度

逻辑分析 ：

第一个函数 extract_all_paragraphs 使用列表推导式遍历 doc.paragraphs ，提取所有段落的文本内容。
第二个函数 extract_keyword_paragraphs 在此基础上增加了筛选条件，通过 if keyword in para.text 实现关键词匹配。

参数说明 ：

doc_path ：Word 文档的文件路径。
keyword ：用于筛选段落的关键字。

4.1.2 段落顺序与层级结构的保持机制

在提取段落时，除了内容本身，段落的顺序和 层级结构 （如标题、正文、子标题）也必须保留，以确保最终合并文档的可读性和逻辑性。

Python-docx 提供了段落对象的 style.name 属性，可以用于判断段落的层级结构。例如：

def extract_paragraphs_with_level(doc_path):
    doc = Document(doc_path)
    result = []
    for para in doc.paragraphs:
        level = para.style.name
        result.append({
            'text': para.text,
            'level': level
        })
    return result

此函数将段落文本与其样式名称一起返回，便于后续合并时识别层级。

graph TD
    A[打开Word文档] --> B[读取段落]
    B --> C{是否有样式信息？}
    C -->|有| D[记录样式名称]
    C -->|无| E[默认为正文样式]
    D --> F[添加至结果列表]
    E --> F

4.2 内容合并逻辑设计

在完成段落提取之后，下一步是将这些段落按照一定的逻辑进行合并。合并过程不仅要考虑文本内容的拼接方式，还需处理图片、表格等非文本内容。

4.2.1 段落内容的拼接方式

最简单的合并方式是将多个文档的段落依次拼接在一起。例如：

def merge_paragraphs_from_docs(doc_paths):
    merged_text = []
    for path in doc_paths:
        paras = extract_all_paragraphs(path)
        merged_text.extend(paras)
    return '\n'.join(merged_text)

该函数将多个文档的所有段落拼接成一个字符串，并以换行符分隔。

逻辑分析 ：

使用 extract_all_paragraphs 提取每个文档的段落。
使用 extend 将段落列表合并到 merged_text 。
最后使用 join 将段落连接成一个完整的字符串。

参数说明 ：

doc_paths ：多个 Word 文档的文件路径列表。

4.2.2 图片、表格等非文本内容的合并规则

在实际应用中，文档中通常包含图片和表格等非文本元素。Python-docx 提供了对这些元素的操作能力。例如，合并图片的逻辑如下：

def copy_images(source_doc, target_doc):
    for rel in source_doc.part._rels.values():
        if "image" in rel.target_ref:
            part = rel.target_part
            image = part.image
            target_doc.add_picture(part.blob)

此函数将一个文档中的图片复制到另一个文档中。

对于表格的合并，需遍历源文档中的表格并将其插入到目标文档中：

def copy_tables(source_doc, target_doc):
    for table in source_doc.tables:
        new_table = target_doc.add_table(rows=table.rows.count, cols=table.columns.count)
        for i, row in enumerate(table.rows):
            for j, cell in enumerate(row.cells):
                new_table.cell(i, j).text = cell.text

合并逻辑流程图 ：

graph TD
    A[合并开始] --> B[读取所有文档]
    B --> C[提取段落、图片、表格]
    C --> D{是否保留格式？}
    D -->|是| E[复制样式、图片、表格]
    D -->|否| F[仅合并文本]
    E --> G[将内容插入目标文档]
    F --> G
    G --> H[保存合并后文档]

4.3 样式与格式的保留技术

在合并文档时，如果忽略了样式和格式的继承，最终文档可能会显得杂乱无章。因此，保留原有格式是合并过程中不可忽视的一环。

4.3.1 字体、颜色、段落格式的继承机制

Python-docx 提供了对段落样式的继承机制。例如，可以将源段落的字体样式复制到目标段落中：

def copy_paragraph_format(source_para, target_para):
    target_para.style = source_para.style
    for run in source_para.runs:
        new_run = target_para.add_run(run.text)
        new_run.bold = run.bold
        new_run.italic = run.italic
        new_run.underline = run.underline
        new_run.font.color.rgb = run.font.color.rgb

该函数复制了段落的样式以及每个 run 的字体属性。

4.3.2 样式冲突与优先级处理方案

在合并多个文档时，不同文档的样式名称可能重复，但格式不同。例如，两个文档都有名为“Heading 1”的样式，但字体大小不一致。此时需要定义 样式优先级 ，例如：

优先使用第一个文档的样式定义。
或者在合并时统一使用目标文档的样式。

def resolve_style_conflict(target_doc, source_style):
    if source_style.name in [style.name for style in target_doc.styles]:
        return target_doc.styles[source_style.name]
    else:
        return source_style

此函数用于在样式冲突时选择合适的样式对象。

样式继承与冲突处理流程图 ：

graph TD
    A[开始复制段落样式] --> B[获取源段落样式]
    B --> C[检查目标文档是否存在同名样式]
    C -->|存在| D[使用目标样式]
    C -->|不存在| E[使用源样式]
    D --> F[复制段落格式]
    E --> F

4.4 合并流程的自动化设计

为了提高处理效率，段落提取与合并流程应尽可能实现模块化和自动化，便于扩展和维护。

4.4.1 基于函数的模块化处理

将段落提取、样式处理、内容合并等操作封装为独立函数，有助于代码复用和逻辑清晰。

class DocxMerger:
    def __init__(self):
        self.target_doc = Document()

    def add_document(self, doc_path):
        source_doc = Document(doc_path)
        for para in source_doc.paragraphs:
            new_para = self.target_doc.add_paragraph()
            copy_paragraph_format(para, new_para)
        copy_images(source_doc, self.target_doc)
        copy_tables(source_doc, self.target_doc)

    def save(self, output_path):
        self.target_doc.save(output_path)

逻辑分析 ：

DocxMerger 类封装了整个合并逻辑。
add_document 方法用于添加一个 Word 文档，并复制其段落、图片和表格。
save 方法用于保存最终的合并文档。

4.4.2 合并逻辑的可扩展性设计

为增强合并功能的可扩展性，可以引入插件机制，允许用户自定义合并规则。例如，通过回调函数支持用户自定义段落筛选或样式处理逻辑：

def merge_with_callback(doc_paths, output_path, paragraph_filter=None, style_resolver=None):
    merger = Document()
    for path in doc_paths:
        doc = Document(path)
        for para in doc.paragraphs:
            if paragraph_filter is None or paragraph_filter(para):
                new_para = merger.add_paragraph()
                if style_resolver:
                    resolved_style = style_resolver(para.style, merger)
                    new_para.style = resolved_style
                else:
                    new_para.style = para.style
    merger.save(output_path)

此函数允许传入 paragraph_filter 和 style_resolver 回调，实现灵活扩展。

扩展性设计流程图 ：

graph TD
    A[初始化合并器] --> B[加载文档]
    B --> C[应用段落过滤器]
    C --> D[应用样式解析器]
    D --> E[将段落添加至目标文档]
    E --> F{是否还有更多文档？}
    F -->|是| B
    F -->|否| G[保存合并文档]

通过上述模块化和可扩展设计，可以灵活应对不同业务场景下的文档合并需求，提高代码的复用性和可维护性。

5. 批量合并多个.docx文件

5.1 动态文件路径获取

5.1.1 使用glob库匹配多个.docx文件

在进行批量合并操作前，第一步是动态获取目标目录下的所有 .docx 文件。Python 提供了 glob 模块，可以方便地进行文件路径的匹配与筛选。

import glob

# 获取当前目录下所有 .docx 文件
docx_files = glob.glob("*.docx")
print(docx_files)

glob.glob() 函数会返回所有匹配的路径名列表。
"*.docx" 表示匹配当前目录下所有扩展名为 .docx 的文件。

执行逻辑说明：
1. 导入 glob 模块。
2. 使用 glob.glob() 匹配 .docx 文件。
3. 输出匹配到的文件列表。

5.1.2 路径规范化与文件排序策略

获取到文件列表后，可能需要对其进行排序以确保合并顺序合理。此外，路径的规范化处理也尤为重要，尤其是在跨平台环境下。

import os

# 对文件列表进行排序
docx_files.sort()

# 规范化路径（兼容 Windows 和 Linux）
normalized_paths = [os.path.normpath(path) for path in docx_files]
print(normalized_paths)

os.path.normpath() 可以将路径格式统一，避免因路径斜杠方向不同导致的问题。
.sort() 方法默认按字符串排序，也可以使用自定义排序逻辑。

5.2 批量合并的实现流程

5.2.1 多文档循环读取与内容整合

使用 python-docx 模块读取多个 .docx 文件，并将内容逐个复制到一个新的 Document 对象中。

from docx import Document

# 创建一个新的空白文档
merged_document = Document()

# 循环读取并合并内容
for file in normalized_paths:
    sub_doc = Document(file)
    # 遍历段落并添加到合并文档
    for para in sub_doc.paragraphs:
        merged_document.add_paragraph(para.text)

# 保存合并后的文档
merged_document.save("merged_output.docx")

Document(file) ：打开一个子文档。
merged_document.add_paragraph(para.text) ：将子文档的段落逐个添加到合并文档中。

5.2.2 合并过程中的性能优化方法

当合并大量文档时，性能问题不可忽视。可以通过以下方式优化：

减少内存占用 ：每次处理完一个文档后，及时释放其资源。
避免重复样式复制 ：可以缓存样式对象，避免重复添加。
使用生成器读取内容 ：适用于超大文档。

def read_paragraphs(file_path):
    doc = Document(file_path)
    for para in doc.paragraphs:
        yield para.text

# 使用生成器方式读取
for file in normalized_paths:
    for para_text in read_paragraphs(file):
        merged_document.add_paragraph(para_text)

5.3 合并后文档的保存与输出

5.3.1 保存为新文件的路径与命名规则

为了方便管理和追溯，合并后的文档应有明确的命名规则，如按时间戳命名：

import datetime

# 生成时间戳命名
timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
output_file = f"merged_output_{timestamp}.docx"

# 保存文档
merged_document.save(output_file)
print(f"文档已保存至：{output_file}")

strftime("%Y%m%d_%H%M%S") ：生成形如 20250405_143000 的时间戳。
output_file ：最终保存的文件名。

5.3.2 输出文档的完整性校验机制

为确保合并文档内容完整，可以添加简单的校验逻辑，如段落数比对：

total_paragraphs = sum(len(Document(f).paragraphs) for f in normalized_paths)
merged_paragraphs = len(merged_document.paragraphs)

if total_paragraphs == merged_paragraphs:
    print("✅ 合并成功，段落数量一致。")
else:
    print("⚠️ 警告：段落数量不一致，请检查内容完整性。")

5.4 错误处理与程序健壮性优化

5.4.1 常见异常类型与处理方式

在实际运行中，可能遇到文件读取失败、路径错误等问题。因此，应加入异常捕获机制：

for file in normalized_paths:
    try:
        sub_doc = Document(file)
        for para in sub_doc.paragraphs:
            merged_document.add_paragraph(para.text)
    except Exception as e:
        print(f"❌ 读取文件失败：{file}，错误信息：{e}")

try-except 结构可以捕获运行时错误，防止程序崩溃。
可记录错误日志以供后续分析。

5.4.2 日志记录与程序恢复机制

可以使用 logging 模块记录详细日志，便于后续排查问题：

import logging

# 配置日志
logging.basicConfig(filename='merge_log.log', level=logging.INFO)

for file in normalized_paths:
    try:
        logging.info(f"开始处理文件：{file}")
        sub_doc = Document(file)
        for para in sub_doc.paragraphs:
            merged_document.add_paragraph(para.text)
        logging.info(f"成功处理文件：{file}")
    except Exception as e:
        logging.error(f"处理文件失败：{file}，错误信息：{e}")

5.5 全面合并方案的应用与拓展

5.5.1 支持图片、表格等内容的完整合并

当前的合并逻辑仅支持段落文本。如需支持图片、表格等元素，可以扩展代码如下：

def copy_element(source, target):
    if hasattr(source, 'text'):
        target.add_paragraph(source.text)
    elif hasattr(source, 'tables'):
        for table in source.tables:
            new_table = target.add_table(rows=len(table.rows), cols=len(table.columns))
            for i, row in enumerate(table.rows):
                for j, cell in enumerate(row.cells):
                    new_table.cell(i, j).text = cell.text
    elif hasattr(source, 'inline_shapes'):
        # 图片处理（需要更复杂的处理逻辑）
        pass

for file in normalized_paths:
    sub_doc = Document(file)
    for element in sub_doc.element.body:
        copy_element(element, merged_document)

通过 hasattr() 判断元素类型。
依次复制段落、表格等结构。

5.5.2 跨平台与多语言支持的实现思路

跨平台兼容 ：使用 os.path 模块进行路径处理，避免硬编码。
多语言支持 ：确保文档编码格式为 UTF-8，并在保存时指定兼容字体。

# 设置默认字体（中文兼容）
from docx.shared import Pt
from docx.oxml.ns import qn
from docx.shared import RGBColor

style = merged_document.styles['Normal']
font = style.font
font.name = '微软雅黑'
font._element.rPr.rFonts.set(qn('w:eastAsia'), '微软雅黑')
font.size = Pt(12)
font.color.rgb = RGBColor(0x00, 0x00, 0x00)

上述代码设置中文字体为“微软雅黑”，增强文档的可读性与美观性。

本章内容展示了如何通过 Python 实现多个 .docx 文件的批量合并操作，从路径获取、内容整合、样式处理到异常控制，构建了一个完整的自动化处理流程。

本文还有配套的精品资源，点击获取

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

OpenClaw 完整安装教程（2026最新版，全平台通用）

CSDN-OPC开发者社区

openclaw新手入门指南：一文看懂环境搭建、模型配置与 WebUI 远程访问

CSDN-OPC开发者社区

国产GLM-5开源模型炸裂发布！编程能力超越Gemini逼近Claude！

CSDN-OPC开发者社区

所有评论(0)

查看更多评论

高傲的大白杨

@weixin_42509507

已为社区贡献5条内容

Python批量合并Word文档实战教程

高傲的大白杨

1. Python办公自动化概述

2. Python-docx库安装与配置

2.1 Python-docx库简介

2.1.1 Python-docx的基本功能与应用场景

2.1.2 与其他文档处理库的对比分析

2.2 安装与环境配置

2.2.1 使用pip安装python-docx模块

安装验证

2.2.2 配置开发环境与版本兼容性问题

开发环境推荐

常见版本兼容性问题

2.3 初识Word文档结构

2.3.1 Word文档的内部组成（.docx格式解析）

使用 Python 查看 .docx 文件结构

2.3.2 Document对象的基本属性与操作方式

创建 Document 对象的两种方式：

Document 对象常用属性与方法：

示例代码：创建文档并添加内容

代码逐行解读：

2.4 开发前的准备事项

2.4.1 文件路径管理规范

推荐做法：

示例代码：路径管理

2.4.2 调试工具与日志记录方法

调试建议：

示例代码：日志记录配置

日志输出示例：

3. Word文档读取与Document对象操作

3.1 打开与读取.docx文件

3.1.1 使用Document类加载本地文件

代码逻辑分析：

拓展思考：

3.1.2 多文档并行读取的实现方式

代码逻辑分析：

实际应用场景：

3.2 Document对象的核心操作

3.2.1 获取段落内容与文本结构

代码逻辑分析：

拓展功能：

3.2.2 图片、表格等元素的提取方法

提取表格内容

代码逻辑分析：

提取图片信息

代码逻辑分析：

3.3 文档内容的遍历与筛选

3.3.1 遍历段落与样式分析

代码逻辑分析：

应用场景：

3.3.2 基于条件的内容过滤与处理逻辑

代码逻辑分析：

3.4 文档对象的修改与保存

3.4.1 添加与删除段落内容

代码逻辑分析：

3.4.2 修改样式并保存为新文件

代码逻辑分析：

样式修改的进阶应用：

4. 段落提取与合并逻辑实现

4.1 段落提取策略

4.1.1 提取特定段落与全文段落的差异处理

4.1.2 段落顺序与层级结构的保持机制

4.2 内容合并逻辑设计

4.2.1 段落内容的拼接方式

4.2.2 图片、表格等非文本内容的合并规则

4.3 样式与格式的保留技术

4.3.1 字体、颜色、段落格式的继承机制

4.3.2 样式冲突与优先级处理方案

4.4 合并流程的自动化设计

4.4.1 基于函数的模块化处理

4.4.2 合并逻辑的可扩展性设计

5. 批量合并多个.docx文件

5.1 动态文件路径获取

5.1.1 使用glob库匹配多个.docx文件

5.1.2 路径规范化与文件排序策略

5.2 批量合并的实现流程

5.2.1 多文档循环读取与内容整合

5.2.2 合并过程中的性能优化方法

5.3 合并后文档的保存与输出

5.3.1 保存为新文件的路径与命名规则

使用 Python 查看 `.docx` 文件结构