Qwen2.5-VL多模态推理教程：Ollama中结合OCR+LLM做双模态校验

大叔and小萝莉

348人浏览 · 2026-03-13 01:57:46

大叔and小萝莉 · 2026-03-13 01:57:46 发布

Qwen2.5-VL多模态推理教程：Ollama中结合OCR+LLM做双模态校验

想象一下，你拿到一张复杂的发票或者一份布满数据的表格，需要快速提取里面的关键信息。传统方法要么手动录入，要么依赖单一的OCR工具，但遇到模糊、倾斜或者格式复杂的文档时，准确率就大打折扣了。

今天，我们就来解决这个问题。我将带你使用Ollama部署的Qwen2.5-VL-7B-Instruct模型，搭建一个“OCR+LLM”双模态校验系统。这个系统不仅能“看”懂图片里的文字，还能像人一样“理解”内容，进行逻辑校验和结构化输出，让信息提取又快又准。

1. 为什么需要双模态校验？

在介绍具体操作之前，我们先搞清楚一个核心问题：为什么有了OCR，还要结合LLM？

传统OCR的局限性：

只认字，不理解：OCR（光学字符识别）就像一个识字机器，它能识别出“2024-03-15”是一串字符，但它不知道这是日期。
格式依赖性强：表格稍微变形、发票印章盖住了部分文字，OCR的识别框就可能错位，导致数据提取混乱。
无法逻辑校验：一张发票上，总金额应该等于单价乘以数量。传统OCR无法发现“数量2，单价100，总金额250”这种明显的计算错误。

Qwen2.5-VL带来的变革： Qwen2.5-VL是一个视觉-语言多模态大模型。它不仅能识别图像中的物体和文字，更能理解图像的内容、上下文和逻辑关系。把它和OCR结合，相当于给识字机器配了一个“大脑”。

双模态校验工作流：

第一模态（视觉感知）：模型直接“看”图，理解整体布局、识别文字区域、图表元素等。
第二模态（语言理解与推理）：模型基于看到的视觉信息，结合你的问题（如“提取发票信息”），进行逻辑推理、信息关联和结构化输出。

这个组合拳，让机器处理文档的智能程度上了一个大台阶。

2. 环境准备与模型部署

我们的战场是Ollama，一个极其方便的本地大模型运行工具。跟着步骤走，十分钟就能搭好环境。

2.1 安装与启动Ollama

如果你还没安装Ollama，访问其官网下载对应操作系统的安装包，安装过程就像装普通软件一样简单。安装完成后，打开终端（或命令提示符）输入以下命令启动服务：

ollama serve

服务启动后，默认会在 http://localhost:11434 提供API服务。更常用的方式是使用Ollama提供的Web UI。

2.2 拉取并运行Qwen2.5-VL模型

Ollama的模型库已经收录了Qwen2.5-VL。在终端中执行一条命令即可完成拉取和运行：

ollama run qwen2.5-vl:7b

第一次运行会下载约7B参数的模型文件，需要一些时间，请耐心等待。下载完成后，会自动进入一个交互式对话界面。不过，为了更直观地操作，我们使用Web界面。

2.3 通过Web UI访问模型

在浏览器中打开Ollama的Web UI（通常安装后会自动打开，或访问 http://localhost:11434）。
在页面顶部的模型选择下拉框中，找到并选择 qwen2.5-vl:7b。
选择模型后，页面下方会出现对话输入框。到这里，你的多模态AI助手就已经准备就绪了。

现在，你可以直接上传图片并向它提问了。但我们的目标不止于此，我们要构建一个自动化的校验流程。

3. 实战：构建OCR+LLM双模态校验系统

理论说再多，不如动手做一遍。我们以“发票信息提取与校验”为例，展示完整流程。

3.1 准备测试图片

首先，你需要一张包含文字的图片。可以是你自己拍的发票、表格截图，或者从网上下载的样本。为了演示，我们假设有一张简单的购物清单截图，内容如下：

购物清单
商品    单价(元)  数量  小计
苹果    10.00     2     20.00
香蕉    5.50      3     16.50
橙子    8.00      1     8.00
总计：44.50元

（请将这段文字制作成一张图片，或使用任何包含表格数据的图片）

3.2 第一模态：基础OCR信息提取

虽然Qwen2.5-VL自身具备强大的文字识别能力，但为了演示“双模态”协作，我们先使用一个轻量级OCR工具（如pytesseract或easyocr）进行第一次文本提取。这代表了传统OCR流程。

安装依赖：

pip install Pillow pytesseract
# 或者使用EasyOCR
# pip install easyocr

Python OCR脚本示例：

from PIL import Image
import pytesseract
import json

# 指定Tesseract路径（如果在Windows上且未添加到环境变量）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

def ocr_extract(image_path):
    """使用OCR提取图片中的文本"""
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang='chi_sim+eng') # 中英文识别
    print("=== OCR原始提取结果 ===")
    print(text)
    return text

if __name__ == "__main__":
    raw_text = ocr_extract("your_invoice_image.jpg")
    # 将原始文本保存下来，供后续对比
    with open("ocr_raw_output.txt", "w", encoding="utf-8") as f:
        f.write(raw_text)

运行这个脚本，你会得到OCR识别出的原始文本。它可能很乱，包含换行错位、识别错误的字符等。

3.3 第二模态：调用Qwen2.5-VL进行理解与校验

接下来，我们请出“大脑”——Qwen2.5-VL。我们将做两件事：

直接理解图片：让模型看原图，并按要求提取结构化信息。
校验OCR结果：把OCR提取的混乱文本和原图一起给模型，让它修正并输出正确结果。

通过Ollama API调用Qwen2.5-VL：

Ollama提供了简单的HTTP API。我们编写一个Python函数来与模型交互。

import requests
import json
import base64

def encode_image_to_base64(image_path):
    """将图片编码为base64字符串"""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def ask_qwen_vl(image_base64=None, ocr_text=None, prompt_question=""):
    """向Ollama中的Qwen2.5-VL模型提问"""
    url = "http://localhost:11434/api/generate"
    
    # 构建消息
    messages = []
    
    # 如果有图片，添加图片内容
    if image_base64:
        messages.append({
            "role": "user",
            "content": [
                {"type": "text", "text": prompt_question},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
            ]
        })
    # 如果只有OCR文本（作为纯文本输入）
    elif ocr_text:
        # 注意：纯文本模式不是多模态，这里仅作对比演示。实际应将文本和图片一起送入。
        full_prompt = f"OCR识别到以下文本，但可能含有错误。请结合常识，将其中的购物清单信息整理成规范的JSON格式，包含商品名称、单价、数量、小计和总计。\n\nOCR文本：\n{ocr_text}\n\n请输出JSON："
        messages.append({"role": "user", "content": full_prompt})
    else:
        return "请提供图片或文本输入。"
    
    payload = {
        "model": "qwen2.5-vl:7b",
        "messages": messages,
        "stream": False # 设为True可流式输出，这里为简化设为False
    }
    
    try:
        response = requests.post(url, json=payload)
        response.raise_for_status()
        result = response.json()
        return result.get("response", "未获取到响应。")
    except requests.exceptions.RequestException as e:
        return f"请求出错：{e}"

if __name__ == "__main__":
    image_path = "your_invoice_image.jpg"
    
    # 方式一：让模型直接“看”图提取信息（端到端多模态）
    print("\n=== 方式一：Qwen2.5-VL直接解析图片 ===")
    img_base64 = encode_image_to_base64(image_path)
    prompt_direct = "请仔细查看这张图片。如果它是一个购物清单或发票，请将其中的所有商品信息（商品名称、单价、数量、小计）以及总计金额，以规范的JSON格式输出。确保数字准确。"
    result_direct = ask_qwen_vl(image_base64=img_base64, prompt_question=prompt_direct)
    print(result_direct)
    
    # 方式二：将OCR原始结果给模型，让它校验和修正（双模态校验）
    print("\n=== 方式二：Qwen2.5-VL校验OCR结果 ===")
    with open("ocr_raw_output.txt", "r", encoding="utf-8") as f:
        raw_ocr_text = f.read()
    
    # 构建一个更聪明的提示词，同时提供图片和混乱的OCR文本
    prompt_with_ocr = f"""
    我有一张图片，并使用OCR工具提取了其中的文字，但提取结果可能不准确、有错别字或格式混乱。
    
    原始图片如下（你已收到）：
    
    OCR提取的混乱文本是：
    {raw_ocr_text}
    
    你的任务：
    1.  结合你对图片的视觉理解，修正OCR文本中的错误。
    2.  从修正后的文本中，提取出购物清单的完整信息。
    3.  将最终结果以JSON格式输出，包含字段：`goods`（商品列表，每个商品有`name`, `unit_price`, `quantity`, `subtotal`）和 `total_amount`。
    4.  请检查小计（单价*数量）和总计是否计算正确。如果发现计算错误，在JSON中添加一个 `calculation_check` 字段，注明“计算正确”或“发现计算错误：...”。
    """
    # 注意：此处需要同时发送图片和文本。Ollama API支持多内容消息。
    # 为简化演示，我们这里采用方式一的图片输入，并在提示词中引用OCR文本。
    # 更严谨的做法是将OCR文本以文本类型放入`content`数组。
    result_check = ask_qwen_vl(image_base64=img_base64, prompt_question=prompt_with_ocr)
    print(result_check)

3.4 解析与使用结果

Qwen2.5-VL很可能会返回一个结构清晰的JSON字符串。你可以轻松地将其解析为Python字典，并集成到你的自动化流程中。

import json

# 假设 model_response 是上面函数返回的字符串
try:
    # 模型输出可能包含一些说明文字，我们需要提取JSON部分
    # 一种简单的方法是查找第一个'{'和最后一个'}'
    json_start = result_check.find('{')
    json_end = result_check.rfind('}') + 1
    if json_start != -1 and json_end != 0:
        json_str = result_check[json_start:json_end]
        data = json.loads(json_str)
        print("成功解析结构化数据：")
        print(json.dumps(data, indent=2, ensure_ascii=False))
        
        # 访问数据
        total = data.get("total_amount", 0)
        print(f"\n校验后的总金额为：{total}元")
        
        check = data.get("calculation_check", "未进行校验")
        print(f"计算校验结果：{check}")
        
except json.JSONDecodeError as e:
    print(f"解析JSON失败：{e}")
    print("原始响应：", result_check)