当前位置：首页 > news >正文

告别截图转文字：用Qt和PaddleOCR 2.3自制一个带界面的OCR小工具（支持截图识别）

news 2026/6/8 9:26:44

桌面级OCR工具开发实战：Qt与PaddleOCR的完美结合

每次看到纸质文档上的文字需要录入电脑时，你是否也厌倦了手动输入的繁琐？作为开发者，我们完全可以用技术解决这个痛点。本文将带你用Qt和PaddleOCR 2.3打造一个真正实用的桌面OCR工具，支持截图即识别，让文字提取变得轻松高效。

1. 环境准备与核心组件

开发一个完整的OCR工具需要几个关键组件协同工作。首先是PaddleOCR 2.3，这是百度飞桨团队开源的OCR引擎，以其高准确率和轻量化著称。其次是Qt框架，我们将用它构建用户友好的图形界面。

1.1 安装必备软件

在Windows系统下，你需要准备以下环境：

Visual Studio 2017/2019：用于编译C++代码
CMake 3.10+：项目构建工具
Qt 5.15+：GUI开发框架
OpenCV 4.5+：图像处理库

安装PaddleOCR的C++推理库时，特别注意版本匹配问题。以下是推荐的环境配置组合：

组件	版本	备注
PaddleOCR	2.3	使用release版本
Paddle Inference	2.3.0	必须匹配OCR版本
OpenCV	4.5.5	建议使用预编译版

1.2 获取PaddleOCR模型文件

PaddleOCR提供了多种预训练模型，对于桌面应用，我们选择轻量级模型以平衡性能和速度：

# 下载检测模型 wget https://paddleocr.bj.bcebos.com/PP-OCRv2/chinese/ch_PP-OCRv2_det_infer.tar # 下载识别模型 wget https://paddleocr.bj.bcebos.com/PP-OCRv2/chinese/ch_PP-OCRv2_rec_infer.tar # 下载方向分类模型 wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar

提示：将这些模型文件解压后放在项目目录的inference文件夹下，后续代码中需要指定这些路径。

2. Qt界面设计与截图功能实现

好的用户界面应该让操作直观简单。我们的OCR工具主要包含三个功能区域：截图按钮、图像显示区和文本结果区。

2.1 创建主窗口布局

使用Qt Designer快速搭建界面，或者直接编写代码创建：

// 主窗口类定义 class OcrTool : public QMainWindow { Q_OBJECT public: OcrTool(QWidget *parent = nullptr); private: QPushButton *captureBtn; // 截图按钮 QLabel *imageLabel; // 显示截图 QTextEdit *resultText; // 显示识别结果 QPixmap currentImage; // 当前处理的图像 void initUI(); void initConnections(); };

界面布局建议采用以下结构：

顶部工具栏：放置截图按钮和设置选项
中央区域左侧：图像预览面板
中央区域右侧：文本结果显示区
底部状态栏：显示识别状态和时间

2.2 实现屏幕截图功能

Qt提供了强大的屏幕捕获能力，我们可以利用QScreen和QPixmap实现：

void OcrTool::onCaptureClicked() { QScreen *screen = QGuiApplication::primaryScreen(); QPixmap screenshot = screen->grabWindow(0); // 显示截图预览 imageLabel->setPixmap(screenshot.scaled(imageLabel->size(), Qt::KeepAspectRatio)); currentImage = screenshot; }

为了提升用户体验，可以添加区域选择截图功能：

创建一个全屏半透明窗口
监听鼠标事件，绘制选择矩形
确认选择后，截取矩形区域图像

3. 集成PaddleOCR引擎

这是整个项目的核心部分，我们需要将PaddleOCR的C++接口与Qt应用无缝集成。

3.1 初始化OCR引擎

PaddleOCR的C++接口需要正确配置模型路径和参数：

#include "ocr_system.h" // 初始化OCR引擎 OCRSystem *ocr = new OCRSystem( "inference/ch_PP-OCRv2_det_infer", // 检测模型路径 "inference/ch_PP-OCRv2_rec_infer", // 识别模型路径 "inference/ch_ppocr_mobile_v2.0_cls_infer", // 分类模型路径 "config.txt" // 配置文件 );

注意：确保所有模型文件路径正确，否则会导致初始化失败。

3.2 图像格式转换

Qt使用QImage处理图像，而OpenCV使用Mat，需要进行转换：

cv::Mat QImageToMat(const QImage &image) { cv::Mat mat; switch(image.format()) { case QImage::Format_RGB32: mat = cv::Mat(image.height(), image.width(), CV_8UC4, const_cast<uchar*>(image.bits()), image.bytesPerLine()); cv::cvtColor(mat, mat, cv::COLOR_BGRA2BGR); break; // 其他格式处理... } return mat; } QImage MatToQImage(const cv::Mat &mat) { // 转换cv::Mat到QImage // ... }

3.3 执行OCR识别

将截图传递给OCR引擎并获取识别结果：

void OcrTool::recognizeText() { if(currentImage.isNull()) return; // 转换图像格式 QImage qImage = currentImage.toImage(); cv::Mat cvImage = QImageToMat(qImage); // 执行OCR std::vector<std::vector<std::vector<int>>> boxes; std::vector<std::string> texts; std::vector<float> scores; ocr->detect(cvImage, boxes, texts, scores); // 显示结果 QString result; for(size_t i = 0; i < texts.size(); ++i) { result += QString::fromStdString(texts[i]) + "\n"; } resultText->setPlainText(result); }

4. 性能优化与实用技巧

要让OCR工具真正好用，还需要考虑一些优化和实用功能。

4.1 多线程处理

OCR识别可能耗时，为避免界面卡顿，应该使用多线程：

// 继承QObject创建工作线程 class OcrWorker : public QObject { Q_OBJECT public slots: void doWork(const QPixmap &image) { // 执行OCR识别... emit resultReady(text); } signals: void resultReady(const QString &text); }; // 在主窗口中使用 void OcrTool::startOcrThread() { QThread *thread = new QThread; OcrWorker *worker = new OcrWorker; worker->moveToThread(thread); connect(thread, &QThread::started, [=]() { worker->doWork(currentImage); }); connect(worker, &OcrWorker::resultReady, this, &OcrTool::onOcrFinished); connect(worker, &OcrWorker::finished, thread, &QThread::quit); thread->start(); }

4.2 识别结果后处理

原始OCR结果可能包含噪声，可以添加以下处理：

去除空白行：过滤掉只有空格或换行的结果
合并短行：将相邻的短文本行合并
格式修正：自动校正明显的识别错误

QString postProcessText(const QString &rawText) { QStringList lines = rawText.split('\n'); QStringList processed; for(const QString &line : lines) { if(line.trimmed().isEmpty()) continue; // 简单的数字/字母误识别修正 QString corrected = line; corrected.replace("O", "0") .replace("l", "1") .replace("Z", "2"); processed << corrected; } return processed.join("\n"); }

4.3 添加实用功能

提升工具实用性的小功能：

结果编辑：允许用户直接修改识别结果
复制到剪贴板：一键复制识别文本
导出功能：支持将结果保存为TXT或PDF
历史记录：保存之前的识别记录

// 导出识别结果为TXT文件 void OcrTool::exportToTxt() { QString fileName = QFileDialog::getSaveFileName(this, "导出文本", "", "文本文件 (*.txt)"); if(fileName.isEmpty()) return; QFile file(fileName); if(file.open(QIODevice::WriteOnly | QIODevice::Text)) { QTextStream out(&file); out << resultText->toPlainText(); file.close(); } }

5. 打包发布与跨平台考虑

开发完成后，我们需要将应用打包，方便分享和使用。

5.1 Windows平台打包

使用windeployqt工具收集所有依赖：

windeployqt --release ocr_tool.exe

还需要手动添加以下文件：

PaddleOCR的DLL文件
OpenCV的DLL文件
模型文件目录
配置文件

5.2 跨平台适配

虽然本文以Windows为例，但Qt和PaddleOCR都支持多平台：

Linux：需要重新编译PaddleOCR的Linux版推理库
macOS：注意处理Retina屏幕的高DPI支持

在代码中添加平台判断：

#ifdef Q_OS_WIN // Windows特定代码 #elif defined(Q_OS_LINUX) // Linux特定代码 #elif defined(Q_OS_MAC) // macOS特定代码 #endif

5.3 安装程序制作

使用专业工具创建安装包：

Windows：Inno Setup, NSIS
macOS：pkgbuild, productbuild
Linux：deb或rpm包

提示：在安装程序中添加模型文件下载选项，减小初始安装包体积。

开发过程中遇到的一个有趣问题是Qt的高DPI支持。当在高分辨率屏幕上测试时，发现截图坐标与实际不符，通过添加以下代码解决了这个问题：

// 启用高DPI缩放 QApplication::setAttribute(Qt::AA_EnableHighDpiScaling); // 使用物理像素而不是设备独立像素 QApplication::setAttribute(Qt::AA_UseHighDpiPixmaps);

查看全文

http://www.zskr.cn/news/1485428.html

5分钟上手mcp-windbg：让AI帮你分析Windows crash dump

软件工程师岗位全景解析：从技术栈到职业路径的深度指南

宁波鄞州区卖金时机与上门回收全流程指南 - 专业黄金回收

2026芯片行业亚洲EMBA深度测评：科学择校与差异化选型指南 - 品牌2026推荐

2026年6月专访新疆维吾尔自治区政府法律顾问王卫东：深耕新疆涉外纠纷领域多年，以专业法律服务破解LLP制度风险与跨境监管难题，护航中企中亚布局行稳致远 - 十大排行榜推荐

医学图像分割刷点秘籍：拆解Polyp-PVT中的CFM、CIM、SAM模块到底怎么用

从CTF靶场到实战：手把手复现CVE-2019-14439与Shiro 1.5.1组合漏洞（附环境搭建与工具避坑）

实测分享：自己动手为智能硬件申请SRRC型号核准，从注册到拿证的全流程记录

2026 东莞黄金回收盘点：合规鉴品平台，稳妥快速变现攻略 - 奢侈品回收测评

用ECharts地图做个疫情数据看板：从静态打点到动态飞线，手把手实现数据可视化大屏

游戏挂机、网页抢购？聊聊用PyAutoGUI写“外挂”脚本的那些坑与合规边界

2026高含金量亚洲EMBA深度测评：科学选型标准与优质项目解析 - 品牌2026推荐

告别虚拟机：在Docker里5分钟搞定Empire 4.2渗透测试环境（附一键脚本）

RAG实战指南：从原理到落地的五大核心环节

别死记公式了！用Multisim仿真带你直观理解电感电压与电流的90度相位差

告别手动编译！用Docker Compose一键拉起RuoYi-flowable+MySQL+Redis全家桶

别再乱抛RuntimeException了！聊聊Spring Boot项目中如何优雅地自定义业务异常（附完整代码）

eBay账户安全机制揭秘：为什么你的购买会被临时限制？如何主动预防与快速解封

别再死记硬背Verilog语法了！用这5个经典电路（加法器、计数器等）的RTL图+仿真，帮你建立硬件思维

AI会议结构化：解决跨职能协作的信息失真问题

2026年众智商学院官方联系方式公众号资料试听课入口怎么确认？www.zzpxedu.com、400-068-2368冯老师18610089571答疑 - 众智商学院职业教育

LeShare Shop WePy堂食与外卖点餐功能的实现原理

MixIO vs Blynk：为你的Arduino/Mixly项目选个物联网平台，附详细对比和迁移思路

Windows/Mac双平台实测：Python 3.10.0安装避坑指南与版本新特性尝鲜

Vivado加密IP核时，你的`decryption`和`xilinx_activity`设置对了吗？详解仿真/综合/实现的权限控制

Medical-Transformer核心架构详解：Gated Axial-Attention如何革新医疗影像分析

南宁黄金回收价高无套路，闲置首饰放心变现 - 奢侈品回收评测

2026年南京全案设计/精装修/毛坯/大宅别墅装修推荐榜：原创美学与精工落地的口碑之选 - 企业推荐官【官方】

WiVRn与同类XR流媒体工具对比：为什么它更适合独立头显？