侧边栏壁纸
博主头像
平凡之路博主等级

生活原本沉闷,但跑起来就会有风!

  • 累计撰写 98 篇文章
  • 累计创建 10 个标签
  • 累计收到 14 条评论

目 录CONTENT

文章目录

PaddleOCR WebAPI项目

平凡之路
2025-12-20 / 0 评论 / 0 点赞 / 1 阅读 / 735 字

PaddleOCR TestWeb

PaddleOCR 的 Web 测试应用程序,提供 OCR 功能的 Web 界面。

下载地址:https://gitee.com/fightroad/test-ocrweb

功能特点

  • 📷 图片OCR识别:支持 PNG、JPG、BMP 等图片格式
  • 📄 PDF文档识别:支持PDF文档的OCR识别
  • 🔧 文本后处理:提供多种文本后处理模式
  • 🌐 Web界面:友好的Web操作界面
  • ⚙️ 灵活配置:支持多种OCR参数配置

界面预览

ocr1
ocr2

快速开始

# 运行程序
./TestWeb.exe

# 访问应用
# 浏览器打开:http://localhost:5000

使用说明

图片识别

  1. 选择图片文件
  2. 选择后处理模式
  3. 点击"开始识别"
  4. 查看识别结果

PDF识别

  1. 选择PDF文件
  2. 配置识别参数:
    • 后处理模式
    • 是否优先提取文本层
    • 渲染DPI设置
  3. 点击"开始识别"
  4. 查看识别结果

文本后处理测试

  1. 输入测试文本(每行一个文本块)
  2. 选择后处理模式
  3. 点击"测试后处理"
  4. 查看处理结果

配置参数

PDF渲染DPI

DPI值 说明 适用场景
96-100 速度最快 清晰的电子文档
120 平衡速度和质量(推荐) 大部分PDF文档
150-200 高质量 复杂文档、小字体
300 打印质量 需要最高精度的场景

API 接口

图片识别

POST /api/ocr/recognize
Content-Type: multipart/form-data
参数:
- file: 图片文件
- mode: 后处理模式(可选)

PDF识别

POST /api/ocr/recognize-pdf
Content-Type: multipart/form-data
参数:
- file: PDF文件
- mode: 后处理模式(可选)
- tryExtractTextLayer: 是否优先提取文本层(可选)
- pdfRenderDpi: PDF渲染DPI(可选)

文本后处理测试

POST /api/ocr/test-post-process
Content-Type: application/json
参数:
- textBlocks: 文本块列表
- mode: 后处理模式

注意事项

  1. 首次使用:会自动下载OCR模型文件
  2. 文件大小:单exe文件较大(100-200MB),因为包含了.NET运行时
  3. 启动速度:首次启动可能较慢,后续启动会快一些
  4. 内存使用:OCR处理需要较多内存,建议至少4GB RAM
  5. 文件格式:支持常见图片格式和PDF文档

故障排除

常见问题

  1. 启动失败

    • 检查端口5000是否被占用
  2. OCR识别失败

    • 检查图片文件是否损坏
    • 检查文件格式是否支持
    • 查看控制台错误信息
  3. PDF识别失败

    • 检查PDF文件是否损坏
    • 检查PDF是否加密
    • 尝试调整DPI设置

日志查看

程序运行时的日志会输出到控制台,可以查看详细的错误信息。

更新日志

v1.0.0

  • 初始版本
  • 支持图片和PDF的OCR识别
  • 提供Web界面
  • 支持多种文本后处理模式
  • 支持单exe文件发布
0

评论区