PaddlePaddle推出PP-OCRv6 轻量多语言OCR模型在Hugging Face全平台发布

模型全景

PP‑OCRv6 是 PaddleOCR 系列的第六代通用 OCR 模型，覆盖 tiny（1.5M）、small（7.7M）、medium（34.5M） 三个规模。tiny 侧重极致轻量，适用于边缘设备；small 在移动端与桌面保持平衡；medium 则面向高精度服务器场景。所有版本统一使用 PPLCNetV4 作为主干，并在检测头引入 RepLKFPN，在识别头采用 EncoderWithLightSVTR，实现了检测‑识别协同优化。

关键技术创新

统一 Backbone：PPLCNetV4 在检测与识别两阶段共享特征提取，显著降低部署成本。
RepLKFPN 检测头：大核特征金字塔网络，提升小字、密集、旋转文本的检测鲁棒性。
EncoderWithLightSVTR：轻量化全局‑局部注意力结构，针对多语言字符、特殊符号及噪声图像实现识别提升。
多后端兼容：模型在 Hugging Face Hub 同时提供 Paddle‑Inference、Transformers（PyTorch）和 ONNX Runtime 三种格式，开发者可自由选型。

性能对标

模型	参数量	检测 Hmean	识别准确率	典型应用
PP‑OCRv6_tiny	1.5M	80.6%	73.5%	边缘设备、低延迟演示
PP‑OCRv6_small	7.7M	84.1%	81.3%	移动端、桌面 OCR 服务
PP‑OCRv6_medium	34.5M	86.2%	83.2%	服务器‑级文档处理、工业标签

相较于前代 PP‑OCRv5_server，medium 版检测提升 4.6pp，识别提升 5.1pp，在同等算力下实现更高质量的结构化文本抽取。

多语言与部署

small 与 medium 版本一次模型即可覆盖 简体中文、繁体中文、英文、日文 以及 46 种拉丁文字，共计 50 种语言。统一模型大幅降低跨语言 OCR 系统的维护成本。开发者只需一行代码即可完成部署：

from paddleocr import PaddleOCR
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers"  # 或 "onnxruntime" / 默认 PaddleInference
)
result = ocr.predict("image_url")

返回的结构化 JSON 可直接用于文档解析、搜索索引、RAG 或智能体工作流。

生态布局

Hugging Face Hub：提供 safetensors、Paddle 推理模型、ONNX 多格式下载；
在线 Demo：通过 Hugging Face Space 实时演示 OCR 效果；
文档与社区：配套 PaddleOCR 官方文档、GitHub 示例以及多语言使用指南，降低上手门槛。

行业意义

在 VLM（视觉语言模型）快速发展的背景下，专用 OCR 仍具备不可替代的优势：轻量、可解释、对结构化文本抽取的高精度。PP‑OCRv6 的开放发布为企业级文档数字化、工业标签识别以及多语言内容检索提供了成本友好的解决方案，也展示了国产开源框架在全球模型生态中的竞争力。

PaddlePaddle推出PP-OCRv6 轻量多语言OCR模型 在Hugging Face全平台发布