ZeroEntropy发布Zerank-2跨编码器检索模型，实现高精度检索与排序

背景概述

随着检索增强生成（RAG）在企业搜索、法律文档分析和代码辅助等场景的落地，单纯的向量相似度检索已难以满足精度需求。ZeroEntropy 在此背景下推出基于 Qwen3 的跨编码器 Zerank‑2，采用 4 B 参数、支持 bfloat16 与 float16 双精度，兼容 CUDA 与 CPU 环境，旨在为检索系统提供可插拔的高精度重排层。

关键特性

模型规模：4 B 参数的 Qwen3 系列跨编码器，约 8 GB 权重，支持 BFloat16 加速。
兼容性：可在 GPU（CUDA）或 CPU（float32）上直接加载，无需额外微调。
概率映射：提供 to_prob 工具，将原始 logits 归一化为 0‑1 概率，便于阈值控制。
非商业许可：CC‑BY‑NC‑4.0，适合学术与企业内部实验。

两阶段检索‑重排流程

第一阶段：快速 bi‑encoder
- 使用 sentence‑transformers/all‑MiniLM‑L6‑v2 对文档库进行向量化，返回 Top‑K 检索候选。
第二阶段：Zerank‑2 重排
- 将候选文档批量喂入跨编码器 reranker.rank(query, candidates)，得到精细化得分并按概率排序。
输出：返回最终 Top‑N 文档及其概率，显著提升检索精度。

实验评估

数据集：自建小规模标注集，涵盖生物、金融、法律、代码四大领域。
指标：NDCG@10。基线 bi‑encoder 平均 0.4827，加入 Zerank‑2 后提升至 0.5473，提升幅度约 0.0646。
吞吐量：在单卡 RTX 4090 上，批量 16 对 query‑doc 计分速率约 120 对/秒，展示了实用的推理性能。

“Zerank‑2 在跨域检索场景中表现稳定，尤其在金融风险描述与法律条款区分上提升显著。” — 官方模型卡

跨域应用示例

领域	查询	最高得分答案（概率）
金融	"债务‑权益比上升意味着什么？"	"债务‑权益比上升表明公司以更多债务融资，财务风险增加。" (0.872)
法律	"轻罪与重罪的区别是什么？"	"重罪指处罚超过一年监禁的严重犯罪，轻罪处罚相对轻微。" (0.845)
编码	"如何在 Python 中逆序字符串？"	"使用切片 `s[::-1]` 即可实现逆序。" (0.913)

实践建议

批处理：在大规模检索场景下，建议先对候选集合进行分批 predict，再统一排序，兼顾速度与精度。
阈值设定：利用 to_prob 将得分映射为概率，可据业务需求设定 0.7 以上为高置信答案。
集成 RAG：将 Zerank‑2 作为检索‑增强生成的后置过滤器，可显著降低生成模型的幻觉风险。

结论

Zerank‑2 通过跨编码器的深层语义匹配，为传统向量检索提供了强有力的精度提升手段。其开源、轻量、跨平台的特性，使其快速落地于企业内部搜索、法律文档审查以及代码助手等高价值场景，成为构建可靠 RAG 系统的关键组件。