浪潮信息技术团队提出可解释图像检索框架EIR，论文入选AAAI26

2026-02-27

近日，浪潮信息技术团队的论文《Joint Spherical Distance and Confusing Triplet Embeddings for Explainable Image Retrieval》被AAAI 2026收录。论文提出了一种面向图像检索任务的可解释框架——EIR（Explainable Image Retrieval）。该框架围绕图像检索中长期存在的“精度提升难”和“结果可解释性不足”两类问题展开优化，在三大公开数据集测试中取得了具有竞争力的结果，展现出在细粒度检索和复杂场景检索中的应用潜力。

AAAI是人工智能领域具有广泛影响力的国际学术会议之一，与NeurIPS、ICML、IJCAI并称为AI领域“四大顶会”，对论文质量要求极高，录用率不足20%。此次论文入选，体现了浪潮信息技术团队在计算机视觉与深度度量学习方向的持续探索，推动了高可信AI技术的应用，也为解决特征空间的距离失真、训练伪收敛、细粒度区分能力不足、语义对齐不精确、可解释性差等多模态领域的普遍性技术难题提供了新思路，可有效推动多模态技术的实用化、高精度化、可解释化发展。

面向真实场景，图像检索正在从“可用”走向“可信”

随着人工智能持续走向产业落地，图像检索已从单纯的互联网搜索能力，逐步延伸到智能零售、智能制造、版权追溯、视觉推荐等更复杂的业务场景。与此同时，行业对图像检索系统的要求也在提升：不仅要“找得准”，还要让结果更具可理解性和可追溯性。

在传统深度学习框架下，图像检索模型往往存在一定的“黑箱”特征。对于用户而言，系统能够给出结果，但很难清晰说明“为什么返回这些结果”“相似性是如何被判断的”。这使得模型在一些对准确性和可信度要求更高的场景中，仍面临应用门槛。

基于这一背景，浪潮信息技术团队将研究重点放在“可解释图像检索”方向，希望在提升检索精度的同时，进一步增强模型的距离度量能力和训练有效性，从而让图像检索系统兼顾性能与可信度。

EIR：兼顾可解释性与检索精度的图像检索新框架

EIR建立在深度度量学习（DML，Deep Metric Learning）基础之上。计算机无法像人类一样直接理解图片是否“相似”，需要将图片抽象的 “相似性” 变成具体数值，就是把图像转化为包含颜色、纹理、轮廓等信息的特征向量，再计算特征向量与被检索图片（锚点图片）特征向量的距离，按照距离从小到大进行排序，这就是DML图像检索的基本技术原理。正因如此，距离度量方式是否合理，将直接影响检索效果，也是模型可解释性的关键基础之一。

围绕这一核心问题，浪潮信息技术团队在EIR框架中进行了两项关键创新：

一是提出新的特征向量距离定义——球面距离，用于优化高维特征空间中的距离度量；

二是提出ECTEL（Enhanced Confusing Triplet Embedding Learning）算法，用于增强模型对“混淆样本”的学习能力，进一步提升训练质量和最终检索表现。

■ 创新一：引入球面距离，优化高维特征空间中的距离度量

在图像检索任务中，图像相似性最终需要通过特征向量之间的距离来表示。当前常见的距离度量方法主要包括欧氏距离和余弦距离，但在高维特征空间中，这两类方法都存在一定局限：前者在高维场景下区分能力减弱，后者是两个向量夹角的余弦值，能够刻画方向关系，但表达能力有限，常常导致语义相似度量化出现系统性偏差，细粒度检索场景中误差率甚至会高达30%以上。

针对这一问题，浪潮信息技术团队提出使用球面距离来刻画特征向量之间的关系。该方法通过对高维特征进行统一映射，在新的几何空间中衡量向量间差异，使距离分布的表达更加稳定，从而提升模型对细粒度差异的识别能力。

从测试结果看，仅引入球面距离这一项改进，便已在CUB-200-2011细粒度数据集上带来明显收益：Recall@1指标提升约1.1%—1.3%，同时在Recall@2、Recall@4、Recall@8等指标上也表现出较强竞争力。

■ 创新二：提出ECTEL算法，增强模型对“混淆样本”的识别能力

在DML训练中，三元组学习是一种经典方法，即围绕“锚点图—正例图—负例图”构建训练约束，训练模型，让模型具备“相似样本更近、不相似样本更远”的特征向量距离构建和识别能力。

但在实际训练过程中，仍会出现一类更具挑战性的样本组合，虽然模型已经满足了基本的距离约束，但负例与正例之间仍然不够分离，造成语义边界模糊，进而影响检索阶段的稳定性，这正是浪潮信息技术团队在研究中关注到的“混淆三元组”问题。

为此，团队提出ECTEL算法，在传统训练约束基础上进一步引入增强机制，使模型在面对混淆样本时能够继续优化，从而更充分地拉开类别边界，提升对相似类别和细粒度类别的区分能力。

这一改进使EIR不仅在理论上增强了训练有效性，也在实际检索任务中展现出更好的收敛表现和泛化能力。

公开数据集测试，EIR创造三大数据集最好成绩

为了验证EIR框架的有效性，浪潮信息技术团队选取了图像检索领域三项常用公开数据集进行对比测试：

CUB-200-2011：细粒度鸟类数据集，侧重小样本细粒度检索能力；
Cars-196：细粒度汽车数据集，侧重中样本类别区分能力；
In-Shop Clothes Retrieval，大规模服饰数据集，更接近实际电商检索场景。

测试结果显示，EIR在上述数据集上均取得了具有竞争力的表现，创造了目前最好测试成绩：

在CUB-200-2011数据集上，EIR在1024维设置下的Recall@1达到67.7%，比目前最好的MS和R-MS算法分别提升了1.3%和0.9%；

CUB-200-2011数据集测试结果表图片.jpg

在Cars-196数据集上，EIR的Recall@8达到96.9%，较现有最优结果提升0.5个百分点；

Cars-196数据集测试结果表.jpg

在In-Shop Clothes Retrieval数据集上，EIR的Recall@1达到90.7%，Recall@40达到99.4%。

In-Shop Clothes Retrieval数据集测试结果表.jpg

这些结果表明，EIR在细粒度识别、类别区分以及大规模检索等多类任务中均具备较强适应性，能够为图像搜索、商品检索、视觉推荐等应用提供更高质量的技术支撑。

让图像检索从“追求性能”迈向“性能与可信并重”

从学术研究到产业应用，AI系统不仅需要具有领先的技术指标，更需要具备技术的可解释性和可验证性，这样才能够更稳定、更清晰地服务真实业务，从而以高度的可信性获得信任，让AI走向人机结合等高级应用场景。EIR的意义，正是在于它尝试在图像检索这一典型视觉任务中，推动“高性能”与“可解释”并行演进。

浪潮信息技术团队表示，未来将继续围绕高可信AI、可解释机器学习以及面向实际场景的视觉智能技术开展深入研究，推动更多前沿成果从论文走向应用，为AI在产业场景中的高质量落地提供更坚实的技术支撑。

上一篇：浪潮信息AIStation 5.4发布：打造企业级Agent算力底座，已支持OpenClaw

下一篇：媒体观察丨告别无效“烧脑”，Yuan 3.0 Flash以算法创新破解模型“过度思考”

返回列表