本站点使用Cookies,继续浏览表示您同意我们使用Cookies。
Cookies和隐私政策>
日前,浪潮信息“基于脉冲相机时空增强的联合优化”项目,获得了中国模式识别与计算机视觉大会PRCV 2025超高速脉冲视觉挑战赛唯一的卓越成果奖,PRCV是由中国计算机学会等四大学会联合主办的国内顶级学术会议,这是PRCV大会举办8年来,第一次把奖项颁给类脑视觉领域。
超高速脉冲视觉挑战赛鼓励参与者在新型感知应用与算法、真实场景下具有泛化能力的脉冲数据集或增强模拟器工具等方向进行探索,推动脉冲视觉从研究走向应用。针对高速场景下复杂建筑影像难以清晰捕捉的难题,浪潮信息研发团队提出的时空增强联合优化框架在图像构建能力方面取得了新的突破,室内复杂场景中峰值信噪比提升2.3%,显著提升脉冲相机图像清晰度,性能达国际一流水平。
脉冲相机是类脑视觉领域的最新技术,2015年理论模型才被提出。传统相机采用定时曝光方式获得静态图像或视频,高速运动捕捉能力有限,脉冲相机依靠感光器上集成的海量像素级感光点来模拟人类视网膜的神经元,每个感光点把接收的光子流转换成脉冲电子流,形成脉冲流阵列,截取任意时刻的阵列流,就可以得到高速运动物体的细节。所以,脉冲相机最高能够实现每秒4万帧的超高速摄影,在自动驾驶等高速运动场景有着广阔的应用前景。
但是由于脉冲相机的数据形式全新,传统图像算法和评估机制难以直接适用,亟需开发和升级适配脉冲数据的新型视觉算法。从阵列脉冲流到输出最终图像/视频,需要经历图像重建、相机定位、3D建模和最终优化4个环节。当前的算法水平普遍不高,一方面从脉冲流阵列中捕捉时间和空间信息的能力有限,另一方面,进行时空建模的能力也不高,尤其是最终优化的误差控制、优化效率等方面亟待提高,这些问题限制了成像质量,也限制了脉冲相机的应用。
浪潮信息工程师从空间、时间和优化框架三个方面着手,提出了一种时空增强的USP-Gaussian计算框架。
空间层面,该框架在USP-Gaussian的基础上,引入了多尺度空间信息融合机制,以更好地捕捉事件流中的多尺度空间语义信息;
时间层面,设计了带可学习参数的加权显式时间表征,通过标准化时间位置向量与可学习参数,动态调整不同时间步权重,精准提取脉冲流时间关联性,为图像生成提供了高质量的时间信息;
优化框架层面,建立了新的优化框架,将上述时间、空间模块深度嵌入整体框架,让图像重建、相机定位、3D建模三个环节基于高质量时空信息协同优化,避免分阶段误差累积,也避免了3D建模与时空信息协同不足的问题。
1.多尺度融合突破空间信息捕捉能力限制
在原始的3x3卷积核基础上,新框架融入了5x5和7x7卷积核,突破了传统堆叠卷积架构的单尺度局限,并借助1×1卷积降低特征通道维度,实现跨尺度特征的自适应融合——既避免了单一尺度特征的局限性(仅能捕捉场景中某一尺度的特征,比如小尺度的细节纹理或者大尺度的整体轮廓等),又防止了多尺度特征直接叠加导致的信息干扰,让算法能更全面、精准地提取脉冲流中的空间语义信息,为后续3D重建提供更优质的图像基础。
多尺度空间融合机制也让脉冲相机的主流应用场景从单一物体的高速运动捕捉延伸到了更广泛的现实场景,因为现实中大部分场景都是小、中、大尺度元素共存,以下文中采用的测试场景户外游泳池为例,不仅包含泳池边缘的瓷砖纹理、水面漂浮的小型物体等小尺度细节,也包含泳池的池体轮廓、周边的遮阳伞等中尺度结构,以及泳池所在的庭院、远处的建筑或自然景观等大尺度环境。
2.可学习权重参数的显式时间编码,解决 “时间模糊” 问题
在脉冲相机生成的图像中,飞机等高速运动物体照片极易模糊,主要原因是当前的算法普遍是“时间盲”,关注数据的内容特征,却无法捕捉数据的时间顺序,更没法分清 “哪个瞬间的画面更重要”,要么是把所有瞬间的信息平均对待,造成边缘不清,要么是只模糊地看时间顺序,造成边缘拖影。
新算法以“明确标记时间顺序+动态调整时间权重”为策略,设计了显式时间位置编码机制,并且机制的权重参数可学习、可动态调整。一方面,通过可量化的时间规则给每个时间步的特征贴上 “时间标签”,让模型清晰区分 “谁先谁后”;另一方面,让模型自主学习 “哪些时间帧对任务更关键”,动态调整不同时间步的重要性,大大降低了动态场景重建中的高速运动物体拖影等“时间模糊”现象,提高了脉冲相机成像的高速捕捉能力。
3.时空联合优化框架,高效优化,避免误差积累
脉冲相机的脉冲流阵列经过图像重建、相机定位,3D建模前三步,就形成了完整的图像,但是仍存在着相机角度偏差、像素不一致等大量的错误、瑕疵,需要进行优化。当前的优化方法主要分为两类,一是分阶段方法,先将脉冲流转换为图像,再进行3D重建,两阶段独立优化,易累积误差;二是,联合优化方法,“图像重建、位姿估计、3D重建”三阶段联合优化,但忽略时空建模,重建质量受限。
浪潮信息在前述创新的基础上,设计了时空联合优化框架。多尺度空间融合与加权时间表征嵌入 “脉冲流→图像” 重建环节,让生成的图像清晰而贴合真实动态,然后优化后的图像、相机的位置姿态、3D高斯溅射的函数参数三者基于准确时空信息一起调整,大大提高了三个环节联合优化的质量和效率,也避免了两阶段算法 “一步错步步错” 的误差累积。
浪潮信息工程师将新框架同当前主要的图像构建算法进行了对比测试,采用基于Deblur-NeRF场景构建的合成数据集,对比算法有SpikeGS、TFP-3DGS、TFI-3DGS、Spk2Img-3DGS等各类3DGS算法(此类算法速度快,成像质量不高),还有NeRF算法(此类算法的优势在于能生成高保真、细节丰富的3D模型,但是计算复杂度极高,在多尺度场景中表现不如3DGS类算法)。
衡量指标是以下三个:
■ 峰值信噪比PSNR,通过计算原始图像与失真图像之间的均方误差来衡量失真程度,核心是看 “信号(图像本身的有效信息)” 和 “噪声(两张图的像素偏差)” 的比例,比例越高,说明图像质量越好,像素级的差异越小;
■ 结构相似性指数SSIM,与PSNR衡量绝对误差不同,SSIM是感知模型,更符合人眼的直观感受,得分越高,图像质量越好;
■ 感知图像块相似度LPIPS,通过深度学习模型来评估两个图像之间的感知差异,即用AI模拟人眼的视觉感知来判断两张图“看起来像不像“,得分越低,图像质量越好。
测试采用了酒吧、节日、工厂、户外游泳池等四个测试场景,这些场景有着复杂的时空关系以及多尺度特征,新框架和前文提到的所有主流算法进行了对比,最后给出总体平均结果,具体如下表所示:
备注:“↑”表示结果越高越好,“↓”表示结果越低越好
可以看出,可学习权重参数的显式时间编码以及时空联合优化让新框架提高了模型的时空信息捕捉能力和表达能力,新框架的图像生成准确度远高于其他算法,四个场景中峰值信噪比PSNR均位居第一。
另外,新框架在节日和户外游泳池场景也展示出显著的优势,这些场景具有明显的多尺度特征,在表征主观相似度的结构性相似指数和感知图像块相似度指数上,均位居第一或者第二。
此次技术成果已经整理成论文公开发表,题为《Spatiotemporal Enhanced Joint Optimization for Spike Camera Based 3D Reconstruction》,更多技术细节请查阅论文。
访问 AIStoreAIStore是基于元脑生态打造的商业协作线上平台,作为知识资源平台、交流服务平台和商机孵化平台,赋能“百模”与“千行”的对接,目前已上架200+产品和方案,在智能票据识别、AI工业质检、代码生成、视觉智能标注、AI健康助手等领域实现成功牵手和落地应用,助力千行百业加速AI产业创新,高效释放生产力。

扫码访问AIStore