近日,山东师范大学赵曰峰教授团队在国际期刊《Patter Recognition》上发表题为“HPRNet: A holistic position-aware residual network for image captioning”的研究论文。山东师范大学为第一完成单位,赵曰峰教授为论文第一作者,胡楠楠老师为论文通讯作者。

本研究中,针对现有图像描述模型在文本推理过程中由于定位偏差而无法准确描述视觉空间关系与局部细节等问题,提出一种基于全局位置感知的残差描述模型,整体框架图如图所示。具体而言,设计了Swin 全局位置编码模块,借助二维位置编码将全局空间关系显式嵌入图像特征中,并以扩展机制替代传统注意力机制,突破序列长度的限制;在此基础上,进一步提出自适应特征融合模块,可以动态挖掘视觉/序列特征间的关联及正负向关系,从而拓展关系信息的表征维度。为强化文本推理过程中的视觉内容与位置约束,本研究中还引入多级残差连接模式,在编码器中引入局部残差连接,在解码器中引入全局跳跃连接。其中,局部残差连接通过将全连接层的残差信息接入归一化层,实现局部细节信息的增强;全局跳跃连接则对二维位置编码进行特征凝练,并将其映射至解码器的跨模态注意力机制中,进一步提升语言生成过程中位置信息的表征鲁棒性。本研究在视觉空间位置编码、跨模态特征动态融合、多级残差连接模式等的技术层面的创新探索,不仅适用于图像描述任务,还可为视觉问答、图文生成、视频描述等其他跨模态任务提供重要的研究参考,以跨模态理解推理能力的进步推动新一代认知智能的发展与落地。
