文献基本信息
英文标题:Multi-dimensional Spatio-temporal Features Enhancement for Lip reading
基金项目:国家自然科学基金(62462001),宁夏自然科学基金(2025AAC030078),北方民族大学中央高校基本科研业务费专项(2023ZRLG02),宁夏高等学校科学研究项目(NYG2024066),北方民族大学研究生创新项目(YCX24373)
作者单位:1. 北方民族大学计算机科学与工程学院 银川 750021
2. 视觉感知与计算宁夏重点实验室 银川 750021
摘 要:唇部运动的微小变化和相似音素的视觉歧义导致唇语识别模型的时空特征提取能力不足。为此,提出多维时空特征增强的唇语识别方法。首先设计自调节时空注意力(SaSTA),关注全局时空关键特征;其次提出三维增强残差块(TE-ResBlock),通过时序位移、多尺度卷积与通道混洗增强时空特征提取能力;然后设计多维时空增强网络(MSTEN),逐层提取时空特征并深度融合时间、空间和通道特征;最后基于MSTEN和DC-TCN构建唇语识别模型,并在LRW数据集和GRID数据集上验证模型性能。实验结果表明,所提方法在LRW和GRID上的准确率分别达到91.18%和97.82%,优于所有对比方法。