当前位置: 首页 >> 最新论文 >> 信息与通信工程
视觉基础模型研究现状与发展趋势
DOI: CSTR:
文献基本信息

中文标题:视觉基础模型研究现状与发展趋势
英文标题:Research status and development trends of vision foundation models
来源期刊:中国图象图形学报
基金项目:
作  者:张燚钧1, 张润清1, 周华健1, 余肇飞2, 黄铁军2, 齐骥1
作者单位:1.中移(苏州)软件技术有限公司;2.北京大学
摘  要:在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,显著提高了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自监督学习领域的应用,为解决这些挑战提供了新的解决方案。这些模型通常通过大规模数据预训练,展现出在处理复杂视觉场景中强大的泛化能力,被广泛称为视觉基础模型。本文深入探讨了探索视觉基础模型的研究现状与未来发展趋势,并重点关注该领域的关键技术进展及其对未来计算机视觉的潜在影响。本文首先回顾和梳理了视觉基础模型的背景与发展历程,然后介绍了在这一发展历程中出现的关键模型基础结构。文章介绍并分析了构建视觉基础模型所采用的各类预训练任务的设计思路,并根据其特性对现有的视觉基础模型进行了分类。同时,本文对不同类型视觉基础模型中的代表性工作进行了介绍,并整理了目前可用于视觉基础模型预训练的数据集。最后,本文对视觉基础模型的研究现状进行总结和思考,提出了目前存在的一些挑战,并展望未来可能的研究方向。
相关论文
相关专家