专题:开放环境下的视觉感知与理解

2023-04-16 15:14王金桥

无线电工程 2023年3期

中国科学院自动化研究所紫东太初多模态中心常务副主任,研究员,博士生导师,武汉人工智能研究院院长,中国科学院大学人工智能学院岗位教授,多模态人工智能产业联盟秘书长。主要从事多模态大模型、视频分析与检索和大规模目标识别等方面的研究。发表包括IEEE 国际权威期刊和顶级会议论文300 余篇。完成国家标准提案3 项,发明专利36 项,国际视觉算法竞赛冠军10 项。获北京市科技进步一等奖,吴文俊人工智能科技进步二等奖,中国发明创新银奖。

内容导读

随着AI 与计算机视觉技术的发展,基于深度神经网络的视觉识别在智能交通、遥感测绘、医疗健康以及安防监控等场景下取得了广泛的应用,极大地促进了各行各业的转型升级和迭代创新。然而,现实世界是一个未经结构化梳理的、长尾分布的、开放类别的复杂场景。在这样的视觉环境下,如何设计视觉感知与理解算法解决AI 落地中的长尾、噪声、灾难遗忘、场景泛化和无监督语义发现等问题,实现视觉技术从“可用”到“好用”,是一个非常具有挑战的课题。

当前,以云计算、大数据、区块链和AI 等为代表的新一代信息技术蓬勃发展和广泛渗透,为发展开放环境下的视觉感知与理解技术带来了难得的机遇。在此背景下,学术界和工业界的研究人员为了解决下一代智能视觉系统中的一些关键问题,研究开放环境下的视觉智能感知与理解的新理论、新方法和新技术,不断增强视觉智能感知与理解能力,使其能够灵活响应不同的任务需求,为实现全天候、全天时、全地域快速信息分析理解提供方法支撑。

为集中展现开放环境下的视觉感知与理解领域的最新研究成果,《无线电工程》2023 年第3 期推出“开放环境下的视觉感知与理解”专题。专题采用公开征稿的方式组织稿件,在所有通过专家评审的稿件中,最终确定录用稿件7 篇。专题主要展示了文本检索、超分网络加速、红外与可见光单应性估计、路面质量分析、销量预测、目标检测和人体姿态估计等领域的研究成果。

在文本检索方面,李岩等针对某些场景中文本时常呈现弯曲、压缩和拉伸等不规则形态,文本区域提取与匹配面临极大挑战的问题,提出了一个端到端的网络模型,将不规则文本提取和跨模态相似度学习统一到一个框架内,利用学习到的相似度对检测的文本实例排序,从而实现对不规则文本的检索。

在超分网络加速方面,刘智轩等针对基于分治策略的图像超分加速问题,提出了基于像素级分治策略的超分网络加速方法,为不同像素所对应区域分配不同规模的计算量来实现超分过程,实现了更加高效的超分加速策略。同时,提出了一个联合困难像素挖掘的重建损失函数,使网络在重建超分辨率图像的同时,通过无监督自适应的学习预测出每个像素的超分难易程度,用于为每个像素点所在位置的超分分配更加合理的计算量。

在红外与可见光单应性估计等方面,罗银辉等针对红外与可见光图像灰度差异较大、配准精度低等问题,提出了一种基于生成对抗网络的红外与可见光图像单应性估计方法,利用浅层特征提取网络提取红外与可见光图像的精细特征;将精细特征进行通道级联输入到生成器中,以预测得出单应性矩阵;对单应性矩阵变换后的扭曲图像提取精细特征,送入判别器进行判断,从而建立一个对抗博弈过程。

在路面质量分析方面,孙玉龙等针对全自动化路面质量评估和分析的实际场景需求,提出了基于大型卷积核模型和自监督预训练的路面质量分析方法,采用基于重参数化大型卷积核的U 型网络结构,实现像素级别的高精度路面病害识别,并采集了一个大型的路面病害分割数据集。

在销量预测方面,刘雁兵等针对零售终端卷烟营销的实际场景需求,提出了基于卷烟陈列识别和品牌文本表示的销量预测方法。在样本选择阶段,建立零售终端运行质量评估体系,实现高质量样本点筛选。

在目标检测方面,武德彬等针对SSD 单阶段目标检测算法未充分利用不同特征层之间的语义关系以及获取语义信息和位置信息能力不够好的问题,提出了一种多注意力单阶段目标检测改进算法,采用并行残差多尺度特征提取网络增强浅层特征层的语义信息和中间层的上下文信息,使用双重注意力机制加强对关键信息的学习,提高各特征层对语义信息和空间位置信息的获取能力。

在人体姿态估计方面,周伟等面向无约束场景的人体姿态估计任务中无规则变化的人物服饰、复杂场景和高灵活度的姿态等因素导致样本分布极其复杂的问题,提出了在回归网络中通过度量学习方法来优化高层特征对人体姿态的判别性。同时,为了更好地在人体姿态估计的框架下建模该判别学习任务,进一步提出了基于点特征优化的局部样本关系模块。该方法可对样本间的相似度进行更合理的建模,从而有效地辅助度量学习优化人体姿态估计算法的性能和泛化能力。

综上所述,专题所收录的这7 篇论文,分别针对特定的研究问题,从不同视角,使用不同方法研究了开放环境下的视觉感知与理解问题,得到了有意义的研究结论,能够提供较好的参考作用。当然,视觉识别所涵盖的子领域非常多,这些论文也不能穷尽所有的方面,希望通过这些论文的刊出,让更多的专家学者和研究人员关注该领域的发展,从而促进产生更多的研究成果。

最后,感谢参与稿件评审的各位专家学者的辛勤工作,感谢《无线电工程》编辑部各位老师的大力支持,衷心希望专题的出版能够对视觉识别的研究起到有益的作用。