曹丹阳 朱孟贵 高磊
摘要:本研究提出一种使用图像中目标特征代替图像全局特征的图像标注方法,经实验验证,本方法能够有效提升图像标注模型效果。
关键词:深度学习;图像标注;神经网络;目标检测
中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2019)04-0232-02
0 引言
图像标注任务目前已经成为深度学习中一个重要的分支,是结合计算机视觉和自然语言处理的综合性任务 。圖像标注在图像检索、盲人导航等方面发挥了很大的作用。
1 国内外研究现状
Vinyals等人提出端到端的图像标注框架,使用卷积神经网络提取图像特征,然后经过循环神经网络生成目标语言[1]。Xu等人将注意力机制引入图像标注算法,提高了算法表现[2]。本研究使用图像目标区域特征替代图像全局特征,经验证,本研究提出的方法是有效的。
2 方法
基于以上结论,本文改用目标区域及图像突出区域特征表示图像。图1是方法框架图。
本文使用Faster RCNN提取图像区域特征[3]。Faster R-CNN的损失函数如下:
3 实验
本实验中,使用了MSCOCO数据集。本研究使用BLEU、METEOR指标,CIDEr指标作为本工作的评价指标。表1是本研究与其他图像标注模型对比的结果表。
图2中,测试了6张图片,使用本文的模型对图片进行标注生成。从图中可以看出,模型可以正确生成标注,说明本研究效果极好。
4 结语
本文提出了将目标检测算法应用到图像标注任务中,该方法与其他图像标注算法对比,在评价指标上得出更高的分数,表现更好。
参考文献
[1] Vinyals O,Toshev A, Bengio S,et al[J].Show and Tell: A Neural Image Caption Generator,2014:3156-3164.
[2] Xu K, Ba J, Kiros R, et al.Show, Attend and Tell: Neural Image Caption Generation with Visual Attention [J].Computer Science,2015:2048-2057.
[3] Ren S, He K,Girshick R,et al. Faster R-CNN: towards real-time object detection with region proposal networks[C].International Conference on Neural Information Processing Systems. MIT Press,2015:91-99.