由于作者原因,导致 《自动化学报》 2022 年第 4 期发表的《视觉 Transformer 研究的关键问题:现状及展望》 (田永林,王雨桐,王建功,王晓,王飞跃)文中出现错误和遗漏,现纠正如下:
引言:最后一段中“第2 节给出了···对应的研究进展;” 改为“第2 节介绍 Transformer 研究中的关键问题以及对应的研究进展;第3 节给出了视觉 Transformer的一般性框架;”.
1.2 节:第一段中“L=6 ” 改为“L∈{12,24,32}”.
1.3 节:式 (6)修改为“A=softmax”.式 (8)修改为“MSA(z)=[SA1(z);SA2(z);···;SAh(z)]Umsa”.
1.4 节:第一段中“ViT 使用了绝对位置···,其计算过程如下:” 改为“ViT 使用了可学习的位置编码方式,通过定义可训练变量实现位置编码.相比之下,一种更为原始的位置编码方案[8]是使用正余弦函数实现:”.
2.2.6 节:第二段的最后补充:“本部分后续内容对典型的相对位置编码方法进行了介绍[82].” 第八段中“Axial-Deeplab 中的RPE[81]” 改为“Axial-Deeplab 中的RPE[129]”.
表1~表6:表1 中第1 行第3 列和第10 行第2 列更新为“-,O (Nsd)”,同时在表题中补充“表中数据主要参考文献[56].” 和“Most of the data in the table are from reference [56].”.表2 中第1,2 行第5 列更新为“55.4,190.7”.表3 中第16,17 行第4 列更新为“86,86”.表4 中第2 行第6 列,第9 行第4 列,第10 行第5 列和第10~12 行第3 列分别更新为“257,640,27,-,-,-”.表5 中第5 行第4~9 列和第18 行第3,5~9 列分别更新为“18.0,38.8,16.5,41.7,56.2,40.4,-,50.5,29.1,53.8,71.2,-”,同时删除第15~17 行.表6 中第1~2 行第3 列更新为“500+25”.另外,表2~6 表题中补充“表中数据主要参考文献 [18].”和“Most of the data in the table are from reference [18].”.
[129] Wang H,Zhu Y,Green B,et al.Axial-deeplab:Stand-alone axial-attention for panoptic segmentation.In:Proceedings of the European Conference on Computer Vision.Springer,Cham,2020.108-126.
*修正后的文章请见 https://hub-tian.github.io/aas-transformer-survey
特此更正并致诚挚歉意!