参考:
Transformer算法——总结 CV领域Transformer这一篇就够了(原理详解+pytorch代码复现)
ViT论文及代码解读-ICLR2021:Transformer用于视觉分类也有很好的性能
用Transformer完全替代CNN 理解Transformer论文中的positional encoding,和三角函数有什么关系
自注意力机制(Self-Attention)