【知识点】Transformer自注意力计算为什么要除以√q_k 进行Scaling?
编辑
2024-10-13
深度学习ban
00

文章已加密,请输入密码后查看: