【知识点】Transformer自注意力计算为什么要除以√q_k 进行Scaling？

esc

请输入并搜索

【知识点】Transformer自注意力计算为什么要除以√q_k 进行Scaling？

2024-10-13

深度学习ban

00

transformer自注意力机制 scaled dot product attention 深度学习softmax梯度消失注意力分数方差归一化 attention scaling数学推导

文章已加密，请输入密码后查看：