语言模型中的 Weight Tying 技术
引言
Quote
In our model, we share the same weight matrix between the two embedding layers and the pre-softmax linear transformation - Attention is All You Need, Section 3.4. Embeddings and Softmax1
多头注意力是什么
如何理解 Transformer 的自注意力公式
Info
进一步阅读:
从 Basic Block 到 Control Flow Graph
Info
注意:三地址码是 Basic Block(BB)的基础,而 Basic Block 是 Control Flow Graph(CFG) 的基础,因此在阅读本文之前,你最好了解一下三地址码,可以参考我写好的上一篇博客