Deep-Learning - 标签 - MartinLwx's Blog

Deep-Learning

2025

Transformer 架构变化：旋转位置编码 (RoPE) 05-24

Transformer 架构变化：RMSNorm 指南 05-11

神奇的 torch.einsum API 04-14

语言模型中的 Weight Tying 技术 03-11

多头注意力是什么 03-04

如何理解 Transformer 的自注意力公式 03-02

论文阅读: Outrageously Large Neural Networks-The Sparsely-Gated Mixture-of-Experts Layer 02-02

2024

论文阅读: Generalization through Memorization: Nearest Neighbor Language Models 12-23

论文阅读: In-Context Retrieval-Augmented Language Models 12-04

论文阅读: REALM: Retrieval-Augmented Language Model Pre-Training 11-30

2023

LoRA 微调 09-14

机器学习求解梯度的小技巧 07-26

Pytorch 张量的 strides 格式是什么 07-14

用 MPNN 框架解读 GAT 05-21

反向传播公式推导和理解 04-04