论文阅读: Outrageously Large Neural Networks-The Sparsely-Gated Mixture-of-Experts Layer

模型能力跟模型参数量有关系,模型参数量越多,数据越多,效果就越好。但训练成本也成倍上升。为了解决这个问题,大家提出了很多种条件计算(Conditional Computations)的方案,顾名思义,某些条件满足的情况下才会计算,这样就可以不增加训练成本的同时增加模型参数量,提升模型效果

作者提出了 Sparsely-Gated Mixture-of-Experts Layer (MoE) 架构,如下所示1

什么是 Python 装饰器

如果你能够认识到函数是一等公民(First-class)的话,那么你理解 Python 装饰器应该没有什么困难。函数是一等公民(First-class)就意味着:函数也是值,和其他基本类型(int, str, float, etc)等一样,都可以作为函数的入参和返回值

论文阅读: In-Context Retrieval-Augmented Language Models

In-Context RALM1 是用于 Autoregressive LM 上的 RAG 技术。RAG 说白了就是在模型推理的时候有个 Retriever 检索相关的文档,检索到的文档会和本来的输入拼接在一起

在 In-Context Learning 里面,会把一些例子放在用户输入的前面,再给 LLM。因此不难想象 In-Context RALM 也类似:In-Context RALM 就是将检索到的最相关的文档直接拼在模型输入的前面,优势是不需要再训练 LLM,我用 mermaid 画了一个图,如下所示