论文阅读: Outrageously Large Neural Networks-The Sparsely-Gated Mixture-of-Experts Layer

MartinLwx 发布于 2025-02-02 收录于类别 ML-DL

Motivations

模型能力跟模型参数量有关系，模型参数量越多，数据越多，效果就越好。但训练成本也成倍上升。为了解决这个问题，大家提出了很多种条件计算（Conditional Computations）的方案，顾名思义，某些条件满足的情况下才会计算，这样就可以不增加训练成本的同时增加模型参数量，提升模型效果

作者提出了 Sparsely-Gated Mixture-of-Experts Layer (MoE) 架构，如下所示¹

什么是 Python 装饰器

MartinLwx 发布于 2025-01-20 收录于类别 Programming-Languages

引言

如果你能够认识到函数是一等公民（First-class）的话，那么你理解 Python 装饰器应该没有什么困难。函数是一等公民（First-class）就意味着：函数也是值，和其他基本类型（int, str, float, etc）等一样，都可以作为函数的入参和返回值

论文阅读: Generalization through Memorization: Nearest Neighbor Language Models

MartinLwx 发布于 2024-12-23 收录于类别 NLP

Motivation

语言模型解决 2 种问题

用一个特征向量表示句子前缀
使用该特征向量预测下一个 token

本文提出的 $k\texttt{NN-LM}$ 基于这么一个假设：学习特征向量表示比预测下一个 token，因此本文的方法主要基于该假设进行设计

KNN 算法是什么

MartinLwx 发布于 2024-12-15 收录于类别 ML-DL

什么是 KNN

Tip

显然，从定义来看，KNN 算法并不需要训练

OCaml 中的 Phantom Type 是什么

MartinLwx 发布于 2024-12-08 收录于类别 Programming-Languages

语法

Info

= 左侧是类型（Type），右侧是值（Value）

论文阅读: In-Context Retrieval-Augmented Language Models

MartinLwx 发布于 2024-12-04 收录于类别 NLP

The idea

In-Context RALM¹ 是用于 Autoregressive LM 上的 RAG 技术。RAG 说白了就是在模型推理的时候有个 Retriever 检索相关的文档，检索到的文档会和本来的输入拼接在一起

在 In-Context Learning 里面，会把一些例子放在用户输入的前面，再给 LLM。因此不难想象 In-Context RALM 也类似：In-Context RALM 就是将检索到的最相关的文档直接拼在模型输入的前面，优势是不需要再训练 LLM，我用 mermaid 画了一个图，如下所示