论文阅读: Outrageously Large Neural Networks-The Sparsely-Gated Mixture-of-Experts Layer
Motivations
模型能力跟模型参数量有关系,模型参数量越多,数据越多,效果就越好。但训练成本也成倍上升。为了解决这个问题,大家提出了很多种条件计算(Conditional Computations)的方案,顾名思义,某些条件满足的情况下才会计算,这样就可以不增加训练成本的同时增加模型参数量,提升模型效果
作者提出了 Sparsely-Gated Mixture-of-Experts Layer (MoE) 架构,如下所示1