如何评价 Meta 提出的 STEM 稀疏性架构?
你说的对,这两篇论文还真是有着相同的思路
先说说STEM
STEM它把Transformer里FFN的上投影层换成了嵌入查找表,门控和下投影继续保持稠密,论文中说Transformer 中的前馈神经网络(FFN)层往往承担了大量的“知识存储”功能,而这种存储本质上类似于键值对(Key-Value)的查找。这个的确是和DeepSeek的Engram思路上有想通之处,但是方法不一样。
我们都知道,标准的Transformer是注意力attn以后接了2层的ffn,第一层ffn是上投影,也就是升维度,然后一层下投影再降维。(为了简单先不考虑专家MOE的情况)而这个STEM就是直接把上投影,也就是第一个ffn变为了查表。

标准Transformer的FFN:
h_ffn = W_down · σ(W_gate · x) ⊙ (W_up · x)
STEM改造后的FFN:
h_stem = W_down · σ(W_gate · x) ⊙ E[token_id]
E 是嵌入查找表(embedding table),维度是 [vocab_size, d_ff] 或更大,E[token_id] 直接根据当前token的id去查表,得到 d_ff 维的向量。
原来的 W_up · x 是个矩阵乘法,需要计算所有输入维度的加权和。现在直接换成 E[token_id],变成O(1)的查表操作。参数量大幅增加(嵌入表可以很大),但每个token实际访问的参数是固定的,而且还会降低计算量(没有矩阵乘法,只有查表),最主要的是可以把E offload到CPU内存,因为访问模式是静态可预测的,基本不会有多少延迟。
在对比下Engram
如何评价DeepSeek发布梁文锋署名论文,提出「条件记忆」及Engram记忆检索架构?有哪些亮点?简单的说就是Engram将一部分moe的专家变为了查表,论文里的allocation ratio就是比例,然后再用mhc做一层残差,直接相加,这个我就不细说了,有兴趣的可以参考我这个回答。
而STEM则是直接改了ffn的第一层,这种论文里还提到,论文里也说这种token-indexed的设计天然支持知识编辑和注入,可解释性比传统FFN强不少,这部分也和Engram一样。
所以我们可以看到2026年开年的2篇比较重要的论文都是往稀疏性方向的研究,所以大概率会成为主流方向之一。
下面继续STEM,只改了一层ffn能省多少资源呢,我们这里做个简单的计算。
这里要说一下的是论文给的代码还是404估计是发了论文还没上项目,所以我只能按照我的理解来计算,可能会和最终代码有所偏差,仅供参考。

首先是Transformer里Attention和FFN的参数和计算量占比:
假设模型维度是 d_model,FFN的中间维度是 d_ff = 4 × d_model(标准配置)
Attention层的参数:
- Q, K, V三个投影:3 × (d_model × d_model) = 3d²
- 输出投影:d_model × d_model = d²
- 总计:4d²
FFN层的参数(以SwiGLU为例):
- 上投影:d_model × d_ff = d × 4d = 4d²
- 门控:d_model × d_ff = 4d²
- 下投影:d_ff × d_model = 4d²
- 总计:12d²
单层Transformer Block的参数占比:
- Attention:4d² / (4d² + 12d²) = 25%
- FFN:12d² / (4d² + 12d²) = 75%
如果序列长的话Attention会更大最多能到60%(暂时不考虑)所以FFN占了一个Transformer Block参数量的四分之三左右。
STEM把FFN的上投影(8Ld²)换成查表(O(L)),所以:
- 省掉的计算:8Ld²
- FFN剩余计算:16Ld²(门控 + 下投影)
- 整体省掉:8/(8+24) = 25%的Block计算量
如果只看FFN内部省掉了 8/24 = 33.3%,这就是论文说的"大约三分之一"。
显存也是类似,嵌入表可以offload到CPU,GPU上FFN参数从12d²降到8d²省33%。
而且论文更强调"decouples capacity from per-token FLOPs and cross-device communication",而不是单纯说省显存,它的核心价值是让你可以用更大的嵌入表(更多知识容量)而不增加GPU负担,这个也是跟Engram类似,而且还可以进行编辑这才是这两个研究最大的亮点。
最后这俩研究都是基于“Lookup-based Sparsity”(基于查表的稀疏性) 的。所以还是引用我对Engram的看法2026 年我们很可能会看到更通用的架构出现:未来的大模型可能是一个“小而精”的推理核心,外挂着一个可随时更新的“大而全”的记忆库。