原文: Wukong: Towards a Scaling Law for Large-Scale Recommendation
网络结构
参考 LLM 领域 Transformer 的结构设计, 对推荐场景进行了适配。 网络结构如下:

网络主要有多个悟空层堆叠而成。 每个悟空层包括两个模块: FMB和LCB。其中 FMB (Factorization Machine Block) 通过 DeepFM 建模二阶特征交叉, LCB (Linear Compress Block) 则对特征维度进行压缩。
Xi+1=LN(concat(FMBi(Xi),LCBi(Xi))+Xi)
FMB
FMB(Xi)=reshape(MLP(LN(flatten(FM(Xi))))))
其实就是简单的FM。 在实现时, 由于FM的复杂度是O(n2), 在此做了一点优化。 即计算 XXTY 来代替 XXT , 其中, Y是一个 n×k的矩阵。 由于 k<<n , 因此 , 可以先计算 XTY , 再计算 X×XTY。
LCB
LCB(Xi)=WLXi