原文: Wukong: Towards a Scaling Law for Large-Scale Recommendation

网络结构

参考 LLM 领域 Transformer 的结构设计, 对推荐场景进行了适配。 网络结构如下:

网络主要有多个悟空层堆叠而成。 每个悟空层包括两个模块: FMB和LCB。其中 FMB (Factorization Machine Block) 通过 DeepFM 建模二阶特征交叉, LCB (Linear Compress Block) 则对特征维度进行压缩。

Xi+1=LN(concat(FMBi(Xi),LCBi(Xi))+Xi)X_{i+1} = \text{LN}(\text{concat}(FMB_i(X_i), LCB_i(X_i)) + X_i)

FMB

FMB(Xi)=reshape(MLP(LN(flatten(FM(Xi))))))\operatorname{FMB}(X_i) = \operatorname{reshape}(\operatorname{MLP}(\operatorname{LN}(\operatorname{flatten}(\operatorname{FM}(X_i))))))

其实就是简单的FM。 在实现时, 由于FM的复杂度是O(n2)O(n^2), 在此做了一点优化。 即计算 XXTYXX^T Y 来代替 XXTXX^T , 其中, YY是一个 n×kn \times k的矩阵。 由于 k<<nk << n , 因此 , 可以先计算 XTYX^T Y , 再计算 X×XTYX \times X^TY

LCB

LCB(Xi)=WLXiLCB(X_i) = WLX_i