大语言模型推理加速之 KV Cache
大模型推理过程大模型的推理可以分为两个阶段:
Prefill: 基于全部Prompt进行前向推理, 得到第一个token。计算密集。
Decoding: 通过自回归方式, 递归输出新的token。内存密集。
由于 Prefill与Dec
2025-02-09
LLM
,
KVCache