击壤而歌

LLM

大语言模型推理加速之 KV Cache

大模型推理过程大模型的推理可以分为两个阶段: Prefill: 基于全部Prompt进行前向推理，得到第一个token。计算密集。 Decoding: 通过自回归方式，递归输出新的token。内存密集。由于 Prefill与Dec

2025-02-09 LLM ， KVCache

大语言模型原理之 DPO 算法

2023年5月，由Standford在论文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model 中提出。作为Reinforceme

2025-02-07 DPO ， RLHF ， LLM ， Direct Preference Optimization