性能评测
在推理和训练过程中,评测每秒处理的 tokens 及生成延迟
吞吐性能
TTFT首Token延迟
TPOT单个Token生成延迟
QPs每秒处理请求数

*高吞吐量意味着更高效的计算能力,每秒可以生成的tokens数量多少

*用户感受到的从发出请求到第1个token输出的延迟

*生成阶段单个 token 的生成时间,体现了单个用户感受到的生成速度

*每秒可同时处理的请求