Automatic Prefix Caching
https://docs.vllm.ai/en/latest/features/automatic_prefix_caching.html
如果每次query都有相同的前缀,那么启用这个参数将获得极大的推理时间收益:
bash展开代码enable_prefix_caching=True
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!