# 20.大模型推理加速

PagedAttention技术

技术细节可以参考文章图解大模型计算加速系列之：vLLM核心技术PagedAttention原理 (opens new window)

← 19.GPU 进阶笔记 21.Centos安装cuda和docker等工具 →

Apache License 2.0 | Copyright © 2022 by xueliang.wu 苏ICP备15016087号