CANN/ge LLM数据分布交换块API-尧图网络科技

# swap_blocks

【免费下载链接】geGE（Graph Engine）是面向昇腾的图编译器和执行器，提供了计算图优化、多流并行、内存复用和模型下沉等技术手段，加速模型执行效率，减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力，并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

Atlas A3 训练系列产品/Atlas A3 推理系列产品：支持
Atlas A2 推理系列产品：支持
Atlas A2 训练系列产品：不支持

函数功能

对cpu_cache和npu_cache进行换入换出。

对于swap out功能，该接口启用了4个线程执行并行任务；对于swap in功能，该接口启用了1个d2d线程。为了性能稳定，建议进行进程绑核。

swap in功能分为H2D和D2D两个阶段，为了保障性能，该接口申请了4个block大小的buffer用作流水拷贝，所以建议预留出对应的Device内存，防止出现OOM。

函数原型

swap_blocks(src: KvCache, dst: KvCache, src_to_dst: Dict[int, int])

参数说明

参数名称	数据类型	取值说明
src	KvCache	源Cache。
dst	KvCache	目标Cache。
src_to_dst	Dict[int, int]	dict里面内容代表（原始block index，目标block index）

调用示例

from llm_datadist import KvCache ... npu_cache = kv_cache_manager.allocate_blocks_cache(npu_cache_desc, npu_cache_key) cpu_cache = KvCache.create_cpu_cache(cpu_cache_desc, cpu_addrs) # cpu_addrs来自创建的cpu tensors # swap in kv_cache_manager.swap_blocks(cpu_cache, npu_cache, {1:2, 3:4}) # swap out kv_cache_manager.swap_blocks(npu_cache, cpu_cache, {1:2, 3:4})