当前位置: 首页 > news >正文

【SGlang】sglang部署本地模型

官网

https://docs.sglang.ai/get_started/install.html

使用多模态模型命令

--enable-multimodal

设置启动服务后模型的名字

--served-model-name Qwen3-VL-8B-Thinking

docker启动模型(使用已下载好的模型文件)

docker run--name 20251117_sglang_Qwen3-VL-4B-Thinking--gpusall--shm-size 20g-p30000:30000-v D:\docker_data\sglang:/root/.cache/huggingface--ipc=host lmsysorg/sglang:v0.5.5.post1-cu129-amd64 python3-m sglang.launch_server--model-path/root/.cache/huggingface/hub/models/Qwen/Qwen3-VL-4B-Thinking--served-model-name Qwen/Qwen3-VL-4B-Thinking--mem-fraction-static0.9--quantization fp8--dtype float16--host0.0.0.0--port30000

分配用于kv缓存占总显存的比例

--mem-fraction-static 0.8

分配GPU显存80%给kv缓存使用,默认值0.8,当显存不足时,需要降低给kv分配的kv缓存

设置用于模型执行器的GPU内存比例

--gpu-memory-utilization 0.85

设置上下文长度

--context-length 1010000

设置内存池最大token数,会显著改变显存占用

--max-total-tokens 20000

分配20g内存给模型使用

--shm-size 20g

模型地址

--model-path Qwen/Qwen3-VL-8B-Thinking

此地址实际的位置是docker容器内部的以下地址,此处用的modelscope,huggingface有同样的目录结构

/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Thinking


在本地挂载的地址

模型使用8bit量化

--quantization fp8

模型运行时使用float16精度运行

--dtype float16

设置模型名字

自定义服务启动后的模型名字为Qwen/Qwen3-VL-4B-Thinking

--served-model-name Qwen/Qwen3-VL-4B-Thinking

设置显存碎片可连续

-e PYTORCH_ALLOC_CONF=expandable_segments:True

本地文件目录结构

其他参数查询

启动一个空容器

添加tail -f /dev/null

docker run--name 20251118_sglang_Qwen3-VL-4B-Thinking--gpusall--shm-size 20g-p30000:30000-v D:\docker_data\sglang:/root/.cache/huggingface--ipc=host lmsysorg/sglang:v0.5.5.post1-cu129-amd64 tail-f/dev/null

进入容器内部执行命令

dockerexec-it 20251118_sglang_Qwen3-VL-4B-Thinking/bin/bash

查看命令参数

python-m sglang.launch_server-help


或者访问sglang官方网站查看

https://docs.sglang.io/advanced_features/server_arguments.html

官网查询其他详细参数

https://docs.sglang.io/advanced_features/server_arguments.html

cpu卸载

直接参数卸载

将多少GB的模型权重卸载到cpu中

--cpu-offload-gb

分组卸载

将模型权重多少层分为一组

--offload-group-size

每组卸载多少层到cpu中

--offload-num-in-group
http://www.zskr.cn/news/1444133.html

相关文章:

  • 靠谱的钢制拖链厂家推荐 - myqiye
  • 百度网盘API离线下载架构解析:Python自动化磁力链接转存实践
  • 小米手机后台堆叠功能上线,多任务切换效率翻倍
  • 冷风机好用吗?利邦机电告诉你! - myqiye
  • C++中的命名空间详细介绍
  • 2026南通老房瓷砖空鼓修复企业推荐 八大区靠谱修缮团队汇总 - 吉修匠
  • 终极窗口强制调整工具:3分钟掌握任意窗口尺寸修改技巧
  • VisualCppRedist AIO深度解析:一站式自动化部署的技术实现与架构剖析
  • 别再只会生成黑白方块了!用Python的qrcode库给你的二维码换个皮肤(附完整代码)
  • 2026立式食品包装机技术解析:立式粉料包装机/立式粉末包装机/立式酱料包装机/立式零食包装机/立式颗粒包装机/选择指南 - 优质品牌商家
  • DMA控制器原理
  • 2026南通厨卫瓷砖空鼓翘边维修机构排名 八大区正规服务商精选 - 吉修匠
  • 2026年推荐:瘦身期亚麻籽油美味吃法靠谱吗 - mypinpai
  • 光电效应实验避坑指南:暗电流、本底电流和遏止电压到底怎么测才准?
  • 从光敏电阻到C51单片机:激光竖琴DIY实战与嵌入式开发入门
  • 2026年好用的男士假发公司排行榜,怎么选? - mypinpai
  • 2026 无锡各区瓷砖翘边松动维修实力排行 正规修缮企业综合测评 - 吉修匠
  • 全域视觉破壁新生 跨镜轨迹永续构筑智慧安防新生态技术解析方案
  • Unity 2022.3 LTS 实战:用LineRenderer 5分钟搞定游戏里的闪电链特效(附完整C#脚本)
  • 2026年年度排名,广告展示材料器材口碑好的品牌推荐 - mypinpai
  • YOLOv8工地运输车识别检测系统(项目源码+YOLO数据集+模型权重+UI界面+python+深度学习+环境配置)
  • Seraphine:英雄联盟玩家的智能决策伙伴,让每一局游戏都更胜一筹
  • 从阿克曼转向到状态方程:手把手推导自动驾驶中的二自由度车辆模型(附Python代码)
  • 2026广州家庭搬家靠谱选择:广州人人搬屋/广州仓库搬迁/广州别墅搬家/广州天河搬家/广州家庭搬家/广州小型搬家/选择指南 - 优质品牌商家
  • 万字长文!深入剖析现代浏览器渲染引擎在处理 CSS Grid 响应式布局时的重绘重排损耗
  • 拒绝无效 Todo 列表,用 Tasks 系统搞定多 Agent 协同开发
  • LIWC-Python 终极指南:用Python解锁文本心理学的秘密
  • 5大维度深度解析OneMore:重塑OneNote生产力的开源插件
  • 用74HC595驱动4位数码管:3个引脚实现32段显示的动态扫描方案
  • 基于GSR与PPG传感器的嵌入式生理信号检测系统开发实践