当前位置: 首页 > news >正文

vLLM框架本地布署Qwen3-32B模型 - yi

vLLM框架本地布署Qwen3-32B模型


先Conda虚拟环境创建,这里不再讲了,前面讲过。
激活环境
conda activate vllm_numpy_pytorch

 

 

下载完整模型库
modelscope download --model Qwen/Qwen3-32B

默认下载到: /home/admin1/.cache/modelscope/hub/models/

 


将vLLM服务启动命令修改为提供标准 OpenAI API 接口的形式

python3 -m vllm.entrypoints.openai.api_server \
--model /home/admin1/.cache/modelscope/hub/models/Qwen/Qwen3-32B \
--port 8018 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.7 \
--swap-space 16 \
--served-model-name Qwen3-32B \
--host 0.0.0.0 \
--trust-remote-code \
--max-model-len 8192

 

测试调用

curl -X POST "http://localhost:8018/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-32B",
"messages": [{"role": "user", "content": "介绍下杭州"}]
}'

 

903a4b5ac47eec17965f74d5ac1c26f3

 

http://www.zskr.cn/news/1841.html

相关文章:

  • 项目管理软件中有哪些不同的模块以及如何导出其报告?
  • Kubernetes命名空间(Namespace)
  • Microsoft 推出 .NET 10 RC 1
  • 高等代数 I
  • kotlin中的netty
  • flutter右滑返回直接返回到native问题
  • 如何用变量与函数实现随机生成数字交互?附完整教程
  • Linux系统简单源码安装NGINX版本1.28.0
  • 【项目实战】基于i.MX8M Plus的人工智能小车(AGV导航、视觉避障、自动跟随、颜色识别、防跌落)有教程代码
  • unity TimeLine SignalTrack
  • 根据端口找到进程id
  • 双因子验证网站(aspsms.com/en/registration/)无法注册——Capcha Error
  • mysql导入数据库,从基础命令到高效技巧
  • 基于“北斗+卫星互联网”的低空飞行服务保障基础设施
  • CVE-2025-30208 Vite开发服务器任意文件读取漏洞
  • Claude Code 从入门到精通:最全配置指南和工具推荐
  • 利用python开发的一款日志自动查找复制小工具
  • stress-ng压测CPU内存
  • 答案
  • datadome OfflineAudioContext
  • sentinel-1.8.0 安装
  • 数据结构与算法-27.树-并查集
  • wpf XAML设计器在加载用户控件的时候,提示null引用等直接执行了用户控件里构造函数代码的问题
  • Linux中怎么调整系统inode数量?
  • 【项目实战】基于WS63的鸿蒙星闪红外遥控车(循迹、超声波避障、远程控制、星闪/红外遥控)有教程代码
  • macbook pro怎么安装windows系统
  • XSS与CSRF的联系与区别
  • 异或
  • macbook pro如何安装windows系统
  • 【ACM出版】第四届公共管理、数字经济与互联网技术国际学术会议(ICPDI 2025)