当前位置: 首页 > news >正文

【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战

【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战系列定位:「大模型正确学习顺序」12 步系列第 12 步 · 多模态的 ②代码篇。前置阅读:①原理篇 —— VLM 全景 + Multimodal RAG 三大架构。本篇产出:Qwen3-VL-8B 视觉问答上手 + ColQwen2.5 + Qdrant 完整多模态 RAG pipeline + vLLM/SGLang 多模态部署 + LiteLLM Proxy 多模态路由 + 存储优化。🚀 0. 环境准备# 多模态推理引擎pipinstall-Uvllm# vLLM v0.7+ 原生支持 Qwen3-VL / Qwen2.5-VL# ColPali / ColQwen 系列pipinstall-Ucolpali-engine[interpretability]# 官方包pipinstall-Usentence-transformers byaldi# ColPali wrapper# 向量库pipinstallqdrant-client# PDF 处理pipinstallpdf2image PyMuPDF pillow🖼️ 1. Qwen3-VL-8B 5 分钟启动(本地视觉问答)1.1 用 vLLM 启动 Qwen3-VLvllm serve Qwen/Qwen3-VL-8B-Instruct\--host0.0.0.0--port8000\--max-model-len16384\--gpu-memory-utilization0.9\--limit-mm-per-prompt'{"image": 5}'\--enable-prefix-caching关键参数:--limit-mm-per-prompt '{"image": 5}'—— 每个 prompt 最多 5 张图(防 token 爆炸);--enable-prefix-caching—— Veri-Copilot 必开;用 GPTQ-Int4 量化版能进一步减半内存:vllm serve Qwen/Qwen3-VL-8B-Instruct-AWQ\--quantizationawq...1.2 OpenAI 协议调用(传图)importbase64fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="EMPTY")# 读图为 base64withopen("axi4_timing_diagram.png","rb")asf:img_b64=base64.b64encode(f.read()).decode()resp=client.chat.completions.create(model="Qwen/Qwen3-VL-8B-Instruct",messages=[{"role":"user","content":[{"type":"image_url","image_url":{"url":f"data:image/png;base64,{img_b64}"}},{"type":"text","text":"请描述这张时序图。AWVALID 拉高后,AWREADY 最多可以延迟几个时钟周期?"},],}],)print(resp.choices[0].message.content)实测:RTX 4090,Qwen3-VL-8B,一张时序图 + 简短问题 → ~2 秒返回回答。🧬 2. ColQwen2.5 部署:Page-as-Image 多模态检索2.1 加载 ColQwen2.5 模型# embed_pages.pyimporttorchfromcolpali_engine.modelsimportColQwen2_5,ColQwen2_5_Processor device="cuda"iftorch.cuda.is_available()else"cpu"# 加载 ColQwen2.5(基于 Qwen2.5-VL)model=ColQwen2_5.from_pretrained("vidore/colqwen2.5-v0.2",torch_dtype=torch.bfloat16,device_map=device,).eval()processor=ColQwen2_5_Processor.from_pretrained("vidore/colqwen2.5-v0.2")2.2 PDF → 多 patch embeddings# index_pdf.pyfrompdf2imageimportconvert_from_pathimporttorchdefindex_pdf(pdf_path:str,page_dpi:int=200):# === 1) PDF → 图像列表 ===images=convert_from_path(pdf_path,dpi=page_dpi)# PIL Imagesprint(f"PDF has{
http://www.zskr.cn/news/1340890.html

相关文章:

  • CANN/cannbot-skills Triton算子草图设计
  • CANN/Ascend C:批处理矩阵乘法临时缓冲区大小计算
  • DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction代码详解-2
  • CANN/asc-devkit矩阵计算SetFixSplit
  • Pandora.js与PM2对比分析:哪个更适合你的Node.js应用管理?
  • CANN/ops-tensor矩阵乘Kernel框架
  • 如何5分钟掌握ZeroOmega:浏览器代理智能切换的终极指南
  • 异常处理函数在WebShell免杀中的实战应用:绕过安全检测的终极指南
  • Carnac键盘操作可视化工具:让每个按键都清晰可见的终极方案
  • 【车辆】基于110cc全地形车平台设计的自主无人地面车辆GPS 航路点导航、纯追踪路径跟踪、越野自动驾驶功能附matlab代码
  • qb-web测试策略:Jest单元测试与Vue组件测试最佳实践
  • GLM-4V-9B性能优化技巧:提升推理速度、降低显存占用的5种方法
  • DistroAV终极指南:如何在OBS Studio中实现专业级NDI视频流传输
  • Lawnicons疑难解答:常见问题与解决方案大全
  • 《Sysinternals实战指南》ListDLLs Handle 学习笔记(8.11):谁注入了 DLL?谁占着文件不放?一篇教你全搞定
  • Pitest实战教程:从零构建完整的变异测试流程 - Java代码质量的终极守护者
  • Agent 一接骨架屏页面就开始误判完成态:从 Skeleton Claim 到 Ready State Proof 的工程实战
  • 2026亲测:专业降AIGC平台TOP1推荐
  • clawPDF命令行操作:10个实用技巧实现批量PDF处理
  • 在线去除视频水印用什么工具?2026 免费工具推荐及实测对比 - 科技热点发布
  • 抖音视频怎样去水印?2026 抖音去水印方法全解析,免费在线工具实测对比 - 科技热点发布
  • 10个Elog实用技巧:让你的博客管理效率翻倍
  • Emacs-which-key排序与分页功能详解:高效管理大量快捷键的完整指南
  • R3nzSkin国服特供版:英雄联盟免费换肤工具完整使用指南
  • 2026年免费去水印在线工具推荐|去水印工具哪个最好用?实测对比 - 科技热点发布
  • WZLBadge高级定制:从颜色位置到字体半径的完全自定义
  • 豆包生成的流程图怎么导出
  • SWOT分析是什么
  • NestJS、Spring Cloud、FastAPI、Django 深度对比分析报告
  • CANN/asc-devkit原子或操作API