当前位置: 首页 > news >正文

哈哈哈哈哈打不过我吧,没有办法我(vllm)就是这么强大!

前文智谱GLM太强了coding plan还需要限时抢购咱们自己vllm也咧一个呗在微信公众号平台爆了 接近1w自然阅读文生文已经满足不了博主的分享欲今天记录vllm咧一个文生图模型。在文本生成领域99%的应用都基于自回归模型Autoregressive Models也就是我们熟知的GPT系列、LLaMA等。文本Text是离散的由词元Token组成而图像、视频是连续的像素或信号。扩散模型天生擅长处理连续数据, 文生图和文生视频的是当前扩散模型的主战场。什么是扩散模型diffusion models?使用文生图工具时内部真实发生的“魔法”起点你看到的完全随机的噪声图这相当于前向过程走到了终点。反向去噪第一步模型看着这张纯噪声图结合你的提示词预测出“这张图上现在应该被加上了什么噪声”。然后从当前图片中减去这个预测出的噪声。结果得到一张噪声少了一点点的、略微能看出模糊轮廓的图片。循环往复把上一步得到的、稍微清晰一点的图片作为新的输入再次让模型预测并减去噪声。终点重复几十步后噪声被逐步移除干净一张清晰的、符合你描述的图片就诞生了。这个一步步预测并减去噪声的循环从方向上看是前向加噪的“反向”从动作上看就是在“去噪”。vllm旗下的子项目vllm-omni[1]提供了简单、快速且低成本的多模态模型服务。Z-Image[2]是阿里开源的完整版本、未经蒸馏的的 Transformer 文生图模型 10.26B权重参数 20.55GB GPU显存 专为高质量、强生成多样性、广泛的风格覆盖能力以及精准的提示词遵循而设计。启动推理服务器vllm serve Tongyi-MAI/Z-Image --omni --port 8000 --tensor-parallel-size 2注意 不是原生vllm(对应的docker镜像是vllm-openai[3])带omni参数 而是一个包含omni扩展的多模态vllm (对应的docker镜像是vllm-omni[4])。支持两种接口 都是兼容openai的接口Diffusion Chat Completions API[5] 希望在类似聊天机器人的多模态、多轮对话中集成图像生成能力curl -s http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d { messages: [ {role: user, content: A beautiful landscape painting} ], extra_body: { num_inference_steps: 50, seed: 42 } }Image Generation API[6] 稳定、专注于图像生成输出的二进制图片被base64 编码解码可得图片。curl -X POST http://localhost:8000/v1/images/generations \ -H Content-Type: application/json \ -d { prompt: a dragon laying over the spine of the Green Mountains of Vermont, size: 1024x1024, seed: 42 } | jq -r .data[0].b64_json | base64 -d dragon.png参考资料[1]vllm-omni:https://github.com/vllm-project/vllm-omni[2]Z-Image:https://www.modelscope.cn/models/Tongyi-MAI/Z-Image[3]vllm-openai:https://hub.docker.com/r/vllm/vllm-openai[4]vllm-omni:https://hub.docker.com/r/vllm/vllm-omni[5]Diffusion Chat Completions API:https://docs.vllm.ai/projects/vllm-omni/en/latest/serving/diffusion_chat_api/[6]Image Generation API:https://docs.vllm.ai/projects/vllm-omni/en/latest/serving/image_generation_api/智谱GLM太强了coding plan还需要限时抢购咱们自己vllm也咧一个呗同样都是九年义务教育他知道的AI算力科普好像比我多耶还有比ollama更傻瓜式的大模型本地部署方式吗 我不允许谁还不清楚function call在AI-Agent领域中打手的地位AI编程智能体登味太浓了必须治一治Higress这个中登才是AI时代网关的心头好 开源低门槛龙虾QwenPaw解决你的后顾之忧本文文字原创搁笔常恐意味尽愿闻读者金玉声 ”永久更新“地址见原文。点“赞”戳“在看”
http://www.zskr.cn/news/1340450.html

相关文章:

  • 量子转导技术:微波与光学量子系统的桥梁
  • 2026 金华义乌 GEO 优化服务市场深度研判 本地头部公司技术实力与选型参考 - 企业品牌优选推荐官
  • JaxRobotarium:多智能体强化学习框架与工程实践
  • 【Midjourney范戴克印相终极指南】:20年影像工艺专家首度公开AI胶片化调色黄金参数(含7组不可复制的v6提示词矩阵)
  • 独立开发者如何借助Taotoken的模型广场与透明计费高效选型试错
  • 终极英雄联盟工具箱:LeagueAkari的完整使用指南与实战技巧
  • Python,Go开发民营企业从粗放期到国际化标准化App(附代码)
  • 前 DeepMind 研究员反思:评测,而非算力或数据,才是下一阶段的瓶颈
  • 5个实战技巧:如何将YOLOv8人脸检测模型高效部署到生产环境
  • P3D引擎:面向割草游戏的ECS架构性能优化方案
  • 【Prompt实战】打破“废话生成器”魔咒:结构化提示词(CRISPE框架)编写指南
  • 【限时解密】Midjourney毛发质感生成私藏Prompt库:仅剩87组未公开高保真指令(含犬科/灵长类/昆虫刚毛专用模板)
  • 河南话TTS项目踩坑实录:为什么你的“中”字总发成“zōng”?——基于127小时方言语料的韵律建模纠偏指南
  • 隐私焦虑时代:如何安全地在本地导出浏览器Cookie文件
  • 【Prompt实战】零样本(Zero-shot)与少样本(Few-shot)提示在用例生成中的对比
  • 九成企业担忧内部系统无法跟上高管薪酬管理需求
  • 如何快速掌握ElastiFlow:企业级网络流量监控的终极部署指南
  • 软件开发行业的挑战:如何应对开发人员短缺的问题
  • 郴州市黄金回收实测:5家平台避坑指南 - 小仙贝贝
  • 树突状细胞相关细胞因子的功能及疾病关联
  • 在智能客服场景下利用Taotoken聚合多模型提升响应质量
  • 企业盈利密码,商业模式必读经典书籍推荐
  • 普宁弱视矫正配镜哪家专业|孩子弱视去眼镜店还是医院 - 品牌观察
  • 新手教程使用curl命令快速测试Taotoken平台大模型API连通性
  • SABIC塑料解决方案:宏裕塑胶全面代理原GE塑料高性能材料产品
  • 宏裕塑胶携手沙伯基础创新塑料,打造高端工程塑料解决方案
  • SABIC塑料与宏裕塑胶的卓越合作:高性能材料的行业应用
  • 实战分享:用GDIP-YOLO的‘正则化器’模式,让你的YOLOv3在雾天也能跑出68FPS
  • BLE 蓝牙地址类型详解
  • 在多元市场中的数据角色招聘与面试