当前位置：首页 > news >正文

腾讯模型广场DeepSeek 这种热门模型：腾讯云有自己部署，其它小厂第三方模型（百川、智谱等）：走对方 API 转发

news 2026/5/28 23:04:16

估计腾讯这些第三方的模型全是免费的？自已建了服务器来处理？

搜索 3 个关键词，参考 18 篇资料

先把结论讲清楚：不是免费、不是腾讯自己 “建服务器处理所有第三方模型”，也不是白嫖 DeepSeek。

下面分三块说（结合 2026-05 最新情况）：

一、QQ / TokenHub 上的第三方模型（如 deepseek-v4-flash）是怎么跑的？

腾讯这边是混合模式：

DeepSeek 这种热门模型：腾讯云有自己部署（自建服务器）
- 腾讯云 TI-ONE / TokenHub 上，DeepSeek 系列是腾讯自己买卡、自己搭 GPU 集群部署的。
- 用的是腾讯云自己的 H800 / H20 服务器，不是调用 DeepSeek 官网 API。
- 但：模型本身不是腾讯 “自己开发”，是 DeepSeek 开源 / 授权，腾讯本地私有化部署。
其它小厂第三方模型（百川、智谱等）：走对方 API 转发
- 腾讯只是做聚合平台，你发请求 → 腾讯 → 转发给百川 / 智谱 API → 结果返回给你。
- 这种腾讯不自建服务器跑模型，只是通道。

一句话：

DeepSeek、混元：腾讯自己服务器跑
其它第三方：大多是转发别人 API

二、是不是 “免费”？——绝对不是免费，只是便宜

你看到 “便宜 / 好像不扣钱”，原因是：

deepseek-v4-flash 本身定价极低（2026-05）
- 输入（未命中缓存）：1 元 / 百万 token
- 输入（命中 KV 缓存）：0.02 元 / 百万 token（几乎等于不要钱）
- 输出：2 元 / 百万 token→ 你单轮短问题，一次就几十个 token，一次几分钱甚至几厘钱，账单上几乎无感。
QQ/TokenHub 给新用户有免费额度
- 新号有几十万–几百万免费 token，你前期用着感觉 “不扣钱”。
- 额度用完，照样按量计费，只是单价低。
你 VB6 每次都是独立单轮请求 + 加了 prompt_cache_key
- 很容易命中KV 前缀缓存→输入 0.02 元 / 百万，便宜到你以为免费。

但本质：

没有 “永久免费”
没有 “不扣 token”
没有 “腾讯自己随便跑不花钱”
腾讯自己部署 DeepSeek要花巨额 GPU 服务器成本，不可能白给你用。

三、你关心的：为什么每次都要连 deepseek-v4-flash，不能直接返回缓存？

关键点要区分：

平台 KV 缓存（你现在用的）
- 作用：同一个前缀，不用重复计算 encoder，省算力、降输入费用
- 限制：必须走模型推理、必须计费（哪怕极便宜）、不能直接返回旧答案
- 它是推理加速缓存，不是 “问答结果缓存”
你想要的 “同问题直接返回答案、0 token”
- 腾讯平台本身不提供
- 只能：你自己在 VB6 做一层 “问题→答案” 本地缓存（内存 / 文件）
- 流程：
  - 查本地缓存 → 有 → 直接返回（0 token、不碰 deepseek）
  - 无 → 发请求 → 存缓存 → 返回

四、一句话总结（直接回答你原问题）

第三方模型不是免费：deepseek-v4-flash 便宜到几乎无感，但按量计费，不是白嫖。
腾讯自建服务器：对 DeepSeek 这种主力模型，腾讯自己买 GPU 部署，不是转发官网 API。
但腾讯不是 “自己开发”：是拿 DeepSeek 模型，自己私有化部署。
平台没有 “0 token 结果缓存”：只有便宜的 KV 输入缓存；想完全不扣 token，只能你自己 VB6 做本地结果缓存。

如果你愿意，我可以把VB6 本地缓存（内存 + 文件持久化）直接写成一个完整模块，你直接复制就能用，同问题永远 0 token、不走 deepseek。要不要？

deepseek-v4-flash 本身定价极低（2026-05）输入（未命中缓存）：1 元 / 百万 token？那免费100万其实只是送了你一元钱？

搜索 2 个关键词，参考 12 篇资料

可以这么理解，但要把账算得更细一点（按 2026-05 国内公开价）：

1. DeepSeek‑V4‑Flash 官方定价（人民币）

输入（未命中缓存）：1 元 / 百万 token
输入（命中 KV 缓存）：0.02 元 / 百万 token
输出：2 元 / 百万 token

2. QQ/TokenHub 新用户免费额度

DeepSeek‑V4‑Flash：100 万 token（输入 + 输出合计），有效期 90 天

3. 你的疑问：“免费 100 万 = 只送 1 元？”

如果你全是输入、且从不命中缓存：
- 100 万输入 × 1 元 / 百万 =1 元
但实际使用一定会有：
- 输出 token（2 元 / 百万）
- 命中缓存的输入（0.02 元 / 百万）

举个典型例子（单轮短问答）：

输入：100 token → 0.0001 元
输出：300 token → 0.0006 元
一次合计：0.0007 元

100 万免费额度，按这种比例用，大概能跑几千到几万次，总价值远不止 1 元，因为大头是输出。

4. 结论

纯 “未命中缓存的输入” 维度：100 万 ≈ 1 元，你这个理解是对的。
实际使用（有输出、有缓存命中）：100 万额度的实际价值大概在 2～3 元左右，但因为每次扣费都是 “厘” 级，体感几乎等于免费。
平台本质：不是送你 1 元钱，而是送你 100 万 token 的调用额度，单价极低，用完再按量计费。

要不要我帮你做一个 “每次调用大概花多少钱、100 万能用多少次” 的速算表，你以后心里有数？

http://www.zskr.cn/news/1417283.html

相关文章：

2026宁波卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房渗漏本地专业防水公司TOP5权威推荐（2026年6月本地最新深度调研） - 防水百科

如何利用iret修改cs ip

别再只存.pt了！PyTorch模型转ONNX并用Netron可视化的保姆级避坑指南

别再手动拖拽了！用Qt的QSplitter实现可拖拽布局，5分钟搞定专业级UI

Java开发实战：构建高效、可维护的Web应用

【C++】零基础入门 · 第 9 节：动态内存管理（new 与 delete）

CAXA 样式管理

2026年东莞防水袋厂家推荐排行榜：手机/相机/PVC/TPU/沙滩防水袋品牌优选与高防护耐用 - 品牌企业推荐师（官方）

意图共鸣科技《认知智能白皮书》——认知架构（CA）：把“价值观”写进独立模块的工程推演

ATtiny13A驱动LED模拟火焰：超低功耗复古油灯改造全流程

从0到日均10万请求：某金融客户DeepSeek+阿里云ACK集群灰度上线全过程（含自动扩缩容策略与SLA保障机制）

科目三方法论--单点突破法

基于Arduino的声控房间自动化系统与POV状态显示器制作指南

保姆级避坑指南：在Ubuntu 18.04上搞定LeGO-LOAM与KITTI数据集（含话题不匹配、编译失败等常见问题解决）

应对负面人际干扰的理性策略

C# WinForm 数据库增删改查超级完整版

164、运动控制中的测试：带宽与稳定性分析

图解人工智能（40）人工智能应用-AI美颜

基于Arduino与红外遥控的智能语音鱼改造：嵌入式系统综合实践

MKS RPS AX7657-85 故障分析与可能解决方案

别再乱改grub了！保姆级教程：用tuned在CentOS 7/8上优雅隔离CPU核心（附实时性调优配置）

基于RP2040的硬件定义与软件定义CPU融合设计实践

2026年国产多参数水质分析仪十大品牌深度排名：技术实力、行业渗透率与服务能力全景解析 - 液体流量液位品牌推荐

windows上的codex安装后无法使用应用内的浏览器

监控局域网的软件有哪些？实用PC端大盘点！企业都在用

百度竞价代运营网络推广哪家强？2026年靠谱服务商排名与选型指南 - GEO优化

CAXA 尺寸驱动

从0到63%：Gemini企业客户30日留存跃迁路径（含Prompt工程×会话记忆×状态持久化三重加固）

2026权威实测：16款降AIGC软件横评，论文安全过关就靠它！

硬件工程师别只懂技术，职场思维同样重要