当前位置: 首页 > news >正文

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro基准测试中的表现分析

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro基准测试中的表现分析

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled是Qwen3.6-35B-A3B的推理蒸馏变体,旨在模仿Anthropic的前沿推理模型Claude Opus 4.7的思维链风格。该模型的目标是将Claude级别的推理行为移植到一个允许个人实际运行的宽松许可的混合专家模型中。

模型概述:为什么选择这款推理模型?

这款模型具有以下显著特点:

  • Claude风格推理,开放权重:Claude Opus 4.7是目前可用的最强推理模型之一,但只能通过专有API使用。此模型在约8k高质量推理轨迹上进行了微调,这些轨迹由Opus 4.7生成,教导基础模型在回答前"思考"——使用明确的</think>…</think>块——采用Claude的结构和节奏。

  • 稀疏激活,密集知识:基础模型是一个35B参数的MoE(混合专家模型),具有256个专家,8个路由专家+1个共享专家,每个令牌仅激活约3B参数。您可以以小型密集模型的推理成本获得35B模型的容量。全质量bf16推理可在单个80GB A100或H100上运行。

  • 支持长思考:64k令牌上下文。该模型通常在给出最终答案之前,会在难题上发出5–30k令牌的</think>推理——这是推理模型的全部意义所在,也是为什么这个模型专门使用同样明确推理的上游教师进行端到端训练的原因。

GSM8K和MMLU-Pro基准测试表现

评估方法

该模型通过lm-evaluation-harness(v0.4.9)进行评估,使用vLLM后端,上下文为64k,采用bf16精度。自定义评估路径在过滤管道之前从生成中剥离<RichMediaReference>…superscript:,使用每个任务的常规fewshot计数,并设置fewshot_as_multiturn=True,因此few-shot示例是适当的聊天轮次,而不是连接的提示文本。原始结果JSON是公开的:lordx64/qwen3-6-distill-evals。

核心基准测试结果

基准测试设置分数
GSM8K CoT8-shot multiturn, limit 30084.3%(flexible-extract) / 76.7% (strict-match)
MMLU-Pro5-shot multiturn, limit 50074.9%

GSM8K(Grade School Math 8K)是一个包含8000多个小学数学问题的数据集,专门用于测试模型的多步推理能力。该模型在GSM8K上的灵活提取分数达到84.3%,严格匹配分数为76.7%,展示了其强大的数学推理能力。

MMLU-Pro(Massive Multitask Language Understanding Professional)是一个更具挑战性的基准测试,包含多个学科的专业级问题。该模型在MMLU-Pro上获得了74.9%的分数,表明其在广泛知识领域的推理能力。

MMLU-Pro各学科细分表现

标准推理模型特征:STEM(科学、技术、工程、数学)领域表现强劲,法律/工程领域相对较弱。所有学科均以limit 500、5-shot multiturn进行评估。

学科准确率学科准确率
生物学86.0%化学78.8%
心理学83.4%健康73.8%
数学83.6%商业74.4%
经济学83.0%其他72.6%
物理学81.0%哲学71.3%
计算机科学79.0%历史70.9%
工程学54.8%
法学55.6%

从细分数据可以看出,该模型在生物学(86.0%)、数学(83.6%)和经济学(83.0%)等学科表现尤为突出,而在工程学(54.8%)和法学(55.6%)方面还有提升空间。

如何使用该模型进行推理任务

Python代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer import torch repo = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled" tok = AutoTokenizer.from_pretrained(repo) model = AutoModelForCausalLM.from_pretrained( repo, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True, ) messages = [{"role": "user", "content": "How many positive integers less than 1000 have digits that sum to 20?"}] inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) out = model.generate(inputs, max_new_tokens=32768, do_sample=False) print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

使用vLLM服务

推荐后端:vLLM用于服务——MoE路由+KV缓存从连续批处理中显著受益。

vllm serve lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \ --dtype bfloat16 --max-model-len 65536 --gpu-memory-utilization 0.9

GGUF格式(LM Studio / llama.cpp)

量化的GGUF权重可用于llama.cpp和LM Studio:

  • IQ4_XS(18.9 GB) — 最小,LM Studio的默认选择
  • Q5_K_M(~25 GB) — 平衡质量/大小
  • Q8_0(~35 GB) — 近乎无损

模型局限性

尽管Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在推理任务中表现出色,但仍有一些局限性需要注意:

  • 推理≠知识:蒸馏转移的是"如何推理",而不是新知识。基础Qwen3.6-35B-A3B不知道的任何信息,这个模型仍然不知道。

  • 仅注意力LoRA:专家FFN与基础模型保持一致——Claude和Qwen3.6在事实先验方面存在分歧的领域可能会看到不均衡的改进。

  • 长生成:模型确实会在难题上使用数万个令牌。相应地规划您的max_new_tokens,并在推理时提供max_model_len ≥ 32k

  • 蒸馏来源:训练数据是通过API使用Anthropic的Claude Opus 4.7生成的。下游用户应确认其特定用例是否符合Anthropic的使用政策。

总结

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro等关键推理基准测试中表现出色,展示了其作为开源推理模型的强大能力。84.3%的GSM8K灵活提取分数和74.9%的MMLU-Pro分数证明了该模型成功移植了Claude Opus 4.7的推理风格。

对于需要强大推理能力的应用场景,如研究生级STEM问题、竞赛数学、代码推理和多步逻辑谜题,该模型提供了一个高性能且可访问的解决方案。通过稀疏激活的MoE架构,它在保持高推理能力的同时,降低了计算资源需求,使个人研究者和开发者也能使用这一先进模型。

随着后续版本可能加入专家LoRA等改进,我们有理由期待该模型在工程学和法学等当前较弱领域的表现也将得到提升,进一步扩展其在各知识领域的推理能力。

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.zskr.cn/news/1418809.html

相关文章:

  • 如何永久保存微信聊天记录并生成年度报告:WeChatMsg完整指南
  • JADE算法:基于DTW的鲁棒瞬时频率估计技术解析
  • 2026年加强型地坪铠装缝/金属铠装缝/铠装缝长期合作厂家推荐 - 行业平台推荐
  • MindIE/FramePack模型权重管理:HuggingFace模型下载与配置完整指南
  • 2026年性价比高的铠甲缝变形缝/铠甲缝横向对比厂家推荐 - 品牌宣传支持者
  • 2026年热门的江西动力锂离子电池负极材料/江西锂离子电池负极材料/江西储能锂离子电池负极材料/快充锂离子电池负极材料推荐厂家精选 - 品牌宣传支持者
  • Scenema Audio 零样本语音克隆教程:10 秒参考音频实现完美声线转移
  • 从LEF到NDM:给后端新手的Innovus和ICC2数据准备入门指南(7nm实战)
  • Qt多线程实战:用moveToThread给界面‘减负’,实现一个后台日志分析工具(Qt5/C++)
  • 三菱PLC软元件 定时器 计数器 状态继电器 编码器
  • 革命性零样本分类模型deberta-v3-base-zeroshot-v1.1-all-33:33个数据集训练的终极文本分类解决方案
  • MindSpeed-LLM数据预处理教程:高效准备Qwen3-0.6B训练数据集的完整指南
  • Irodori-TTS-500M-v3进阶应用:创建个性化日语语音助手的完整流程
  • FreeRTOS Tickless模式实战:在STM32F103上实测功耗能降多少?(附代码)
  • 2026年靠谱的成都隧道灯/成都办公灯定制加工厂家推荐 - 品牌宣传支持者
  • 如何用Illustrious XL v0.1生成专业级插画?完整入门教程
  • 2026年4月评价好的真空螺旋干燥机厂家哪家好,闪蒸干燥机/干燥设备/真空螺旋干燥机,真空螺旋干燥机厂家选哪家 - 品牌推荐师
  • DeBERTa-v3-base-mnli-fever-anli模型训练秘籍:76万NLI数据如何打造顶级分类器
  • 别再只做教程了!so-vits-svc 4.1 模型训练后,用 Studio One 进行专业级人声混音与后期全流程
  • talkie-1930-13b-it:革命性复古语言模型的完整指南
  • 2026年4月国内热门的海外营销企业推荐,市面上海外营销公司哪个好,海外营销技术支持,保障营销顺畅 - 品牌推荐师
  • 深入UEFI内存管理:图解HOB List如何为DXE阶段‘铺好路’
  • Linux服务器网络排障利器:networkctl status命令的10个实战用法与解读
  • REAP剪枝原理详解:路由门值与专家激活范数的巧妙结合
  • MindSpeed-LLM框架深度解析:华为昇腾AI生态的大语言模型加速方案
  • 别死记硬背!用一个“猜数字”游戏,掌握库函数的学习方法
  • 鼎捷Tiptop ERP T100/GP 5.3版本Webservice接口开发:从零到部署的完整避坑指南(含SoapUI测试)
  • Sora 2动效渲染瓶颈全拆解:从GPU管线调度到CSS Layering的12ms响应达标实操指南
  • AI赋能社交:从算法匹配到动态理解与主动赋能的约会新范式
  • 告别ifconfig!用networkctl命令优雅管理你的Linux网络(systemd-networkd实战)