当前位置：首页 > news >正文

DeepSeek-R1-0528：8B模型刷新AIME数学推理纪录

news 2026/6/11 15:17:04

DeepSeek-R1-0528：8B模型刷新AIME数学推理纪录

【免费下载链接】DeepSeek-R1-0528-Qwen3-8B项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

深度求索（DeepSeek）最新发布的DeepSeek-R1-0528-Qwen3-8B模型在数学推理领域取得重大突破，以86%的准确率刷新AIME 2024测试集的开源模型纪录，展现了小参数模型在复杂推理任务上的突破性进展。

近年来，大语言模型在数学推理领域的竞争日趋激烈，AIME（美国数学邀请赛）作为衡量高阶问题解决能力的权威基准，已成为检验模型推理深度的重要指标。随着模型参数规模不断攀升，行业普遍认为千亿级参数是实现高精度数学推理的门槛。然而，DeepSeek-R1-0528-Qwen3-8B的出现，以80亿参数规模打破了这一认知，标志着小模型通过优化推理路径和知识蒸馏技术，正在重塑大语言模型的性能边界。

该模型通过从DeepSeek-R1-0528大模型中蒸馏推理链（Chain-of-Thought），在多个权威基准测试中表现抢眼。在AIME 2024测试中，其准确率达到86%，不仅超越Qwen3-8B基础模型10个百分点，更与Qwen3-235B-thinking的性能持平。在AIME 2025测试集上，该模型同样取得76.3%的成绩，大幅领先同量级开源模型。这种"小参数、高性能"的特性，使得在边缘设备部署高精度数学推理能力成为可能，显著降低了工业应用的硬件门槛。

这张对比图表清晰展示了DeepSeek-R1-0528-Qwen3-8B（橙色柱状）与Qwen3系列、Phi-4、Gemini等模型在六项关键任务中的性能差异。特别值得注意的是，在AIME 2024任务中，8B小模型的表现不仅超越了同量级竞品，更接近甚至达到了部分千亿级模型的水平，直观呈现了推理链蒸馏技术的有效性。

除数学推理外，该模型在代码生成和逻辑推理方面也有显著提升。在LiveCodeBench（2408-2505）编程基准测试中获得60.5%的通过率，HMMT 2025数学竞赛测试集准确率达61.5%，综合能力均衡发展。模型架构与Qwen3-8B保持一致，同时采用DeepSeek-R1-0528的分词器配置，兼顾了部署兼容性和推理效率，开发者可通过Hugging Face Transformers库实现本地部署。

DeepSeek-R1-0528-Qwen3-8B的突破印证了"知识蒸馏+推理优化"路线的可行性，为小模型高性能化提供了新范式。这种技术路径不仅降低了AI系统的部署成本，更推动数学推理能力向教育、科研等领域普及。随着推理链质量的持续提升，未来8B量级模型有望在更多专业领域挑战大模型地位，加速人工智能技术的普惠化进程。

【免费下载链接】DeepSeek-R1-0528-Qwen3-8B项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.zskr.cn/news/161182.html