【大模型学习】主流大模型统计
文章目录
- 文本生成大模型
- 1. OpenAI
- 2. claude
- 3. Gemini
- 4. Qwen
- Qwen第一代
- Qwen2
- Qwen2.5
- Qwen3
- 5. Kimi
- 6. DeepSeek
- 7. Llama系列
- 8. Mistral AI(欧洲最强)
- 9. xAI(马斯克)
- 10. 百川智能(Baichuan AI)
- 11. Zhipu AI(智谱AI / GLM)
- 12. MiniMax(国内)
- 最新模型(2026年6月8日08:53:06)
- VL多模态大模型
- 语音识别大模型
- 语音合成大模型
文本生成大模型
1. OpenAI
| 时期 | 模型 | 是否开源 |
|---|---|---|
| 2019 | GPT-2 | 部分开放,后来开源 |
| 2020 | GPT-3 | 闭源 |
| 2022 | GPT-3.5 | 闭源 |
| 2023 | GPT-4 | 闭源 |
| 2024 | GPT-4o | 闭源 |
| 2025-2026 | GPT-5 系列 | 闭源 |
从2019年之后,多数语音生成大模型均为闭源模型
2. claude
Claude 是由 Anthropic 公司开发的大语言模型系列。Authropic成立于2021年,总部位于美国旧金山,创始团队中不少成员来自OpenAI,包括其CEO与总裁。
Anthropic的核心方向是:
- 大语言模型
- AI安全
- 可解释性研究
- 企业级AI应用
目前的主流模型:
| 模型 | 定位 | 特点 |
|---|---|---|
| Claude 4 Opus | 旗舰模型 | 最强推理、复杂Agent、多步规划 |
| Claude 4 Sonnet | 主力模型 | 性能与成本平衡,目前最流行 |
| Claude 3.5 Sonnet | 上代经典 | 仍有大量企业在使用 |
| Claude 3 Haiku | 轻量模型 | 低成本、低延迟 |
其特点是大型项目代码理解能力强,上下文管理能力非常受欢迎。
3. Gemini
Gemini 是 Google 的大模型家族,由 Google DeepMind开发,它可以理解和生成文本、图片、音频、视频、代码等多种模态内容,是 Google 对标 GPT 和 Claude 的核心 AI 产品。
Claude 擅长代码和长文档,GPT 擅长综合能力,而 Gemini 最大的优势是与 Google 生态深度融合。
目前 Google 的主力模型家族已经演进到 Gemini 3 系列。Google 官方列出的主要模型包括:
- Gemini 3 Pro
- Gemini 3.1 Pro
- Gemini 3.5 Flash
- Gemini Omni
- Gemini Audio
- Gemini Nano
Gemini最大的特点是,原生多模态,很多模型是文字模型+图片模型+语音模型拼起来的。
它的设计初衷就是,文本+图片+视频+音频+代码,统一处理。
第二个特点就是,他有Google的生态加成,你可以将其天然的接入,Gmail,Google Drive,Google Docs等。
第三个特点就是超长上下文,可以将整个项目源码,接口文档,需求说明等一次性的喂进去,它对于长文档和超长代码库分析能力一直都是业内领先梯队。
4. Qwen
Qwen 是 阿里云通义千问 的大模型系列。开发团队:
- 阿里云
- 通义实验室(Tongyi Lab)
发布时间是2023年,到现在已经发展成国内最完整的大模型生态之一。
Qwen第一代
Qwen-7B Qwen-14B Qwen-72B当时最大的特点:
- 中文能力强
- 英文能力不错
- 开源权重
Qwen2
这是很多企业开始大规模采用的版本。
特点,推理能力提升,代码能力提升,多语言支持增强。
0.5B 1.5B 7B 14B 72BQwen2.5
这一代是Qwen的封神之作,真正爆发。
很多榜单上,Qwen2.5-72B 已经接近甚至超过不少的闭源模型。
很多企业开始:
GPT验证需求 -> Qwen2.5上线部署Qwen3
这
一代最大的特点:
Hybrid Thinking(混合思考) 简单问题 -> 直接回答 复杂问题 -> 先思考再回答目前Qwen的生成已经非常恐怖了,它不仅仅是聊天模型,而是已经形成:
Qwen ├── Qwen3 # 文本生成 ├── Qwen-Coder # 代码模型 ├── Qwen-VL # 视觉多模态 ├── Qwen-Audio # 音频模型,支持语音识别,音频理解,对话等 ├── Qwen-Omni # 全模态 ├── Qwen-ASR # 语音识别 └── Qwen-Agent # agent模型5. Kimi
Kimi 是中国公司 Moonshot AI(月之暗面) 开发的大模型产品。
因为它率先解决了一个痛点:长文档,它在2024年已经开始主打200万字长文本。
6. DeepSeek
DeepSeek 是一家中国人工智能公司,因推出高性能、低成本的大语言模型(LLM)而受到广泛关注。它由量化基金公司幻方量化(High-Flyer)孵化,核心方向是通用人工智能与开源模型研发。
DeepSeek 最出名的一点,是它在相对较低训练成本下,做出了接近国际顶级模型的效果。比如:DeepSeek-V2、DeepSeek-Coder、DeepSeek-R1(推理模型)。这些模型在数学、代码、推理等任务上表现很强,尤其是在中文场景里。
7. Llama系列
核心:Llama2 / Llama3 / Llama3.1 / Llama3.2
特点:
- 开源生成最强之一
- 被全球二次训练最多
8. Mistral AI(欧洲最强)
法国公司,核心模型:
Mistral 7B Mixtral(MOE)特点:
- 小而强
- 推理效率高
- 很适合企业部署
9. xAI(马斯克)
10. 百川智能(Baichuan AI)
核心,Baichuan2 / Baichuan3
特点:中文能力不错,偏企业落地,一度是国产第一梯队竞争者。
11. Zhipu AI(智谱AI / GLM)
模型:GLM系列
特点:中文强、多模态布局早、学术背景强(清华系)
代表作品:ChatGLM
12. MiniMax(国内)
特点:长文本能力强,对话产品化做的比较激进
产品:海螺AI
最新模型(2026年6月8日08:53:06)
MiniMax M3,目前最顶的版本。
核心能力:
- M3(旗舰通用大模型)
- 1M超长上下文(百万token)
- 原生多模态(文本+图像+其他)
- 强化Agent / coding能力
- 新架构:MSA(稀疏注意力)
它是国内首个 “三合一”:
coding agent multimodal