当前位置：首页 > news >正文

【大模型学习】主流大模型统计

news 2026/6/9 20:26:20

文章目录

文本生成大模型
- 1. OpenAI
- 2. claude
- 3. Gemini
- 4. Qwen
- - Qwen第一代
  - Qwen2
  - Qwen2.5
  - Qwen3
- 5. Kimi
- 6. DeepSeek
- 7. Llama系列
- 8. Mistral AI（欧洲最强）
- 9. xAI（马斯克）
- 10. 百川智能（Baichuan AI）
- 11. Zhipu AI（智谱AI / GLM）
- 12. MiniMax（国内）
- - 最新模型（2026年6月8日08:53:06）
VL多模态大模型
语音识别大模型
语音合成大模型

文本生成大模型

1. OpenAI

时期	模型	是否开源
2019	GPT-2	部分开放，后来开源
2020	GPT-3	闭源
2022	GPT-3.5	闭源
2023	GPT-4	闭源
2024	GPT-4o	闭源
2025-2026	GPT-5 系列	闭源

从2019年之后，多数语音生成大模型均为闭源模型

2. claude

Claude 是由 Anthropic 公司开发的大语言模型系列。Authropic成立于2021年，总部位于美国旧金山，创始团队中不少成员来自OpenAI，包括其CEO与总裁。
Anthropic的核心方向是：

大语言模型
AI安全
可解释性研究
企业级AI应用
目前的主流模型：

模型	定位	特点
Claude 4 Opus	旗舰模型	最强推理、复杂Agent、多步规划
Claude 4 Sonnet	主力模型	性能与成本平衡，目前最流行
Claude 3.5 Sonnet	上代经典	仍有大量企业在使用
Claude 3 Haiku	轻量模型	低成本、低延迟

其特点是大型项目代码理解能力强，上下文管理能力非常受欢迎。

3. Gemini

Gemini 是 Google 的大模型家族，由 Google DeepMind开发，它可以理解和生成文本、图片、音频、视频、代码等多种模态内容，是 Google 对标 GPT 和 Claude 的核心 AI 产品。
Claude 擅长代码和长文档，GPT 擅长综合能力，而 Gemini 最大的优势是与 Google 生态深度融合。
目前 Google 的主力模型家族已经演进到 Gemini 3 系列。Google 官方列出的主要模型包括：

Gemini 3 Pro
Gemini 3.1 Pro
Gemini 3.5 Flash
Gemini Omni
Gemini Audio
Gemini Nano

Gemini最大的特点是，原生多模态，很多模型是文字模型+图片模型+语音模型拼起来的。
它的设计初衷就是，文本+图片+视频+音频+代码，统一处理。
第二个特点就是，他有Google的生态加成，你可以将其天然的接入，Gmail，Google Drive，Google Docs等。
第三个特点就是超长上下文，可以将整个项目源码，接口文档，需求说明等一次性的喂进去，它对于长文档和超长代码库分析能力一直都是业内领先梯队。

4. Qwen

Qwen 是阿里云通义千问的大模型系列。开发团队：

阿里云
通义实验室（Tongyi Lab）

发布时间是2023年，到现在已经发展成国内最完整的大模型生态之一。

Qwen第一代

Qwen-7B Qwen-14B Qwen-72B

当时最大的特点：

中文能力强
英文能力不错
开源权重

Qwen2

这是很多企业开始大规模采用的版本。
特点，推理能力提升，代码能力提升，多语言支持增强。

0.5B 1.5B 7B 14B 72B

Qwen2.5

这一代是Qwen的封神之作，真正爆发。
很多榜单上，Qwen2.5-72B 已经接近甚至超过不少的闭源模型。
很多企业开始：

GPT验证需求 -> Qwen2.5上线部署

Qwen3

这
一代最大的特点：

Hybrid Thinking（混合思考） 简单问题 -> 直接回答 复杂问题 -> 先思考再回答

目前Qwen的生成已经非常恐怖了，它不仅仅是聊天模型，而是已经形成：

Qwen ├── Qwen3 # 文本生成 ├── Qwen-Coder # 代码模型 ├── Qwen-VL # 视觉多模态 ├── Qwen-Audio # 音频模型，支持语音识别，音频理解，对话等 ├── Qwen-Omni # 全模态 ├── Qwen-ASR # 语音识别 └── Qwen-Agent # agent模型

5. Kimi

Kimi 是中国公司 Moonshot AI（月之暗面）开发的大模型产品。
因为它率先解决了一个痛点：长文档，它在2024年已经开始主打200万字长文本。

6. DeepSeek

DeepSeek 是一家中国人工智能公司，因推出高性能、低成本的大语言模型（LLM）而受到广泛关注。它由量化基金公司幻方量化（High-Flyer）孵化，核心方向是通用人工智能与开源模型研发。
DeepSeek 最出名的一点，是它在相对较低训练成本下，做出了接近国际顶级模型的效果。比如：DeepSeek-V2、DeepSeek-Coder、DeepSeek-R1（推理模型）。这些模型在数学、代码、推理等任务上表现很强，尤其是在中文场景里。