当前位置：首页 > news >正文

STM32 上跑 TinyML，到底行不行？—— 从选型到部署的完整指南

news 2026/6/15 16:22:34

STM32 上跑 TinyML，到底行不行？—— 从选型到部署的完整指南

很多人觉得单片机跑 AI 是天方夜谭。但事实上，一块几十块钱的 STM32 开发板，已经能跑关键词唤醒、振动故障诊断甚至图像分类了。这篇文章把芯片选型、框架对比、部署流程一次讲清楚。

一、为什么会有人想在 STM32 上跑 AI？

先回答一个根本问题：为什么不用树莓派？为什么不用云端？

答案很简单——三个字：功耗、成本、实时性。

维度	树莓派 / Linux 单板	STM32 MCU
功耗	瓦级（2W–15W）	毫瓦级（0.1mW–100mW）
成本	¥200–600	¥15–80
实时性	Linux 调度，ms 级延迟	裸机/RTOS，μs 级响应
推理延迟	10–100ms	1–50ms（量化模型）
适合场景	摄像头、复杂 UI	传感器端、边缘节点、电池供电

典型场景：工厂里几百个振动传感器，每个都跑一个微型 CNN 做故障检测。用树莓派成本爆炸，用 ESP32 性能不够，STM32 正好卡在甜点区。

二、芯片怎么选？一张表说清楚

STM32 家族很大，不是所有型号都适合跑 ML。关键看内核、Flash、RAM 三项指标。

系列	内核	典型 RAM	适合的 ML 任务	推荐度
G0 / L0	Cortex-M0+	8–32KB	❌ 不够用	不推荐
F4	Cortex-M4 + DSP + FPU	128–192KB	关键词唤醒、振动分类、手势识别	⭐⭐⭐⭐
G4	Cortex-M4 + FPU	128KB	信号处理 + 轻量分类	⭐⭐⭐
L4	Cortex-M4 + FPU	128–320KB	低功耗场景（电池供电）	⭐⭐⭐⭐
F7	Cortex-M7 + 双精度 FPU	320–512KB	中大型模型、图像分类	⭐⭐⭐⭐⭐
H7	Cortex-M7 + 双精度 FPU	最高 1MB	复杂模型，旗舰选择	⭐⭐⭐⭐⭐
L5 / U5	Cortex-M33 + DSP + TrustZone	256–786KB	安全 + ML 场景	⭐⭐⭐⭐

起步推荐（性价比之选）

入门首选：STM32F407G-DISC1，192KB RAM，¥100 左右，淘宝遍地
低功耗方向：STM32L4R9I-DISCO，640KB RAM，带屏幕，做 demo 效果拉满
性能玩家：STM32H743I-EVAL或STM32H747I-DISCO，1MB RAM，跑 MobileNet 没问题

核心经验：能上 M4 就上 M4，FPU 和 DSP 指令对推理加速非常关键。M0+ 虽然官方也说能跑，但内存太紧，几乎做不了有实际意义的模型。

三、三大框架，到底用哪个？

这是新手最容易纠结的地方。我把三个主流方案掰开揉碎对比。

3.1 TensorFlow Lite Micro（TFLM）

Google 出品，开源，生态最广

优势：

社区活跃，文档和案例最多
支持自定义算子，灵活性最高
可以直接跑标准 TFLite 训练的模型

劣势：

在 STM32 上的优化不如 Cube.AI 激进
上手需要一定的 C++ 和 Makefile 功底
部分算子需要手动优化

典型资源占用：关键词唤醒模型 ~50KB RAM，推理引擎本身 ~20KB Flash

3.2 STM32Cube.AI（ST 官方工具）

ST 亲儿子，自动优化，C 代码生成

这是 STM32 上跑 TinyML 最推荐的工具链。工作流如下：

用 Python（TensorFlow / Keras / PyTorch）训练模型
导出为.tflite或.onnx格式
拖进 STM32Cube.AI，自动分析内存占用和推理时间
一键生成优化后的 C 代码
在 STM32CubeIDE 里集成编译

优势：

自动 INT8 量化，模型体积缩小 4 倍
针对 Cortex-M 内核做了指令级优化
给出精确的 Flash / RAM / 推理时间预估值
图形化界面，学习曲线低

劣势：

不开源（但免费）
某些自定义算子可能不支持

3.3 Edge Impulse

低代码平台，拖拽式开发，一键部署 STM32

适合人群：不想深入底层、快速验证原型、数据采集到部署一条龙。

优势：

数据标注、特征工程、模型训练全在 Web 端搞定
内置 STM32 专用部署模板
零代码实现数据采集（通过串口 / BLE）

劣势：

定制化能力弱
商业使用有 license 限制
不适合需要高度优化的产线场景

怎么选？

你的情况	推荐方案
刚入门，想跑通第一个 demo	Edge Impulse
有一定经验，要做产品	STM32Cube.AI
需要高度定制，非标准模型	TensorFlow Lite Micro
兼顾便利性和灵活性	Cube.AI 为主 + TFLM 兜底

四、一个完整的端到端流程

以**关键词唤醒（Keyword Spotting）**为例，走一遍完整流程。

Step 1：数据准备

使用 Google Speech Commands 数据集（公开，65,000+ 条 1 秒音频片段），包含 "yes"、"no"、"up"、"down"、"left"、"right"、"on"、"off" 等 30 个词。

import tensorflow as tf # 只取需要的 8 个词 + 静音/未知 commands = ['yes', 'no', 'up', 'down', 'left', 'right', 'on', 'off'] dataset = tf.data.TFRecordDataset(['speech_commands_v0.02.tar.gz']) # ... 转换为 16kHz, 16-bit PCM → MFCC 特征

Step 2：在 Python 里训练

import tensorflow as tf model = tf.keras.Sequential([ # 输入：(49, 40, 1) — 40个MFCC帧, 49个mel频带 tf.keras.layers.Conv2D(64, (3,3), activation='relu', input_shape=(49,40,1)), tf.keras.layers.MaxPooling2D((2,2)), tf.keras.layers.Conv2D(64, (3,3), activation='relu'), tf.keras.layers.MaxPooling2D((2,2)), tf.keras.layers.Flatten(), tf.keras.layers.Dense(128, activation='relu'), tf.keras.layers.Dense(10, activation='softmax') # 8 command + silence + unknown ]) model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) model.fit(train_ds, epochs=30, validation_data=val_ds) # 典型准确率：90%+

Step 3：量化 + 转 TFLite

converter = tf.lite.TFLiteConverter.from_keras_model(model) converter.optimizations = [tf.lite.Optimize.DEFAULT] converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8] converter.inference_input_type = tf.int8 converter.inference_output_type = tf.int8 # 需要代表性数据集做量化校准 def representative_dataset(): for sample in calibration_data: yield [sample] converter.representative_dataset = representative_dataset tflite_quant_model = converter.convert() with open('kws_quantized.tflite', 'wb') as f: f.write(tflite_quant_model)

Step 4：导入 Cube.AI 生成 C 代码

打开 STM32Cube.AI，选择目标芯片（比如 STM32F407），导入kws_quantized.tflite。

Cube.AI 会告诉你：

Model : kws_quantized Flash used : 156.3 KB RAM used : 48.2 KB Inference time (STM32F407 @ 168MHz) : 12.4 ms

12.4 毫秒的推理延迟，完全满足实时关键词唤醒的需求。

Step 5：集成到 STM32 工程

Cube.AI 生成的代码使用方式非常简单：

#include "ai_model.h" ai_handle network; ai_buffer ai_input[1]; ai_buffer ai_output[1]; // 初始化模型 ai_model_create(&network, NULL); ai_model_init(network); // 每次有新的 MFCC 数据时 ai_input[0].data = mfcc_buffer; // INT8 MFCC 特征 ai_model_run(network, ai_input, ai_output); // 输出是 10 个 softmax 概率 float max_prob = 0; int max_idx = 0; for (int i = 0; i < 10; i++) { if (ai_output[0].data[i] > max_prob) { max_prob = ai_output[0].data[i]; max_idx = i; } } // max_idx 即为识别出的命令

五、内存优化的 5 个硬核技巧

STM32 上跑 ML，内存管理就是一切。这 5 条是我踩坑踩出来的经验。

技巧 1：量化是必须，不是选项

FP32 → INT8，模型体积 1/4，推理速度 2-4x。Cube.AI 的自动量化工具非常好用，精度损失通常在 1% 以内。

技巧 2：模型结构要"苗条"

少用全连接层（Dense），多用深度可分离卷积（Depthwise Separable Convolution）
用GlobalAveragePooling代替Flatten + Dense，能省 20% 以上参数
通道数设 16/32/64，别再往上加了

技巧 3：内存池复用

// 不要为每一层的中间结果单独分配数组 // 让 Cube.AI 管理一个共享的"activation buffer" static ai_u8 activations[AI_MODEL_ACTIVATION_BUFFER_SIZE]; ai_network_params params = { AI_MODEL_WEIGHTS(weights), // 存储在 Flash { activations, AI_MODEL_ACTIVATION_BUFFER_SIZE } };

Cube.AI 会分析每层张量的生命周期，自动复用内存区域。这个池大小就是 RAM 占用的核心数字。

技巧 4：把权重放在外部 Flash

如果 Flash 不够，可以用 SPI Flash（如 W25Q64）存权重，运行时按需加载：

// 权重存储在外部 SPI Flash // Cube.AI 支持"split storage"模式

但代价是推理会变慢（SPI 带宽远低于内部 Flash），需要权衡。

技巧 5：选对编译优化

STM32CubeIDE 里，对模型代码选-O3 -funroll-loops，ARM GCC 有时候还需要加--specs=nano.specs用小尺寸的 C 库。

六、几个经过验证的 benchmark

这些是 ST 官方和社区验证过的数字，不是纸上谈兵。

应用	芯片	模型	RAM	Flash	推理时间	精度
关键词唤醒（10 类）	STM32F407	DS-CNN	48KB	156KB	12ms	92%
振动故障检测	STM32L476	1D-CNN	32KB	89KB	8ms	96%
手势识别（6 手势）	STM32F411	小型 CNN	28KB	72KB	15ms	90%
人体活动识别	STM32L4R9	1D-CNN	20KB	45KB	5ms	94%
图像分类（10 类）	STM32H743	MobileNetV1 0.25	612KB	780KB	310ms	85%
人数统计	STM32H747	YOLO-Fastest	890KB	1.2MB	450ms	78%