Article

预处理与模型构建 Part2 模型训练与设计

解析基于 TensorFlow 的训练流程与 CNN 设计思路，聚焦如何为 ESP32 压缩出可部署的音频分类模型。

April 14, 2026 毕设 9 min read

概述

在[上一篇文章](.\嵌入式音频部署 Part1 arduino部分.md)中，我们详细拆解了 ESP32 上的 C++ 代码。我们知道了单片机是如何通过 I2S 采集音频，并通过一系列 DSP（数字信号处理）算法将 1 秒钟的音频转换成了一张二维的 Log-Mel 频谱特征图。

今天，我们将视角从单片机硬件切换回电脑端的 Python 训练环境。要想让单片机能“听懂”声音，我们需要在电脑上训练一个神经网络模型，然后将其量化（压缩）成 C 语言数组（model.h）烧录进去。但 ESP32 的内存（SRAM只有16MB）极度匮乏，我们不能随便拿一个庞大的开源模型硬塞。

本文将解析 CNN模型.py，看看如何针对微控制器（MCU）的苛刻条件，量身定制一个“小而美”的 CNN（卷积神经网络）基线模型。

1. 为什么用 CNN 处理音频？

如果你有 C 语言基础，你可能知道音频是一维的 PCM 数组。为什么不用处理一维序列的算法（如 RNN/LSTM），而是用通常用来处理图片的 CNN（卷积神经网络）呢？

原因在于我们在上一篇提到的 Log-Mel 频谱图。这套 DSP 流程把一维的声音波形，变成了一个二维矩阵：

行（Y轴）：代表时间帧（帧数 NUM_MEL_FRAMES）。
列（X轴）：代表不同的频率段（Mel 滤波器个数 NUM_MEL_FILTERS）。
值：代表该频率在特定时间的能量大小。

当我们把这个二维矩阵当成一张单通道（灰度）图片来看待时，某种特定声音（比如狗叫、玻璃碎裂）在这个图片上就会呈现出特定的“纹理特征”。CNN 恰好是提取二维纹理特征的绝对王者。

2. 核心架构解析

让我们逐段拆解 build_cnn_model 函数，看看它是如何一步步构建出这个硬件友好型模型的。

2.1 输入对齐与“疫苗”接种

def build_cnn_model(num_classes):
    return tf.keras.Sequential([
        # 1. 严格对齐板端输入
        tf.keras.layers.Input(shape=(common.NUM_MEL_FRAMES, common.NUM_MEL_FILTERS, 1)),
        # 2. 加入高斯噪声
        tf.keras.layers.GaussianNoise(0.03),

输入形状 (Input)：这里的高度和宽度必须和 C++ 代码中的宏定义绝对一致。最后的 1 代表这是单通道数据（类似于灰度图）。如果这里错位，最后导出的模型在板子上运行时会导致指针越界或内存错乱。
高斯噪声 (GaussianNoise)：这是专门针对物理硬件设计的巧妙一步。单片机的麦克风（INMP441）采集声音时必然带有本底底噪和电流杂音。如果模型只在电脑上极其纯净的数据集中训练，放到实际环境就会“水土不服”。在第一层加入轻微的高斯噪声，相当于给模型打了一剂“疫苗”，强迫它学会在嘈杂环境中提取关键特征，提升鲁棒性。

2.2 卷积特征提取 (The Conv Blocks)

接下来是三层经典的卷积块，每一层的作用就像筛子，逐层提取更复杂的特征。

        # 第一层卷积
        tf.keras.layers.Conv2D(16, 3, padding="same"),
        tf.keras.layers.BatchNormalization(),
        tf.keras.layers.ReLU(),
        tf.keras.layers.MaxPooling2D(),
        
        # 第二层卷积
        tf.keras.layers.Conv2D(32, 3, padding="same"),
        # ... 省略 BN, ReLU, MaxPool ...
        
        # 第三层卷积
        tf.keras.layers.Conv2D(64, 3, padding="same"),
        # ... 省略 BN, ReLU, MaxPool ...

可以这样理解每一层内部的操作：

Conv2D (卷积)：类似图像处理里的滤波器矩阵，拿着 3x3 的小窗口在特征图上滑动做矩阵乘加运算。通道数从 16 -> 32 -> 64 逐层递增，代表模型试图理解的概念从“边缘、线条”升级到了“复杂的音色、音调”。
BatchNormalization (批归一化)：它会把当前层的数据强制拉回到均值为 0，方差为 1 的分布。这不仅能加快训练速度，在最终导出到单片机时，这部分数学运算会被折叠（融合）到卷积层自身的权重里，不增加任何板端计算开销。
ReLU (激活函数)：相当于一段极其简单的 C 代码：if (x < 0) return 0; else return x;，给模型加入非线性能力。
MaxPooling2D (最大池化)：将 2x2 区域内的最大值保留，其余丢弃。它让特征图的尺寸（长宽）减半，极大地降低了后续计算所需的内存消耗。

2.3 微控制器的秘密武器：GAP 层

整个网络中最关键、也是最针对嵌入式优化的设计，就是下面这行代码：

        # 用全局平均池化替代 Flatten，减少参数量
        tf.keras.layers.GlobalAveragePooling2D(),

在普通的深度学习教程中，卷积层结束后通常会接一个 Flatten()（展平层），把多维数组强制拉平拉直成一维数组，然后连接全连接层。 但对于 ESP32 来说，这是灾难性的！

为什么？我们算一笔账： 假设到达这层时，特征图尺寸是 5 x 5，通道数是 64。

如果用 Flatten，输出就是一个大小为 5 * 5 * 64 = 1600 的一维数组。如果后面接一个 64 个节点的 Dense 层，需要的权重数量是 1600 * 64 = 102,400 个浮点数（光这一个权重矩阵就要占近 400KB 内存，瞬间吃光单片机 SRAM！）。
如果用 GlobalAveragePooling2D (全局平均池化)：它会对每一个通道的 5 x 5 矩阵求平均值。于是输出直接变成了一个只有 64 个元素的一维数组。后面接 Dense(64)，权重数量骤降为 64 * 64 = 4,096 个浮点数（约 16KB），参数量直接缩小了 25 倍！

不仅如此，GAP 层还使得模型对声音长度的微小拉伸不再那么敏感，提高了预测的稳定性。

2.4 分类头与输出

        # 小型全连接层
        tf.keras.layers.Dense(64, activation="relu"),
        # Dropout 用于缓解过拟合
        tf.keras.layers.Dropout(0.35),
        # 最后的输出层
        tf.keras.layers.Dense(num_classes, activation="softmax"),

Dense (全连接层)：综合前面提取到的所有全局特征，进行最后的逻辑判断。
Dropout：在电脑上训练时，每次随机“断开” 35% 的神经元。这就像是在训练军队时故意让一部分人休假，强迫剩下的人独立完成任务，以此防止模型“死记硬背”训练集（过拟合）。这部分在导出给 C++ 时会被自动移除，不占硬件资源。
Softmax：将最终的得分转换为各类别的概率分布（所有类别概率相加为 100%）。这也就是我们在单片机串口中打印出来的百分比预测值。

3. 命令行与实验管理框架

def main():
    parser = argparse.ArgumentParser(...)
    common.add_common_args(parser, enable_export=True)
    parser.set_defaults(model_id="cnn")
    args = parser.parse_args()
    
    common.run_experiment(
        args,
        model_id="cnn",
        build_model_fn=build_cnn_model,
        enable_export=True, # 关键：开启量化与导出
        notes="Deployable baseline CNN..."
    )

脚本的最后部分是程序的入口。这里将脏活累活（比如数据集的划分、特征的读取、训练循环、模型评估等）都剥离到了 audio_model_common.py 这个公共文件中。通过开启 enable_export=True，训练完成后的模型会被 TensorFlow Lite 转换工具进行整型量化（INT8 Quantization）。

原本用 32-bit float 存储的权重，会被按比例压缩成 8-bit 的 char 数组。这意味着模型体积还能再缩小四分之三！最终生成的，就是我们在上篇 C++ 代码中包含的那个巨大的 model.h 头文件。

总结

一个能在边缘设备上落地的模型，绝不是盲目追求“深”和“大”。通过这篇解析我们可以看到：

GaussianNoise 应对了廉价传感器的物理限制；
GlobalAveragePooling 跨越了单片机内存匮乏的鸿沟；
输入尺寸 的严格定义确保了与 C 语言 DSP 处理链条的无缝衔接。

“算力不够，算法来凑；内存不够，架构来救”。理解了这些软硬件协同设计的思想，你就已经掌握了 TinyML（微型机器学习）的核心密码。