Article

深度学习-联邦学习-CH0-FedAvg算法与联邦学习的出现

这份笔记详细记录了联邦学习（Federated Learning, FL）的基本概念、应用场景以及核心算法 FedAvg 的逻辑。

May 5, 2026 深度学习 7 min read

联邦学习 (Federated Learning) 与 FedAvg 算法笔记

目标：政府希望联合六家医院共同训练一个医疗 AI 模型。 核心挑战：

解决方案：采用联邦学习技术，实现“数据不动模型动，数据可用不可见”。

联邦学习通常采用星形拓扑结构：

在联邦学习中，不同节点之间的数据分布特性对模型效果影响巨大：

医院类型	眼部 CT 数	胸部 CT 数	腿部 CT 数
眼科专科医院	30	0	0
儿科医院	0	18	2
妇产科医院	0	15	1
骨科医院	0	20	20
综合医院 A	15	15	15
综合医院 B	5	5	5

问：既然综合医院的数据分布已经很均衡了，为什么不直接只用综合医院的数据做一个模型？

答：

数据总量与泛化能力：联邦学习整合了所有医院的数据，数据样本量更大，模型的泛化能力更强，能更好地应对“长尾分布”或少见病例。
数据质量与专业性：专科医院在特定领域（如眼科）拥有更深、更精细的数据。通过联邦学习，可以将专科医院的专业知识迁移到通用模型中，提高模型在特定领域的准确度。

FedAvg 是联邦学习中最经典、最常用的聚合算法。

$w_{t+1} \leftarrow \sum_{k=1}^{K} \frac{n_k}{n} w_{t+1}^k$

算法参数定义：

伪代码流程：

Server 端执行：
1. 初始化 $w_0$
2. 对于每一轮 $t = 1, 2, \dots$ $t = 1, 2, \dots$ 执行：
  - $m \leftarrow \max(C \cdot K, 1)$ （随机抽取客户端）
  - 对于每一个被选中的客户端 $k \in S_t$ $k \in S_{t}$ 并行执行：
    - $w_{t+1}^k \leftarrow \text{ClientUpdate}(k, w_t)$
  - $w_{t+1} \leftarrow \sum_{k=1}^{K} \frac{n_k}{n} w_{t+1}^k$ （根据数据量占比进行加权聚合）
ClientUpdate( $k, w$ $k, w$ ) 局部更新：
1. 将本地数据 $\mathcal{P}_k$ 划分为大小为 $B$ 的多个批次 (Batches)。
2. 对于每个本地 Epoch $i$ $i$ 从 $1$ $1$ 到 $E$ $E$ 执行：
  - 对于每个 Batch $b$ $b$ 执行：
    - $w \leftarrow w - \eta \nabla \ell(w; b)$ （执行 SGD 随机梯度下降）
3. 将更新后的 $w$ 返回给 Server。