Review on: TOWARDS FEDERATED LEARNING AT SCALE: SYSTEM DESIGN

Bonawitz, Keith et al. “Towards Federated Learning at Scale: System Design.” (2019): n. pag. Web.

1. 介绍

Federated Learning Protocol

基本概念：Server在时间窗口内从声明可用的device中选择一个子集（典型大小为几百个，SecAgg所限制），在训练期间device与设备保持连接。之后，server向device发送当前的Model checkpoint，device本地更新模型后上传。
训练阶段：
1. 选择（Selection）：根据一定条件选择设备（充电中、使用WiFi），未选择的设备会被告知稍后特定时间点重连。
2. 配置（Configuration)：server向device发送当前计划和模型参数。
3. 报告（reporting）：server等待device上传数据，进行Federated Averaging并告知下次连接时间。若成功则更新全局模型，失败则放弃此轮训练。掉队节点会被直接忽略（协议具有一定容忍度）
4. 选择和报告阶段由一系列参数控制：device数量、超时、最小目标（决定本轮是否被丢弃）。
流控制机制Pace Steering

对于小规模FL，PS主要用来保证有足够数量的device同时连接server。对于大规模FL，PS主要用来使随机化报告时间，避免“Thundering Herd”问题。同时调整时间窗口减小昼夜等设备活性差异对训练造成的影响.

Device Architecture

程序配置（Programmatic Configuration）: 应用向FL Runtime提供其训练信息和数据集。重要条件是要对设备使用影响较小。当某些条件不满足时（不再充电等），Runtime会放弃本轮训练。
**任务调用（Job Invocation）: **Runtime向Server报告准备就绪，请求训练方案和数据。
任务执行（Task Execution）: 被选中的设备按照下发的计划进行训练。
**汇报（Reporting）: **训练结束后上传参数更新。

特点

结构

Coordinators: 最高级别角色，有多个，每一个分管一个设备群。总体调度。
Selector：按照Coordinator的需求允许设备接入，并转发给Aggregators。
Master Aggregators：只有主聚合者完成聚合后才会写入新的checkpoint。
Pipelining：配置和报告是序列化的，故因为选择过程不需要之前轮次的输入，可以与上一轮的配置报告一起进行。
错误模型：Aggregator 或Selector失效时，只有其连接的部分设备会丢失；MA失效时本轮会失败但是可以由Coordinator重启。若C失效，Selector会探测到并重新生成。