Review on: Federated machine learning: Concept and applications

1. 提出背景

当前AI面临着两大挑战：信息孤岛、隐私保护。当前的互联网业务对隐私保护的需求日益增长，在数据的共享方面阻力在增加，而在传统的模型训练中没有考虑数据聚合的可行性，所以提出FL。

2. 概述

Federated Learning这一概念最早由Google提出：在防止数据泄露的前提下从分布式数据中训练学习模型。

To build machine learning models based on data sets that are distributed across multiple devices while preventing data leakage.

2.1 定义

定义N个数据拥有者${F_1…F_n}$，都愿意贡献相应数据${D_1…D_n}$共同训练一个机器学习模型。在传统的模式下，我们会把这些数据组合起来$D=D_1\cup …\cup D_n$训练一个模型$M_{SUM}$。而在FL的机制中，数据拥有者可以在不暴露自己数据的情况下训练模型$M_{FED}$。除此之外，我们将$M_{FED}$这一模型的精度（记为$V_{FED}$）应该与$V_{SUM}$非常接近。设$\delta$是一个非负实数，若：

$\mid V_{FED}-V{SUM}\mid<\delta$

我们说此FL算法具有$\delta $精度损失（$\delta-accuracy\ loss$）。

2.2 FL的安全性

安全性是FL所要关注的一个重要问题，在目前的研究中有以下几种方案：

安全多方计算（Secure Multiparty Computation）：可以在模型包含的多方上保证完全零知识：每一方只知道其自身的输入和输出。
差分隐私（Differential Privacy)：在数据中添加噪声或使用一些泛化方法使得数据中的某些敏感属性变得更模糊，直到第三方不能够分辨出其中的个体。但此种方法仍需要进行数据转移，所以不可避免的仍然在一定程度上存在安全性和准确性两方面的trade-offs.
同态加密（Homomorphic Encryption)：参考同态加密，此种方法在隐私保护方面比较好，但在进行非线性方程计算式需要对其进行多项式近似，使得其准确性收到一定影响。（更新：probable solution：

使用多密钥加密系统
The computations not supported by the partially homomorphic encryption are outsourced to a semi-trusted third party (or STTP), reducing the Data Owners’ involvement in the machine learning process.
use additive homomorphic cryptosystems, so the outsourced operation is the modular multiplication.
Since cryptosystems operate on integers, the data have to be converted into a finite-precision representation before being encrypted
In particular, we propose to use a minimal set that includes the other operation that preserves the ring structure of input plain- texts, which in the case under consideration (additive homomorphic encryption) is the modular multiplication conditional branching instructions (comparison).

区块链

2.3 FL的分类

Horizontal Federated Learning: 两个数据集拥有相同的特征空间和不同的样本。例如两家异地公司业务相似，但却拥有交集很小的客户。
Vertical Federated Learning: 两个数据集拥有相同的样本ID但特征空间不同。例如两家同地公司业务不同，但用户交集较大。
Federated Transfer Learning: 数据集在样本和特征空间上均不同。通常的做法是先在比较有限的overlap上学习然后再应用到单侧特征的预测中。