《小王爱迁移》系列之十八:联邦迁移学习

《小王爱迁移》系列之十八:联邦迁移学习

人工智能在最近的一两年来是一个炙手可热的词汇。AI在图像分类、语音识别、文本分析、计算机视觉、自然语言处理、自动驾驶等方面,大量的人工智能和机器学习模型确实在让我们的生活变得更加方便快捷。从技术上讲,目前绝大多数的AI,其实都是基于统计学的一些机器学习方法在发挥作用。而机器学习的核心,则是强调让算法能够自动地基于给定的数据学习模型。到目前为止,这套方案运行完美,只要有足够的权限访问数据,几乎可以预见到,在不远的将来,我们将全面实现AI化。

然而,欧盟在几个月前颁布了《一般数据保护条例》(简称为GDPR)。该条例是近三十年来数据保护立法的最大变动,旨在加强对欧盟境内居民的个人数据和隐私保护。法案强调,机器学习模型必须具有可解释性(我们都知道Google的AutoML很好用,但是欧盟此举相当于宣告了AutoML的不适用),而且对于收集用户数据,必须公开、透明。

很快,擅长收集用户隐私的Facebook和谷歌等美国企业成为GDPR法案下第一批被告。虽然全球其他国家和地区尚未出台类似法案,但是可想而知,大家对数据隐私越来越看重。那么问题来了:没有权限获取到足够的用户数据,企业如何进行建模?

很自然地,我们想到可以用迁移学习进行。比如,A公司有一些自己用户的数据,那么就可以和B公司的数据一起协同建模。然而,由于隐私法案的保护,使得两家公司之间,彼此不互通。这个情形可以用下面的图来形象地解释:理想很丰满,现实却很骨感。各个公司就好比一个个数据的孤岛,由于隐私法案的限定,在人工智能的汪洋大海中,茕茕孑立,形影相吊。


联邦学习

为了应对数据隐私的挑战,最近出现了联邦学习的概念。联邦学习的思想认为,目前各个企业的数据之前就像不同的国家,它们各自有自己的体系,但是无法很好地完成统一建模。联邦学习则将它们管辖在“一个国家、一个联邦政府”之下,将不同的企业看作是这个国家里的“州”。这样,通过彼此之前不互通数据,彼此之间都可以获得模型效果的提升。FTL的核心是:各个企业的自有数据不出本地,模型效果不变。

举个例子来说:如果下图中左侧的商店只有物品信息,没有用户画像;而右侧的旅行商只有用户信息,而没有物品信息。那么通过二者之间的联邦学习,微众银行就可以很好地进行用户和购买行为之间的个性化建模,从而帮助两类企业发展得更好。

图:联邦学习示意图。 来源:杨强教授演讲胶片

联邦迁移学习

事实上,Google等一些大公司也最先开始了一些关于联邦学习的研究。例如,Google在2017年的一篇论文里进行了去中心化的推荐系统建模研究。其核心是,手机在本地进行模型训练,然后仅将模型更新的部分加密上传到云端,并与其他用户的进行整合。目前该方法已在Google输入法中进行实验。一些研究者也提出了CryptoDL深度学习框架、可扩展的加密深度方法、针对于逻辑回归方法的隐私保护等。但是,它们或只能针对于特定模型,或无法处理不同分布数据,均存在一定的弊端。

正是为了解决上述这些挑战,香港科技大学杨强教授和微众银行AI团队,最近提出了联邦迁移学习 (Federated Transfer Learning, FTL)。FTL将联邦学习的概念加以推广,强调在任何数据分布、任何实体上,均可以进行协同建模学习。

这项工作在国内,是杨教授与微众银行AI团队主导,目的是建立数据联邦,以解决大数据无法聚合的问题。在国外,目前是Google在进行相关的研究。二者的区别:微众银行AI团队的做法是,用户维度部分重叠,特征维度不重叠;而Google则是反过来:特征重叠,用户不重叠。

可以预见的是,微众AI团队针对的情景,要比Google的情景更加具有普适性,也更符合未来大数据、多企业的应用需求。下图展示了FTL的应用情景。

图:联邦迁移学习示意图。来源:杨强教授演讲胶片


解释:假设我们现有的A和B两个企业的数据,它们的服从上图的特征和样本维度。当A和B处于同一样本维度、不同特征维度时,我们可以用联邦学习;当A和B处于同一特征维度、不同样本维度时,我们就可以用迁移学习;二者的结合点则是:不同样本、不同特征维度。

具体地,可以扩展已有的机器学习方法,使之具有FTL的能力。比如,我们可以将不同企业、不同来源的数据首先训练各自的模型,然后,将模型数据进行加密,使之不能直接传输以免泄露用户隐私。然后,在这个基础上,我们对这些模型进行联合训练,最后得出最优的模型,再返回给各个企业。

联邦迁移学习使得不同企业之间,第一次有了可以跨领域挖掘用户价值的手段。

比如中国移动,它有着海量的用户通话信息,但是,它缺少了用户的购买记录和事物喜好等关键信息。它就无法更加有针对性地推销自己的产品。而另一方面,一个大型的连锁超市,比如家乐福,它存有大量的用户购买信息,但是没有用户的行为轨迹。我们能不能应用联邦迁移学习的思想,在不泄露用户隐私的前提下,进行中国移动和家乐福的联邦学习,从而提高二者产品的竞争力?

联邦迁移学习 vs 迁移学习 vs 多任务学习

从字面意思上看,FTL和迁移学习和多任务学习具有很强的相关性。它们的区别是:

多任务学习和FTL都注重多个任务的协同学习,最终目标都是要把所有的模型变得更强。但是,多任务学习强调不同任务之间可以共享训练数据,破坏了隐私规则;而FTL则可以在不共享隐私数据的情况下,进行协同的训练。

迁移学习注重知识从一个源领域到另一个目标领域的单向迁移。而这种单向的知识迁移,往往伴有一定的信息损失:因为我们通常只会关注迁移学习在目标领域上的效果,而忽略了在源领域上的效果。FTL则从目标上就很好地考虑了这一点:多个任务之间协同。

当然,迁移学习和多任务学习都可以解决模型和数据漂移的问题,这一点在FTL中也得到了继承。

联邦迁移学习系统

好了,现在有了学习的基本思路,我们就可以将已有机器学习方法,如决策树、森林、深度模型等,扩展到FTL的框架中了。学习的问题算是得到了解决。

还有一个问题:涉及到了隐私保护,谁来监管?数据放在哪里?

答案指向了另一个炙手可热的领域:区块链。为了构建可信的联邦迁移学习系统,各个企业应当在遵循法律法规的基础上,按照各参与方理解一致的共识机制,构建基于区块链的运营组织。区块链使得信息的存储变得去中心化,从而避免了信息泄露和伪造。

展望:联邦迁移学习的潜力

联邦迁移学习是一种新的学习模式。我们以FTL的思想为基础,打造FTL的生态系统。

从社会需求来看,FTL迎合了人们对于隐私保护的要求,使得隐私数据变得更安全,这也是我们所喜闻乐见的。

因此,对数据隐私的保护非常看重的企业,可以用FTL来打造联邦学习的联盟。比如金融业和银行业,就可以用FTL的框架为武器,打造多个企业之间的“联盟”。大家在不泄露隐私的条件下,实现彼此模型的正向生长,从而更好地为客户服务。


References

[1] 杨强:GDPR对AI的挑战和基于联邦迁移学习的对策

[2] 机器之心专访杨强教授

[3] 欧盟GDPR介绍:zhuanlan.zhihu.com/p/31

[4] 联邦学习:zhuanlan.zhihu.com/p/31


========================

[作者简介]王晋东(不在家),中国科学院计算技术研究所博士生,目前研究方向为机器学习、迁移学习、人工智能等。作者联系方式:微博@秦汉日记 ,个人网站Jindong Wang is Here

=================

更多《小王爱迁移》系列文章:

《小王爱迁移》系列之零:迁移学习领域著名学者和研究机构

《小王爱迁移》系列之一:迁移成分分析(TCA)方法简介

《小王爱迁移》系列之二:联合分布适配(JDA)方法简介

《小王爱迁移》系列之三:深度神经网络的可迁移性

《小王爱迁移》系列之四:深度网络如何进行迁移学习(DaNN、DDC、DAN)

《小王爱迁移》系列之五:测地线流式核方法(GFK)

《小王爱迁移》系列之六:学习迁移(Learning To Transfer)

《小王爱迁移》系列之七:负迁移(Negative Transfer)

《小王爱迁移》系列之八:深度迁移学习文章解读

《小王爱迁移》系列之九:开放集迁移学习(Open Set Domain Adaptation)

《小王爱迁移》系列之十:张量迁移学习(tensor unsupervised domain adaptation)

《小王爱迁移》系列之十一:选择性对抗迁移学习(Selective Adversarial Network)

《小王爱迁移》系列之十二:新年新气象-重新整理的迁移学习资源仓库

《小王爱迁移》系列之十三:在线迁移学习(online transfer learning)

《小王爱迁移》系列之十四:用于部分迁移学习的深度加权对抗网络

《迁移学习简明手册》发布啦!

《小王爱迁移》系列之十五:自动选择源域的迁移学习方法(SSFTL)

《小王爱迁移》系列之十六:探秘任务迁移学习 (CVPR 2018最佳论文解读)

《小王爱迁移》系列之十七:深度迁移度量学习

《小王爱迁移》系列之十八:联邦迁移学习

《小王爱迁移》系列之十九:基于条件对抗网络的领域自适应

《小王爱迁移》系列之二十:深度迁移学习用于时间序列分类

小王爱迁移》系列之二十一:最大分类器差异的领域自适应(MCD_DA)

《小王爱迁移》系列之二十二:Learn What and Where to Transfer

编辑于 2019-09-17

文章被以下专栏收录