新浪新闻客户端

直击数据孤岛痛点,联邦学习的下一步怎么走? | CCF-GAIR 2020

直击数据孤岛痛点,联邦学习的下一步怎么走? | CCF-GAIR 2020
2020年07月13日 20:10 新浪网 作者 雷峰网

  每一项技术的成熟化,必然会带来人类对技术的检视。

  AI 技术发展至今,亦是如此。

  其中数据隐私问题,更是成为众矢之的,为应对这一问题,联邦学习应运而生。

  2019年开始,联邦学习以一种“异军突起”的姿态成为 AI 社区最火热的研究方向和话题之一,相关的论文成果爆发式涌现,在各大 AI 会议和应用场景中都少不了它的身影。

  从原本的默默无闻,到炙手可热,在不少人看来,联邦学习仿佛是“一夜之间”发展起来的,然而在火爆之前,联邦学习实际上经历了长达两年的酝酿期。

  1

  两年时间,联邦学习如何“异军突起”?

  早在 2017年,谷歌就提出了联邦学习这一概念。而让这一概念真正为人熟知,就不得不提微众银行。

  实际上,谷歌一开始提出的联邦学习,是一套旨在解决安卓手机终端用户在本地更新模型问题的To C 方案,而并不能解决在现实场景中存在更大痛点的——企业之间的数据孤岛问题。

  随着欧盟在 2018 年 5 月 25 日开始实施的《通用数据保护条例》(GDPR)以及国内近两年颁布的一连串更严格、涉及更广泛领域的数据监督法规,这一痛点更加凸显。

  于是,微众银行首席人工智能官杨强教授提出的另一套新联邦学习方案应运而生,与谷歌的横向联邦学习不同,这套新联邦学习方案是纵向的,针对不同企业之间数据特征的不同,可以采取不太的技术方案和实施框架,能够非常好地解决企业之间的数据孤岛问题。

  直击痛点,未来可期。

  2018年,在杨强教授的带领下,微众银行正式开展了联邦学习研究,内部投入百余人,打造了一个覆盖技术上下游的联邦学习团队,包含研究、学术、研发、商业、行业应用等多个细分队伍。

  在研究方面,微众AI团队发表了多篇论文,介绍了联邦学习思路下针对有安全需求的有监督学习、强化学习、决策树的具体方法,包括安全的联邦迁移学习、联邦强化学习以及 SecureBoost 安全树模型。

  然而在创建了技术之后,如何让企业来了解这项新技术,并且愿意相信联邦学习的技术能够解决数据隐私问题,同时能够打破企业之间的数据孤岛问题,则成为一个巨大的挑战。

  这个时候,微众团队开始意识到,联邦学习要想真正实现落地应用,就必须建立一种企业之间的对话语言,并且一定要是得到国际法律法规体系支持的对话语言。

  2018年底由微众银行等企业带头向IEEE标准协会递交了联邦学习关于联邦学习架构和应用规范的标准P3652.1。2018 年 12 月,IEEE标准协会批准这一标准的立项。

  紧接着2019年,杨强教授主导成立IEEE P3652.1(联邦学习基础架构与应用) 标准工作组,并马不停蹄地在2月、4月 分别召开了第一次、第二次会议,分别梳理了各自领域内的联邦学习典型案例,对联邦学习标准的具体形式及内容进行了讨论,对标准草案的制定提出了建设性意见。

  2019年8月 IJCAI 会议上,联邦学习迎来了自提出以来最为密集的一次发声,会议上不仅召开了「IEEE P3652.1(联邦学习基础架构与应用) 标准工作组第三次会议」,重点聚焦联邦学习各项指标的评估如何量化,还举办了「首届联邦学习国际研讨会」,配合「AI 安全专题研讨会」、「AI 与用户隐私」圆桌会上对联邦学习的分享,将整个国际 AI 社区都拉入了联邦学习的讨论和探索中。

  随着第四次、第五次标准会议的落幕,在微众银行为首的三十余家海内外头部企业与研究机构的反复讨论下,标准草案完成撰写,并提交IEEE标准协会(StandardAssociation, SA)投票表决。

  而在整个过程中,如何在不同的场景下激励各方积极参与的激励机制也非常重要。正如微众银行人工智能首席科学家范力欣博士在接受AI 科技评论采访时候谈到:“每个人的贡献都不容忽视,虽然在讨论过程中,大家讨论很激烈,但是都希望标准更加完善,更加成体系,最后也达成了很好的结果”。

  另外值得一提的是,与其他多数国际标准最重要的不同之处在于,这份联邦学习IEEE标准,从提案到制定,完全是由微众银行牵头制定的,也就是说中国企业在标准的制定和决策中占据绝对的主导地位。

  正是在杨强教授及微众团队的推动下,联邦学习终于从最初的默默无闻,迎来了“提到数据隐私,必提联邦学习”的盛况。

  2

  一反“跟随”基调,国内企业百舸争流

  在 AI 研究上,因为中国的起步比国外晚了那么十年,多少奠定下了我国研究机构和企业处于跟随状态的基调。

  然而在联邦学习的研究上,并非如此。我国不仅不再处于跟随状态,而且可以说走在国际联邦学习的技术研究、标准制定以及应用落地实践的前头。

  在国内,除了微众银行,还有其他企业在齐头并进地耕耘这一研究方向。正如在《中国联邦学习「五大流派」》一文中总结地那样,国内目前已主要形成联邦学习、共享智能(蚂蚁金服)、知识联邦(平安科技)、联邦智能(同盾科技)和异步联邦学习(京东数科)这五大流派。

  在应用方面,国内已有多家企业退出了可以进行产业落地应用的开源框架,首个便是微众银行早在2018年就开始研发、于2019年初正式开源的全球首个工业级联邦学习框架 FATE(Federated Learning Enabler)。

  后有百度推出PaddleFL联合学习框架聚焦深度学习在CV、NLP、推荐算法等领域的联邦学习应用、平安科技自主研发的蜂巢联邦学习平台对准金融场景中多方信息的安全协作计算、腾讯云开发出的“腾讯云数盾”以满足数据安全治理的多重需求。

  在具体的落地场景上,联邦学习现已在金融信贷风控、医疗AI、安防等多个场景中初具应用规模。然而除了这些行业以外,其他行业同样普遍存在数据孤岛的问题。

  基于此,微众 AI 团队发起了一个旨在开发和推广安全和用户隐私保护下的 AI 技术及其应用的项目「联邦学习生态」(FedAI Ecosystem),以期建立基于联邦学习的 AI 技术生态,使得各行业更充分发挥数据价值,推动垂直领域案例落地。

  在联邦学习生态的加持下,未来联邦学习可能能够为各行业架起一座机构与用户、机构与机构之间数据信任的桥梁,从而实现 AI 成果普惠共享的愿景。

  不过在这一愿景实现之前,联邦学习的研究者们以及企业参与者们还有很多的工作要做。

  作为中国鲜有的拥有话语权的技术研究领域,联邦学习下一步会有哪些重点方向?在应用布局方面还要突破哪些重点挑战?如何在吸引更多国内企业加入的同时也将国外企业吸纳到生态中?

  2020年8月7日-9日,由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办的第五届CCF-GAIR全球人工智能与机器人峰会,即将在深圳召开。

  今年,将专设「联邦学习与大数据隐私」专场,不仅邀请了联邦学习的发起人杨强教授坐镇专场,还邀请了联邦学习国内五大流派之一的京东数科AI实验室首席科学家薄列峰,以及腾讯安全天御金融风控负责人李超、第四范式资深机器学习架构师涂威威、创新工场南京人工智能研究院执行院长冯霁、深圳逻辑汇科技有限公司创始人丛明舒等专家,从产学研多个视角,共同深入「拆解」联邦学习!

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
AI微众银行
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有