为训练数据建一个TB级计算「飞地」,联邦学习的靠谱实现方式了解一下?
机器之心原创
作者:张倩
为训练数据建一个TB级计算「飞地」,联邦学习的靠谱实现方式了解一下?
数据是新时代的『石油』
2017年,著名杂志《经济学人》发表封面文章称,数据已经取代石油成为当今世界最有价值的资源。在那之后,「」这一说法逐渐深入人心。
图源:https://twitter.com/theeconomist/status/860135249552003073
五年后的今天,人们对数据的重视又上了一个新的台阶,尤其是在AI领域。大家普遍认为,数据的质量和规模将对AI的研究和落地产生重要影响。
以数据为中心
在质量方面,吴恩达等学者提出,AI领域正经历从「以模型为中心」到「」的转变。他认为,「对于很多行业来说,现在更有效率的做法是保持神经网络体系架构不变,转而寻找改进数据的方法」。为了帮助机构提升数据质量,吴恩达所在的Landing.AI等公司正在构建一些实用的工具。
越来越多的机构开始走向多方联合的道路,希望借助多方的合力训练出更精准的AI模型,让数据在流通中发挥应有的价值。
在规模方面,AI大厂掀起的大模型暴力美学依然占据主流,人们依然希望借助大数据、大算力探索深度学习的天花板。不过,与大模型需要的海量数据相比,单个机构所能处理的数据往往是不充分的:一是数据量不够大,二是数据的维度和来源不够丰富。为了解决这些问题,
数据孤岛
不过,受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束,多个数据来源方无法直接交换数据,这就形成了「」现象,制约着AI模型能力的进一步提高。受此需求驱动,联邦学习应运而生。
数据可用不可见
联邦学习的核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于多方数据下的全局模型,从而实现「」、「」。
TEE
和2016年谷歌刚刚提出这一概念时不同,联邦学习如今已经有了很多具体的实现路径,既有基于软件的,也有基于硬件的。其中,基于硬件的路径——主要是(Trusted Execution Environment,可信执行环境)——由于可支持多层次、高复杂度的算法逻辑实现以及运算效率高等优势而受到广大企业的青睐,落地速度也在不断加快,尤其在等数据安全要求较高的行业。
基于TEE的医疗科研多方安全计算平台
首先来说医疗行业。AI+医疗是一个发展较早的细分领域,但直到今天,Geoffrey Hinton 2016年的预言——AI将取代放射科医生——依然没有实现。在种种阻碍因素中,医疗领域的数据聚合是一个绕不开的难题,包括患者生命体征信息、疾病信息、影像检验报告、互联网诊疗记录、药品使用等各种不能离开医院的基础数据。
它可以为「使用中」(即处于计算或处理中)的数据提供保护,与其他针对静态数据和传输中的数据的保护方法一起,为数据流动与共享「护航」。
近几年,采用TEE方案的联邦学习方法在各医疗科研机构的实践中收获了良好的效果,
三种状态下的数据保护
为了保护这些使用中的数据,TEE会在硬件中为它们单独分配一块隔离的内存区域,所有相关数据的计算均在这块区域中进行,并且除了经过授权的接口外,硬件中的其他部分均不能访问这块隔离的内存中的信息,以此来实现隐私计算。
与一般的分布式机器学习或深度学习方案相比,联邦学习方法可以为医疗科研增添以下优势:
●医疗数据不脱离本地,各参与方可接入各自数据训练全局模型;
●每个医疗科研参与方都可参与训练过程,模型损失可控;
●训练过程能更好地兼顾隐私和安全需求,各参与方能在不暴露数据及加密形态的前提下进行联合建模。
安全保护机制独立于软件应用、操作系统或硬件配置之外
如果这种联邦学习方法或方案能再加上一个前缀——「基于TEE」,那么它还会收获更多强化功能,例如它可以通过硬件环境上的隔离,使,使其保护的对象可以更好地应对来自硬件驱动程序、虚拟机乃至操作系统的攻击。再如,它的用途,不仅仅是可以提供,来确保和完整性得到更强的防护,它还能对指定的应用程序或算法的代码进行同样可靠的防护;又如,它还拥有更完备的能力,能让相关数据和密钥的传递更为可靠;最后,相比那些非硬件加速支持的联邦学习及多方隐私计算方案,有TEE加持的方案,往往在兼顾安全防护能力和提升数据处理性能上有更好的表现。
正是这些优势,给了众多医疗科研机构选择基于TEE构建自己的联邦学习系统的理由。
以多年来一直深耕医疗AI与大数据技术创新的医渡云为例,这家公司基于联邦学习等隐私计算方法打造了一个多方安全计算解决方案,自下而上包含面向院内外业务系统的数据采集系统、进行数据加工治理的专病库以及开展多方隐私计算的安全计算平台等几个部分,其中的多方安全计算平台也支持TEE方式进行构建。
医渡云多方安全计算解决方案整体架构
英特尔®软件防护扩展(Intel®Software Guard Extensions,英特尔®SGX)。
而且,他们采用的是实现TEE的一种主流技术——
英特尔® SGX技术实际作用示意图
飞地
在工作时,SGX技术会给相关数据分配一块隔离区域,也叫「(Enclave)」。我们可以把它理解成一个隔离医院,但能入驻这个医院的并不是已经被感染的患者,而是那些健康群体,即需要受到严密保护的应用代码或关键数据。SGX技术能在CPU的支持下,在内存等特定硬件环境中构建出这样一个飞地,让各医疗科研机构的数据分析、模型训练及推理所涉及的数据都运行在各自的飞地中,并通过访问控制为这些应用代码和数据提供更可信赖的安全保障。
这种飞地独立于操作系统、虚拟机以及BIOS系统之外,也就是说,即便一些比你的应用程序更底层的基础软件或系统在恶意攻击中沦陷,飞地也可以通过基于硬件的、增强型的安全防护更有效地阻断这些攻击,尽力避免其中的数据或代码被窃取或篡改。
第三代至强®可扩展处理器
那么,这个「飞地」有多大呢?这和你要使用的英特尔处理器的种类及型号有关。医渡云解决方案使用的是英特尔去年发布的面向单路和双路服务器的,它已经全面内置SGX技术,可在双路服务器上实现最大容量为的保留加密内存区域(Enclave Page Cache,EPC,单颗处理器最高支持512GB),这对于医疗科研机构进一步扩展AI模型训练与推理的数据规模至关重要。
英特尔®高级矢量扩展512(英特尔®AVX-512)技术和英特尔®深度学习加速(英特尔®DL Boost)技术的加成
不过,如果你以为医渡云的方案仅仅是要借SGX技术来实现更大、更强的安全「飞地」的话,那就是小看了全新至强® 可扩展处理器在AI实践中的价值了——它除内置有SGX技术外,还有来自,也可在兼顾更优安全能力的同时,为医渡云方案涉及的复杂计算需求提供有力支撑。
中国信息通信研究院在隐私保护计算技术上的两项认证
因此这款处理器在医渡云的多方安全计算解决方案中同时发挥着加固安全与提升性能的双重价值。正是得益于它带来的综合优势,医渡云已经开始支持多家医院和医疗科研机构开发一系列基于该方案的联合研究项目,同时也通过了——《基于多方安全计算的数据流通产品技术要求与测试方法》及《基于联邦学习的数据流通产品技术要求与测试方法》。
基于TEE的多源金融大数据隐私计算技术验证
帕累托最优
另一个非常青睐TEE解决方案的是金融行业。与其他技术方案相比,以硬件为载体来为数据和代码提供安全可信环境的TEE,在金融行业最关注的数据安全、性能以及可用性三个维度上,能取得接近「」的效果,因此受到较多企业的青睐。
联邦学习中不同安全隐私技术综合评估
在这个行业,企业通常需要将已有的大量AI应用以联邦学习模式高效、便捷地扩展到现有的分布式大数据平台上(如Spark、Flink、Hadoop集群)。在此过程中,他们可能会遇到一些挑战,比如如何在开展联邦学习时依然保持AI训练与推理的高效能?如何在应用TEE技术特性时做到数据的全栈可信?如何将二进制应用程序不做改动地运行在TEE环境中?
BigDL
英特尔与中国银联电子商务与电子支付国家工程实验室组成的联合研究团队通过开源的统一大数据分析与AI平台——,验证了基于TEE的联邦学习与实时预测方案,有助于解决上述问题。
如图所示,基于英特尔®SGX技术的BigDL提供了自下而上可信的安全技术、不同层面的软件框架以及用于连接大数据平台和联邦学习方法的端到端平台。
基于英特尔®SGX技术的BigDL平台架构
我们重点来看一下安全技术层面。在这一层面,该平台通过第三代英特尔®至强®可扩展处理器集成的英特尔®SGX技术,提供了所需的TEE环境;同时,还通过加入Gramine-SGX这样的开源LibOS组件,来加速既有Al模型或应用程序在SGX技术上的无缝迁移。Gramine-SGX允许用户在不修改相应模块代码的情况下,通过系统调用的方式直接在SGX环境中执行,大大降低了SGX技术的应用门槛。同时,这一组件的加入,也使英特尔开源的OpenVINO™工具套件和OneDNN等重要Al软件工具能够在SGX环境中方便地运行。
一种典型的基于英特尔®SGX-BigDL平台的预测方案架构如下图所示,用户数据可以导入基于Gramine-SGX的SGX环境中,由BigDL平台负责连通和调度预测推理所需的模型库、框架和工具,在完成预测推理后,再向用户输出相应结果,中间所涉及的数据和工作流程都可获得更有效的安全保障。
典型的基于英特尔®SGX-BigDL平台的预测方案
联合团队的验证结果表明,基于英特尔®SGX-BigDL平台部署的实时计算与预测推理方案,能在更好地保障端到端数据安全的前提下,依旧保持预期的性能。
Gartner曲线:联邦学习技术还在上升期
「为什么我们要投入联邦学习?」中国人工智能开源软件发展联盟副理事长王健宗博士在前段时间英特尔联合国际学术期刊《Science》推出的「架构师成长计划」第二季系列课程中提出了这样一个问题。
联邦学习当前正处于高速发展期
为了解释这个问题,他向大家展示了去年的Gartner技术成熟度曲线。这份曲线图显示,,未来将成为一项非常重要的计算技术。这也是Gartner首次将联邦学习纳入技术成熟度曲线。
Gartner技术成熟度曲线
联邦学习技术的应用范围正在不断扩大,越来越多企业正放下顾虑,更放心地参与到共同的AI应用开发中来
在应用方面,除了我们前面提到的医疗和金融场景,王健宗还系统地总结了联邦学习在物联网、政务等领域的应用。从这里也可以看出,。这背后,以TEE为代表的安全计算实现方案功不可没。
联邦学习在行业场景中的应用
在现在大家都比较重视隐私保护、数据安全的环境下,英特尔®SGX为我们提供了一个更安全的可信计算环境。
值得一提的是,王健宗早在几年前就曾带领他在平安科技的团队开始构建基于英特尔®SGX的TEE联邦学习方案,也见证了这一技术地不断迭代。他对第三代至强®可扩展处理器1TB的EPC容量以及英特尔®SGX对云边协同的支持印象深刻。他认为,
自动化机器学习、零代码联邦和大规模互联互通
对于联邦学习未来的发展,王健宗主要看好三个方向:。他解释说,联邦学习现在仍然是一个比较复杂的技术,有很多工程方面的工作。未来他希望能实现自动化机器学习,以及通过简单地拖拉拽,实现零代码的联邦学习,进而让联邦学习应用到更多对数据、代码安全性要求更高的领域。
参考链接:https://www.jiqizhixin.com/articles/2022-02-20-3
更多架构师成长计划课程,欢迎访问英特尔架构师成长计划平台:
https://bizwebcast.intel.cn/eventstart.aspx?eid=315&tc=u6s8lwaepl&frm=wechatkol
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
标签:
精彩推送
- 为训练数据建一个TB级计算「飞地」,联邦学习的靠谱实现方式了解一下?
- 环球热资讯!山东莒南县:执行实行二手房“带押过户”登记模式
- 全球百事通!9月20日晚间央视新闻联播财经内容集锦
- 新动态:央行:目前我国定期存款利率约为1%至2% 贷款利率约为4%至5%
- 当前头条:国资委公布第二批假冒中央企业名单 涉175家公司
- 世界简讯:9月20日晚间央视新闻联播财经内容集锦
- 焦点播报:央行推动数字人民币试点范围扩围!受益上市公司名单梳理
- 环球速递!央行推动数字人民币试点范围扩围!受益上市公司名单梳理
- 全球热推荐:岗位同比上涨33% 北京成银发族再就业首选城市
- 世界观热点:郑州保交楼出台新举措:交房即发证
- 环球微资讯!央行:目前我国真实利率略低于潜在实际经济增速 处于较为合理水平
- 世界通讯!豪门联姻是优质资源的主动结合
- 速递!郑州保交楼出台新举措:交房即发证
- 当前视点!央行:继续深入推进利率市场化改革 持续释放LPR改革效能
- 每日速读!青海南玻高纯晶硅材料项目在柴达木盆地开建
- 全球实时:工业和信息化部:重点培育一批北斗领域的“小巨人”企业
- 全球时讯:债市收盘| 9月LPR报价维持不变 14天逆回购加量稳预期
- 每日视点!9家跻身世界500强!2022浙江百强企业榜出炉
- 当前速递!国家能源局局长章建华带队赴安徽、河南两省调研能源改革发展工作
- 天天快播:4000亿元 雄安新区大消息!3家央企总部 落地启动建设
- 天天微头条丨国家能源局局长章建华带队赴安徽、河南两省调研能源改革发展工作
- 快播:上海自贸试验区陆家嘴管理局与玛泽咨询等专业服务机构达成战略合作
- 全球新消息丨上海自贸试验区陆家嘴管理局与玛泽咨询等专业服务机构达成战略合作
- 天天快播:30多家全球高端专业服务机构签约落户上海陆家嘴
- 当前播报:央行与哈萨克斯坦国家银行签署在哈萨克斯坦建立人民币清算安排的合作备忘录
- 资讯推荐:受能源危机影响 欧洲最大戒毒恢复中心或将关闭
- 环球今热点:天津拟出台公积金新政 养育未成年二孩及以上多子女的本市缴存职工贷款最高限额可上浮20%
- 全球快看点丨香港金管局:将为可能推出的“数码港元”展开准备工作
- 【新视野】央行与老挝银行签署在老挝建立人民币清算安排的合作备忘录
- 环球热头条丨9月LPR按兵不动:86城房贷主流利率低至首套房4.1%
- 环球快报:4.3%!房贷利率还有可能更低吗?
- 当前速看:南京今年第三批集中供地出让46幅 不设毛坯房销售限价
- 环球实时:世界创新集群排名第八 上海科技创新还有哪些亮点
- 全球速看:百万一针CAR-T疗法新进展:一家企业进入医保国谈 但可及性依旧是难题
- 世界简讯:拼多多公布出海扶持计划 “低价”仍为进攻策略?
- 今日看点:货币政策“以我为主” 9月LPR按兵不动
- 焦点消息!香港金管局:将为可能推出的“数码港元”展开准备工作
- 最资讯丨最新出炉!9月20日沪深股通净流出5.23亿 这只龙头被逆势买入10.573亿!
- 【全球报资讯】截至今年8月末 深圳跨境人民币结算量累计达17.4万亿元
- 天天观热点:义乌要求下架槟榔?当地市监局澄清:没有完全禁售 但要分区域售卖
- 当前动态:金龙城财富广场|地铁3号线东延段大站顺利封顶 规划利好兑现在即
- 热点在线丨广州探索建设企业碳账户体系 鼓励创新碳金融产品服务
- 【焦点热闻】2022世界制造业大会在安徽合肥开幕
- 全球热推荐:工信部推进光伏组件回收 行业退役潮将至 但两大难题仍横亘在前
- 每日精选:义乌要求下架槟榔?当地市监局澄清:没有完全禁售 但要分区域售卖
- 环球精选!中国-亚欧博览会助力全国对口援疆农产品交易
- 天天最资讯丨郑州第二批供地3宗地块终止出让 供地数量减至14宗
- 热点!截至今年8月末 深圳跨境人民币结算量累计达17.4万亿元
- 讯息:国家发改委:北京通州区与河北廊坊北三县协同发展已取得阶段性重要进展
- 今日热文:广州如何玩转数字经济?
- 环球新资讯:去年山东海洋生产总值14942.1亿元 比上年增长15.7%
- 天天即时看!广州探索建设企业碳账户体系 鼓励创新碳金融产品服务
- 环球热议:《魔兽世界》9.0德拉诺坐标在哪里?德拉诺怎么去?
- 每日速递:祝福母亲节快乐可爱表情包有哪些?妈妈辛苦了怎么表达?
- 全球视讯!WOW7.0恶魔猎手什么天赋练级最好?DH练级天赋有哪些推荐?
- 环球最新:蚂蚁金服网商银行是什么性质的银行?
- 【新要闻】《九阴真经》门派选择攻略?选哪个门派好?
- 环球即时:2019DNF复仇者刷图怎么加点?复仇者90技能加点攻略?
- 环球快资讯:lol2017年战争学院的荣耀活动在哪里?成就5级抽皮肤地址在哪里?
- 当前热文:多家钨企下调9月下半月长单价
- 今日观点!靖远:厚植生态底色 绘就绿色画卷
- 焦点热门:数字加持农业发展增“智”
- 全球快消息!2021微信置顶文案句子有哪些?朋友圈封面置顶语有哪些?
- 观速讯丨今年来超30城调整楼市限购政策:“高频小步优化”将成特点
- 全球微资讯!故宫里真的有名叫冷宫的宫殿吗?
- 环球实时:全国多城松绑楼市限购政策,实际成效几何?
- 当前热议!抖音倪妮西门龙霆景佳人图片出自哪?抖音西门龙霆景佳人为什么这么火?
- 天天速读:2021年度广东省房地产企业“社会责任报告”发布!
- 天天热资讯!工信部:加快修订完善光伏标准体系 推进光伏组件回收利用
- 天天快播:上海海关开通空运进口科创研发用品优先查验预约通道
- 今日热文:今年前8个月上海市累计出口船舶数量同比增长40%
- 精彩看点:四川营山:各经营户不得销售食品包装和标签标识的槟榔及槟榔制品
- 全球焦点!2017CF红包开呀官网活动地址在哪里?穿越火线超级红包在哪里拿?
- 天天简讯:服务有机农产品企业,提升农业产业发展水平
- 视讯!让“山货上头条” 全域兴趣电商还能做更多
- 全球焦点!水利部:大力推进“数字孪生黄河”建设
- 环球热点评!12个新农科专业服务农业农村现代化
- CPT Markets高手指路,找对理财好方法,生活蹦出新滋味!
- 【环球聚看点】延庆:西瓜是咱“致富果” 甜进果农“心尖尖”
- 环球速讯:国家统计局:1—8月全国商品房销售额85870亿元 下降27.9%
- 天天视讯!工信部:我国消费电子产销规模均居世界第一
- 当前热点-深圳跨境人民币结算量超17万亿元
- 天天短讯!启东洲颐酒店喜获荣誉 长泰海滨城综合实力再夯实
- 当前观察:9月103城首套房贷利率环比回落17BP至4.15% 5年期LPR基准未变下后续利率走势如何?
- 每日快报!9月LPR报价出炉:1年期和5年期以上均保持不变
- 环球观速讯丨天津拟出台新政 提高这些家庭首套房公积金贷款额度
- 最新消息:8月我国乘用车产销同比分别增长43.7%和36.5%
- 前沿资讯!工信部:加快修订完善光伏标准体系 推进光伏组件回收利用
- 世界正在发生巨变,从财富规划过去与未来我们能看到什么?
- 软硬兼施、刚柔并济,为何谈及安全话题,最近总绕不开艾瑞泽8
- 华彬旗下果倍爽使用过期主剂、包材?知情人士:授权已到期
- 前员工实名举报!华彬旗下果倍爽使用过期主剂、包材?
- 全球快看点丨明朝记载元旦拜年要作匾食 匾食指的是面条还是饺子?
- 【全球热闻】《DNF》100刺客用什么武器好?100刺客武器怎么选择?
- 每日快报!微信怎么给表情加小辫子?打出表情左右两个小辫子符号的方法是什么?
- 微头条丨在精卫填海的故事中精卫指的是什么?
- 世界观焦点:长颈鹿和小白鼠 哪种动物天生就是高血压?
- 当前速看:魔兽世界博尔格斯的炽热硫磺怎么获得?具体获得位置在哪里?
- 全球播报:DNF自恋狂武极怎么加点?武极自恋狂刷图加点有哪些推荐?
- 全球热推荐:充值陌陌币有什么用处?一个陌陌币值多少钱人民币?