当今时代,信息技术日新月异,人类文明正经历从信息科技(IT)时代向数据科技(DT)时代的飞速变革。
一、 数据孤岛阻碍数据发展
当今时代,信息技术日新月异,人类文明正经历从信息科技(IT)时代向数据科技(DT)时代的飞速变革。数据作为基础性战略资源的地位日益凸显。然而,数据孤岛问题突出。出于对数据安全的传统保护,数据流通的各方彼此难以互信,进而形成数据垄断,阻碍了数据的共享和利用,使得不同数据拥有方彼此的数据相互分隔,就像海上一座座孤岛,互不连通。数据只有流通才能充分释放价值。在强化数据安全与保护个人隐私的前提下,追求数据价值的最大化释放是这个时代应有之义。如何在保证数据安全的同时,实现数据“可用不可见”,这是数据安全发展亟需解决的课题。
二、 隐私计算实现数据“可用不可见”
隐私计算技术为实现数据的“可用不可见”提供了解决方案,可破解数据保护和利用之间的矛盾,已在金融、医疗、政务等领域开始推广应用。隐私计算是在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合。隐私计算并不简单属于某一学科领域,而是一套包含密码学、数据科学、人工智能等众多领域交叉融合的跨学科技术体系。隐私计算技术包括安全多方计算(MPC)、可信执行环境(TEE)和联邦学习(FL)等。
1. 安全多方计算(MPC)
安全多方计算(MPC)是隐私计算在密码学领域的主流技术。安全多方计算技术旨在解决数据流通共享中的安全保密问题。安全多方计算问题数学模型是:假设有n个参与方P1、P2…Pn,分别拥有自己的秘密数据x1、x2、…xn,他们希望计算函数f(x1,x2,…xn),要求在不泄漏各自秘密数据的情况下各方协同计算。计算完成时,各方只能得到函数计算结果,而不能得到其他参与方的秘密数据。安全多方计算本身也不是单一技术,包括不经意传输、混淆电路、秘密分享和同态加密等多种技术。
不经意传输(OT) ,也称茫然传输,是一种保证通信双方隐私安全的通信协议。在一个n选k不经意传输协议中,发送方将n个消息加密后发送给接收方,接收方只能解密接收方所选取的k(k<n)个加密消息,发送方无法确定接收方得到的消息是其中哪k个。ot协议可以保护接收者的隐私(选取的消息的内容)不被发送者知道。ot协议是安全多方计算的基础,在混淆电路、秘密分享中,可能需要执行大量的ot协议来完成复杂的计算,安全性和效率是设计和实现ot协议的重要考量。< p="">
混淆电路(GC),又称姚氏电路,它的核心技术是将两方参与的安全计算函数编译成布尔电路的形式,并将真值表加密打乱,从而实现电路的正常输出而又不泄露参与计算的双方私有信息。由于所有计算都可以归结为底层的电路运算,因此GC适应性强,可以用在所有可以用电路表示的计算中。但在与其他安全协议进行转化时的代价较大,电路门数量大时,计算效率较低。
秘密分享(SS),也称秘密分割或者秘密共享,是将秘密拆成多个份额或者分片(shares) 分给多个参与方。秘密分享根据其原理可以分为基于多项式的秘密分享和加性秘密分享。基于多项式的秘密分享的典型方案是Shamir门限秘密分享,加性秘密分享的典型方案是Beaver 三元组。SS是最早在商业环境中应用的安全多方计算技术之一,技术相对成熟。
同态加密是一种特殊性质的加密方案,支持密文计算。同态加密被誉为密码学的圣杯。通过同态加密,数据拥有方可以将数据发送给云服务提供商进行处理,而不用担心数据的原始信息被泄露,使其天然地与云计算具有极高的亲和度,成为云计算安全技术体系的制高点。当然,同态加密方案的构造极具挑战性。可以肯定,既高效又安全的全同态加密方案一旦构造出来,将会极大地推进隐私计算在各类实际场景的落地。
2.联邦学习(FL)
联邦学习(FL)基于联邦架构和机器学习,是一种多个参与方在各数据不出本地的前提下共同完成某项机器学习任务的活动。通过联邦学习,不同的数据拥有方可以在不交换数据的情况下,建立一个虚拟的共有模型,这个虚拟模型的效果等同于把数据聚合在一起建立的模型。利用联邦学习构造的虚拟融合,采用“数据不动模型动”的思想,不用聚合原始数据,而是各自在本地进行训练后交换中间因子,再对模型进行优化迭代。这样,不同数据拥有方的数据可在本地控制,同时完成联合建模,彼此之间实现数据“可用不可见”。
3. 可信执行环境(TEE)
可信执行环境,即TEE,是一种具有运算和储存功能,能提供安全性和完整性保护的独立处理环境。其基本思想是:在硬件中为敏感数据单独分配一块隔离的内存,所有敏感数据的计算均在这块内存中进行,并且除了经过授权的接口外,硬件中的其他部分不能访问这块隔离的内存中的信息,以此来实现敏感数据的隐私计算。TEE的核心思想是隔离。隔离机制是TEE最主要的基础。通过隔离的安全执行空间,提供对代码和数据的机密性和完整性保护。目前最有代表、应用最多的技术方案是ARM的TrustZone和Intel的SGX。
小结
作为一类技术的集合,隐私计算技术体系的划分并未统一。除了上述技术之外,零知识证明、差分隐私等也常被纳入其中。伴随着隐私计算一起出现的相关技术还包括数据脱敏、保留格式加密、区块链等。在选择技术方案时,只有结合具体场景在性能、安全性和通用性等方面的具体需求,从核心需求痛点入手,才能选择最合适的技术路线。
三、 海泰方圆隐私计算和数据安全产品线
1. 海泰方圆隐私计算技术产品
以安全多方计算、联邦学习、TEE等为代表的隐私计算技术为流通过程中数据的“可用不可见”提供了解决方案。海泰方圆在安全多方计算、TEE、数据安全治理、数据脱敏、保留格式加密等方面有深入的研究,在秘密分享(密钥分割)、不经意传输、匿名认证等方面均有技术专利授权,同时公司还参与隐私计算相关内容的国家标准和行业标准工作。2022年初公司设计完成基于同态加密的隐私计算服务系统,提供基于密文的数学运算能力和复杂场景的多方联合计算能力,实现数据“可用不可见”。该系统包含数据方、隐私计算平台方、计算结果获取方等多种角色。数据方对数据进行加密后传给隐私计算平台,隐私计算平台基于密文进行计算,将密文计算结果传给计算结果获取方,计算结果获取方拥有解密私钥,对密文计算结果进行解密得到明文结果。隐私计算服务系统可用于数据安全交易、数据安全出境等场景。
隐私计算服务系统
2. 海泰方圆数据安全产品
当前,数据安全技术领域不断细分,技术体系不断完善,而且还在不断发展之中,可以说,没有哪项技术是全能而完美的,不同技术和方法的应用往往需要相互融合。事实上,海泰方圆拥有丰富的数据安全类产品,近年推出的数据数据安全新品包括数据安全管控平台、数据分类分级系统、数据脱敏系统等多种产品。
数据安全管控平台是“数据安全”能力的底座。平台关注于数据的安全保护,对数据安全能力进行集中化、标准化、规范化、常态化、场景化管理,全面掌握全域敏感数据资产分类分级及分布情况,有效监控敏感数据流转路径和动态流向,通过集中化数据安全管控策略管理,实现数据分布、流转、访问过程中的态势呈现和风险识别。平台能够对分类分级后的敏感数据做进一步安全处理,支持数据脱敏、数据加解密和数据完整性保护等安全防护功能。
数据分类分级系统基于AI智能引擎和分类分级模板实现企事业单位数据资产中的敏感信息分类分级自动识别,集中管控敏感信息的静态分布和动态变化,为数据脱敏、数据资产安全利用提供基础支撑,辅助决策人员制定数据安全方案。数据分类分级系统适用于企业内部数据资产识别梳理、定位数据资产分布、满足监管检测等场景。
数据据脱敏系统是一套在保留原有数据的有效信息特征的情况下,通过对部分数据进行遮蔽、替换、混淆等方法,隐藏数据中敏感信息的系统。系统通过敏感数据发现和处理引擎自动扫描数据库,智能识别敏感数据,系统默认支持地址脱敏、URL脱敏、身份信息脱敏、电话号码脱敏等20种脱敏方式,支持自定义脱敏规则设置,支持保留格式加密,能够应用在生产环境数据导入开发环境、数据跨单位共享等场景。
海泰方圆数据安全产品具有三大技术特色。一是采用专业的密码技术,包括传统密码技术和隐私计算前沿技术。二是采用AI技术,包含NLP(自然语言处理)和知识图谱等技术。三是采用符合国家标准的DSMM数据安全治理框架,平台类产品参照国家标准GB/T 37988-2019《信息安全技术 数据安全能力成熟度模型》的DSMM模型构建数据安全治理框架。
海泰方圆以密码全能力和可信数据治理为核心,提供商用密码综合解决方案和可信数据资产管理。海泰方圆愿与业界同仁一道,赋能共赢,推动隐私计算在数据安全治理中发挥更大的价值。
参考资料
[1]. 深入浅出隐私计算:技术解析与应用实践. 李伟荣著.机械工业出版社,2022.1.
[2]. 隐私计算:推进数据“可用不可见”的关键技术. 闫树等著.电子工业出版社,2022.3.
[3]. 隐私计算. 陈凯,杨强著.电子工业出版社,2022.2
[4]. Secure Multiparty Computation (MPC).Yehuda Lindell Unbound Tech and Bar-Ilan University.2020.
[5]. A Pragmatic Introduction to Secure Multi-Party Computation.David Evans, Vladimir Kolesnikov and Mike Rosulek. 2018.
[6]. Applications of Secure Multiparty Computation. P.Laud and L.Kamm (Eds.).2015.
[7]. 安全多方计算技术与应用综述.苏冠通,徐茂桐,《信息通信技术与政策》2019年5月第5期.
[8]. 基于同态加密的安全多方计算协议及应用.陈立朝,西安科技大学硕士学位论文,2019.
[9]. 大数据隐私动态防护框架.刘孟旭,《软 件》 2019, Vol. 40, No. 7.
[10]. 《隐私计算白皮书2021》.中国信息通信研究院 隐私计算联盟,2021.