摘要【目的】为保障数据安全流通,促进数据流通交易市场发展,针对隐私计算平台在数据流通场景的互联互通问题,构建标准化的统一隐私计算框架。【方法】梳理隐私计算技术与平台发展现状,结合当前数据流通问题与数据交易所实践,提出基于数据流通场景的统一隐私计算框架。【结果】提出三层架构实现与数据交易平台的业务联动、流通过程中的统一监管、互联互通的标准规范管理;两类互通实现数据流通交易平台与隐私计算平台的互联互通及不同隐私计算平台间互联互通;一个生态实现数据要素流通交易生态。【局限】隐私计算技术尚未得到大规模商业应用的检验;隐私计算技术在计算安全性与计算效率方面尚未达到平衡。【结论】基于数据流通交易场景的统一隐私计算框架有利于将隐私计算技术与数据流通紧密结合,促使数据价值最大化,并为实现隐私计算互联互通提供落地参考路径。关键词:数据流通交易;隐私计算;互联互通;数据交易平台1引言随着移动互联网、物联网等信息技术的快速发展,不同来源及格式的数据逐渐汇聚形成具有海量性、异构性等特征的大数据。人工智能等技术的进步也改变了人们的生产和生活方式,数字经济时代已真正到来。数据作为一种新型生产要素,只有充分流动才能产生和发挥其价值,但由于数据资源的可复制性、非排他性等特性,在流通交易过程中易受到数据泄露、违规交易等风险。隐私计算“数据可用不可见”的计算技术正好为数据流通场景提供了一个高效、安全的解决方案。通过隐私计算可在保证数据本身无需对外交互的前提下实现数据价值的最大化,但现阶段隐私计算技术也存在缺乏与流通交易平台联动、缺乏互联互通标准等问题。本文针对以上问题提出基于数据流通交易场景的统一隐私计算“3层架构,2类互通,1个生态”框架,有利于将隐私计算技术与数据流通紧密结合,提升数据要素价值最大化,并进一步为实现隐私计算平台间的互联互通提供落地参考。2隐私计算技术研究综述1面向应用的隐私计算技术隐私计算也称为隐私保护技术、隐私保护计算,是面向隐私信息全生命周期的隐私保护计算理论和方法。在当今愈发注重数据安全保护的环境下,隐私计算技术作为数据交易中数据安全的保障方式之一而备受关注。密码学作为保护敏感信息的有效方法和隐私计算的基础,早期许多研究都集中在交易数据的加密解密[1,2,3,4]、匿名化处理、隐私控制等隐私保护技术和相关技术模拟平台的搭建等方面。随着数据的应用领域逐渐扩展、数据的处理技术逐渐精进、数据的产品分类逐渐扩展,传统的数据加密已无法满足当今时代数据应用场景的安全性和规模化兼顾的需求。越来越多的学者将目光集中到联邦学习、安全多方计算、差分隐私、同态加密等隐私计算技术上。从技术机制来看,隐私计算主要分为三大技术路线,一是基于密码学的安全多方计算、差分隐私、同态加密等技术,二是融合人工智能技术的联邦学习及机密计算等技术,三是基于可信硬件的可信执行环境研究。安全多方计算最早是由灵奖获得者、中国科学院院士姚期智于1982年正式提出,解决组互不信任的参与方各自持有秘密数据,协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息。在整个计算过程中,参与方对其所拥的数据拥有绝对控制权。差分隐私作为量化和限制个人信息泄露的一种输岀隐私保护模型,最早是Dwork等在2006年提出。差分隐私保护技术曾在美国2020年人口普查中大规模应用,它在最大限度利用数据资源的同时保障了个人隐私安全。差分隐私最主要的实现方式是在计算结果中添加噪声。如适用于数值型输出的拉普拉斯噪声等及适用于非数值型输出的指数噪声等。同态加密领域,Niu等提出了真实性和数据市场中的隐私保护机制。TPDM采用同态加密签名,对密文空间中的数据进行身份加密,在保护隐私和提升数据保密性的同时,也保障了批量验证和数据交易过程。与传统加密方案相比,由于签名得到了所有数据供给方和需求方的真实身份信息保障,数据也很难在流通过程中被恶意篡改。联邦学习最初由谷歌的McMahan等提出,并将其应用落地,该理论通过统筹协调众多结构松散的智能终端实现语言预测模型更新。中央服务器通过不断地将本地不同终端训练好的模型进行云端融合以优化预测模型,由于整个过程中,终端只需要将待优化的模型进行下载和上传,并无需对交易数据进行任何操作,所以并不存在数据泄露的风险。可信执行环境是—种基于硬件特性的安全架构。张辰雨对可信执行环境的原理进行总结,通过时分复用CPU或者划分部分内存地址作为安全空间,构建出与外部隔离的安全计算环境,芯片等硬件技术与软件协同对数据进行保护,同时保留与系统运行环境之间的算力共享,用于部署计算逻辑,处理敏感数据。可信执行环境技术可确保任何外部攻击者,包括系统管理员,无法窃取运算环境内部的机密数据,也无法恶意控制运算环境算法的执行,充分保证了机密数据的隐私性、完整性与计算正确性。2面向数据流通场景仍存在问题隐私计算平台间互联互通困难隐私计算行业仍处在发展阶段,其相关标准及规范也在逐步制定中[14,15,16,17]。受制于技术实现路径不同及各方认知、利益不统一等因素,隐私计算虽解决了“数据孤岛”问题,但又加剧了“平台孤岛”效应:不同厂商之间的隐私计算平台仍是独立和闭塞的,即数据仅支持同一隐私计算平台的流通,无法支持跨隐私计算平台的互联互通。为建立多方协作机制共同挖掘数据价值,亟需加快推进隐私计算行业相关标准的探索和落地,将隐私计算的关键技术与实际业务场景中积累的宝贵经验以标准规范的形式明确并推广。与数据流通交易平台的结合困难现阶段数据流通场景中,尚无隐私计算平台与数据流通平台形成闭环联动的成功实践。当前数据供方和数据需方多在数据流通交易平台上进行需求撮合,再转至线下利用“点对点”方式私有化部署隐私计算节点开展数据流通交易,数据流通平台仅能采集计算前的业务信息,而计算过程安全管控、计算用量与费用等均无法进行有效信息获取。另一方面,为确保在数据流通中隐私计算能够实现最大化效果,隐私计算平台往往需要对自身功能进行适配性改造,诸如用户体系对接、数据资产信息同步、订单自动履约、计算过程的计量计费等,但因不同的数据流通交易平台对于接入功能存在不同的要求和规范,若隐私计算平台接入多个数据流通平台,会增加改造成本,阻碍其接入和适配的意愿,从而加剧了数据流通平台与隐私计算平台的脱节[20]。3基于数据流通场景的统一隐私计算框架将隐私计算技术与数据流通场景相结合,实现数据流通闭环,有利于提升数据流通交易的安全保障能力,确保交易主体数据安全,同时有利于隐私计算平台应用到更多数据流通业务场景中,进一步实现数据要素流通价值。本文通过深圳数据交易所在隐私计算技术与数据流通应用的研究与实践,提出基于数据流通场景的“三层架构,两类互通,一个生态”统一隐私计算框架,为隐私计算平台与数据流通交易平台的联动应用提供框架参考。统一隐私计算框架,如1所示。11统一隐私计算框架Fig.1UnifiedPrivacyComputingFramework涉及的三层架构分别为“数据流通集成管理”、“中控管理”与“标准规范管理”,分别负责与数据流通交易平台的联动对接、数据流通过程中的隐私计算统一监管、数据流通及隐私计算互联的标准规范管理;两类互通指该框架实现“承上启下”的作用:对上实现数据流通交易平台与隐私计算服务平台的互联互通,对下实现不同隐私计算服务平台间的互联互通。前者构建数据流通交易平台与隐私计算服务平台的交互桥梁,实现数据流通场景下的闭环流程;后者在同一流通环境下通过统一标准打破隐私计算平台孤岛,实现数据跨平台流通计算;一个生态指打通数据交易平台与隐私计算平台后,实现数据要素流通交易全流程的生态。通过该框架可满足数据流通中数据商品包装与发布、数据购买、数据计算、安全管控等相关需求,促进数据资源的顺畅流通与有效运用。在标准规范管理架构内,通过规范和管理隐私计算相关的技术标准,实现不同隐私计算平台计算过程的互联互通。隐私计算服务平台需遵循标准和规范进行接口调用和算法改造,为保证标准管理的完整性,应包含两部分内容:一部分是隐私计算平台互联互通的标准,包括接口标准、日志采集标准、通信标准、节点标准、算子标准等规范;另一部分是与数据流通交易平台互联互通的标准,包括监管信息上报、用户管理、数据资产信息同步、订单自动履约等功能的实现规范。其中,日志标准管理对需采集的日志内容、日志格式、采集方式等进行约定,保证不同的隐私计算平台遵循统一标准,确保日志的有效、可解析;通信标准管理对数据流通交易过程中的通信进行约束,基于通信标准选择安全的协议进行对齐,保障通信安全和顺畅;节点标准管理对节点认证、节点合作维护、资源统一管理等设立标准化要求,各隐私计算服务平台所管辖计算节点均按标准建立连接,保障节点间可发现、可请求;算子标准管理和模型标准管理对算子、模型进行标准化,各隐私计算服务平台按照统一标准对算子、模型进行改造,确保所有算法在不同平台上可无障碍交互。在中控管理架构内,结合“最小必要”原则,通过标准信息上报接口传输必要监管信息,对每次数据流通交易的过程进行中心化管控,包括任务信息如任务运行状态、任务时间等;计算资源信息如资源用量、网络吞吐信息等;统计信息包括API调用信息,如服务调用量统计、通用算子的使用频次以及计算日志等信息。通过中控管理架构,可有效保障平台的稳定运行,对数据流通异常有提前预警和感知能力。需要强调的是,中控管理架构并不对隐私计算过程中所涉及的原始数据进行采集和记录,实现“监管有中心、计算去中心”的管控。在数据流通集成管理架构内,基于标准规范管理架构提供完整的基于数据流通交易全流程的接入API,包括用户统一认证、数据资产同步、订单履约、计算环境自动化部署、API计量等接口。用户统一认证实现流通交易平台与隐私计算服务平台间的账户及权限同步;数据资产同步使隐私计算服务平台的数据产品信息同步至数据流通交易平台的数据目录;订单履约负责交易主体间的自动履约,包括订单传导、合作协议自动生成、项目自动创建等;计算环境自动化部署通过订单信息自动触发隐私计算服务平台的部署;API计量对隐私计算服务平台的服务调用接口进行集中化管理,对相关调用进行记录和核对,形成数据商品的记账依据,是流通交易完结时清结算的重要支撑。4统一隐私计算框架的探索与实践1隐私计算平台服务原则结合《网络安全法》、《数据安全法》和《个人信息保护法》等上位法要求,同时针对深圳数据交易所的数据流通场景,通过“目标明确、最小必要、公开透明、安全隔离、权责一致”五大服务原则,落实数据流通中的数据安全保护义务,切实保障企业和个人数据隐私:“目的明确”原则指隐私计算过程中涉及个人信息时必须具有明确、合理的目的,并已向信息的所有者明确告知使用目的且获得授权;“最小必要”原则指隐私计算过程仅允许使用个人信息主体授权同意的且实现目标所需的最小数据类型和数量;“公开透明”原则指隐私计算服务需确保处理目的、规则的透明公开,且采用的理论方案、技术实现、安全保障机制等也受到外部机构的审查和监督;“安全隔离”原则指隐私计算服务需采用计算环境隔离技术保证各方数据的安全,防止一方的数据被其他参与方获取或推知;“权责一致”原则指数据使用方需承担数据产生的权益和责任,如发生安全事件或纠纷,需承担所造成的后果及相应法律责任。五大服务原则确保隐私计算服务平台在数据流通交易过程中能合法合规、高效安全地应用。2统一隐私计算框架应用于数据流通交易案例介绍深圳数据交易所为保证数据交易有序、合规开展,制定了数据供方、数据需方在数据流通交易时的标准业务流程,作为业务开展需遵循的基本参考。本节以隐私计算技术应用于金融行业风控场景作为案例,展示统一隐私计算框架在实际场景中的应用,介绍数据供需双方在利用数据流通交易平台联动隐私计算服务平台的相关业务流程,具体如2所示。为确保隐私保护,应用案例从共性层面进行描述。22统一隐私计算框架在深圳数据交易所应用流程Fig.2ApplicationProcessofUnifiedPrivacyComputingFrameworkinShenzhenDataExchange风险控制为金融行业开展业务时的关键因素。针对特定场景利用多维度数据建立人工智能模型分析和预测相关风险是金融行业的普遍做法。但由于隐私保护和金融行业相关法律法规的限制,不同金融机构之间、金融机构与其他行业之间的数据融合壁垒较高,“数据孤岛”现象严重。通过隐私计算技术实现各方原始数据不出域的前提下,解决单个金融机构样本数据有限的问题,提升模型准确率。控制信贷风险是银行风控工作的重中之重,随着社会不断发展,信贷控制的难度也与日俱增。在信贷风险控制中常见单一方数据量少、涉及平台多、信贷评估任务紧急等特点,因此信贷风控场景对金融多头数据有着很强的需求,但存在潜在的合规及安全风险、各参与方联合建模数据更新缓慢等问题。为解决以上痛点,深圳数据交易所按照“统一隐私计算框架”搭建了隐私计算统一管理平台,实现数据流通交易平台的隐私计算需求,并对隐私计算服务平台进行安全合规监管。在该案例中,数据供方为运营商机构A,使用隐私计算服务平台A开展数据融合建模;数据需方为银行机构B,期望获取更多风控标签以提升其风控水平。供需双方通过深圳数据交易所实现数据融合建模需求,业务流程如下:运营商机构A和银行机构B分别使用的隐私计算服务平台在入驻交易所时需严格遵循统一隐私计算框架中的标准规范管理进行对接及适配,包括:遵照要求对接口、通信、计算节点、算子、模型、日志等方面进行标准化设置和开发,实现本地计算节点与交易所节点、其他机构节点的互联互通;遵照数据集成管理要求,实现与数据流通交易平台业务信息传输互通;遵照中控管理要求,进行中控对接,打通日志、安全、任务等信息上报通道,保障各机构在联合建模过程中的安全合规。账户体系同步:运营商机构A与银行机构B需在数据流通交易平台完成账号开立及资质认证,并通过统一隐私计算框架与其使用的隐私计算服务平台进行账户体系同步和关联。数据资产信息同步:运营商机构A将可用于构建风控模型的数据资产信息通过数据流通集成管理同步至数据流通交易平台,同步后的数据资产信息可用于数据商品发布。数据商品发布:运营商机构A通过数据流通集成管理发布数据商品至数据流通交易平台,经审核通过后完成商品发布。发布后数据商品可在数据流通交易平台的数据市场呈现,被数据需方检索查询。数据购买:根据金融风控场景需求,银行机构B在数据流通交易平台的数据市场中搜索到运营商机构A所发布的数据商品。银行机构B作为数据需方可申请对数据进行试验,当其在撮合实验环境中完成需求验证后,可进行数据购买。订单下发:数据流通交易平台将购买订单信息通过数据流通集成管理下发。订单履约:订单信息通过数据流通集成管理推送至隐私计算服务平台A和隐私计算服务平台B,两个平台根据订单信息自动生成合作协议并完成隐私计算前的节点、通信、数据等准备。数据融合计算:隐私计算服务平台A和隐私计算服务平台B基于互联互通统一标准规范开展数据融合计算。在该案例中,双方采用纵向联邦学习的形式开展联邦学习建模,通过融合双方数据,扩展金融风控模型的标签维度以提升风控模型的准确率;在算子的使用上,可遵照标准规范管理中的算子标准要求改造算子,也可直接引用数据流通集成管理中的标准算子库,快速搭建风控模型,提升建模效率。信息上报:在计算过程中,隐私计算服务平台A和隐私计算服务平台B分别将计算日志、安全预警等信息同步至中控管理进行统一监管,保障数据流通安全,降低风险和纠纷。计费信息同步:隐私计算服务平台A和隐私计算服务平台B分别将模型发布后的实时调用量、费用等信息通过数据流通集成管理推送至数据流通交易平台进行费用出具和结算。5结语随着数据流通相关核心技术的逐渐成熟和落地应用,更多资本进入并驱动行业发展,基于数据资产开发的工具也将持续激发数字经济的创新活力,并充分发挥其对实体经济的支持作用。随着政策不断支持与引导,信任和共享文化将得到大力弘扬,隐私计算技术也将成为各行业数据流通的标配,解决多方协作过程中的信任和隐私问题。本文提出的基于数据流通场景的统一隐私计算框架,遵循监管中心化、功能统一化、算子标准化等设计理念,开展了促进数据交易中隐私计算互联互通的实践,但局限于现有隐私计算技术及数据交易的应用经验,未来数据流通中的隐私计算技术还有更广阔的发展空间。结合深圳数据交易所相关实践,本文认为隐私计算大规模应用于数据流通场景仍有两方面的提升空间:一方面需加强技术建设,更好地平衡计算效率与计算安全性之间的关系。现阶段隐私计算的计算性能相比于以明文形式进行的计算仍有较大性能上的差距,且尚未得到过大规模商业应用的检验,但相信随着隐私计算相关技术的突破,未来隐私计算的效率将会得到显著提升;另一方面需推进以政府为主导的行业规范建设。加快推进隐私计算行业相关标准的落地是必然之举。受限于数据安全性的相关要求以及国家相关机密的保护,未来必定以政府为主导推进隐私计算相关行业规范的制定和实施,消除不同隐私计算平台在算法设计、节点管理等方面的隔阂,为数据要素全面可信流通提供可靠支持。
文章为作者独立观点,不代表 股票程序化软件自动交易接口观点