大数据时代,如何才能保证数据安全?
来源:电子政务网 更新时间:2021-11-15

随着数字经济的发展,“连接—在线—数据”将是数字社会的永恒主题。连接和在线的结果是所有人类行为和经济活动数据化,数据既是过去人类行为的结果,也是预测未来人类行为的基础。因此,数据是数字社会的核心资源,是发展数字经济的关键要素,也是目前所有互联网公司最重要的资产。

于是,打车公司会收集用户出行数据,音乐公司收集用户听音乐的习惯数据,搜索引擎收集用户搜索数据,移动支付厂商收集用户的支付数据等等。数据这种资源,和其他资源最大的区别在于,它具有非竞争性(Nonrivalry),可以无限复制、重复使用。非竞争性一方面意味着相比于传统的竞争性物质资本,数据资产能给社会带来更多的经济价值,但一方面也产生了大量的隐私问题。一个机构无法把数据借出几天然后再收回,因为数据给出去就再也收不回来了。

同时,数据这种资源也不是天生就属于公司的,数据里面含有大量用户的敏感信息,导致在数据交换的时候,还有道德和法律风险。因此,在现代社会中,别说公司和公司之间,就算是同一个公司的不同部门,在交换数据的时候也是格外的小心谨慎。不同公司之间建立在共享数据的前提下的合作,往往是很难达成的。于是,就产生了所谓的“数据孤岛”问题:各个机构组织各自拥有一部分的数据,却无法和其他的数据共同作用,产生新的收益。通过发展数据要素市场,促进数据交易,有助于打破现有的数据孤岛问题,更好地促进数字经济发展。

中共中央国务院发布«关于构建更加完善的要素市场化配置体制机制的意见»,成为构建更加完善的要素市场化配置体制机制的纲领性文件。其中特别提到要加快培育数据要素市场,加强数据资源整合和安全保护。如何在实现数据安全保护的前提下发展数据要素市场,成为数字经济学领域的前沿战略课题。而且重视数据隐私和安全也已成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如Facebook的数据泄露事件就引起了大范围的抗议行动。

同时各国都在加强对数据安全和隐私的保护。特别是欧盟在实施的《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR)对用户的个人隐私和数据安全进行严格保护,并依此对谷歌开出了5000万欧元的巨额罚单。因此“一方收集数据,转移到另一方处理和清洗并建模,最后再把模型卖给第三方”这样一种传统的数据处理模式已经变得不可行。如何重新设计数据要素市场交易机制和监管模式,成为数字经济未来发展亟待解决的问题。信息博弈论是解决上述问题的基础性理论工具。

数据是信息博弈论的基础。Blackwell提出的信息结构(InformationStructure)包含了数据和模型两个基本要素。但信息博弈论理论往往是给定信息结构,探讨博弈参与者之间的策略性互动和机制设计问题。随着数字经济的飞速发展,数据不再是博弈参与者的外生约束,而成为一种新型生产要素。一方面,数字经济的发展催生了海量的数据。据统计,从计算机诞生以来到2003年,人类所产生的数据总量已经达到50亿GB。2014年时,我们每两天就能产生同等规模数据,现在是每个小时就能产生同等规模数据。另一方面,大数据处理技术的发展使得人们可以轻易从海量数据中获取信息。

《关于构建更加完善的要素市场化配置体制机制的意见》将数据安全保护提高到前所未有的高度。而缺乏安全保护正是现在我国数据交易市场的一大痛点。特别是很多所谓的“大数据公司”用爬虫技术盗取数据,然后采用薄利多销的方式,用低廉的价格出售获利。从很多新闻媒体上,我们看到诸如“一个人的身份隐私单价只要1块多钱;当购买者所需要的数据量足够大,单价甚至可以低至1分钱”以及“一个人的人脸照片只值5毛钱”这样的报道,引起了社会的广泛关注。

近些年来,随着机器学习、神经网络等人工智能领域的蓬勃发展以及各国加强对隐私保护的监管,MPC也焕发了新的光彩。计算机领域中的加密以及多方安全计算技术已经扩展到联邦学习、迁移学习、差分隐私、不经意传输、同态加密、秘密共享、混淆电路等等许多不同的技术。这些技术被广泛应用于在保证数据保护隐私的情况下完成模型的训练以及预测等过程。不同的技术有不同的功能,同时在安全性和效率方面也有不一样的表现,比如在诸如算力负担、通信开销、数据使用效率损失、对数据毒化和对抗性样本等恶意攻击的抵御程度等维度上存在差异。这些差异使得博弈者的策略空间和收益函数在不同技术下均不一样,因此数据要素市场交易机制的设计需要考虑到底采用什么样的加密以及多方安全计算技术。基于不同的技术特性,有针对性地设计不同的交易机制。(蜡笔聊最炫科技)