生成式人工智能时代数据安全法益的保护模式塑造
来源:电子政务网 更新时间:2024-01-30

王振硕|生成式人工智能时代数据安全法益的保护模式塑造

 
形式主义主张的数据法益学说陷入了法律自治的幻想,架空了生成式人工智能时代的社会现实;工具主义则将数据立法完全视为保障人类数据生活的手段,置法律本身内在的规范价值于不顾。场域理论的引入,可以实现对于形式主义和功能主义的折中和超越,将生成式人工智能时代数据的内生性与外源性风险同刑事法治的时代发展相结合。生成式人工智能时代的数据场域内,科技企业、用户和监管者之间的资本关系不均衡,尚未形成技术创新和数据安全保护兼顾的惯习,导致实然层面存在数据自身风险、数据内容风险、数据技术风险和数据秩序风险。而从应然的规范层面来看,对于实然风险的治理存在数据自身法益的保护越位和缺位、数据内容法益、数据技术法益和数据秩序法益的保护缺位的不足,未能实现对于资本惯习的纠偏。一方面,通过治理型监管,将科技企业数据安全法益保护成效与资本相关联,提高用户认知能力并赋予其更高的参与监督权限,监管者介入科技企业创新和发展全过程,从内部重塑资本惯习结构;另一方面,通过“数额标准”与“情节标准”并重和强调数据相较于计算机系统的独立性纠偏保护越位和弥合保护缺位,合并刑法第285条第1款和第2款弥合数据内容法益保护的缺位,明确数据技术和数据秩序的法益定位弥合数据公共法益保护缺位,从外部纠偏异化的资本惯习。

一、问题的提起

不同于以往功能单一且多面向特定用户的人工智能产品,以ChatGPT为代表的生成式人工智能(AIGC)在通过程序创造新内容方面开启了一个全新时代,其依据预设算法逻辑处理问题进而输出决策的能力,已经展现出深刻的类人类特征。在技术原理层面,ChatGPT是利用人工构造的神经网络系统以及一系列编码程序,预先对大量既有数据进行深度学习和训练,在数据加工的基础上生成新的内容。因此,在计算机信息空间中,数据是最原始的基础性元素,其生成、存储、获取、学习和利用是推动生成式人工智能迭代发展的核心驱动力。控制好数据,已经成为21世纪“信息战”的重要内容。生成式人工智能对于数据具有极强的依赖性,数据的数量和质量将直接决定生成式人工智能输出内容和决策的质量。就此而言,在生成式人工智能时代,数据的重要战略性资源地位得到进一步彰显。而由于科技发展呈现高度动态化的趋势,相应的监管规则存在一定的滞后性。随着生成式人工智能在创新利益导向下对于数据的大规模集聚以及运用,数据滥用的风险也逐渐凸显出来,这是无法回避的现实问题。例如,3月20日,ChatGPT即遭遇了一次用户数据泄漏事件,多名ChatGPT用户表示看到其他人与ChatGPT的对话记录、电子邮件;3月31日,意大利个人数据保护局决定封锁境内访问ChatGPT的渠道,并对OpenAI最近涉及的个人信息收集等网络安全事件进行审查;韩国三星集团声称,刚刚引入ChatGPT不到20天,就发生3起数据外泄事件。种种曝光出来的问题虽为冰山一角,但从侧面反映出了生成式人工智能时代数据安全保护的紧迫性。

数据的运行是包括人工智能、用户和监管者在内,多方主体动态互动的过程。在现行法律框架下不区分主体讨论数据安全风险的治理,是一种不符合市场规律的目标监管模式。在目标监管模式下,根据新的监管目标导向,市场中的参与主体通常会迅速且理性地调整行为方式,以符合监管要求。因此,此种目标监管模式往往会导致自我挫败。具体而言,倘若直接以人工智能主体为靶向目标,将其视为造成数据安全风险的责任人从而严格约束,并且忽略监管者和用户的调控与反制能力,可能在一定程度上遏制创新。反之,倘若过于相信人工智能体的自主调节能力,认为监管者和用户的调控与反制能力足以应对人工智能的数据处理行为,进而要求刑法保持审慎立场,可能在一定程度上纵容数据安全法益的侵害行为。安全和发展是数据立法的永恒命题。面对技术发展带来的机遇与挑战,我国出台的《生成式人工智能服务管理暂行办法》既重视数据安全,也主张多方推进技术产业发展,对人工智能立法给出了宏观遵循。对于作为社会发展保障法的刑事法律来说,亟待明确其在数据安全管控中的定位,以数据法益的保护作为数据安全风险的最后兜底保障。传统刑法学以现实物理空间为主要规制范围,应对数据安全风险的模式和途径仍处在摸索阶段。而在伴随生成式人工智能到来的数据世界中,数据思维成为自发自生的社会分化产物,其作为主体对人工智能社会生存方式的内生性反映,是由新型生存方式、世界观、改造世界的能力等一系列因素组成的、持久且可转移的有禀性系统,具有不同于以往社会的基本行动逻辑。因此,发生在生成式人工智能社会的数据行为有了质的变化,传统法律体系下的权利义务关系受到了冲击,对刑法立法与理论体系的适时转型提出了基础性的时代要求。

从根本上来说,研究法律与社会的关系问题存在两种视角,一种是形式主义所主张的内部视角,一种是工具主义所主张的外部视角。形式主义法理学认为法律是自主而封闭的系统,其发展来源于内在的动力,分析实证主义法学是典型代表;而工具主义法理学认为法律是社会现实权力关系的直接反映形式,是一种用于支配的工具,强调法律在现实社会中的实际作用,功能主义法学和马克思主义法学是典型代表。当前既有从形式主义视角对数据展开讨论的,例如根据分析法学的观点,数据法益是数据立法秩序的反映,并由此衍生出三个分支学说,分别是数据法益的规范论、状态论和制度论;也有从工具主义视角对数据展开讨论的,例如认为数据立法是为了保障人类数据生活,促进信息文明发展的价值追求。然而,无论是形式主义还是工具主义的法律观,都存在一定的局限性。形式主义忽略了社会本身对于法律的约束和影响,容易陷入法律自治的幻想,分析法学主张的数据法益的相关学说仅仅是基于立法秩序进行的讨论,架空了生成式人工智能时代的社会现实;工具主义则忽略了法律相对社会而言的自主性,将数据立法完全视为保障人类数据生活的手段,置法律本身内在的规范价值于不顾。从法律的本质来看,其并非是一成不变的条文,也不是某个利益集团的多数人意志。相反,法律作为一种动态的、具有生命力的现象,是行动规则、适用程序和解释技术的综合体,是社会竞争的基本框架,也是社会竞争所依赖的资源。出于此种考虑,布迪厄在综合两种观点的立场上,对场域中的法律和行动主体之间的相互影响进行了深刻剖析,为“法律是什么”这一问题的解答提供了全新的场域视角。而本文则试图从场域的视角为数据法益保护的研究提供折中思路,以弥补当前形式主义和工具主义的数据法益研究进路的局限性。从场域理论出发,基于动态关系的视角,将生成式人工智能时代数据的内生性与外源性风险同刑事法治的时代发展相结合,认识到生成式人工智能时代下实然层面数据风险的样态、成因和当前刑法数据安全保护体系的应然规范不足,进而以此为准据提出应对策略。一方面通过治理型监管,将科技企业数据安全法益保护成效与资本相关联,提高用户认知能力并赋予其更高的参与监督权限,监管者介入科技企业创新和发展全过程,从内部重塑资本惯习结构;另一方面类型化划分数据安全法益,同时弥合法益保护缺位和纠正法益保护越位,塑造数据安全法益的刑法保护模式,从外部纠偏异化的资本惯习。

二、生成式人工智能时代数据场域的资本惯习结构

布迪厄的实践理论体系中主要存在三个核心概念:场域、惯习和资本。它们分别揭示了行动者在社会空间中的位置、内部性情倾向和行动的动力资源。布迪厄基于这三个概念及其关系对实践进行了剖析,并提出了发生性结构主义公式:惯习×资本+场域=实践。在此种意义上,实践产生于惯习、资本和场域之间的相互作用。在生成式人工智能时代,讨论数据场域及其中的惯习和资本概念时,应采取系统性的立场,在它们相互作用的过程中去解析内在结构。

(一)

生成式人工智能时代的数据场域

场域,即实践空间,旨在解答行动者在何处展开实践的问题。从关系的角度出发,场域可以界定为网络或构型,也即存在于各种位置之间的客观关系。作为个体的场域拥有独立的运行逻辑,无法归属于其他场域或结合成为更大的系统逻辑。场域中各种行动主体利用策略来保证和改善在场域中占据的位置,使场域充满活力,呈现为动态发展和充满争斗的空间。数据场域,可以定义为由一系列数据活动涉及的客观关系构成的特殊实践空间。这个空间由科技企业、用户和监管部门参与数据运行活动所处的不同位置构成,具有独立的内在运行逻辑。其中,作为场域构成原初单元的数据本身,具有硬通货的地位,潜藏着巨大的价值,能够转化为行动主体的竞争优势。因此,在数据场域,科技企业、用户和监管部门都会为了获取数据利益而进行激烈竞争,使数据场域充满内生活力并始终保持动态的发展变化。

人工智能技术的迭代发展,使得数据场域中各方行动者掌握的资本处于此消彼长的调整过程中,资本影响下的行为惯习也处于动态变化中,进而始终塑造和变更着数据场域的样态。纵观世界人工智能短暂而曲折的发展历史,总共出现了四次大浪潮。每一次人工智能发展浪潮的出现,都是建立在对数据的更深刻学习和转化应用的基础之上。在前三次发展浪潮中,人工智能在数据的存储、处理、学习和转化应用层面不断迭代进步。尤其是到了第三次发展浪潮,决策式人工智能在数据深度学习上取得重大突破,进而实现了对于专业领域决策的支持。总的来说,前三次发展浪潮中人工智能并没有实现建立在深度学习数据基础上的自主思考和通用性内容生成,对于数据的采集、处理和转化应用仍然受到专门化和特定领域的局限,在数据场域中相对处于被动地位。用户和监管者,则始终在各方面占据着资本优势地位。而作为第四次人工智能发展浪潮的标志性产物的ChatGPT具备了决策式人工智能所不具备的知识迁移能力,对数据的应用突破了专门化和特定领域的局限,进而可以在所有知识领域生成有逻辑的对话文本。具体而言,在底层模型算法和训练机制的技术创新支持下,ChatGPT的重要特点是能够快速汇聚海量数据并且深度学习,在用户发出指令后,直接跳过寻找、比对数据的过程,通过特定的算法模型自动生成指向的结果。这个过程中蕴含着一个比前三次人工智能发展浪潮结构更为复杂、程度更为深刻的新型数据生成、流转、利用生态。技术的迭代升级必定会影响和改变包括生产关系在内的社会关系。在生成式人工智能所建构和发展的数据场域中,科技企业所占据的资本已经逐渐超越用户和监管方。用户的反制和监管者的常规监管难以与人工智能进行对等博弈,进而引发资本配置的异化现象,导致自治与他治的紧张关系进一步加剧和凸显。因此,有必要对数据场域内的资本关系进行干预和调整,以推动形成新的惯习。

(二)

资本构成:渐趋异化的资本博弈格局

资本,即实践工具,旨在解答行动者用什么进行实践的问题。在布迪厄看来,资本是在特定场域中发挥效用的资源。资本和场域是共生共存的,特定的资本总是在其所处的场域中才能发挥效用,既是场域中行动主体斗争的焦点,又是行动主体用于斗争的工具。布迪厄将“资本”分为经济资本、文化资本、社会资本和符号资本。在数据场域内,由于信息偏差和科技优势的双重作用,呈现出科技企业强势主导,用户和监管者处于弱势地位的资本结构。

第一,对于经济资本,科技企业占据主导优势地位。经济资本表现为可以兑换成货币的资本样态,以财产权的形式被制度化。在数据场域中,数据作为新型生产要素,已快速融入生产分配、流通、消费和社会服务管理等各环节,可以直接转化为经济收益。数据场域中的行动者所占据的数据要素越多,意味着其掌握的经济资本越大,进而通过经济资本的付出交换更多的其他资本,从而在斗争中胜出。国内外投入发展生成式人工智能技术的通常是占据市场重要地位的科技企业。这些科技企业主导着金钱、技术和信息优势,能够短时间内汇聚海量数据。从公开信息来看,GPT-1数据库的参数量为1.17亿,GPT-2数据库的参数量为15亿,GPT-3数据库则拥有1750亿的超大规模参数量。多项预测显示,GPT-4数据库的参数量级将达到100万亿。庞大的参数数量规模,能够显著增强GPT模型理解和表达人类自然语言的能力,提高决策水平。可是,科技企业和用户悬殊的数据资源差距,也导致了行动主体之间的信息偏差现象。在数据场域中,信息优势是驱动企业获取更多利润的内部动力之一。而随着算法与资本的融合逐渐深化,科技企业的信息优势被无限放大。用户看似能够在一定程度上主导个人数据的流动,但是在数据整体的收集和利用上科技企业占据显著优势地位。数据聚集和流动产生的商业价值更多流向了科技企业,用户无法平等地享有数据聚集和流动产生的价值。

第二,对于文化资本,科技企业占据主导优势地位。文化资本作为行动主体的社会身份,往往以被视为正统的文化趣味、文化能力和教育资历等看不见、摸不着的价值形式存在。具体而言,文化资本可以划分为具体的状态、客观的状态和体制的状态三种基本形式。具体的状态体现于精神和身体的持久性情;客观的状态表现为文化商品的形式;体制的状态体现于制度化的层面。在数据场域,科技企业占据着客观状态的文化资本上的优势。此类文化资本往往作为内在技术支撑,重塑了众多搜索引擎和知识问答社区,可以以客观文化商品的形式潜移默化地改变用户的思维方式、知识结构甚至生活样态。

第三,对于社会资本,科技企业占据主导优势地位。社会资本是指个体或群体通过具有稳定性的、制度化的交往关系网络所积累的资源总和。交往关系网络具有集体性和制度化的基本属性。集体性意味着交往关系网络中的每个人都能够从社会资本中获得共享资本,个人社会资本的多少取决于能够有效调动的交往关系网络规模和网络中其他人拥有的资本数量。制度化意味着行动者可以采取策略在交往过程中建立或再生产某些社会关系,将偶然关系转变为长期的选择性关系。在数据场域,科技企业当前占据着市场的主导地位,能够做到对于市场信息变化和资本此消彼长的迅速察觉。并且,相对用户和监管者来说,科技企业具有一致性的共同利益,其可能在维持利益规模的动机驱使下集结成为经营者联盟。在此种集体性的关系网络中,科技企业之间可以实现数据互换或交易。同时,为了将经济资本最大化并形成对于用户和监管者的绝对优势,科技企业之间可能会将数据共享制度化,联合构建长久的数据共享机制,形成制度化的关系网络。

总的来说,行动者之间过于悬殊的资本差距,对于数据场域内部博弈格局存在着不利的影响。数据场域的经济场域性,决定了经济利益最大化是场域中游戏规则的价值导向。行动者对场域资本的竞争,主要是围绕着表现为数据要素的聚集和利用的经济资本的话语权展开的。数据要素作为经济资本具有生成性。通常来说,行动者拥有越多的经济资本,就越有机会接受良好的教育,进而获得更多的文化资本。而拥有更多文化资本的行动者,其社会资本和符号资本的积累获致相对容易和快速,进而有能够换取更多的经济资本。在数据场域同样如此,由于信息偏差和科技优势的双重作用,科技企业占据着能够将经济资本与其他形态资本进行互换进而扩大所持有的总资本的主导地位。科技企业所拥有的资本数量和类型,决定了其在数据场域中的位置,也决定了其活动的权力大于用户和监管者。而用户和监管者所持有的资本不足以对生成式人工智能形成制约,这使得他们在博弈格局中处于劣势地位。有鉴于此,在现有救济路径之外,赋予用户和监管者更加强有力的制衡资本势在必行。

(三)

惯习倾向:尚未形成保护与创新兼顾的惯习

惯习,也即实践逻辑,旨在解答行动者如何实践的问题。惯习是由行动者身上沉积的一系列历史经验构成的,是外在于行动者的社会共同规则、价值内化于行动者的形式。在社会实践理论中,场域是客观性的,惯习是主观性的,二者是密不可分的。具体而言,惯习是被场域塑造的“性情倾向系统”,同时,惯习所特有的“逻辑、规则和常规”也反向塑造着场域,二者处于不断的互动中。

一方面,惯习与场域之间存在制约关系,惯习受到场域的塑造。场域中行动主体客观上所处的社会背景、生活环境以及主观上的精神心态、思维认知等因素,对于惯习的生成均发挥着影响作用。同时,这些因素影响下生成的惯习,又反向引导和调节着行动主体在场域内部的行为,从而对场域的建构和博弈格局发挥影响。生成式人工智能发展初期的数据场域存在两大特征,一是信息和资源不对称,二是明显的逐利性。这两个方面形塑着行动者的惯习。生成式人工智能掌握着数据收集和利用的技术和信息优势,在场域中处于有利位置,所形成的惯习是凭借手中掌握的具有经济资本生成能力的数据要素将各种资本最大化。用户和监管者对数据收集和利用的技术和信息了解甚少,在场域中处于不利位置。在生成式人工智能到来的初期,用户和监管者所形成的惯习往往是不均衡的,存在两种可能:一是过于维护数据安全从而阻滞人工智能发展,二是过于逐利从而放任人工智能侵犯数据安全。就我国来说,生成式人工智能时代初期的用户和监管者虽然已经意识到可能存在的数据安全风险,但总体而言更加关注的仍是数据要素的资本生成价值。

另一方面,惯习与场域之间存在认知建构关系,惯习在主观价值的意义上建构着场域的结构。通过长期的实践认知活动,行动主体的认知经验会内化为人们的意识,以惯习的形式调控行为,成为行动者行动和精神的生成机制。在数据场域中,科技企业、用户和监管者的数据活动是惯习最基本的生成机制。在惯习的引导下,行动主体会根据所处位置和其他行动者的行动对进一步的行动加以选择。这些行动本身又反作用于实践的感知和评价,从而推动场域的调整变化。在生成式人工智能时代,传统法学的自我认知范式受到结构性冲击,无法适应新兴数字技术带来的变化。尤其是ChatGPT此类具有自动执行特征的新应用,会使得传统法学的集中式纠纷解决方案急需调整。从长远来看,生成式人工智能、用户和监管者共同的价值导向应当是规范中发展,保护中创新,这对于数据场域中适格惯习的形成提供了价值内核。

三、生成式人工智能时代数据场域的实然风险解构与应然规范不足

(一)

实然风险解构:资本惯习异化格局下的数据风险样态

在以最大限度争夺经济资本为主要游戏规则的数据场域中,生成式人工智能凭借技术和信息优势占据着具有资本生成价值的数据要素,决定了其在场域中的权力大于用户和监管者,进而形成了凭借数据要素将各种资本最大化的惯习。而用户和监管者持有的资本难以构成对生成式人工智能的牵制,同时出于逐利的考虑尚未形成反制的惯习,从而在一定程度上忽视可能存在的数据安全风险。此种资本惯习异化结构下的场域格局赋予了生成式人工智能数据获取和利用的极大自由,但在带来无限潜在的创新机遇的同时,也暗中蕴含着不可估量的风险。对于数据运行过程中的风险,可以从内部视角和外部视角分别考察。内部视角下的数据风险,指的是数据本身及数据所组合呈现的内容的被泄露、被窃取、被篡改和被毁损等风险,也即数据自身风险和数据内容风险;外部视角下的数据风险,指的是破坏数据技术基础设施的风险和数据大规模不当共享、流动聚合等所引发的秩序风险,也即数据技术风险和数据秩序风险。

第一,数据自身风险,指的是侵害数据自身保密性、完整性和可用性带来的风险。在数据获取阶段,生成式人工智能可能侵害数据的保密性。ChatGPT模型的运行和决策,建立在海量的数据资源的基础之上。而在数据场域中,由于强势的资本地位加持和逐利惯习指向,ChatGPT所采取的预先学习数据模式无需人工介入、标注和监督,决定了其在数据获取方面不受人类干预和控制。就像ChatGPT使用条款中所声明的,在数据的运用过程中,即便设计者和所有者等主体已经最大限度避免侵权风险,仍然无法保证ChatGPT的所有训练数据都获得了原始作者或所有者的许可。而部分数据具有保密性的特征,如日常使用的App所收集的用户个人信息,软件后台设置了可查看权限,以限制数据的知悉范围。而生成式人工智能的主动数据获取和学习模式,并未自我设限,存在无形中扩张数据知悉范围的可能,进而侵害数据的保密性。在数据使用和合成阶段,生成式人工智能可能侵害数据的完整性和可用性。有研究预测,到2026年,互联网上所有可用的文本数据将会被生成式人工智能类大模型用尽,届时将没有数据为模型训练提供新的供给。而在完成预训练后,为了保障其系统更新和使用所必备的数据,仍然需要自行持续进行数据合成。在数据合成阶段,不同于传统的复制粘贴式链接和扫描方法,依托“人类反馈强化学习”算法机制的生成式人工智能模型具有自我注意的强化学习能力。而在这种能力的加持下,即便数据库的原初数据完全真实可靠,生成式人工智能模式仍然可能生成符合逻辑和数学运算规律但却错误、带有偏见或无法确定真伪的内容。同时,可能出现的恶意的数据操作行为,例如数据投毒、添加异常或非常规数据样本等,可以对原始数据的结构和内容进行增减或修改,从而破坏用于模型建构的真实数据的完整性和可用性,导致算法决策存在偏差。例如,在人脸特征识别应用场景中,恶意添加伪造或数据库以外的人脸图像数据,可以破坏原有数据库,导致识别误差。

第二,数据内容风险,指的是侵害数据自身引起的个人信息权益、财产性权益和国家主权与信息安全风险。数据内容不同于数据自身。数据自身指的是以符号或者符号的组合形式对于客观事物的性质、状态和相关关系进行的记载,是可识别的、抽象的存在;而数据内容则是指通过加工和处理数据所得到的信息,是逻辑性的、观念性的存在。ChatGPT不受人类干预和控制的数据获取模式,不仅可能导致侵害数据自身保密性的风险,其在未经授权的情况下利用“爬虫”技术挖掘到未经授权的非公开领域内容时,还可能导致侵害数据内容保密性的风险。具体而言,数据内容风险包括以下三类。其一,侵害公民个人信息权益风险。由于生成式人工智能需要在运作过程中对承载个人隐私的数据进行采集和整合,再生成模仿人类语言模式的回应文本。故当ChatGPT回答用户问题时,会从受训练的数据库中进行数据分析甚至将原有数据重新排列组合后呈现给个体用户。在这些数据被多次转手的过程中,个人隐私就可能出现泄露风险。此外,对于ChatGPT而言,用户与其对话的过程也是被收集信息的过程,可能不自觉地袒露个人隐私。从隐私政策和用户协议来看,OpenAI享有很大的数据处理权限,并未承诺不会对聊天信息进行处理。而基于聊天模型的自我学习和改善的技术需求,ChatGPT完全有动机去实施获取聊天数据的行为。聊天数据中存在的个人隐私信息,就可能发生泄漏。其二,侵害企业财产性权益风险。在生成式人工智能时代,数据的价值不在于支配,而在于利用。从数据运行的整个生命周期来看,企业数据的价值产生于汇集和添附两个环节:一方面,企业通过合法途径收集大量原始数据,形成具有价值的数据集合;另一方面,对原始数据进行加工处理,生成以衍生数据为内容的数据产品。以上数据处理过程揭示了一个重要的观点,即企业数据的价值是由人类劳动所创造的。根据洛克的论断,财产权是对勤奋劳作的合理报酬。在肯定和鼓励数据市场主体的付出和努力的意义上,法律应当赋予企业对其合法处理数据形成的数据集合或数据产品相应的财产权利。因此,数据集合或添附后的产品,其价值已经超出了数据本身,具有了财产权的价值属性。而无论是企业对数据进行集合和添附的操作,还是企业用户对ChatGPT的应用,均会涉及企业数据产品在ChatGPT模型中的多轮对话互动运作。在这个过程中,ChatGPT将企业数据产品作为数据源进行迭代训练和决策,即可能侵犯企业的财产权益。其三,侵害国家安全风险。国家秘密、国有档案,都可能以数据形式存在。在生成式人工智能时代,生成型人工智能模型需要海量算力,面向一国提供生成型人工智能的服务器可能位于世界各地。因此,众多用户与生成型人工智能模型的海量交互数据是跨境产生的,可能引发数据跨境安全问题。并且,人工智能对于数据的自主运用能力经常超出人类的预期范围。某些数据表面看起来可能并不包含敏感信息,但是人工智能技术经过对规模化数据进行综合比对分析和运用,可能会推理得到关键的甚至威胁国家安全的敏感信息。无论是通过与跨境用户对话获取的国家秘密和档案,还是通过间接推理得到的国家秘密和档案,均涉及对于国家主权的侵犯。

第三,数据技术风险。数据的发展在很大程度上依赖于技术基础设施的发展。数据存在于网络之中,不是物理空间中传统的“物”,数据依赖于代码、载体以及其他技术因素才能发挥其作用。因此,数据技术不同于数据自身。数据技术是指使用计算机科学和数学知识处理和分析数据的方法和技术,包括数据采集、存储、处理、分析和可视化等方面,可以帮助人们更好地理解数据和获取有用的信息。数据技术与人工智能相伴相生,数据技术的不断进步为人工智能的迭代发展提供了基础设施支撑。例如,就数据存储技术来说,早期的数据存储设备容量小、价格高、体积大,IBM公司在1956年生产的商业硬盘,容量只有5MB,且价格昂贵、体积较大。而当今内存为1TB的硬盘,大小只有3.5in(典型外观尺寸为147mm(长)102mm(宽)26mm(厚)),读写速度达到200MB/s,而且价格低廉。再如,就数据传输技术来说,在20世纪90年代初期,由于当时的数据传输技术水平所限,互联网服务提供商所提出的利用讯框传送技术和异步传送模式的网络架构无法成为现实。而随着数据传输技术的发展,多协议标签交换技术得以普及,为基础设施网络提供了技术支持,确保了无论使用哪条数据传送路径都能提供相应级别的质量服务和更快的传送速度。从发展历程来看,迭代发展的数据传输技术为数据的流转运用提供了支撑,进而在实质上对人工智能技术的迭代进步发挥了基础设施的重要作用。随着生成式人工智能时代的到来,数据技术对于人工智能的运用和进步具有基础性的保障地位。因此,从长远来看,对于存储、传输等数据技术的破坏,无异于对于交通、水利、金融、能源等基础性设施的破坏,严重危害公共利益。

第四,数据秩序风险。作为新型的生产资料,数据具有不同于其他生产要素的非消耗性、非排他性和价值多样性特征。具体而言,在数据场域中,数据可以被不同行动主体在同一时间重复使用,并且会因为不同的使用方式产生不同的价值。将数据视为生产要素,目的就是通过数据不同用途、不同时序的流通实现数据价值的最大化,构建数据价值最大化的流通利用秩序就成为数据要素市场建设的主要目标。《网络数据安全管理条例(征求意见稿)》要求,在数据的采集、传输、存储、使用和共享等环节均实施安全管理,确保数据在整个生命周期内的安全性。由此可见,数据秩序安全,系数字社会公共秩序安全的重要组成部分。在生成式人工智能时代,数据可控和正当的流通秩序是推动发挥数据生产价值和技术迭代升级的前提。而数据安全管理秩序的建构,则是由生成式人工智能、用户和监管者在合作与博弈中共同完成。在逐利性的数据场域中,各方行动者所掌握的资本尚未形成稳定的制衡结构,惯习倾向于创新和发展,而非规范与保护。在此种监管不足的场域中,生成式人工智能在动态的数据挖掘、传输和利用中的不当逐利行为,可能破坏数据秩序安全甚至塑造不利于规范与保护的数据秩序。

(二)

应然规范不足:刑法规范越位与缺位加剧了资本惯习异化

对于数据犯罪的恰当规制,是实现数据价值最大化的应然前提。在传统物理场域中,刑法规范和理论聚焦于现实空间,对犯罪类型的资本惯习结构调适处于较为恰当的位置,能够有效平衡行动者之间的长期博弈。而在生成式人工智能时代资本惯习异化的数据场域中,刑法规范对犯罪类型的资本惯习结构调适尚处于探索阶段。从当前的规范表现来看,传统刑法对于数据犯罪既可能陷入过度评价所导致的越位,也可能陷入无法评价或评价不足所导致的缺位。

1.数据法益的保护越位

在数据场域的资本惯习异化格局下,刑法规范对于数据自身法益的保护越位。数据作为新型生产资料,具有聚合性的特征。在生成式人工智能时代,单个元数据的价值在数字经济的环境中十分有限,规模聚合性的数据才能产生真正的价值。对于单次侵害数据自身的法益侵害性较弱的行为,若直接通过刑事法律介入规制,不利于数据的最大化流通。只有针对规模化数据实施的侵害行为,且在法益侵害性上达到应受刑罚惩罚的程度,方有必要以犯罪论处。在此种意义上,数据犯罪的识别应当遵循“积量构罪”的标准,即单次非法获取或破坏元数据的行为并不构成犯罪,但当这些行为积累到一定数量时,就会对聚合性的数据造成侵害,从而构成犯罪。而当前司法实务对于我国刑法第285条第二款“情节严重”这一入罪要求的判断普遍采取“违法所得”“经济损失”等数额标准,违法所得的数量标准针对身份认证信息形式的数据,造成经济损失的数额标准则针对所有种类的数据。此种入罪的标准并未考虑到生成式人工智能时代各类不同数据的聚合性特征,指明犯罪行为应当达到的不法程度,与数据犯罪行为的危害特征并没有必然关联。并且,由于罪与非罪的边界过于机械,导致刑法规范对于某些非法获取或破坏元数据,但尚未达到应受刑罚处罚程度的行为予以越位规制。

2.数据法益的保护缺位

在数据场域的资本惯习异化格局下,刑法规范对于数据自身法益、数据内容法益、数据技术法益和数据秩序法益的保护缺位。

第一,对于数据自身法益的保护缺位。通常来说,数据是依赖载体而存在的,不具备独立性。我国刑法规制体系对于数据安全的保护,主要局限于将其视为计算机信息系统的内在组成部分加以保护。刑法依据数据的技术特性,将非法获取计算机信息系统数据的行为规定于第285条(获取型行为),将非法破坏计算机信息系统数据的行为规定于第286条(破坏型行为)。根据《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》的规定,“计算机信息系统”和“计算机系统”可以解释为包括计算机、通信设备和自动化控制设备等在内的具备自动处理数据功能的系统。而无论是对传统的PC终端还是移动智能终端的保护,都表现出立法的保护重心在于计算机信息系统的数据运行安全,而不是数据自身安全的立场。换言之,只有进入计算机信息系统内部的数据才是刑法保护的对象,而未存储在系统内部的数据则难以纳入刑法的保护范围。此种对于“数据”的规范阐释,明显不符合生成式人工智能时代的要求。事实上,在生成式人工智能时代到来以前,云技术的发展已经实现了脱离本地计算机信息系统的数据处理行为。生成式人工智能的深入发展,则为云端数据的处理提供了进一步的技术支持。然而,由于存储和运行于云端的网络数据并未被视为计算机信息系统的内在组成部分,因此无法得到刑法第285条和第286条的保护。可是,与计算机信息系统相分离存在的数据在当今时代通常也极具价值,例如能够将人们的生产和生活动态化、物联网化的网页浏览痕迹、下载记录、购物记录等数据,恰恰是生成式人工智能进行分析决策必不可少的材料。

第二,对于数据内容法益的保护缺位。刑法第285条第1款将非法侵入计算机信息系统罪的犯罪对象限定为国家事务、国防建设、尖端科学技术领域的计算机信息系统,旨在保护国家重要领域的计算机信息系统安全。对这些领域的计算机信息系统而言,仅实施非法侵入行为即构成犯罪。根据刑法第285条第2款的规定,非法侵入前款规定以外的计算机信息系统,不构成犯罪;非法侵入并获取前款规定以外的计算机信息系统中的数据,或者对其进行非法控制,则构成犯罪。对比而言,上述两款规定表面来看是为了重点保护国家安全意义上的数据,但由于将嵌入点错误地选择在储存有特定数据的对应的计算机信息系统上,而不是在数据访问权限上,导致对于数据内容法益和国家法益两方面的保护缺位。就数据内容法益保护的缺位而言,刑法并没有像保护国家法益那样,分别通过列举式的条文将非法访问数据可能造成的个人隐私和商业秘密泄露等行为进行犯罪化处理,因此这些领域的数据犯罪均不受刑法的规制。就国家法益保护的缺位来说,刑法第285条第1款仅单单列举了“侵入”这一种基本行为,欠缺其他计算机犯罪基本行为模式,导致对于以“侵入”以外的其他行为侵害国家安全数据的行为无法得到适当评价。

第三,对于数据技术的法益保护缺位。当前我国刑法对于主要基础设施均予以了保护,例如,刑法第117条破坏交通设施罪提供了对于轨道、桥梁、公路等基础设施的保护,刑法第118条破坏电力设备罪、破坏易燃易爆设备罪提供了对于电力、燃气和其他易燃易爆设备等基础设施的保护。根据数据安全法第14条规定,大数据具有国家层面的宏观战略意义,应当推进数据基础设施建设,以此鼓励数据的创新应用。生成式人工智能的产生和发展,均离不开数据技术提供的存储和算力支持。在过去,人工智能算法都依赖于单机的存储和单机的算法。而在大数据时代.面对海量的数据,传统的单机存储和单机算法都已经无能为力。为了促进生成式人工智能技术的发展进步,刑法有必要将数据技术作为基础设施纳入保护范围。

第四,对于数据秩序的法益保护缺位。当前我国刑法对于市场经济秩序、公司企业管理秩序、金融管理秩序、社会管理秩序等均通过类罪进行了严密保护。而随着生成式人工智能时代的到来,数据应用进入生产、生活的各个环节,社会关系发生了巨大的变革。数据安全受到了个人、企业和国家等多方主体的共同关注,牵涉个人权益的保障、企业知识产权的保护、市场秩序的维护、产业健康生态的建立、社会公共安全的保障和国家安全的维护等多个方面的问题。在这种背景下,数据秩序俨然成为一种不同于以往秩序法益的新型秩序法益。对于数据秩序的适当保护,既是为了纠偏数据场域中可能存在的数据滥用和不正当竞争,也是为了促进数据正常有益的数据分享和流动。

四、生成式人工智能时代数据场域的资本惯习建构

在生成式人工智能时代,技术迭代跃升既提高了数据获取的效率和转化运用的质量,也不可避免地导致了行动者资本的悬殊和不良惯习。数据场域中行动者资本的悬殊和不良惯习的存在,内涵着数据自身风险、数据内容风险、数据技术风险和数据秩序风险。而刑法规范的越位和缺位,意味着对这些风险并未形成有效的规制,故而进一步加剧了数据场域内行动者资本的悬殊和不良惯习的演进。在这一现实挑战下,应当意识到数据安全的有效保护既要聚焦于场域内部对于异化的资本惯习结构的调整,还要出台适宜的配套规范制度协同推进,以兼具内部和外部视角、结合法律和技术的协同机制实现数据安全保护实效的最大化。从内部视角入手,通过治理型监管范式,重塑资本惯习结构;从外部视角入手,通过重构刑法规范以纠正越位和弥合缺位,阻抑资本惯习的异化。

(一)

迈向治理型监管:从内部重塑资本惯习结构

生成式人工智能的通用性技术潜力,颠覆了传统人工智能时代数据场域的资本惯习结构,导致原有的治理模式凸显应对迟滞、弹性不足的治理困境。在数据场域中塑造合理的资本惯习结构,涉及多元主体间复杂互动的议题。与这一需求相适配的“治理型监管”模式,通过监管权的开放配合、监管方法的多元融合和监管措施的兼容适配,弥补了传统监管在覆盖面上的不足,解决了监管介入的滞后问题,促进了创新和治理的双轮驱动。

第一,将科技企业数据安全法益保护成效与资本相关联,培育和强化科技企业数据安全风险的自我控制、内部惩处和及时纠错惯习。数据获取和处理是生成式人工智能得以运行的起点,这一环节一旦出现偏误和风险,将弥散蔓延至整个业务链条之上。从此种数据风险产生的机理来看,数据安全监管在很大程度上依赖于科技企业的内部监管机制。与限制性更强、一刀切式的事后惩戒监管相比,将数据安全监管节点前置至企业内部治理阶段,对于生成式人工智能通用性内容输出的效率和准确度来说是更有必要且更为治本的监管方式。同时,相较于用户和监管者,科技企业具备显著的技术资本优势,最具察觉和补救数据安全风险的能力。在此种意义上,数据安全风险治理应当遵循技术赋能治理的观念,通过赋能科技实现全链条、全过程的自我治理。具体而言,可以引入正在全面推进的企业刑事合规试点,从两方面入手实现企业的自我监管。一方面,将数据安全风险预防和自我规制作为生成式人工智能的产品设计标准,从技术研发前端和中端入手强调数据运行的安全性,引导其对内部研发、外部应用活动构建常态化的数据风险防控约束机制。另一方面,应将数据安全自我监管成效与资本相关联,对科技企业数据安全自我监管的成效设定资本激励的阶段性目标和长远性目标。资本激励既包括纯粹经济资本的激励,例如给予阶段性数据保护成效较好的科技企业财政补贴、优惠政策或基础设施支持,还包括符号资本、社会资本等各类资本的激励,例如对于长期未出现数据安全风险的科技企业,赋予名誉称号并加以宣传报道。

第二,提高用户认知能力并赋予其更高的参与监督权限,均衡数据场域资本异化结构,培育和强化用户的数据保护惯习。生成式人工智能的跨界集成、人机协作、群体智能开放特性,使得其在技术与社会的深度互动中将开发主体延伸至所有终端用户。用户对于生成式人工智能数据运行过程认知程度的提高,能够缓解其在数据场域对于科技企业的资本劣势。而用户认知能力的提高,必然离不开知识储备的增长。在此种意义上,科技企业和监管者应当对用户进行一定程度的数据技术知识普及,以为用户的参与监督奠定资本基础。而赋予用户更高的参与监督权限,能够在均衡资本异化结构的同时,培育和强化用户的数据保护惯习,形成协同的数据保护生态。用户既包括社会公众、技术社群,还包括专业性非营利组织。社会公众、技术社群通常在生成式人工智能的日常使用中,通过识别判断发现数据风险漏洞,进而发挥治理效能。专业性非营利组织,则往往通过模拟测试、抓取审计等外部访问方式开展生成式人工智能的监督审计。

第三,监管者介入科技企业创新和发展全过程,既要最大程度为生成式人工智能的创新发展减少约束,也要缩小与科技企业的技术差距和信息差距,均衡资本博弈结构,培育和强化鼓励创新和规范监管兼顾的惯习。一方面,数据运行的规范监管不能挤压生成式人工智能的创新发展空间。对于生成式人工智能这一“中立性”的新兴技术,静态性、事后性、惩戒式、一刀切的监管思路会扼杀创新。正确的法治之道是为其发展预留空间,建设好环境,进而使得生成式人工智能体更广泛、更全面接受数据训练。同时,赋予和完善科技企业的私权救济途径。另一方面,数据运行的规范监管不可缺位。生成式人工智能的研发和运行由科技企业所开展,而科技企业具有逐利性的特征,其可能明知某类产品或服务可能存在危害社会的风险,出于对经济利益的追求,仍然向社会大众推广存在风险的产品。因此,对于生成式人工智能时代的数据安全风险,规范监管不可缺位。在上述两股张力之下,培育形成鼓励创新和适度监管的惯习,健全完善数据治理制度体系。

(二)

重塑刑法规范:从外部纠偏资本惯习异化

在生成式人工智能时代的数据场域中,刑法规范的越位和缺位是行动者之间资本和惯习异化未能得到及时协调的外部因素。对于刑法规范越位的纠偏和缺位的弥合,是从外部纠正资本惯习异化的应然选择。

第一,对于数据自身法益,纠偏越位和弥合缺位。一方面,以法益侵害程度来评价数据犯罪的行为后果,纠偏数据自身法益的保护越位。当前普遍适用于司法实践的数额标准,意味着可以仅通过“违法所得”“经济损失”等对数据侵害行为进行简单化计算,实际上忽略了侵害行为结果与数据安全法益之间的联系,导致对于部分数据自身法益的保护越位。这不利于生成式人工智能时代数据的充分利用和价值创造,遏制了创新与发展。与传统的财产权不同,数据的价值在于利用。利用的方式和次数越多,数据的价值就越能得到体现。在生成式人工智能时代的数据场域中,包容共享应当成为具有共识地位的价值理念。未来数据犯罪的入罪标准应从较为单一的数额标准,转向“数额标准”与“情节标准”并重,从而通过强调数据性质、数据种类和数据利用成效等能够体现数据安全法益侵害程度的情节标准,实现数据犯罪法益侵害程度的全面合理评价。另一方面,确立数据自身独立于计算机信息系统的法益地位,弥补对于数据自身法益的保护缺位。在生成式人工智能时代,数据的范围和侧重点与传统的计算机信息系统数据有所区别。在数据法益的保护上,亟待明确数据自身的独立法益地位。事实上,对数据本体法益的侵害不以对计算机信息系统的侵害为前提。无论是在静态存在还是动态流通上,数据自身均可能独立于计算机信息系统而存在。出于此种考虑,在立法上,应当摒弃通过计算机信息系统来限定数据概念的传统思维,将数据概念从计算机信息系统中分离出来,分为本地数据和云数据两种类型。对于本地数据,以侵入计算机信息系统为数据犯罪行为的前提;对于云数据,不以侵入计算机信息系统为数据犯罪行为的前提,从而满足生成式人工智能时代的数据本体保护需要。

第二,将刑法第285条第1款和第2款合并,借鉴数据安全法的相关规定,弥合数据内容法益保护的缺位。一方面,将刑法第285条第1款和第2款合并,取消刑法第285条第2款所要求的“前款规定以外的”的限制。将刑法第285条第1款单独规定的侵入行为合并到第2款,同时将国家事务、国防建设、尖端科学技术领域的数据内容纳入本条款的保护范围,以实现行为手段规制和数据内容法益保护的全面性。另一方面,依据数据安全法规定的分级分类保护原则,实现对于数据内容法益的合比例保护。数据安全法将数据区分为国家核心数据、重要数据和一般数据,分别采取严格保护、重点保护和一般保护的原则。在刑法层面,应当对不同种类的数据侵害行为设定不同的入罪门槛,对处于最低保护等级的一般数据设定较高入罪标准,对处于较高、最高保护等级的重要数据和国家核心数据设置较低的入罪门槛,以实现罪责刑相适应。

第三,明确数据技术和数据秩序独立的法益定位,弥合法益保护缺位。一方面,将数据技术独立作为基础设施类法益,增设破坏数据技术罪。作为关键信息基础设施安全的组成部分,数据技术所针对的并不是科技企业自身的数据技术,而强调的是所有企业和个人主体能够共享使用的数据存储、传输等技术。在生成式人工智能时代,对于存储、传输等数据技术的破坏,无异于对于交通、水利、金融、能源等重要行业和关键领域的基础性设施的破坏,严重危害国家安全和公共利益。只有保障作为基础设施的数据技术安全,才能够有效保障生成式人工智能时代数据运行的安全。在法益定位上,应当将数据技术视为基础设施类法益,进而增设破坏数据技术罪。另一方面,将数据秩序独立作为公共秩序类法益,增设妨害数据秩序罪。在生成式人工智能时代,数据逐渐渗透到各个领域,成为社会各项事务开展的基础。由静态的数据本身和动态的数据运行所建构的数据场域,已经成为独立的虚拟空间。这个虚拟空间与国家、社会和公众的实体生活紧密结合,成为现实社会的重要组成部分。虚拟空间中数据的动态运行秩序,也成为社会公共秩序的重要组成部分。在传统刑法学意义上,公共秩序法益作为集体法益,具有独立存在的价值和意义。具体而言,公共秩序法益可以通过秩序性利益的保障,为具体性利益提供全面和持续保护。在数据场域,数据动态运行秩序强调的是从元数据的获取、数据处理和合成到数据输出全过程的合理状态。数据秩序法益存在的独立价值和意义在于,通过保障数据秩序法益为数据自身法益、数据内容法益和数据技术法益提供全面、整体的和持续的保护。因此,应当将数据秩序归属于公共秩序,赋予数据秩序独立的法益地位。

结语

2023年既是生成式人工智能的元年,也是人工智能监管范式变革的起点。当前全球科技领域的竞争,不仅是人工智能技术的竞争,更是创新监管制度的比拼。通过数据场域的构建,可以从资本和惯习的视角入手,深入剖析数据法益保护的实然、应然困境,进而以此为据从内部视角和外部视角提出因应对策。治理型监管范式的提出,希冀从内部入手,以监管权的开放配合、监管方法的多元融合和监管措施的兼容适配弥补传统监管在覆盖面上的不足,解决监管介入的滞后问题,促进创新和治理的双轮驱动,从内部重塑资本惯习结构。刑法规范的解释和重构,希冀从外部入手,以优化场域内不足的制度供给的方式,实现应然规范的转型,从而对实然的资本惯习异化结构进行纠偏。

往期精彩回顾

程雪军|AIGC浪潮下超级人工智能平台算法黑箱的治理路径张炜羿|刑事司法人工智能的信任困境及其纾解蒋星玥|算法推荐对短视频平台注意义务的影响解析温姝菀|技术向善视角下人工智能之误读与矫正路径蒋徐鑫|人工智能模型中数据泄露的法律风险防范曹上|AIGC中涉用户个人信息使用的边界探究(上海市法学会 东方法学)