中国电子政务网--信息化--大数据--数字时代创新有新特点，要发挥数据和制度优势

数字时代创新有新特点，要发挥数据和制度优势

来源:电子政务网更新时间:2024-11-06

2024年5月22日，由澎湃新闻主办的“经济新动能：面向世界的创新”研讨会在北京沈家本故居举办。
中国社会科学院大学教授、国务院原副秘书长江小涓，清华大学苏世民书院院长、清华大学中国科技政策研究中心主任薛澜，中泰国际金融有限公司首席经济学家李迅雷和复旦大学经济学院教授、复旦大学中国社会主义市场经济研究中心常务副主任陈钊从数字、治理、资本、制度等角度剖析了创新经济的潜力和挑战，提出了政策建议。
江小涓教授发表了题为“数智时代的创新挑战和应对思考”的主旨演讲。她认为，现在数据密集型的创新范式下，大型数字企业成为创新的枢纽和核心，同时开源、开放的组织互动方式成为创新的潮流。中国应进一步开放公共数据和向产业界汇聚人才，提升创新能力。
以下为江小涓教授的演讲精要。
中国社会科学院大学教授江小涓表示，平台企业在创新链条中的地位大大提升。
澎湃新闻记者权义图
大型数字科技企业和平台成为创新的枢纽和核心
数智时代的科技创新有重要变化，这种变化不是原来维度的调整，而是“海量数据”这个新维度的加入，使得创新具有了“数据密集型创新”的新特征。我们近期一个研究的主题叫“数据和数据关系驱动的创新”。我们发现，数据成为创新的重要资源，同时也重新定义了创新各主体之间的关系。数据极大增加了我们洞察和理解世界的能力，也使得关联分析、知识图谱等需要海量计算的知识发现路径成为可能。
在这样的背景下，科技成果向产业应用转化的创新链条发生了根本性变化。作为海量数据的生产者、汇聚者和聚合挖掘者的平台企业，在创新链条中的地位大大提升，位势不断增强。原来的产业成果转化链条，是高校进行基础研究，研究机构进行前沿技术开发，然后企业完成产业转化和应用。
这个模式存在科技成果向产业应用的转化率较低的问题。2022年，国家知识产权局发布的《中国专利调查报告》显示，高校发明专利产业化率为3.9%，很多研究投入没有产业结果。而数据驱动的创新范式带来了四方面的改变。
首先，数据能力支撑大型数字企业产学研一体化创新。大型数字企业成为产学研一体化创新的核心，因为它能生产和汇聚海量数据，能准确感知市场需求和应用场景，同时有能力快速大规模投入。以车联网平台为例，数字企业占据核心和枢纽地位，以平行、并联的方式将基础到应用的各个创新环节都关联起来。在这个模式下不再存在科研成果转换的问题。
其次，数据能力支撑大型数字企业从事前沿技术创新。在自动驾驶、云计算、渲染引擎、虚拟现实这几个最重要的前沿技术领域中，从2007年开始，全球发明专利的企业数量超过了高校和研究机构，从2015年开始，中国发明专利排名靠前的几乎全都是企业。大型平台企业成为前沿技术研究中的重要力量。
第三，数据能力支撑大型数字企业从事基础研究。大型数字企业从事基础研究的能力极大加强，积极探索0-1的原始创新。在人工智能国际顶刊的文章发表数上，2011年全球范围企业发表超过高校，2016年起中国企业的文章发表也超过了高校。
最后，数字能力支撑大型数字企业投资新创企业。现在投资的真正主流部分是大型数字企业做的CVC（编注：企业风险投资，Corporate Venture Capital）企业创投资金。2013年到2021年的数字企业CVC对外投资金额显示(图1)，除了蚂蚁和阿里在2019年受到严格监管后投资额下降，其他对外投资额上升最快的都是大型平台企业。数字平台的创投资金是独角兽企业和新创企业重要的来源，2021年中国独角兽排名前100的企业中，近2/3的企业获得过大型数字企业的投资，A、B两轮中获得过数字科技企业投资的比例占到近一半。和传统创投资金财务投资特征明显的情形相比，数字企业创投资金具有更明显的战略投资者特征，更偏向于耐心资本、长期主义，重要性不断增加。

图1：2013-2021年传统VC与数字企业CVC对外投资金额
图表来源：江小涓演讲PPT
因此，由于数据、数据关系、获得数据的能力、计算数据的能力、挖掘数据的能力等因素，大型数字科技企业和平台成为创新的枢纽和核心。在数字和数字相关的十大领域中，原来横向传递式的创新方式发生了根本性改变。
开源成为软件、网络和数字领域的开发和创新模式
目前大家担心的问题是，大企业为主导会形成垄断吗？数据越来越多，数据还可以自我生产和人工合成。大模型的规模经济和范围经济效应特别显著，规模效应递增的特点由“边际”转变为“质变”（涌现）。这有可能带来市场结构和竞争关系的根本改变，少数头部企业越来越大。国内外有关人工智能的讨论中，除了社会和伦理问题之外，经济学家非常担心新模式对于市场结构的影响。
同时，数据和场景需求会影响创新组织的演进。数据越好，应用场景越多，更可能带来开源开放，使后起者获得加速发展的机会。
数字时代，开源成为一种创新理念与文化形式，指共创共享的技术创新。开源技术源于软件，指源代码向公众开放的软件技术。开源能够汇聚众智、多方协同，获得透明高效的海量数据、大量自动化协作工具、世界范围内智慧资源的分布式协作和接力式开发，推动技术持续迭代演进和大范围联结产品、企业和产业，构建大规模生产和应用场景。
开源发展到今天，已经成为软件、网络和数字领域的开发和创新模式。全球97%的软件开发者和99%的企业使用开源软件，72%以上移动操作系统基于开源Linux内核，全球70%以上的新立项软件项目采用开源模式，最近两年采用开源模式的达到了80%以上。
开源背后是需求的驱动，是这个时代对场景和数据的需要，也是应用者、开发者的需求，从而产生了开源这一本质性的创新变化。最近二十年的云计算、大数据、AI的发展均受益于开源。
在软件时代，趋势是边际效应递增，可以复用和复制的软件产品会让大者愈大。但是开源模式限制了规模递增导致的大者愈大，加快了后起者的追赶速度。从2009年到2016年的全球操作系统市场份额中，微软（闭源）占比从90%下降到不足40%，安卓（开源）占比上升到超过40%。
人工智能大模型时代，领先企业更多采用闭源模式，后起企业采用开源模式。不过，通用大模型时代的规模递增比软件业更加显著，大模型的涌现会出现后发者没有的能力。未来期待多种模型能够形成竞争格局，希望在多种因素的博弈下，市场竞争性不会受到破坏性的影响。从现在闭源的、开源的进展来看，很难对未来格局下判断。不论什么模式，我们希望能够维护多年来促进创新的竞争性市场结构。
当下的大科学都是开放科学。新的科学发现要么看得越来越远、越来越广，要么就是探究得越来越深、越来越细。海量数据处理和人力资本需求，催生多国合作大科学项目。例如，2021年新批的17个国家共同建设的平方公里阵列射电望远镜项目，接受面积达一平方公里，它由很多小天文台组合成各种曲面，比当前世界上最大同类设备搜寻速度提高1万倍。
发挥优势弥补短板，提升中国数智时代创新能力
在数字智能时代，中国创新能力面临三个“关键”。
第一是数据问题。AI大模型作为新的生产力范式，已经在各行各业中展现出不可替代的价值。中国要在AI大模型的竞争中迎头赶上，补齐数据短板迫在眉睫。而中国目前数据不太好用、也不够多。中国的优势是公共部门强大，数据量和数据结构良好。政府角度要尽快强力推动政府数据和公有企事业单位的数据进一步开放。这是我们的产业优势，也是我们的制度强项。
大模型厂商使用的模型训练数据可分为开源数据集、网络爬虫数据、商业采购及合作授权数据、自有业务数据和合成数据五类。在各类数据中，公共数据可作为中国发挥产业优势和制度优势、增加数据供给的关键抓手。
由于公共部门的绝对和相对规模大，中国公共数据相对体量大。中国有大量的政府部门和企事业单位，出于公共目的对公民进行合理数据采集，这使得中国的公共数据量为全球之最。有研究表明，中国政府部分掌握的数据资源占全社会数据资源总量的50%-80%（这个具体数据的可靠性我有点吃不准，但中国公共数据量大的判断不会错），但开放共享不够，数据利用效率不够高。
公共数据开放是国际共识。2011年，巴西、印尼、墨西哥、挪威、南非、菲律宾、英国和美国签署了《开放数据声明》，推动公共数据开放。开放数据的定义是“公众可获取的、能够被用户完整观测和使用的数据”。目前全球七十余个国家都参与其中。
中国现在开放的数据多是在社会、企业APP上获取的，以及部分公共数据。目前数据的开放度对于社会需求和投喂机器远远不够。中国应发挥制度优势，以最大力度开放公共数据，并推动企事业单位的数据与其它各类数据汇聚融通，为数智产业发展提供关键要素。
第二是人才问题。研究显示，从2002年到2014年，学术界在开发最先进的AI系统方面处于领先地位。2014年到2022年，32个重要的机器学习模型都诞生在产业界，学术界仅有3个，2023年的数据比例相似。关键原因是尖端人工智能研究需要大量的数据、算力、算法。在快速的技术迭代中，只有少数大科技平台能够汇聚最重要的力量。
全世界范围内，大平台企业能够从高校吸引图灵奖，甚至诺奖学者担任首席科学家。不过，在中国，这两年的趋势反而是平台的首席科学家回到高校。从1980年代开始，中国的国有企业大工程师会在周末给乡镇企业做产品、做设计。1990年代一大批学者“下海”，即使后面“下海”不行了，也是愿意去做实践。而今天出现高校相较企业更有优势的局面。出现中国产业界顶级的科学家向高校回流的现象，与时代的趋势不符。
企业吸引人才需要政策支撑。人工智能大模型需要快速汇聚海量资源和工程化技术能力，而且应用落地也要细颗粒度的专业知识。因而，在这一轮发展中产业界的地位更重要，无论是资金、导向、帽子，这些吸引人才的各类资源都需要向企业汇聚。
第三是关键场景。对于拥有海量数据的国有大企事业单位来讲，除了依靠数据完成自身业务，也需要为社会创新提供数据支持，推动数据原生企业，即由数据支撑的新的创新企业的发展。比如英国2023年成立了国家智能数据委员会，推动开放金融、开放能源、开放通信等数据开放行动。
美国“开放银行”行动也已推动多年。该行动中，当客户希望到其他金融机构获得服务的时候，之前为其提供过服务的银行应允许它带走所有在这个银行的存档数据。这些数据可以用于用户画像和信用评估，从而为中小型互联网金融机构提供客户过往信用记录的支持。
中国的医疗、交通、金融、电力都由国有大企事业单位经营，相关数据具有结构化、实时数据更新、迭代良好等特点。
数据优势企业不能只为自己“数据增强”，还要为更多企业“数据使能”，推动社会创新。这就需要通过引导和规制等多种方式让这些开放，让更多的企业能够用这些存量数据来创新，从而实现数据支撑的创新。
我们要相信中国互联网企业的创新意愿和能力。按营收增长和股市表现看，中国互联网行业头部企业的表现比较复杂，虽然几个传统头部企业最近几年的增长趋缓，按市值衡量的股市表现也不够理想，但中国同时有一批极具活力和成长性的头部企业市值和收益表现俱佳。头部企业总体活跃度和排序变化度，也是产业活力的重要指标。（表2）。

表1：2023年中国十家头部互联网企业市值变化。
图表来源：江小涓演讲PPT
因此，虽然目前阿里、京东、腾讯几家在资本市场上表现不甚如人意，和美国的前四大（互联网企业）相比差距拉大，但并不能说明我国数字企业的全局情况。要相信我们的企业我们创业者的创新意愿和愿意付出的努力，中国很多互联网企业在过去几年艰难的环境下仍实现了发展。全球APP下载量前10中一直有中国企业，有三五个当然不一定是老企业。中国互联网企业的活力很大程度上体现在有一个高速成长的创新企业簇群上。
（以上内容经演讲者审订）
作者：中国社会科学院大学教授张云帆/整理