2024年2月,为适应数据要素市场化配置改革形势,更好分析我国数据资源结构、利用情况和存在问题,国家数据局联合中央网信办、工业和信息化部、公安部四部门发布《关于开展全国数据资源调查的通知》,面向政府部门、高校、协会以及重点企事业单位开展调查,国家工业信息安全发展研究中心承担调查实施工作。此次调查在前期工作基础上进行了优化调整,借鉴国际相关机构经验,进一步扩大调查范围、扩展调查对象、增设调查指标,以期反映我国数据产存算流用全生命周期发展现状。5月24日,在第七届数字中国建设峰会上,《全国数据资源调查报告(2023年)》(以下简称“报告”)正式发布。
报告以3000多家调查样本为基础,以人、机、物广泛连接产生的电子化数据为调查对象,采用全量测算和抽样调查方法,通过数据分析、建模测算、结果校验,较为全面地呈现了我国数据资源发展现状。
调查发现,我国数据资源管理和利用整体处于起步阶段,数据资源“产-存-算”规模优势基本形成,数据“供-流-用”各环节主体逐渐丰富,海量数据和丰富场景优势潜力亟需释放。
在数据生产方面,数据生产规模大、范围广,增长速度快。2023年全国数据生产总量达32.85泽字节(zb),同比增长22.44%。数据规模的快速增长,主要得益于5g、ai、物联网等技术的创新发展以及智能设备的规模应用。例如,消费民生领域不断催生新模式、新业态,影像视听等非结构数据实现爆发式增长;智慧城市扩大物联感知范围,设施物联传感数据占比超四成;智能网联技术加速迭代,带动出行相关数据增幅达49%。
在数据存储方面,数据存储空间及布局相对合理,云存储低于终端存储。2023年,全国数据存储总空间为2.93泽字节(zb),存储空间利用率为59%。目前,数据存储空间基本满足存储需求,但从长远来看仍需适度超前布局,以满足未来产业发展对海量数据的需要。从存储位置看,数据云存储占比略低于终端存储,特别是对于行业重点企业,数据终端存储占比超七成,分散存储的现象较普遍,数据互联、复用的难度较大。
在算力方面,呈现算力规模增长快,智算能力需求旺的特点。根据2200多家算力中心的调查数据显示,2023年我国算力规模同比增长约为30%,其中智能算力占比达到30%,算力基础设施不断夯实。其中,京津冀、长三角、珠三角地区算力规模占全国比重近六成,算力枢纽按需布局趋势明显。主要由于东部地区实时计算需求增幅较大,实时数据处理仍依赖于本地存力及算力。随着各行业各领域对智能算力的需求日趋强烈,大模型适配性有待优化。
数据“供-流-用”各环节主体逐渐丰富。在“供”的方面,去年,我国公共数据开放量同比增长超16%,公共数据开放共享初见成效。多个地区的省级数据管理部门开始探索公共数据授权运营机制,通过整体统一授权、分领域分场景授权等多种方式,在优化公共服务和推动创新发展方面取得了一定成效。
在“流”的方面,全国数据总流量同比增长7.6%,数据流通方式呈现多元化特征。一方面,由于汽车、家居、穿戴等智能终端品类不断增加,以及视听娱乐用户规模与交互需求的快速增长,消费领域数据交互活跃度较高。另一方面,平台企业和中央企业的数据枢纽作用日益凸显,数据交互量远超其他企业,带动数据流通模式更加多元。
在“用”的方面,政企数据融合不断深入,数字化转型带动应用场景加速落地。调查显示,18.6%的平台企业和51%的中央企业在数据开发利用过程中应用到了政府开放数据,工商、气象、交通、地理等公共数据广泛应用于数据开发利用中,成为释放数据价值的催化剂。数字化转型提升了企业数据获取的能力,本次调查中,96%的行业重点企业已实现数据场景化应用,海量数据加速融入生产运营各类场景。
同时发现,我国海量数据和丰富场景优势潜力亟需释放。一是海量数据源头即弃。2023年,全国新增数据存储量为0.95泽字节(zb),生产总量中仅有2.9%的数据被保存。一方面由于海量数据复用价值较低,大部分过程类数据产生后即被丢弃或覆盖。另一方面,由于目前大模型、训练工具等支撑能力不足,海量数据开发利用价值低于存储成本。二是数据存而未用现象较为突出。企业一年未使用的数据占比约四成,数据加工能力不足导致大量数据价值被低估、难以挖掘复用。随着各行业各领域对智能算力的需求日趋强烈,大模型与国产软硬件的适配性问题尚需解决。三是数据价值外溢效应不足。开展数字化转型的大企业中,实现数据复用增值的为8.3%,实现规划管理的企业数据资源较少,数据价值有待释放。
当前,数据资源日益成为衡量数字经济国际竞争力和软实力的关键指标。全国数据资源调查作为一项基础性工作,对摸清数据资源家底、加快数据开发利用、支撑政府精准施策和数字经济高质量发展具有重要意义。未来,随着数据技术不断进步,基础制度持续完善,数据资源发展将加速,数据生产规模将保持高速增长,预计2024年数据生产量增长将超25%,同时,存储计算将向按需供给发展,数据流通将向规范有序、多元协同发展,数据开发利用将向需求牵引、智能驱动发展。