作为“第五大生产要素”,数据的价值在于流通,但数据流通中存在泄漏等隐患,怎么办?
近日,国家数据局印发《可信数据空间发展行动计划(2024—2028年)》,部署建设可信数据空间,重点推进企业、行业、城市、个人、跨境等五类可信数据空间建设,到2028年要建成100个以上。
简单来说,可信数据空间是指一个为数据供应方、使用方等主体提供安全、可信赖的数据使用的空间,目标是为了让数据自由流动,从而创造更多价值。
在多位专家看来,可信数据空间建设也与当下信用社会体系建设等息息相关。网友热议的算法乱象、数据滥用等治理难题,背后都关系到信用问题,即如何建一个更大的社会层面的空间,来规范数据的获取、使用、流通。这是一个影响长远的布局。
作为数字经济大省,浙江多地已有类似探索,并推出一批相关的应用场景。
什么是可信数据空间
杭州市临平区南部,有一个极具现代感的建筑群——中国算力小镇。杭州数据要素运营中心(中国数谷·临平)坐落于此。它是浙江首个落地的、具备多元数据开发利用能力的可信数据空间,而这也构成“中国数谷”的基础设施之一。
“现在大家这么关注个人信息泄露问题,从中也可体会到‘可信’二字对数据流通的重要性。没有可信数据空间,数据流通容易陷入‘不敢’‘不愿’‘不能’的尴尬。”杭州市数据资源管理局副局长齐同军介绍。临平这一可信数据空间,已探索建立了“五信”原则,即保证数源、数据、物理、加工与流通的可信,从而确保数据流通的每一个环节都处于可控、可信的状态。
《行动计划》明确了可信数据空间的定义:基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。
从这一定义来看,可信数据空间可视作一种共同规则的集合。“数据流通过程中,哪些相关主体有资质参与,怎样判断参与流通的数据是可信的,哪些场景、服务、业务可以用哪种数据等,都需要有制度、规则予以明确。”齐同军向记者展示了一些杭州最新探索的数据交易规则,如数据在交易过程中,要经过清洗、脱敏等处理,也有严格的场景审核、产品登记、合规审查等步骤。这些规则确保数据流通安全、稳定。
“这个空间也可以看成是一种互信互任的市场空间,一个鼓励各方共同创造数据价值的应用生态。”多位数商从业者告诉记者,就像常见的市场交易中,难免存在以次充好等扰乱市场行为,需要买卖双方、市场管理主体等共同维护,市场才会健康持续发展。
怎么建可信数据空间
采访中,相关主体反映,业内对建设可信数据空间早有共识,难就难在怎么建。
“可信数据空间的实现路径之一,就在于既让数据能发挥作用,比如训练出一个大模型,但又不让人知道这些数据长啥样,也就避免了泄露风险。”临平大数据经营有限公司副总经理邵悦初说。
他以X光片解读AI大模型的开发为例介绍,这需要医院等数源单位提供带医生诊断信息的X光片等数据;数据在清除病人敏感信息后进入该中心生产,即训练大模型;训练好的大模型,规定先让数源单位审查,通过后才给到购买使用单位。整个过程使用该中心研发的一套类似“盲盒碰盲盒”的技术,确保数据除在数源单位外不会存储于其他任何地方。
当然,“盲盒碰盲盒”更多是技术层面。邵悦初说,建立可信数据空间还涉及制度设计、设施研发和生态营造等多个方面。
前不久,“中国数谷”2024数据要素发展大会在杭州滨江召开。会上公布了“中国数谷”最新建设成果,其中就包括在国内率先探索“三数一链”数据可信流通基础设施框架和治理体系。“三数一链”,具体指的是数据交易场所、“数据发票”(数据合规流通数字证书)、数联网和区块链跨链互认机制。
“‘三数一链’是一个整体,涉及制度、设施、生态等多方面内容。其中,我们交易所不仅提供平台,也参与制定并维护交易规则,是数据可信流通基础设施的重要参与者之一。” 杭州数据交易所董事长、总经理应琦说。
《行动计划》提出,要开展可信数据空间培育推广行动,包括积极推广企业可信数据空间、重点培育行业可信数据空间、鼓励创建城市可信数据空间、稳慎探索个人可信数据空间、探索构建跨境可信数据空间等。
“不同的行业领域、数据应用场景需要不同的技术手段和制度机制来适应。”浙江大数据交易中心总经理孔俊表示,浙江数字经济基础扎实、场景丰富,在企业、行业、城市等类型可信数据空间探索中可先行先试,提供借鉴与示范。
浙江有哪些探索和机遇
前不久,温州集中发布首批4个可信数据空间——营销数据空间、医疗健康数据空间、包装产业数据空间、鞋革产业数据空间,引发业界关注。
这4个可信数据空间充分体现了温州特色。比如,鞋革产业数据空间是温州重点支持该市鞋革等产业相关领域的龙头企业领衔建立的。据悉,该数据空间目前涵盖1.4亿多张鞋服款式图、9亿余个数据标签,打造鞋履AI垂直大模型,可对外提供AI抠图、AI改款等数据接口服务,现平台注册用户达5万多个,数据服务收入超过900万元。
“作为数字经济大省,浙江积累了海量数据,而量大面广的市场主体,也催生了海量数据资源和需求。”孔俊表示,这是浙江探索建设可信数据空间的优势所在。
浙江的很多改革探索,也为可信数据空间建设打下良好的基础,比如杭州滨江探索的“改革沙盒”。
“‘沙盒’是计算机领域一种经典的安全机制,指的是为运行中的程序提供的隔离环境。”滨江数商集团相关负责人介绍,滨江借鉴该机制,将全区设作一个“沙盒”,由区公检法司等18家部门单位、新成立的合规委员会等机构,通过联席会议等集体决策,构建轻微免罚、首违免罚等容错免责机制,鼓励企业“入盒”开发产品。“尽管这是一种容错免责机制,但它可以让政府、行业和企业具备更强的动力参与到可信数据空间建设中。”
“可信数据空间建设,将给浙江数据流通基础设施建设、数据行业发展乃至整个数字经济发展带来很多新的机遇。”孔俊说,一方面,可信数据空间是国家数据基础设施的重要组成部分,要求高、投入大,将为数据基础设施投资带来诸多新机遇;另一方面,可信数据空间也将建立一个良好的数据发展环境,促进企业、平台、数据空间运营方、数据应用企业等扩大数据产品生产和应用规模,从而推动数据产业发展壮大。
在浙江大学公共管理学院特聘副研究员谈婕看来,数据要素流通共享使用不畅的原因,主要体现在数据供给意愿不足、流通机制不畅、应用潜力释放不够等方面。可信数据空间还要实现互联互通与价值共创,把从前零散、少量、低价值的数据变成集聚、海量、高价值的大数据。同时,通过构建收益分配等规则机制,牵引多方共同开展数据产品和服务创新,促进数据价值释放。
(本报记者 金春华 王逸群)