首页 家电百科 实时讯息 常识
您的位置: 首页 > 实时讯息 >

量大吗?有用吗?从广东公共数据开放看高质量数据集供给

0次浏览     发布时间:2025-04-09 09:57:00    

在国家“高效办成一件事”的决策部署,以及广东提升“数字政府”效能的新要求下,南都大数据研究院推出“数字政府提效微记录”专栏,面对企业群众政务服务需求中的盲点、困点,搭建与办事部门沟通的桥梁,针对性展开普及与疏解。同时,聚焦政务服务具体事项和服务方式,发起主题化、动态式测评与调研,挖亮点、补短板,助力标准化、规范化、便利化。

广东提出持续提升开放数据质量,构建高质量人工智能数据集,本期“数字政府提效微记录”栏目,以“开放广东”平台省本级数据集为切口,观察高质量数据开放供给。

高质量数据集既是技术创新的燃料,又是推动人工智能、机器人等产业落地的关键引擎。而高质量数据集建设,离不开公共数据的高质量开放。为观察广东高质量数据开放供给,南都大数据研究院以“开放广东”平台省本级数据集为切口,进行分析梳理。

结果显示,截至今年3月15日,“开放广东”平台放出97775个数据集,其中省本级开放数据集仅435个,相比2023年还回撤了130多个。有专家对此表示,广东省本级开放数据集数量在全国各省级平台中表现一般,且回撤比例较高。

截至3月15日“开放广东”平台省本级数据集。

“开放广东”平台省本级数据集来源前十。

18个省级单位均只开放1个数据集

今年初国家数据局召开高质量数据集建设工作启动会,要求推动高质量数据集建设。前不久,广东发布“十二条”举措推动人工智能与机器人产业创新发展,明确丰富数据要素供给,构建高质量人工智能数据集和语料库等。

做好高质量数据集建设工作,需要从数据开放供给、标准、安全、价值多向发力。中央层面去年发布《关于加快公共数据资源开发利用的意见》,首次对公共数据资源开发利用进行系统部署。公共数据资源开发利用主要包括政务部门间的数据共享、面向社会的数据开放及面向有限主体授权运营三种形式。只有标准化、规范化数据才能确保数据质量和准确性,满足实体经济不同场景与不同主体需求。有数据显示,截至2024年7月份,全国有243个省级和城市的地方政府上线数据开放平台,开放的有效数据集超过37万个。

作为广东省政府数据开放平台,“开放广东”平台2016年上线,建设至今,当前的数据集开放度如何?南都大数据研究院梳理发现,截至今年3月15日,“开放广东”平台有97775个数据集,其中省本级数据集仅435个。

细分来看,“开放广东”平台上,共有51个省级单位开放了数据集,但包括省政务服务和数据管理局、省应急管理厅、省水文局、省疾控中心等在内的18个省级单位,在平台上的开放数据集都只有1个。

相对开放数据集占比较高的是省商务厅,为14.0%,其次为省生态环境厅、省自然资源厅、省文旅厅、省药监局、省市监局。例如省商务厅发布的数据集包括“广东外贸进出口总值”“自贸试验区进出口总额”“自贸试验区新设企业数量”“广东省口岸运行情况”等。

据悉,截至3月15日,浙江省数据开放平台上省级部门数据集有987个,山东省直部门开放数据集有1133个。一直研究政府数据开放的复旦大学国际关系与公共事务学院教授、数字与移动治理实验室主任郑磊接受南都采访时表示,2024年“开放广东”平台省本级开放的有效数据集有453个,在全国各省级平台中处于中游。虽然2024年省级单位开放数据总容量同比有所增长,但在2023年省级单位开放的数据中有113个数据集不再开放,回撤比例较高。

“开放广东”平台省本级数据集下载量等数据。

“开放广东”平台上“零下载”的省本级数据集。

三成多数据集去年以来未更新过

什么数据集才算高质量?在专家看来,要具有一定主题,可以标识并用于人工智能训练、验证及测试等处理过程的数据形式,在完整性、规范性、准确性、均衡性、及时性、一致性、相关性等方面都达到较高标准的数据集合,能够帮助研究人员、工程师、人工智能在开展数据分析、机器学习和模型计算时获得更可靠的结果。

国家层面对于开放数据集数据格式、更新频率等有相应要求。如《公共信息资源开放试点工作方案》明确试点地区,可下载的数据集应采用可机器读取格式开放,可机读率不低于90%,鼓励优先采用CSV格式;提高实时动态数据开放比重,可用API接口下载的数据集占开放数据集总量比例不低于30%等。

《广东省公共数据开放暂行办法》对于数据格式与更新频率的要求为“公共数据开放目录应当包含数据集、数据摘要、数据项和数据格式等信息,明确公共数据开放主体、开放属性、开放条件和更新频率”“公共数据应当以电子的、易于识别和加工的格式开放”等。

对照要求,南都大数据研究院发现,“开放广东”平台省本级数据更新不够及时,在能够持续开放的数据中34.9%数据集去年以来未修改更新过。数据集更新频率标注为“每天”“每季度”“每月”“每周”的一共占比2%,每年更新的占42%,为“其它”的数据集占比达56%。

此外,在可机器读取格式方面,XLSX占比最高,为83%,CSV占比仅32%。下载量为零的数据集有10个,其中8个为省交通厅发布的数据集,包括“广东省营运船舶档案”等,还有省农业农村厅发布的“广东省农药登记初审信息”数据集等。

分析下载/访问比例(数据集下载总量/浏览总量),平台上的省级单位整体为22.2%。其中,比例较低的包括省交通运输厅等,比例较高的是省生态环境厅、省民政厅、省商务厅等,例如省生态环境厅发布的“广东省重污染河流断面水质状况”数据集,省民政厅发布的“广东省养老机构基本信息”数据集等。

不过,广东开放的数据在可获取、可理解性方面表现较好,包括完整性、配套的元数据、格式都比较规范。具体看单个数据集表现,下载量最高的是省教育考试院“广东省高考信息数据统计”数据集,其次为省文旅厅的“广东省旅游住宿设施接待过夜游客情况(旅游)”数据集。

郑磊教授对此提到,他们团队把全国各地开放平台下载量高的数据集归到一起,分析下载量前十名的数据集,发现都是与衣食住行、生老病死、经济发展相关的数据,如“公交站点、路线、时刻表数据”“人口与经济指标(GDP、产业增加值、收入等)”“学校(包括幼儿园、小学、初中)基本信息数据”“企业/个体户注册登记数据”“医疗机构数据”“学校招生信息数据”“道路运输从业人员/企业数据”“施工许可数据”“商品房预售备案/许可数据”“空气质量状况数据”,“但即便就看这10个普遍下载量很高的数据维度,广东也有很多还没开放”。

据郑磊教授介绍,数据集浏览量、下载量不能等同于高价值或者高质量,但零下载量确实反映一定问题。有些高质量的数据,普通百姓一般不会直接使用,所以下载量不高,只要有几家大企业在其应用中下载和引入这些数据,就能服务于大量公众。例如去年北京开放全域全量“无障碍设施”数据36万多条,包括盲道、轮椅通道等,普通百姓不一定会去下载这些数据集,而地图导航软件下载并使用这些数据就有价值。

“开放广东”平台省本级数据集更新频率占比。

“开放广东”平台省本级数据集格式占比。

建设高质量数据集支持AI发展待破局

随着国内掀起新一轮AI热潮,更需要足够多样化、高质量的数据,但目前面向人工智能发展的高质量行业数据集仍比较匮乏。

如何破局?南都大数据研究院观察到,政策层面,广东正不断加深部署。如2023年出台《关于加快建设通用人工智能产业创新引领地的实施意见》,要求着力构建高质量多模态中文数据集;2024年广东省政务服务和数据管理局等部门联合发布“数字经济工作要点”,要求支撑通用人工智能发展及高质量公共数据资源库建设,持续提升开放数据质量,促进公共数据与社会数据融合开发利用;今年广东发布打造应用场景、丰富数据要素供给等“十二条”政策举措,推动人工智能与机器人产业创新发展,其中明确构建高质量人工智能数据集和语料库,形成一批高质量数据产品和服务等。

4月1日《广东省推动人工智能与机器人产业创新发展若干政策措施》新闻发布会上,广东省政务服务和数据管理局副局长魏文涛回答媒体提问时表示,高质量的数据集在促进人工智能和机器人的技术创新方面扮演核心原料角色,高质量数据与人工智能相结合,将进一步发挥数据与人工智能的倍增效应,可以说“人工智能+”行动到哪里,高质量的数据集建设和推广就要到哪里。

具体到做法,魏文涛提到,要深化数据空间建设,构建行业数据资源库;征集优质数据案例,赋能行业智能应用;加强政产学研合作,强化核心技术研发以及完善数据交易机制,保障数据有序流通等。

专家们就此还建议,要深入探索公共数据开放利用模式,降低中小企业获取高质量训练数据的市场门槛,加快公共数据开放和企业数据流通,形成部门、行业、地区共同参与的协同机制等。

出品:南都大数据研究院

采写:南都记者 袁炯贤

设计:张博

技术支持:南方智媒科技公司 南方智媒云

技术研发:占华平