标准研究 | 煤矿高质量数据集分类发表时间:2025-12-04 10:49来源:数字煤炭标准化 标准研究 | 煤矿高质量数据集分类 作者:煤炭行业数字化转型标准专题组 一、背景介绍 《高质量数据集建设指引》已隆重发布。今年8月28日,在2025中国国际大数据产业博览会“高质量数据集主题交流活动”上,《高质量数据集建设指引》正式发布。该文件在国家数据局指导下,由中国信息通信研究院、国家数据发展研究院、中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会创新驱动发展中心、中国电子信息产业发展研究院等单位联合编制。围绕高质量数据集建设背景、应用需求、建设现状、建设方法与实践、建设运营体系、建设推进思路等方面,提出高质量数据集建设“1+1”的参考路径,指导推进全社会高质量数据集建设,助力人工智能向纵深发展。 四项国家级高质量数据集技术文件已开始广泛征求意见。今年4月30日,全国数标委发布了12项技术文件和标准草案征求意见的通知,其中包括《高质量数据集 建设指南》等四项高质量数据集相关技术文件,分别围绕高质量数据集建设路径、分类方法、质量评测和格式要求给出了全行业通用的方法理论。在今年11月3日南京举办的数标委标准周活动上,四项技术文件在WG5工作组内进行了深入研讨,引起了各行业数字技术专家的广泛关注。 全国数标委已批准建立行业组拟加快推动行业数据标准化建设。在今年南京举办的数标委标准周活动中,全国数标委正式成立自然资源、生态环境、中医药、传媒、疾控及药品6个行业应用组,目的是进一步深化数据领域国家和行业标准化工作协同。此外,今年9月2日全国数标委发布的第二批标准需求中有17项关于高质量数据集建设,其中就包括了石油化工、煤炭、传媒等行业高质量数据集建设指南类技术文件的研制需求。 二、研制煤矿高质量数据集分类标准的意义 衔接国家政策和技术文件,是对国家提出的通用建设路径的行业落地。全国信标委发布的高质量数据集分类(征求意见稿)技术文件,给出了分类的三个维度,包括通识数据集、行业通识数据集和行业专识数据集,指导行业层面开展数据集分类工作。本标准依据这一思路,结合煤矿安全生产和日常管理业务,进一步梳理形成了行业数据集分类的框架,并定义了不同维度下的数据集,实现了国家和行业的衔接以及上位标准的行业落地。 填补行业标准空白并进一步促进、支撑高质量数据集的流通、质量、格式等相关标准的研制。高质量数据集是近年来的新兴概念,目前这一领域的国家标准屈指可数,煤炭行业的行业标准更处于空白阶段,本标准的研制和推广实施可以填补煤炭行业在这一领域的标准空白。此外,本标准作为一项指南类标准,标准中定义的分类方法和框架可以作为约束属性为数据集流通、格式规范等相关标准提供支撑,进一步促进相关标准的出台。 为行业高质量数据集规划和实施提供参考。国家数据局今年2月19日召开了高质量数据集建设工作启动会,在9月15日发布了高质量数据集先行先试工作名单(140个),煤科总院也位列其中。下一步面临高质量数据集究竟“建什么”、“怎么建”的问题,本标准提出的分类框架和数据集建设清单将为这一问题提供标准依据,可以切实指导煤炭企业、科技院所等行业主体开展行业高质量数据集建设规划和实施。 三、煤矿高质量数据集分类标准的技术维度 煤矿高质量数据集的分类方法。分类方法的选择是首先要考虑的问题,直接指导分类框架的制定,需要统筹考虑煤炭行业的专业划分、业务类型,还要兼顾数据资源的多种模态,本标准采用了线分类与面分类结合的分类方法。线分类法是将分类对象按选定的本质属性或特征,逐次划分为若干层级类目,形成自上而下的树状分类体系,上位类与下位类存在明确隶属关系,同层级类目之间为并列关系,该分类方法也叫层次分类法,标准体系框架多采用此分类方法,可以将煤炭行业的业务专业划分的无交叉、无重合。而面分类法是将分类对象的若干独立属性或特征视为不同“面”,每个面内划分彼此独立的类目,各“面”之间无隶属关系且不具有互斥性,一个对象可同时归属于多个“面”,通过不同面类目的组合形成复合分类结果,便于从多维度对数据集进行检索与筛选。 煤矿高质量数据集的分类框架。分类框架是应用分类方法对数据集归类的具体表现形式,从应用的角度出发,应与煤炭行业的专业和业务保持总体一致。分类框架需要定义规模上的“大、中、小”类,还要区分性质上的“作业、管理”类,又要考虑业务差异性的“井工、露天、洗选”类,最后还需要给出面分类下的数据面的定义。 煤矿高质量数据集的建设清单。数据集的建设清单是本标准的主体,直接回答了高质量数据集“建什么、怎么建”的问题,清单以附件的形式给出,按照分类框架,在每个小类下定义常见、实用的数据集,给出每个数据集的名称、可信的数据来源、关键的数据属性和推荐的用于数据标注的数据标签。 四、煤矿高质量数据集分类框架 综合考虑第三章提出的几个维度及其要素,聚焦行业的核心业务,对煤矿高质量数据集划分为三大领域: 1.生产作业类:涵盖煤炭采选直接的生产作业任务,包括3个中类25个小类。中类细分为井工煤矿、露天煤矿和选煤厂。其中,井工煤矿包含采煤、掘进、主运、辅运、通风、压风、提升、供配电、供排水、安全监测等小类;露天煤矿包含穿爆、采剥、运输与道路维护、边坡监测、疏干排水、供配电等小类;选煤厂包含原煤仓储、原煤准备、煤炭分选、煤泥处理、产品煤仓储、煤质检测、装车外运、安全监测、供配电等小类。 2.生产管理类:聚焦生产运营的管理支撑业务,包括2个中类11个小类。中类细分为技术类和服务类。技术类包含生产技术、安全监管、地质保障、机电管理、通风管理、调度指挥等管理场景小类;服务类包含应急救援、班组管理、生态环保、基建管理、政策法规等服务保障场景小类。 3.综合管理类:覆盖综合职能管理业务,包括3个中类15个小类。中类细分为工业园区、行政管理和培训教育。其中,工业园区包含基础设施、生活服务、智慧楼宇、安防保障、能源保障、车辆道路、仓储物流等园区配套场景小类;行政管理包含人力资源、资产财务、经营投资、审计法务、科技信息、安全教育等行政职能场景小类;培训教育包含技能培训、职业资格等人才培养场景小类。 属性类分类从数据形态与知识属性维度对数据集进行补充描述,分为以下两类: 1.模态面:按数据呈现形态分类,包含文本、图像、视频、音频、其他五个类目,类目编号采用阿拉伯数字,从1开始依次编排,用于唯一标识各模态类目。 2.知识面:按知识属性分类,包含行业通识类数据集、行业专识类数据集两个类目,类目编号采用大写英文字母,从A开始依次编排,用于唯一标识各知识属性类目。 ![]() 图1 煤矿高质量数据集分类框架 表1 模态面分类表
表2 知识面分类表
五、煤矿高质量数据集参考清单 本标准在分类框架下,对51个小类的数据集进行全面梳理,定义了301个高质量数据集,每个数据集给出了数据集名称、数据面、数据来源和数据说明。其中,数据说明给出了每个数据集宜包括的核心属性以及推荐的数据标签,数据标签可以服务于数据标注过程。 需要特别说明的是,高质量数据集是可以直接应用于人工智能模型训练的数据集,所以其与传统认知上的数据集存在一定差异,传统数据集在人工智能模型训练场景下只能叫数据语料(直接采集、归集的原始数据集合),而高质量数据集是对数据语料的二次加工,其加工过程包括数据清洗、质量优化、数据标注、数据校验(专家校验、知识校验)等环节,并且高质量数据集可以明显提升人工智能模型的基本能力,这也是“高质量”的内涵所在。因此,本标准给出的数据集定义以及数据说明中的数据标签,属于推荐性,具体数据集建设以及标签的设置需要根据人工智能模型训练的需求进行调整。 本文在标准定义的301项高质量数据集中筛选了10项,见下表,供业内同仁参考和交流。 表3 煤矿高质量数据集清单(10/301)
六、结语 在AI深度赋能千行百业的时代浪潮下,高质量数据集作为数字经济的关键生产要素,其基础性、战略性意义愈发凸显。煤炭行业作为我国能源安全的压舱石,亟需主动锚定数字中国建设战略方向,需要加快建设适配行业特性的高质量数据集标准体系,同时聚焦地质勘探、智能开采、安全监管、绿色低碳等核心应用场景,规模化培育和建设覆盖全产业链的高质量数据集,以高标准数据供给筑牢行业数字化转型根基,为智能化升级注入持久动力,助力行业在数字时代实现高质量发展。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||