相关阅读

相关阅读

副标题

标准研究 | 煤矿高质量数据集分类

发表时间:2025-12-04 10:49作者:石笑天来源:数字煤炭标准化




标准研究 | 煤矿高质量数据集分类

作者:煤炭行业数字化转型标准专题组







一、背景介绍



  《高质量数据集建设指引》已隆重发布。今年8月28日,在2025中国国际大数据产业博览会“高质量数据集主题交流活动”上,《高质量数据集建设指引》正式发布。该文件在国家数据局指导下,由中国信息通信研究院、国家数据发展研究院、中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会创新驱动发展中心、中国电子信息产业发展研究院等单位联合编制。围绕高质量数据集建设背景、应用需求、建设现状、建设方法与实践、建设运营体系、建设推进思路等方面,提出高质量数据集建设“1+1”的参考路径,指导推进全社会高质量数据集建设,助力人工智能向纵深发展。

    四项国家级高质量数据集技术文件已开始广泛征求意见。今年4月30日,全国数标委发布了12项技术文件和标准草案征求意见的通知,其中包括《高质量数据集 建设指南》等四项高质量数据集相关技术文件,分别围绕高质量数据集建设路径、分类方法、质量评测和格式要求给出了全行业通用的方法理论。在今年11月3日南京举办的数标委标准周活动上,四项技术文件在WG5工作组内进行了深入研讨,引起了各行业数字技术专家的广泛关注。

    全国数标委已批准建立行业组拟加快推动行业数据标准化建设。在今年南京举办的数标委标准周活动中,全国数标委正式成立自然资源、生态环境、中医药、传媒、疾控及药品6个行业应用组,目的是进一步深化数据领域国家和行业标准化工作协同。此外,今年9月2日全国数标委发布的第二批标准需求中有17项关于高质量数据集建设,其中就包括了石油化工、煤炭、传媒等行业高质量数据集建设指南类技术文件的研制需求。





二、研制煤矿高质量数据集分类标准的意义



    衔接国家政策和技术文件,是对国家提出的通用建设路径的行业落地。全国信标委发布的高质量数据集分类(征求意见稿)技术文件,给出了分类的三个维度,包括通识数据集、行业通识数据集和行业专识数据集,指导行业层面开展数据集分类工作。本标准依据这一思路,结合煤矿安全生产和日常管理业务,进一步梳理形成了行业数据集分类的框架,并定义了不同维度下的数据集,实现了国家和行业的衔接以及上位标准的行业落地。

    填补行业标准空白并进一步促进、支撑高质量数据集的流通、质量、格式等相关标准的研制。高质量数据集是近年来的新兴概念,目前这一领域的国家标准屈指可数,煤炭行业的行业标准更处于空白阶段,本标准的研制和推广实施可以填补煤炭行业在这一领域的标准空白。此外,本标准作为一项指南类标准,标准中定义的分类方法和框架可以作为约束属性为数据集流通、格式规范等相关标准提供支撑,进一步促进相关标准的出台。

     为行业高质量数据集规划和实施提供参考。国家数据局今年2月19日召开了高质量数据集建设工作启动会,在9月15日发布了高质量数据集先行先试工作名单(140个),煤科总院也位列其中。下一步面临高质量数据集究竟“建什么”、“怎么建”的问题,本标准提出的分类框架和数据集建设清单将为这一问题提供标准依据,可以切实指导煤炭企业、科技院所等行业主体开展行业高质量数据集建设规划和实施。





三、煤矿高质量数据集分类标准的技术维度



     煤矿高质量数据集的分类方法。分类方法的选择是首先要考虑的问题,直接指导分类框架的制定,需要统筹考虑煤炭行业的专业划分、业务类型,还要兼顾数据资源的多种模态,本标准采用了线分类与面分类结合的分类方法。线分类法是将分类对象按选定的本质属性或特征,逐次划分为若干层级类目,形成自上而下的树状分类体系,上位类与下位类存在明确隶属关系,同层级类目之间为并列关系,该分类方法也叫层次分类法,标准体系框架多采用此分类方法,可以将煤炭行业的业务专业划分的无交叉、无重合。而面分类法是将分类对象的若干独立属性或特征视为不同“面”,每个面内划分彼此独立的类目,各“面”之间无隶属关系且不具有互斥性,一个对象可同时归属于多个“面”,通过不同面类目的组合形成复合分类结果,便于从多维度对数据集进行检索与筛选。

    煤矿高质量数据集的分类框架。分类框架是应用分类方法对数据集归类的具体表现形式,从应用的角度出发,应与煤炭行业的专业和业务保持总体一致。分类框架需要定义规模上的“大、中、小”类,还要区分性质上的“作业、管理”类,又要考虑业务差异性的“井工、露天、洗选”类,最后还需要给出面分类下的数据面的定义。

    煤矿高质量数据集的建设清单。数据集的建设清单是本标准的主体,直接回答了高质量数据集“建什么、怎么建”的问题,清单以附件的形式给出,按照分类框架,在每个小类下定义常见、实用的数据集,给出每个数据集的名称、可信的数据来源、关键的数据属性和推荐的用于数据标注的数据标签。





四、煤矿高质量数据集分类框架



    综合考虑第三章提出的几个维度及其要素,聚焦行业的核心业务,对煤矿高质量数据集划分为三大领域:

    1.生产作业类:涵盖煤炭采选直接的生产作业任务,包括3个中类25个小类。中类细分为井工煤矿、露天煤矿和选煤厂。其中,井工煤矿包含采煤、掘进、主运、辅运、通风、压风、提升、供配电、供排水、安全监测等小类;露天煤矿包含穿爆、采剥、运输与道路维护、边坡监测、疏干排水、供配电等小类;选煤厂包含原煤仓储、原煤准备、煤炭分选、煤泥处理、产品煤仓储、煤质检测、装车外运、安全监测、供配电等小类。

    2.生产管理类:聚焦生产运营的管理支撑业务,包括2个中类11个小类。中类细分为技术类和服务类。技术类包含生产技术、安全监管、地质保障、机电管理、通风管理、调度指挥等管理场景小类;服务类包含应急救援、班组管理、生态环保、基建管理、政策法规等服务保障场景小类。

    3.综合管理类:覆盖综合职能管理业务,包括3个中类15个小类。中类细分为工业园区、行政管理和培训教育。其中,工业园区包含基础设施、生活服务、智慧楼宇、安防保障、能源保障、车辆道路、仓储物流等园区配套场景小类;行政管理包含人力资源、资产财务、经营投资、审计法务、科技信息、安全教育等行政职能场景小类;培训教育包含技能培训、职业资格等人才培养场景小类。

    属性类分类从数据形态与知识属性维度对数据集进行补充描述,分为以下两类:

    1.模态面:按数据呈现形态分类,包含文本、图像、视频、音频、其他五个类目,类目编号采用阿拉伯数字,从1开始依次编排,用于唯一标识各模态类目。

    2.知识面:按知识属性分类,包含行业通识类数据集、行业专识类数据集两个类目,类目编号采用大写英文字母,从A开始依次编排,用于唯一标识各知识属性类目。


图1 煤矿高质量数据集分类框架


表1 模态面分类表

编号

类目名称

定义

1

文本

以文字形式呈现的煤矿数据,包括生产规程、细则、报表、技术文档、管理台账等结构化或非结构化文字信息。

2

图像

以静态视觉形式呈现的煤矿数据,包括井下设备外观、巷道环境、地质构造、监测图表等图像资料。

3

视频

以动态视觉形式呈现的煤矿数据,包括采掘作业过程、设备运行状态、安全巡检等视频记录。

4

音频

以声音形式呈现的煤矿数据,包括设备运行异响、人员语音指令、安全警报等音频信息。

5

其他

除文本、图像、视频、音频外的特殊形态数据,如三维点云、传感器原始波形等。


表2 知识面分类表

编号

类目名称

定义

A

行业通识类数据集

涵盖煤炭行业通用知识的数据集合,其核心特征为普适性、基础性和统一性,覆盖全行业通用的知识体系,包括行业法定合规要求、通用技术规范、基础管理框架、共性术语定义、基础理论知识等内容,用于为煤炭行业各类主体提供统一的知识基准。

B

行业专识类数据集

针对煤矿特定专业领域知识的数据集合,其核心特征为领域针对性、专业深度性和场景实践性,聚焦煤矿生产运营各细分专业领域,包括专项技术原理、专业工艺规范、风险防控方法、场景化运营经验、专项设备运维知识等内容,用于沉淀细分领域专业知识。






五、煤矿高质量数据集参考清单



     本标准在分类框架下,对51个小类的数据集进行全面梳理,定义了301个高质量数据集,每个数据集给出了数据集名称、数据面、数据来源和数据说明。其中,数据说明给出了每个数据集宜包括的核心属性以及推荐的数据标签,数据标签可以服务于数据标注过程。

    需要特别说明的是,高质量数据集是可以直接应用于人工智能模型训练的数据集,所以其与传统认知上的数据集存在一定差异,传统数据集在人工智能模型训练场景下只能叫数据语料(直接采集、归集的原始数据集合),而高质量数据集是对数据语料的二次加工,其加工过程包括数据清洗、质量优化、数据标注、数据校验(专家校验、知识校验)等环节,并且高质量数据集可以明显提升人工智能模型的基本能力,这也是“高质量”的内涵所在。因此,本标准给出的数据集定义以及数据说明中的数据标签,属于推荐性,具体数据集建设以及标签的设置需要根据人工智能模型训练的需求进行调整。

    本文在标准定义的301项高质量数据集中筛选了10项,见下表,供业内同仁参考和交流。


3 煤矿高质量数据集清单(10/301

序号



数据集说明



1



名称



液压支架工况数据集



数据来源



采煤工作面实时监控系统



数据面



B1



数据说明



主要包括煤矿基本信息、工作面基本信息、时间、支架号、仰俯角、翻滚角、支护高度、推移行程、立柱压力、倾角(顶梁、连杆、底座)、温度、湿度等。



应建立支架姿态、立柱压力等方向的数据标签。



2



名称



锚杆钻车工况数据集



数据来源



锚杆钻车实时监控系统



数据面



B1



数据说明



主要包括煤矿基本信息、工作面基本信息、时间、钻杆转数、推进速度、钻孔深度、钻孔扭矩、液压和气动系统压力、温度、油位、钻臂姿态和定位数据等。



应建立钻掘信息、液压和气动信息、钻臂姿态等方向的数据标签。



3



名称



皮带运输异常图像数据集



数据来源



安全监控视频采集



数据面



B2



数据说明



主要包括皮带图像文件、图像说明、图像类型(跑偏、堆煤、异物、撕裂等)等。



应建立图像类型、图像特征等方向的数据标签。



4



名称



主局扇异常数据集



数据来源



煤矿通风监控系统



数据面



B1



数据说明



主要包括煤矿基本信息、瓦斯等级、生产能力、采掘面个数、风机安装位置(主一级、主二级、备一级、备二级)、测点类型(主通风机、局部通风机)、报警原因(全部停机、未切换)、报警类型(主备双停、主备未切换)、开始时间、结束时间、时长。



应建立报警类型、测点类型、报警时长等方向的数据标签。



5



名称



馈电异常数据集



数据来源



煤矿供配电监控系统



数据面



B1



数据说明



主要包括煤矿基本信息、测点安装位置、测点类型(局部通风机、风筒、馈电器、断电器、瓦斯监测传感器)、报警类型、开始时间、结束时间、时长以及矿方接警情况。



应建立报警类型、测点安装位置、报警时长等方向的数据标签。



6



名称



甲烷监测数据集



数据来源



煤矿安全监控系统



数据面



B1



数据说明



主要包括煤矿基本信息、瓦斯等级、测点安装位置、测点类型(激光甲烷)、测点值、报警上限、高断电值、数据时间。预警数据还应包括预警类型、开始时间、结束时间、时长、报警最大值、最值时刻以及矿方接警情况。



应建立预警类型(传感器断线、标校、超限报警)、报警上限、报警最大值、报警时长等方向的数据标签。



7



名称



巡检记录数据集



数据来源



煤矿安全监控系统



数据面



B1



数据说明



主要包括煤矿基本信息、生产能力、瓦斯等级、甲烷、一氧化碳、二氧化碳、央企、二氧化硫、硫化氢、乙炔、乙烯、压差、温度、湿度、风压、风速、风量、时间、地点等。



应建立时间、地点、巡检数值等方向的数据标签。



8



名称



井下人数数据集



数据来源



煤矿人员定位系统



数据面



B1



数据说明



主要包括煤矿基本信息、生产能力、核定人数、采掘面个数、时间、井下总人数、井下带班领导人数、井下特种作业人数。



应建立生产能力、时间、井下人数等方向的数据标签。



9



名称



无人驾驶感知与融合数据集



数据来源



露天无人驾驶系统



数据面



B2



数据说明



包括煤矿基本信息、感知区坐标、目标识别类别(车辆、人员、障碍物)、目标坐标、速度、方向、置信度、环境光照、能见度、气象条件等。



应建立感知精度、环境适应性、风险识别等方向的数据标签。



10



名称



商品煤样数据集



数据来源



选煤厂生产监控系统



数据面



B1



数据说明



主要包括选煤厂基本信息、时间、采样地点、灰分、水分、发热量、挥发分、粒度组成、浮沉实验数据、采样间隔、采样数目等信息。



应建立煤质资料、可选性曲线、粒度组成等方向的数据标签。








结语



    在AI深度赋能千行百业的时代浪潮下,高质量数据集作为数字经济的关键生产要素,其基础性、战略性意义愈发凸显。煤炭行业作为我国能源安全的压舱石,亟需主动锚定数字中国建设战略方向,需要加快建设适配行业特性的高质量数据集标准体系,同时聚焦地质勘探、智能开采、安全监管、绿色低碳等核心应用场景,规模化培育和建设覆盖全产业链的高质量数据集,以高标准数据供给筑牢行业数字化转型根基,为智能化升级注入持久动力,助力行业在数字时代实现高质量发展。


   


首页          社群交流          关于我们
登录
登录
其他账号登录:
我的资料
留言
回到顶部