【论文精选】基于燃气安全风险的大数据预警模型研究
【论文精选】基于燃气安全风险的大数据预警模型研究
GAS-HEAT1978
《煤气与热力》始于1978年,创刊于1981年,中国核心期刊,中国土木工程学会燃气分会会刊。筛选燃气供热行业最有价值的技术信息,新闻分类整理、政策标准、热点讨论、投稿查询、论文检索、写作指导、编委风采、精品会议……
官网注册后
http://www.gasheat.cn
免费下载论文
作者:刘江涛,张涛,吴波,顾先凯,李春青,关鸿鹏,李夏喜,曹印峰,詹淑慧,甘颖涛,荫东锦,任立坤
第一作者单位:北京市市政工程设计研究总院有限公司
摘自《煤气与热力》2018年12月刊
1 概述
21世纪,被称为天然气时代 [1] ,城市燃气在给居民生活及经济发展带来正向作用的同时,随之而来的安全问题也影响着城市及社会的发展。由于管理跟不上发展的步伐,加之管道腐蚀以及第三方施工破坏, 燃气泄漏 突发性大,可控性差,威胁着周边环境中人员财产安全 [2] 。近年来,燃气泄漏而导致的爆炸事故居高不下,据统计,2014— 2017 年度全国燃气爆炸事故分别为693、825、908、950 起 [3-4] 。城市燃气事故造成的人员伤亡及财产损失不可小觑,同时也造成了不良的社会影响,加之政府及社会对安全关注度有增无减,燃气管网的安全管理问题,已成为相关管理者的首要问题。
作为城市能源的主要供应方式之一,燃气管网的敷设遍布城市各个区域,在管网运行过程中,导致管道泄漏主要是发生了电流腐蚀、化学腐蚀和电化学腐蚀 [ 5 ] 。根据燃气运行实际经验来看,燃气管道的 腐蚀 不仅取决于管道本身,同时也受到外部环境因素的影响,即内部因素和外部因素。内部因素主要体现为管龄、管材、管径、压力级制、埋深、防腐措施、管理差异等引起的管道腐蚀情况多样,该类因素相对具体、固定;外部因素主要体现为地质、水文引起的化学或电化学腐蚀,铁路、地铁等电气化轨道输电漏电造成的电流腐蚀,各种腐蚀的叠加,又将进一步降低燃气管道的使用寿命。
随着城市的发展,外部因素更加多样,加之外部因素的难辨识,外部因素引起的管道泄漏的管控问题,是城市燃气面临的严峻挑战。传统燃气管道检测方法不仅有成本高、效率低、周期长并受领域知识和领域经验的限制等局限,且对外部因素尚无科学的动态管理、反馈机制,无法对全管网进行实时监测。
随着计算机以及人工智能的发展,燃气行业的信息化程度得到进一步提高,管道基础数据可以比较全面准确获取,为燃气行业的数据分析和模型构建提供了必要保障。故本文提出并尝试采用基于人工智能和机器学习的智能检测方法,通过运用大数据分析技术,建立指标间的关联关系模型,通过易测的过程量去推断难测的过程量,提升 燃气管道 运行过程的整体可观可控。
2 管道安全风险预警模型的研究方法
目前城市燃气施行的在役管道腐蚀泄漏管控的技术体系主要是依据行业和企业规范,但是,这种管控体系存在资源成本高、检测有限、检测参数多但数据又没有得到很好的利用等问题,已有的腐蚀泄漏事件也没有作为反馈数据以修正现有体系。如何缓解现有不足对燃气管网腐蚀泄漏管控技术体系的影响,提升技术体系的管控效果,是本文构建的燃气安全风险的大数据预警模型(以下简称预警模型)的主要目标。
本文以人工智能和机器学习的智能检测方法为基础,先对研究的应用场景进行科学抽象,然后采用合适的算法,运用基本的数据挖掘步骤,对所采集的原始数据进行预处理并形成可用特征变量文件,再进行建模、应用场景实验、解释和优化,并不断调整。
目前,有大量的机器学习工具可进行数据挖掘,本文所采用的是怀卡托智能分析环境,即weka。
①怀卡托智能分析环境
数据挖掘,也被称为数据库知识发现,是指从大量的、有噪声的、不完全的、随机的、模糊的实际应用数据中提取有效的、潜在有用的、新颖的知识过程。数据挖掘已在很多行业得到应用,如医疗、电子等,燃气行业有所涉及,多用于负荷预测,暂时还没有将该技术应用在腐蚀泄漏方面的研究 [ 6-8 ] 。跨行业数据挖掘标准流程( Cross-Industry Standard Process for Data Mining , CRISP-DM [ 9 ] )是目前数据挖掘与商务智能领域使用最为广泛的方法论,该模型将数据挖掘分为 6 个不同的阶段,顺序可按研究情况适当调整,阶段之间可相互反馈,整个流程形成闭环。燃气管道泄漏的跨行业数据挖掘标准流程见图 1 。
图 1 燃气管道泄漏的跨行业数据挖掘标准流程
针对燃气管道泄漏问题,收集内外部相关数据,并对数据进行处理和特征提取,建立weka可用的正负样本数据集。利用决策树、随机森林等多种算法进行建模和验证,找出最优预警模型算法。
本文将燃气管道泄漏问题形式化为有监督学习中的预测问题,即y=f( x ),其中 y 表示管道泄漏的可能性, x 是管道泄漏相关的因素与变量,既包括内部因素,也包括外部因素。当收集了大量的( x , y )数据之后,利用这些数据训练模型,学习得到 f ( x ),即预警模型。最后,根据燃气管道的检测数据,实现整个燃气管网的风险预测。
关于数据的获取,首先,根据管道运营方面的领域知识,采集了管龄、管材、管径、压力级制、埋深、管理单位等与 燃气泄漏 密切相关的6类内部数据;其次,从多源数据融合角度,采集了水文、电气化轨道、地标建筑分布等可能会对管道泄漏造成影响的大量外部因素数据。
②本文的研究内容
本文在怀卡托智能分析环境下,执行标准的数据挖掘流程,将燃气腐蚀破坏业务问题转化为数据挖掘问题,利用机器学习技术,找到腐蚀破坏与内外部影响特征之间的关系。
具体的研究工作主要有数据预处理、预警模型训练算法选择、实验。
3 数据预处理
数据预处理,是数据挖掘项目中耗时最长也是最重要的一个环节,不仅是节约时间成本的首要途径,更是最后模型精确度的必要保障 [ 10 ] ,本研究中,数据预处理的流程见图 2 。
图 2 数据预处理流程
①原始数据的获取
根据文献调研和前期研究发现,数据源的质量差将引起数据挖掘结果的不准确甚至错误,因此保证原始数据的准确性至关重要。本文针对某燃气集团的地下管道风险辨识困难,无法准确检测造成的燃气管道泄漏问题,拟采用数据挖掘建立预警模型。首先,需根据研究领域知识和情况,结合专家分析确定所需的数据项并通过严格、规范的过程获取有较高影响因子的变量。
a.内部因素数据获取
内部因素数据来源主要为某燃气集团的应急事件数据、安全隐患数据、结构类技改大修数据、阴极保护数据、管道防腐检测数据、压力管道检测数据和管网基础数据。内部因素原始数据详情见表1。
表 1 内部因素原始数据详情
b.外部因素数据
外部因素数据主要来自开源的电子系统,包括分析区域的地铁、铁路、水系面、道路附属设施等。外部因素原始数据详情见表2。
表 2 外部因素原始数据详情
利用计算机技术与人工结合的方式,将获得的内外部因素数据进行整理并结构化,最终形成包括内外部因素数据的正负样本数据库(Database of Gas Internal and External Data, DGIED )。正样本指已发生事故的样本,负样本指未发生事故的样本。
②数据清洗
在数据预处理过程中,数据清洗是耗时且较乏味的一项工作,但也是最重要的一项工作。数据的清洗保证了数据的准确性。在初始获得的正负样本数据库中,可能包含噪声数据、冗余数据、缺失数据甚至错误数据。
针对噪声数据,本文结合专业知识,采用聚类技术以及计算机和人工相结合的方式进行处理。冗余数据,利用影响因子分析和经验进行整合,选择其具有最大影响力的或足以反映问题信息的数据,删除其余冗余或重复数据;缺失数据,通过计算机和人工结合的方式,删除数据缺失较多的数据行;根据行业知识及实际情况,对获取的数据元组中错误的数据,进行更改、删除或忽略等操作。
③特征变量确定与提取
从清洗后的正负样本数据库中提取出对模型开发有效的数据项,即选择对管道泄漏影响显著的特征变量,又避免特征变量间的交叉重叠,是数据预处理中最为关键的一步。特征变量的质量,直接影响最终模型的分析效果和精确度。
结合跨行业数据挖掘标准流程第2步数据理解,内部数据确定为管龄、管材、管径、压力级制、埋深、管理单位等与燃气泄漏密切相关的 6 类;外部因素数据确定为铁路、地铁等电气化轨道、水系面(河流与湖泊)等影响管道腐蚀的 3 类。针对铁路,将其数量、与正负样本点之间的距离作为特征变量;对于地铁,将地铁数量、与正负样本点之间的距离作为特征变量;对于河流与湖泊,考虑长度、距离、面积作为特征变量。最后从数据库中随机提取正样本 1 份( 855 个样本点),负样本 4 份(每份各 855 个样本点)。
④缺失值填补
a.缺失值填补算法—— KNN 算法
KNN 算法 [ 11 ] 是数据挖掘中一种经典的懒惰学习算法,利用已有的训练数据实现分类和预测, k 表示最接近待分类或待预测样本的 k 个数据样本。该算法的核心思想是,在一个特征空间内,找到与数据样本 A 最相似的 k 个已知数据标签或值的数据样本,获取该 k 个训练数据的标签或值用于对样本 A 的标签或值的预测。
KNN算法具有良好的鲁棒性,对数据的存储要求简单,操作方便, k 的合理选取能够有效地避免或减小噪声或缺失值对分类或预测结果的影响,即使在给定的训练数据非常多时,也仍能保证算法的有效性,因此该算法很好地应用于许多领域。本文将运用该算法对特征变量的缺失值进行预测填充。
b.缺失值填补方法
数据缺失值的存在会降低模型的准确率,甚至使数据分析和建模的结果不准确,若直接忽视或删除,则降低了数据的利用率,甚至使数据间的关联性遭到破坏。因此,本文在获取内外部特征变量数据后,对特征变量中数据缺失的部分运用KNN算法和人工整合方式进行填补。
在本文的研究中,仅内部因素数据埋深项缺失较多,其他特征变量缺失值较少或达到可用状态。针对埋深项的缺失值填充,采用的是KNN算法。
在特征空间中,考虑了两种距离(不涉及单位),即欧氏距离和曼哈顿距离。对于欧氏距离,考虑了k分别取集合 {5 , 10 , 15 , 20 , 25 , 30} 各元素时预测情况。对于曼哈顿距离,考虑了 k 分别取集合 {5 , 7 , 9 ,… , 19 , 20 , 22 ,…, 30} 各元素时的预测情况。预测精度判断值计算如下:
R MSE 表征预测值偏离真实值的程度,值越小,偏离程度越小,即预测值越准确。KNN法预测 R MSE 值见图3(横坐标中 M05 表示曼哈顿距离 k 取 5 ,其他标值同理。 O05 表示欧氏距离 k 取 5 ,其他标值同理)。可以看出, M07 的预测结果与实际的埋深值最接近,准确率最高。故采用 M07 的预测数据填充埋深项的缺失值。
图 3 KNN 法预测的预测精度判断值
对于各样本的管龄、管材、压力级制等内部因素特征值,正样本数据基本完全,负样本数据存在少量缺失,本文将负样本4作为填充集,寻找除需填补的特征项之外的其他特征项最接近的样本点数据,来填充负样本 1 、 2 、 3 ,最终得到 3 个负样本集。
⑤训练样本的选取
通过前面步骤获得的数据,是数据库中相关项的全部数据,数据量很庞大,若全部考虑不仅增加了工作量,降低模型训练效率,而且对模型效果的影响不显著甚至产生负面影响,因此合理缩小数据范围非常必要。
根据正负样本点的坐标,选取距离样本点2 km内的外部因素数据的特征变量。例如,以铁路为例,分别以各个样本点为参考点,获得离该样本点最近的铁路的距离, 700 m 范围内是否含有铁路以及 2 000 m 范围内铁路数量。水系面、地铁与其类似。外部因素数据的特征变量见表 3 。
表 3 外部因素数据的特征变量
将获取的外部特征变量结合内部特征变量整理成一张“正负样本数据点—内外部特征变量”表格,进而转换成 .arff 的数据集,并进行数据缺失填补的操作。本研究中,将训练数据集分成 3 组:训练样本 1 、训练样本 2 、训练样本 3 ,组成分别为正样本 + 负样本 1 ,正样本 + 负样本 2 ,正样本 + 负样本 3 。
4 预警模型训练算法选择
通过数据预处理步骤获得训练样本后,便可选择合适算法进行预警模型的训练 [ 12 ] 。
①决策树算法
决策树算法 [ 13 ] 提出时间较早,是开展数据研究的重要算法之一,是通过节点和有向边,在实例分类过程中形成的一种树形结构,根据预先设置好的逻辑,自上而下对数据库中存储的无规律且不可控的大量数据进行学习,继而归纳出分类规则。
C4.5是决策树算法中的一种,以采用局部最优策略的 Hunt 算法为基础,构造简单,分类规则便于按需转化,且能够获得较高的分类准确率。但也有一定的缺点,即缺乏伸缩性,因为该算法需要对数据进行深度优先搜索。
②随机森林算法
随机森林算法 [ 14 ] 通过在训练集 N 中有放回地随机抽取 m 个样本生成新的训练样本集合,根据新的样本集合生成 m 个分类树,即决策树,进而形成一片“森林”,森林中各决策树之间相互独立。森林形成后,输入一个样本数据,森林中的每一棵决策树对其进行判断,并确定其属于哪一类别,哪一种类别出现最多,则该样本属于哪一类。
随机森林在没有明显扩增运算量的情况下提高了预测准确率,被视为目前最好的算法之一。与其他算法相比,随机森林对数据的适应性较好,能够很好地处理高纬度数据;抗噪声能力较强,对缺失值和异常值敏感度低;树的节点层级可表示变量的重要性。但当需要区分的类别太多时,随机森林的表现差些。
③其他算法
贝叶斯网络和朴素贝叶斯 [ 13 ] 都是以贝叶斯定理为基础的算法,本质是通过条件概率实现分类。支持向量机( SVM )通过构造支持向量寻找样本点间最大间隔的分割面,即最优超平面,对数据进行分类。神经网络模拟生物神经系统处理信息的过程,是通过神经元间的互联关系表示的网络。逻辑回归的本质是利用最大似然估计,通过离散化手段进行分类。
根据预警模型特点,本文选择了决策树C4.5、随机森林、贝叶斯网络、朴素贝叶斯、 SVM 和逻辑回归 6 种算法进行预警模型训练。
5 实验
根据选择的算法,同时考虑内外部因素的影响,进行预警模型训练。3个训练集同时考虑内外部因素的预警模型训练结果见图 4 , 3 个训练集仅考虑内部因素的预警模型训练结果见图 5 。
图 4 3 个训练集同时考虑内外部因素的预警模型训练结果
图 5 3 个训练集仅考虑内部因素的预警模型训练结果
通过图4、 5 可以看出,无论是同时考虑内外部因素还是只考虑内部因素,随机森林算法所得预警模型准确率最高,决策树 C4.5 算法所得预警模型准确率次之,其他 4 个算法所得预警模型准确率明显偏低。
同时考虑内外部因素与只考虑内部因素准确率对比见图6(图中准确率取 3 个训练集准确率的平均值)。可以看出,除朴素贝叶斯和 SVM 算法外,其他算法同时考虑内外部因素后,所得预警模型准确率都有所提高,决策树 C4.5 和随机森林算法所得预警模型准确率提高明显。
图 6 同时考虑内外部因素与只考虑内部因素准确率对比
根据实验结果比较分析,选出随机森林为最优算法,同时考虑内外部因素相比于仅考虑内部因素,模型准确率提高了5.07%。
6 结论
①确定燃气管道安全风险大数据预警模型采用怀卡托智能分析环境。
②确定数据预处理流程,包含原始数据的获取、数据清洗、特征变量确定与提取、缺失值填补、训练样本的选取。指出内部因素数据为管龄、管材、管径、压力级制、埋深、管理单位,外部因素数据为铁路、地铁等电气化轨道、水系面(河流与湖泊)等影响管道腐蚀的 3 类。从数据库中随机提取正样本 1 份,负样本 4 份,每份各 855 个样本点。将训练数据集分成 3 组:训练样本 1 、训练样本 2 、训练样本 3 ,组成分别为正样本 + 负样本 1 ,正样本 + 负样本 2 ,正样本 + 负样本 3 。确定缺失值填补采用 KNN 算法。
③选择决策树 C4.5 、随机森林、贝叶斯网络、朴素贝叶斯、支持向量机和逻辑回归 6 种算法作为预警模型训练算法。
④根据选择的算法,同时考虑内外部因素的影响,进行预警模型训练(即实验)。根据实验结果比较分析,选出随机森林为最优算法。同时考虑内外部因素比仅考虑内部因素,模型准确率提高 5.07% 。
参考文献:
[1]边正东 . PDA 技术应用与燃气管网安全技术研究(硕士学位论文)[ D ] . 北京:北京建筑大学, 2016 : 12-18.
[2]郁永波,赵庭敏 . 城市燃气管网安全问题及对策分析[ J ] . 科技创新与应用, 2012 ( 2 ): 254.
[3]刘爱华,黄检,吴卓儒,等 . 城市燃气管道状况及燃气事故统计分析[ J ] . 煤气与热力, 2017 , 37 ( 10 ): B27-B33.
[4]张满可,杜前洲,彭强,等 . 2011 — 2014 年我国城市燃气事故统计分析[ J ] . 煤气与热力, 2016 , 36 ( 1 ): B40-B46.
[5]梁成 . 影响城市燃气管网安全运行的因素与对策[ J ] . 中国新技术新产品, 2016 ( 2 ): 180.
[6]梁海栋 . 数据挖掘技术在燃气系统中的应用分析[ J ] . 科技资讯, 2013 ( 9 ): 32.
[7]谭羽非,陈家新,焦文玲,等 . 基于人工神经网络的城市煤气短期负荷预测[ J ] . 煤气与热力, 2001 , 21 ( 3 ): 199-202.
[8]苗艳姝,段常贵,张淑红 . 数据挖掘技术在燃气负荷预测的应用[ J ] . 煤气与热力, 2005 , 25 ( 11 ): 1-4.
[9]高武奇,康凤举,钟联炯 . 数据挖掘的流程改进和模型应用[ J ] . 微电子学与计算机, 2011 , 28 ( 7 ): 9-12.
[10]彭高辉,王志良 . 数据挖掘中的数据预处理方法[ J ] . 华北水利水电大学学报(自然科学版), 2008 , 29 ( 6 ): 63-65.
[11]李秀娟 . KNN 分类算法研究[ J ] . 科技信息, 2009 ( 31 ): 81.
[12]朱玉全,杨鹤标,孙蕾 . 数据挖掘技术[ M ] . 南京:东南大学出版社, 2006 : 212-222.
[13]刘梦依 . 基于不平衡数据集的数据挖掘分类算法研究(硕士学位论文)[ D ] . 兰州:兰州理工大学, 2017 : 14-16.
[14]王元坤 . 基于随机森林—人工神经网络企业财务预警研究(硕士学位论文)[ D ] . 济南:山东大学, 2017 : 38-45.
维普免费下载《煤气与热力》论文(现刊和过刊均可)
日前,《煤气与热力》杂志社有限公司在维普网站 http://cqvip.com/ 开通论文免费下载服务,论文刊出后两个月后,可在维普网站查询,并直接免费下载。在维普网站 免费下载《煤气与热力》论文 步骤如下:
1. 在维普网站注册会员。
2. 搜索出《煤气与热力》论文,点击进入。
3. 论文免费下载界面截图见上图。点击“免费下载”,可直接下载该论文。
声明:本文著作权(版权)归《煤气与热力》杂志社所有,严禁任何微信号及媒体未经授权许可随意转载。 PS: 当然欢迎大家转发到朋友圈!
更多论文请登录煤气与热力杂志官方网站,免费注册会员阅读电子期刊。阅读步骤:登录http://www.gasheat.cn/→页面右上角注册会员→注册成功后点击《煤气与热力》→期刊索引→点击某期期刊封面即可阅读当期文章。
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26