基于随机森林和聚类的连铸坯纵裂纹预报方法
张赫
1,2
,段海洋
1,2
,王旭东
1,2
,姚曼
1,2
(1. 大连理工大学材料科学与工程学院,辽宁 大连 116024;2. 辽宁省凝固控制与数字化制备技术
重点实验室,辽宁 大连116024)
摘要:
纵裂纹是一种常见的铸坯表面缺陷,准确预测铸坯表面纵裂对于提高铸坯质量有着重要意义。针对纵裂纹形成与扩展过程中结晶器热电偶温度在时间、空间上的变化趋势,捕获和提取了热电偶时序温度的典型变化特征,采用随机森林(Random Forest,RF)对捕捉到的特征进行降维,筛选出与纵裂联系密切的相关特征,在此基础上建立了基于K均值(K Means)聚类的纵裂检测模型。结果表明,提出的基于温度时序特征和聚类算法的纵裂预测模型能够正确区分和识别纵裂纹和正常工况样本,将机器学习方法引入连铸过程异常监控提供了新的思路。
关键词:
纵裂纹;随机森林;K均值聚类;特征降维;结晶器;连铸板坯
纵裂纹是常见铸坯表面质量缺陷,当铸坯表面出现纵裂纹时,轻者会增加铸坯精整量和修复成本,重者导致纵裂漏钢,损坏生产设备,造成巨大损失和安全事故,开发准确和高效的纵裂纹检测方法具有重要的意义。Nakato H等认为结晶器内的传热和坯壳厚度不均匀是导致纵裂纹形成的主要原因。在已有的研究工作中,一般通过在结晶器铜板中嵌入测温热电偶,针对温度变化特征采用逻辑判断方法或人工神经网络方法预报纵裂。张鹤雄等采用SQL Server 2008数据库技术,建立了生产工艺、过程参数与板坯纵裂指数间的预测模型,开发出纵裂纹在线预判系统。Lieftucht I D等通过热电偶获取结晶器铜板温度,运用主元成分分析和模糊识别技术开发出一种多级混合的纵裂纹缺陷检测模型。班泽宇利用统计产品和服务系统(Statistical Product and Service System,SPSS)分析了工艺参数对纵裂的影响,在此基础上建立了基于误差反向传播神经元网络的纵裂纹预测模型,实用中的预测精度达90%以上。总体来看,基于逻辑判断的预报方法,简单且易于实现,但对于不同的钢种或操作工艺,需要重新设置阈值,自适应性较弱。基于人工神经网络的纵裂识别方法具有良好的非线性映射和全局搜索能力,不易陷入局部最优解,但制作训练样本的过程十分繁琐,训练获得的不合理网络参数将导致大量的错误报警。鉴于目前的铸坯纵裂纹在线检测方法的局限性,本文旨在利用随机森林和K均值聚类机器学习方法,构建铸坯纵裂纹检测和识别模型,通过不同工况下的样本考察和验证模型的可行性和准确性,为开发基于机器学习的连铸坯纵裂预报方法提供参考。
普遍认为,铸坯表面纵裂纹是萌生于初生坯壳的微小裂纹随铸坯下移过程中不断扩展的结果。随着裂纹沿铸坯宽度、厚度和浇铸方向的扩展,纵裂纹与结晶器铜板间的气隙厚度逐渐增加,致使传热受阻,结晶器铜板温度明显降低。来自连铸生产现场的结晶器温度检测结果显示,在铸坯表面出现纵裂纹时,结晶器铜板温度往往会出现同步变化。
本文试验基于国内某钢厂弧型宽厚板坯连铸机,结晶器由4块埋设测温热电偶的铜板组成,其中两张宽面铜板各安装3排19列热电偶,两张窄面铜板各安装3排1列热电偶,共计安装热电偶120支,温度采集的频率为1 Hz。
图1所示为正常工况下和发生纵裂时的热电偶温度变化。正常工况下,热电偶温度波动较小,如图1中(a)~(c)所示;而纵裂发生时热电偶温度则有明显的起伏,如图1中(d)~(f)所示。
图2所示为纵裂纹发生时热电偶时序温度变化,未出现纵裂纹时,热电偶温度保持稳定。出现纵裂后,随着铸坯下移,微小裂纹扩展形成表面纵裂纹,所经之处第一排、第二排热电偶的温度由于气隙阻碍传热,沿铸坯下移方向铜板温度依次降低,如图2(a)和(b)所示。当纵裂纹远离该位置热电偶后,热电偶的温度依次回升,如图2(c)、图2(d)所示。根据图1和图2中的温度检测结果可以看出,在纵裂纹接近-远离热电偶的过程中,同列热电偶的温度依次出现了“下降-回升”的典型变化趋势,发生纵裂时的温度变化较正常工况有较大差异。
鉴于纵裂和正常工况的温度变化趋势有着明显差异,因此,尝试利用机器学习方法,通过捕捉和识别温度“下降-回升”的趋势和特征,对纵裂与正常工况下的温度变化进行分类和识别。第一、二排热电偶距离弯月面较近,对纵裂纹发生时的温度变化更为敏感,因此,着重提取纵裂纹发生时第一、二排热电偶温度数据的特征。
图3所示为温度特征提取示意图。图3中(a)和(b)分别为第一、二排热电偶温度及其变化率的特征提取,提取的特征包括:温度下降和温度上升的幅值及斜率,温度上升速率和下降速率的均值、最大值等,共得到16个维度的特征,具体见表1,以上参数可以检测温度的幅值、变化速率和波动信息,能够反映出纵裂纹沿浇铸方向传播的行为和特征。
以上提取出的16个典型特征旨在描述纵裂纹温度及其变化率的典型变化趋势,然而,上述特征彼此间可能具有相关性,存在信息冗余,同时也会增加纵裂纹检测过程中的计算量,因此,需要对16个温度特征进行降维处理。随机森林(Random Forest,RF)是一种以决策树为基础学习器的集成学习算法。首先进行M次有放回的独立随机重复采样,即自助采样法,获得M个样本容量为N的训练集,并以此训练出M棵未剪枝的决策树,最终通过多数投票决定分类结果。随机森林在训练决策树的过程引入了随机属性选择,在构建决策树时从该节点的所有属性中随机抽取其子集,再从子集中选择最优属性用于节点分裂,这种方法配合自助采样法使得RF有效提高了训练效果,也避免了过拟合现象。
随机森林在为节点选择划分属性时依据Gini增益最大化原理。假设父节点nf上的样本被划分到两个子节点n1和n2中,父节点Gini增益计算公式为
式中:ΔIGini为父节点nf处的Gini指数变化;IGini(ni)为第i个节点处的Gini指数,i=1,2;pi为第i个子节点样本数占父节点样本数的比例,i=1,2;IGini(n)为节点n的Gini指数;pc为在节点n处随机抽样属于c类样本的概率。
由于决策树在决定节点分裂属性时追求实现Gini增益最大化的特性,特征的重要度由节点样本的划分来表征,但由于RF在自助采样和选择属性子集时存在随机性,可能导致重要度高的特征比重要度低的特征使用次数少,因此不能仅采用特征用作分裂属性的次数来衡量其重要程度。为此,需引入IMPGinii作为特征重要度的度量方式,将第i个特征在每棵树每个节点处作为分裂属性对Gini指数降低的贡献大小记为IMPGinii。特征Ci在父节点处Gini指数降低量IMPGiniin为
该特征在第m棵树上作为分裂属性的节点有N个,则特征Ci在这棵树上的特征重要度IMPGiniim为
随机森林共构建了M棵决策树,则该特征在整个随机森林中的重要性IMPGinii为
依照上述方法对16维温度及其变化率特征进行特征重要度计算,样本数据来源于国内某钢厂的历史生产记录,根据连铸现场对纵裂纹发生的记录,提取出所记录时刻热电偶温度及其变化的数据作为纵裂样本,正常工况下的热电偶温度及其变化数据作为正常工况样本,为保证训练过程中不同类簇的数目平衡性,减小样本集数量造成的质心偏差,故设定正常工况样本和纵裂样本数量比为1∶1,获取31例正常工况温度和31例纵裂纹温度。
通过计算预先提取出上述16维的特征数据,此后利用随机森林算法对各个特征的重要性进行计算并排序。为避免由于随机抽样带来的偏差,重复进行5次计算取均值作为结果,结果如图4所示。
从图4中可以看出,降序排列的前8个特征的重要度相对较高,均高于0.05。依据所得特征重要度排序结果,结合温度特征的物理意义考量其相关性,最终选择第一排温度下降幅值(Falling_T1_Amp/℃)、第一排温度下降速率均值(Falling_V1_Avg/(℃·s
-1
))、第一排温度上升速率均值(Rising_V1_Avg/(℃·s
-1
))、第二排温度下降幅值(Falling_T2_Amp/℃)、第一排温度上升幅值(Rising_T2_Amp/℃)和第二排温度下降速率均值(Falling_V2_Avg/(℃·s
-1
))6个维度特征的数据作为后续预测模型输入,上述特征重要度的计算结果分别为:0.176、0.149、0.139、0.120、0.107、0.077。
为检测和识别纵裂纹,不仅需要提炼和把握纵裂纹异常发生时温度及其变化率的共性变化趋势特征,也需要度量和体现不同工况下温度及其变化率的相似性和差异性,为此,本文采用K均值聚类算法(K Means Clustering,K Means)对纵裂纹和正常工况下的时序温度进行分类检测和识别。
K均值算法是一种典型的基于划分聚类的无监督学习算法。通过预先指定k个聚类类簇数目以及k个类簇质心,根据数据样本和类簇质心之间的相似度,迭代计算更新质心位置,不断降低类簇的误差平方和(Sum of Squared Error,SSE),在K均值聚类中,SSE为样本点到各类簇质心距离的平方和,可衡量聚类后类簇的松散程度,当SSE不再降低,即质心位置不发生移动时,聚类完成并输出结果。与其他聚类算法相比,K均值算法原理简单易实现,聚类效果较优,收敛速度快,且无需过多人为干预,可解释性强,通常采用欧式距离(Euclidean distance)作为衡量样本之间相似度的指标。计算样本与质心之间的距离公式为
式中:x为数据样本;Ci为第i个类簇质心;d(x,Ci)为样本x与Ci之间距离;J为数据特征维度;Cij为第i个质心第j个特征的属性值。
式中:SSE为误差平方和; k为类簇个数,S为样本集。
如上所述,在获取纵裂纹典型特征之后,采用RF降维和K Means聚类方法,建立基于RF-K Means的纵裂纹检测和识别模型,其流程如下。
(1)数据集建立:根据钢厂实际浇铸温度数据记录,筛选出纵裂纹样本和正常工况样本,组成训练集和测试集;
(2)特征提取:针对纵裂纹发生时热电偶温度“下降-回升”典型温度变化趋势,提取16维温度及其变化率特征;
(3)特征降维和选择:采用RF算法计算温度及其变化率特征重要度并降序排列,结合各特征的意义及相关性选择6维特征;
(4)训练模型:将训练集样本的上述6维特征作为输入数据进入K Means聚类算法模型,多次迭代对模型进行训练,得到分类结果及类簇质心,获取最优参数组合;
(5)测试模型:使用测试集样本对训练后模型进行测试,检验模型的准确率。
在训练和测试模型阶段,基于国内某钢厂近3年的连铸生产中的实测温度数据,分别构建训练集样本和测试集样本,根据连铸现场对纵裂发生的记录,选取纵裂发生时刻热电偶的温度及其变化数据作为纵裂样本,筛选出31例正常工况样本和31例纵裂纹样本作为训练样本集,供模型学习与训练;此外,筛选出额外的正常工况和纵裂纹各20例,组成测试样本集,用于验证预测模型的准确性和有效性。
在设置模型的训练参数时,样本分为正常工况和纵裂纹2个类别,因此,设置模型的类簇数为2(即K Means中的K=2);选取初始质心时采用K Means++策略以降低模型受初始质心选择偏差的影响;同时,在训练中不限制迭代次数以达到最优聚类效果。
每次迭代均可以获得纵裂类簇CC正常工况温度类簇CN,二者质心分别为μC和μN。在完成一次迭代后,输出每个样本分别与正常工况类簇质心μN和纵裂纹类簇质心μC的欧式距离
式中:d(x,μ)为样本x到质心μ的欧式距离;xi和μi分别为样本x和质心μ第i个维度的特征属性值。
以样本到正常工况类簇质心μN和到纵裂类簇质心μC的距离分别作为二维图像的横、纵坐标,y=x所在直线处,横纵坐标相等,即样本点在空间内的位置与正常工况类簇质心和纵裂纹类簇质心距离相等。
图5所示为训练迭代次数对误差平方和的影响。图6所示为基于K Means聚类的纵裂预测模型训练过程,从训练结果看,可以尝试将y=x所在直线作为分界线,如果样本点在二维空间中更靠近x轴,即图中直线右下半部分区域内,说明样本点距离正常工况类簇质心更近,则该样本点被标记为正常工况;如果样本点所在位置更靠近y轴,即图中直线左上半部分区域内,说明样本点距离纵裂纹类簇质心更近,则该样本点被标记为纵裂纹样本。在多次迭代过程中,类簇质心根据每次的聚类结果做出调整,样本点到质心距离也随之改变,直至质心不再移动,聚类过程完成。通过图6中的模型训练迭代的结果可以看出,在第1次聚类完成后,纵裂样本点比较集中,正常工况样本比较分散,且出现1例误报,即正常样本标记为纵裂样本;在第3次聚类完成后,正常工况样本与纵裂样本都比较集中,但出现1例漏报,即纵裂纹样本标记为正常工况样本;在第7次聚类完成后,对照样本分类结果可以得知,正常工况样本和纵裂样本均能够做到准确分类,且再进行迭代后,误差平方和达到最小值并保持不变,样本与质心间距离也不再发生变化,表明训练过程完成。此时正常工况与纵裂样本质心在6维空间内的坐标见表2。
使用测试集数据对模型进行验证,考察模型对于新数据样本预测的准确性。选择未经训练的样本构成测试集,样本容量为80,其中40例为正常工况样
本,40例为纵裂样本。图7所示为模型对于测试集的预测结果,结果显示,训练后的纵裂预报模型对于正常工况样本和纵裂样本有着良好的聚类和识别性能,未发生漏报与误报现象。其中需要说明的是,40例正常工况测试样本的分布十分集中,40例纵裂测试样本的分布则相对集中。分析其原因,在选取测试集样本时,正常工况样本的温度及其变化率特征均波动较小,为稳态工况样本,样本间的相似度较高,特征属性值相似,导致样本在空间内的距离十分接近。对于纵裂测试样本,尽管样本具有纵裂典型的温度变化趋势,但由于裂纹长度、深度不一,反映在温度的波动特征上会有所差异,因此,样本间的聚集程度弱于正常工况样本。总体来说,从样本距纵裂、正常工况类簇质心的距离来看,在所测试的各40例纵裂和正常样本中,可以准确区分出纵裂和正常工况,纵裂纹样本无漏报,正常工况样本无误报,模型呈现出良好的识别和检测精度。
(1)本文基于国内某钢厂板坯连铸机生产过程中的实测温度数据,针对纵裂纹和正常工况结晶器铜板温度的变化趋势差异,提取出温度时序变化的16个典型特征,以此为基础建立了基于随机森林和K Means聚类算法的铸坯表面纵裂纹检测和识别模型。
(2) 随机森林可通过计算特征的重要度及其排序对特征进行选择和降维。本文在16个温度、温度变化速率的典型特征中选择了重要度高于0.05的前8个特征,综合考虑特征间的物理意义,去除冗余信息,最终筛选出6维特征,降低了后续模型数据的输入量,提高了模型的分类效率和泛化能力。
(3)利用基于K Means聚类的纵裂纹检测模型,对由31例正常工况和31例纵裂样本构成的样本集进行训练, 7次迭代后,类簇质心和误差平方和不再发生变化;分别计算两类簇质心与样本的欧式距离对测试集样本进行检验,模型对80例纵裂和正常工况样本都做出了准确分类和预测,呈现出良好的检测精度。
(4)基于随机森林和K Means聚类的纵裂纹检测模型与其他模型相比,人为干预少,算法简单且易于实现,聚类效果较好,能够对正常工况和纵裂样本准确分类。需要指出,纵裂沿浇铸方向的扩展速度主要取决于铸机拉速和钢种,也决定了各行电偶温度上升和下降的幅度和速率。鉴于本文模型降维后的6维特征均与温度变化相关,因此在利用此模型预测纵裂时,需在考虑实际浇铸工艺和拉速的前提下,利用随机森林和聚类重新确定模型输入特征的维数和质心,测试纵裂样本聚类和识别的准确性,检验模型的适用范围与可靠性。
张赫, 段海洋, 王旭东, 姚曼. 基于随机森林和聚类的连铸坯纵裂纹预报方法[J]. 连铸, 2022(6): 21-28. ZHANG He, DUAN Hai-yang, WANG Xu-dong, YAO Man. Longitudinal crack prediction method of continuous cast slab based on random forest and clustering
[J]
.
Continuous Casting
, 2022(6): 21-28.
http://www.chinamet.cn/Jweb_lz/CN/Y2022/V41/I6/21
1.
2022年度《连铸》优秀编委、优秀青年编委、优秀审稿专家、优秀特邀主编名单及2020年优秀论文TOP5
3.
【专刊征稿通知】《连铸》2024 年“连铸过程解析研究方法与应用”专刊
4.
【专刊征稿通知】《连铸》2024 年“高效连铸装备与技术”专刊