中国石油大学(北京)李叶青、清华大学王笑楠CEJ:利用自动机器学习技术探索厌氧消化的关键因素——在环境因子、微生物和系统层面
中国石油大学(北京)李叶青、清华大学王笑楠CEJ:利用自动机器学习技术探索厌氧消化的关键因素——在环境因子、微生物和系统层面
Environmentor2017
分享环境领域内学术进展、热点资讯、招聘信息
近日,中国石油大学(北京)李叶青和清华大学王笑楠团队利用自动化机器学习(AutoML)技术对厌氧消化(AD)的反应参数进行了深入研究,基于H 2 O AutoML设计了一种三重探索框架,在环境因素、微生物及系统层面均进行了智能分析与预测,并成功实现了AD的关键因素的确定 。
引言
厌氧消化(
AD
)是利用微生物活动来处理有机废弃物,减少环境污染和生产绿色可再生能源的有效方法。由于消化底物和操作参数的巨大多样性,难以预测和控制复杂
AD
系统的稳定性和最终的沼气生产效果。探索关键因素对理解复杂的
AD
系统有重要的指导意义。但
AD
系统中的各参数间的内部相关性是高度复杂和非线性的,使得传统机理模型和机器学习(
ML
)模型难以全面处理
AD
过程中的各种代谢途径和微生物种群,发生过拟合和不稳定运行。此外,单一地对
AD
进行宏观因素探索,而忽略微生物作用机制,容易造成无法解释的
ML
输出结果,不足以揭示
AD
反应本质机理。
为了解决上述问题,中国石油大学(北京)新能源与材料学院李叶青教授团队设计了一种基于自动化机器学习( H 2 O AutoML )的三重探索框架(图 1 )。首先,框架第一层基于 H 2 O AutoML 的最佳 Leader 模型对厌氧消化反应中的环境因数进行智能分析和预测,挖掘出关键操作参数及范围。其次,框架第二层基于 H 2 O AutoML 的最佳 Leader 模型对厌氧消化反应中的微生物进行智能分析和预测,挖掘出关键古菌属和细菌属(及其最优相对丰度范围),并分别挖掘出对二者影响最大的细菌属和古菌属。最后,框架第三层基于 H 2 O AutoML 的最佳 Leader 模型对厌氧消化反应中的系统层面进行智能分析和预测,并结合框架第一层和第二层结果,最终得出最关键的环境因素、古菌属和细菌属,及其最优参数范围组合。与此同时,三重框架均采用 H 2 O 提供的集成式特征重要性( FI )方法和部份依赖图( PDP )方法进行可解释性分析。结果显示,框架第一层确定了水力停留时间( HRT )是最重要的环境因素,最佳范围为 33-45 天。框架第二层中 Methanocelleus (最佳相对丰度( ORA ) = 3.0% )和 Candidatus_Caldatribacterium ( ORA = 1.7% )分别是关键的古菌属和细菌属。此外,基于环境因素和其余微生物数据对关键微生物的分析与预测显示了 Methanothermobacter 和 Acetomicrobium 的重要作用。探索预测沼气产量的最优数据变量组合的框架第三层表明,结合古菌属和环境因素实现了最准确的预测(均方根误差( RMSE ) = 84.21 )。此外, GBM 模型在所有内置模型中具有最好的模型性能和预测精度。基于最优 GBM 模型在系统层面的分析结果表明, HRT 是全局最重要的变量。然而,最重要的微生物 Methanocelleus 在合适的丰度范围内,也是实现最佳沼气产量的必要条件。可见,通过 AutoML 技术在不同层次上探索关键参数,有望为工业和实验室理解 AD 系统的复杂体系结构提供指导。
图文导读
本研究基于 12 个全尺寸规模项目和 8 个实验室项目中的 56 个样本收集了相应的环境因素、微生物、沼气产量数据。输入变量中的环境因素确定为:挥发性固体 / 总固体( VS/TS )、碳 / 氮( C/N )、 pH 值( pH )、温度( T )、水力停留时间 (HRT) 、有机负荷率( OLR )、挥发性脂肪酸( VFAs )、总氨氮量( TAN )和化学需氧量( COD );微生物宏基因组数据通过 16S rRNA 高通量测序,并在古菌和细菌中选择属水平上相对丰度 >0.001% 的微生物菌属。输出变量为沼气产量。原始数据如图 2 所示。同时,基于上述变量数据建立了多个数据集用于框架分步利用,分别为: EBD (环境因素 - 沼气产量数据集)、 ABD (古菌属 - 沼气产量数据集)、 BBD (细菌属 - 沼气产量数据集)、 OAECD (其他细菌属 + 古菌属 + 环境因子 - 关键细菌属数据集)、 OBECD (其他古菌属 + 细菌属 + 环境因素 - 关键古菌属数据集)、 AEBD (古菌属 + 环境因素 - 沼气产量数据集)、 BEBD (细菌属 + 环境因素 - 沼气产量数据集)、 ABEBD (古菌属 + 细菌属 + 环境因素 - 沼气产量数据集)。利用 MissForest 算法对上述环境因素数据的缺失值样本进行填补。同时,对每个数据集进行皮尔逊相关矩阵分析( PCC ),以探索变量之间的线性关系 。
利用一种广为使用且具备优秀性能的自动化机器学习算法 H 2 O AutoML 来自动选择最佳运行模型。三重框架均通过在 60-2100s 运行时间范围内对众多模型进行模拟和预测,并利用均方根误差( RSME )指标对模型进行性能评估,来锁定最佳运行时间和对应的最优模型参数。同时,基于特征重要性和 PDP 图得出最关键参数及其最优范围 。
结果显示,框架第一层在 1800s 时实现了最低 RMSE 为 117.45 ,并发现最优模型为 GBM , HRT 是影响沼气产量的最重要环境因子, HRT 处在 33-45 天时可以实现最大化沼气产量和经济效益(图 3 )。
框架第二层在 2100s 时实现了最低 RMSE 为 1129.52 ,并发现最优模型为 GBM , Methanoculleus 是最重要的古菌属( FI=17% ),当其相对丰度在 0-0.03 % 内上升时,沼气产量迅速升高(图 4a , b , c ); Candidatus_Caldatribacterium 是 最 为 重 要 的 细 菌 属 ( FI=39% ),当其相对丰度为 0.016% 时会成为最大化沼气产量的一个节点(图 4e , f , g )。 Methanothermobacter 是对 Methanoculleus 影响最重要的因素( Feature Importance=28% )(图 5b ); Acetomicrobium 是对 Candidatus_Caldatribacterium 影响最重要的因素(图 5e ) 。
框架第三层针对三个数据集( AEBD 、 BEBD 和 ABEBD )分别在 1500s 、 900s 和 300s 取得最低 RMSE ,并获得最佳模型均为 GBM 。在系统层面,三个数据集中均显示 HRT 是最重要的影响因素,其次 Candidatus_Caldatribacterium 和 Methanocelleus 是分别最重要的细菌属和古菌属。
小结
综上所述,利用自动机器学习技术从多个层面探索关键因素对深入剖析AD反应本质机理和提升沼气产量至关重要。本研究基于优秀的H
2
O AutoML堆叠集成模型设计了三重探索框架,针对环境因素、微生物因素和系统层面实现了智能分析和精准挖掘。以下是本研究的主要贡献:
i).
基于自动化机器学习技术H
2
O 全面挖掘影响AD系统的关键因素,利用多样数据对众多模型进行模拟与预测,算法自动选择最佳模型。
ii).
构建了三重自动化机器学习探索框架,从环境因素、微生物和系统层面分步探索影响AD的关键因素,模型输出结果更加准确可靠。
iii).
评估了H
2
O堆叠集成模型中各个模型的性能,得到了适用于各个框架数据集的最佳模型GBM,取得了优秀的精度性能。
iv).
采用H
2
O提供的集成式特征重要性法和部份依赖图法进行了可解释性分析,以获得各个层面参数的最佳组合来实现AD系统的最佳沼气产量。
基于三重框架挖掘出了最关键的环境因素为HRT,最关键的微生物因素为Methanocelleus古菌属和Candidatus_Caldatribacterium细菌属,且得到了最佳参数范围组合。
相关信息
相关论文发表在Chemical Engineering Journal上,中国石油大学(北京)硕士研究生张一和同济大学博士研究生景张牧为共同第一作者,中国石油大学(北京)李叶青和清华大学王笑楠为共同通讯作者。
出版信息:
https://doi.org/10.1016/j.cej.2023.146069
Received
20 July 2023; Received in revised form 27 August 2023; Accepted 13 September
2023
Available
online 15 September 2023
1385-8947/©
2023 Elsevier B.V. All rights reserved.
原文链接: https://doi.org/10.1016/j.cej.2023.146069
投稿 : 中国石油大学(北京)新能源与材料学院李叶青教授团队 。 投稿、合作 、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领 域 最大的学术公号 ,拥有 15W+活跃读者 。由于微 信修改了推送规则,请大家将环境人Environmentor加为 星标 ,或每次看完后点击页面下端的 “赏” ,这样可以第一时间收到我们每日的推文! 环境人Environmentor现有综合群、 期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群。
往期推荐
ES&T主编/副主编:我的论文为啥未送审就被拒稿?
扫描二维码,快速入群~
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
