首页 > 行业资讯 > 中国石油大学(北京)李叶青、清华大学王笑楠CEJ:利用自动机器学习技术探索厌氧消化的关键因素——在环境因子、微生物和系统层面

中国石油大学(北京)李叶青、清华大学王笑楠CEJ:利用自动机器学习技术探索厌氧消化的关键因素——在环境因子、微生物和系统层面

时间:2023-10-09 来源: 浏览:

中国石油大学(北京)李叶青、清华大学王笑楠CEJ:利用自动机器学习技术探索厌氧消化的关键因素——在环境因子、微生物和系统层面

李叶青教授团队 环境人Environmentor
环境人Environmentor

Environmentor2017

分享环境领域内学术进展、热点资讯、招聘信息

收录于合集
‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
点击上方蓝字 关注我们

通讯作者: 李叶青,中国石油大学(北京);王笑楠,清华大学
作者 Yi Zhang, Zhangmu Jing, Yijing Feng, Shuo Chen, Yeqing Li, Yongming Han, Lu Feng, Junting Pan, Mahmoud Mazarji, Hongjun Zhou, Xiaonan Wang, Chunming Xu
图片摘要
成果简介

近日,中国石油大学(北京)李叶青和清华大学王笑楠团队利用自动化机器学习(AutoML)技术对厌氧消化(AD)的反应参数进行了深入研究,基于H 2 O AutoML设计了一种三重探索框架,在环境因素、微生物及系统层面均进行了智能分析与预测,并成功实现了AD的关键因素的确定

引言

厌氧消化( AD )是利用微生物活动来处理有机废弃物,减少环境污染和生产绿色可再生能源的有效方法。由于消化底物和操作参数的巨大多样性,难以预测和控制复杂 AD 系统的稳定性和最终的沼气生产效果。探索关键因素对理解复杂的 AD 系统有重要的指导意义。但 AD 系统中的各参数间的内部相关性是高度复杂和非线性的,使得传统机理模型和机器学习( ML )模型难以全面处理 AD 过程中的各种代谢途径和微生物种群,发生过拟合和不稳定运行。此外,单一地对 AD 进行宏观因素探索,而忽略微生物作用机制,容易造成无法解释的 ML 输出结果,不足以揭示 AD 反应本质机理。

为了解决上述问题,中国石油大学(北京)新能源与材料学院李叶青教授团队设计了一种基于自动化机器学习( H 2 O AutoML )的三重探索框架(图 1 )。首先,框架第一层基于 H 2 O AutoML 的最佳 Leader 模型对厌氧消化反应中的环境因数进行智能分析和预测,挖掘出关键操作参数及范围。其次,框架第二层基于 H 2 O AutoML 的最佳 Leader 模型对厌氧消化反应中的微生物进行智能分析和预测,挖掘出关键古菌属和细菌属(及其最优相对丰度范围),并分别挖掘出对二者影响最大的细菌属和古菌属。最后,框架第三层基于 H 2 O AutoML 的最佳 Leader 模型对厌氧消化反应中的系统层面进行智能分析和预测,并结合框架第一层和第二层结果,最终得出最关键的环境因素、古菌属和细菌属,及其最优参数范围组合。与此同时,三重框架均采用 H 2 O 提供的集成式特征重要性( FI )方法和部份依赖图( PDP )方法进行可解释性分析。结果显示,框架第一层确定了水力停留时间( HRT )是最重要的环境因素,最佳范围为 33-45 天。框架第二层中 Methanocelleus (最佳相对丰度( ORA= 3.0% )和 Candidatus_CaldatribacteriumORA = 1.7% )分别是关键的古菌属和细菌属。此外,基于环境因素和其余微生物数据对关键微生物的分析与预测显示了 MethanothermobacterAcetomicrobium 的重要作用。探索预测沼气产量的最优数据变量组合的框架第三层表明,结合古菌属和环境因素实现了最准确的预测(均方根误差( RMSE= 84.21 )。此外, GBM 模型在所有内置模型中具有最好的模型性能和预测精度。基于最优 GBM 模型在系统层面的分析结果表明, HRT 是全局最重要的变量。然而,最重要的微生物 Methanocelleus 在合适的丰度范围内,也是实现最佳沼气产量的必要条件。可见,通过 AutoML 技术在不同层次上探索关键参数,有望为工业和实验室理解 AD 系统的复杂体系结构提供指导。

图文导读

1 :多层框架流程图

本研究基于 12 个全尺寸规模项目和 8 个实验室项目中的 56 个样本收集了相应的环境因素、微生物、沼气产量数据。输入变量中的环境因素确定为:挥发性固体 / 总固体( VS/TS )、碳 / 氮( C/N )、 pH 值( pH )、温度( T )、水力停留时间 (HRT) 、有机负荷率( OLR )、挥发性脂肪酸( VFAs )、总氨氮量( TAN )和化学需氧量( COD );微生物宏基因组数据通过 16S rRNA 高通量测序,并在古菌和细菌中选择属水平上相对丰度 >0.001% 的微生物菌属。输出变量为沼气产量。原始数据如图 2 所示。同时,基于上述变量数据建立了多个数据集用于框架分步利用,分别为: EBD (环境因素 - 沼气产量数据集)、 ABD (古菌属 - 沼气产量数据集)、 BBD (细菌属 - 沼气产量数据集)、 OAECD (其他细菌属 + 古菌属 + 环境因子 - 关键细菌属数据集)、 OBECD (其他古菌属 + 细菌属 + 环境因素 - 关键古菌属数据集)、 AEBD (古菌属 + 环境因素 - 沼气产量数据集)、 BEBD (细菌属 + 环境因素 - 沼气产量数据集)、 ABEBD (古菌属 + 细菌属 + 环境因素 - 沼气产量数据集)。利用 MissForest 算法对上述环境因素数据的缺失值样本进行填补。同时,对每个数据集进行皮尔逊相关矩阵分析( PCC ),以探索变量之间的线性关系

2 :环境因素和微生物变量数据的箱线统计图

利用一种广为使用且具备优秀性能的自动化机器学习算法 H 2 O AutoML 来自动选择最佳运行模型。三重框架均通过在 60-2100s 运行时间范围内对众多模型进行模拟和预测,并利用均方根误差( RSME )指标对模型进行性能评估,来锁定最佳运行时间和对应的最优模型参数。同时,基于特征重要性和 PDP 图得出最关键参数及其最优范围

结果显示,框架第一层在 1800s 时实现了最低 RMSE117.45 ,并发现最优模型为 GBMHRT 是影响沼气产量的最重要环境因子, HRT 处在 33-45 天时可以实现最大化沼气产量和经济效益(图 3 )。

3 :框架第一层针对 EBD 数据集的皮尔逊矩阵热图、误差变化图、最优模型的特征重要性分析以及最关键变量对沼气产量的部分依赖性

框架第二层在 2100s 时实现了最低 RMSE1129.52 ,并发现最优模型为 GBMMethanoculleus 是最重要的古菌属( FI=17% ),当其相对丰度在 0-0.03 % 内上升时,沼气产量迅速升高(图 4abc ); Candidatus_Caldatribacterium 是 最 为 重 要 的 细 菌 属 ( FI=39% ),当其相对丰度为 0.016% 时会成为最大化沼气产量的一个节点(图 4efg )。 Methanothermobacter 是对 Methanoculleus 影响最重要的因素( Feature Importance=28% )(图 5b ); Acetomicrobium 是对 Candidatus_Caldatribacterium 影响最重要的因素(图 5e

4 :框架第二层针对 ABDBBD 数据集的误差变化图、最优模型的特征重要性分析以及最关键变量对沼气产量的部分依赖性

5 :框架第二层针对 OAEBDOBEBD 数据集的误差变化图、最优模型的特征重要性分析以及最关键变量对关键微生物的部分依赖性

框架第三层针对三个数据集( AEBDBEBDABEBD )分别在 1500s900s300s 取得最低 RMSE ,并获得最佳模型均为 GBM 。在系统层面,三个数据集中均显示 HRT 是最重要的影响因素,其次 Candidatus_CaldatribacteriumMethanocelleus 是分别最重要的细菌属和古菌属。

6 :框架第三层针对 AEBDBEBDABEBD 数据集的误差变化图和最优模型的特征重要性分析
‘’

小结

综上所述,利用自动机器学习技术从多个层面探索关键因素对深入剖析AD反应本质机理和提升沼气产量至关重要。本研究基于优秀的H 2 O AutoML堆叠集成模型设计了三重探索框架,针对环境因素、微生物因素和系统层面实现了智能分析和精准挖掘。以下是本研究的主要贡献:

i).       基于自动化机器学习技术H 2 O 全面挖掘影响AD系统的关键因素,利用多样数据对众多模型进行模拟与预测,算法自动选择最佳模型。

ii).     构建了三重自动化机器学习探索框架,从环境因素、微生物和系统层面分步探索影响AD的关键因素,模型输出结果更加准确可靠。

iii).    评估了H 2 O堆叠集成模型中各个模型的性能,得到了适用于各个框架数据集的最佳模型GBM,取得了优秀的精度性能。

iv).    采用H 2 O提供的集成式特征重要性法和部份依赖图法进行了可解释性分析,以获得各个层面参数的最佳组合来实现AD系统的最佳沼气产量。

基于三重框架挖掘出了最关键的环境因素为HRT,最关键的微生物因素为Methanocelleus古菌属和Candidatus_Caldatribacterium细菌属,且得到了最佳参数范围组合。

‘’

相关信息

相关论文发表在Chemical Engineering Journal上,中国石油大学(北京)硕士研究生张一和同济大学博士研究生景张牧为共同第一作者,中国石油大学(北京)李叶青和清华大学王笑楠为共同通讯作者。

出版信息:

https://doi.org/10.1016/j.cej.2023.146069

Received 20 July 2023; Received in revised form 27 August 2023; Accepted 13 September 2023

Available online 15 September 2023

1385-8947/© 2023 Elsevier B.V. All rights reserved.

原文链接: https://doi.org/10.1016/j.cej.2023.146069

投稿 中国石油大学(北京)新能源与材料学院李叶青教授团队 投稿、合作 、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领 最大的学术公号 ,拥有 15W+活跃读者 。由于微 信修改了推送规则,请大家将环境人Environmentor加为 星标 ,或每次看完后点击页面下端的 “赏” ,这样可以第一时间收到我们每日的推文! 环境人Environmentor现有综合群、 期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群。

往期推荐

论文推介

ES&T主编/副主编:我的论文为啥未送审就被拒稿?

清华大学曲久辉院士团队Angew: 限域强化利用自由基主导的快速类芬顿反应
耶鲁大学Menachem Elimelech团队和哈工大马军团队Nat. Commun.:Janus电催化膜高选择性合成ROS
清华大学曲久辉院士团队ES&T:绿色芬顿——原子氢介导的双氧水电还原活化过程
同济大学赵红颖、赵国华团队ES&T: 电芬顿阴极氧化-还原协同深度处理含卤污染物
丹麦科大张翼峰 团队ES&T: 导电型的厌氧颗粒污泥应用于污水处理及产电的研究
香港科大劳敏慈团队ES&T: 如何实现水体中磷酸盐选择性吸附去除?
美国范德堡大学林士弘教授ES&T展望:脱盐过程能效的直观理解
清华大学环境学院文湘华团队WR: 污水可生物降解性决定了 污水厂微生物的构建机制
卡内基梅隆大学Lowry教授团队AM:硫含量和形态调控硫化纳米零价铁的疏水性、电子传递、反应活性和选择性
学术招聘
美国范德堡大学环境工程研究生项目招生 (博士硕士)
加州大学河滨分校化学与环境工程系门玉洁课题组招收博士生(或博士后)
香港城市大学能源与环境学院Dr. Sam H. Y. HSU课题组招聘博士
美国圣母大学环境分子与合成生物学实验室拟招收2名全奖博士生
瑞典斯德哥尔摩大学和瑞士Eawag联合招聘全奖博士生(环境方向)
北京大学环境科学与工程学院赵华章教授团队招聘博士
学术资讯
耶鲁大学Julie B. Zimmerman教授出任ES&T主编
贝勒大学Bryan W. Brooks教授出任ES&T Letters主编
韩国科学院院士Wonyong Choi将出任ACS ES&T Engineering创刊主编
CEJ Advances创刊 | 潘丙才教授任主编,四位华人学者任副主编
ACS对话 | ACS ES&T Engineering创刊副主编马军院士
专访:Environmental Science & Ecotechnology 主编团队

扫描二维码,快速入群~

版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐