Uen的个人网站

我的博客和工具箱

数据驱动的机器学习提高水中生物炭对磺胺类抗生素吸附的预测

本论文题为《数据驱动的机器学习提高水中生物炭对磺胺类抗生素吸附的预测》,主要研究了利用数据驱动的机器学习方法,特别是基于 Wasserstein 生成对抗网络(WGAN)的数据增强方法,来预测磺胺类抗生素(SAs)在水中被生物炭(BCs)吸附的行为。研究通过文献收集了 944 个数据点,涉及七种典型的 SAs,并探讨了多种影响因素如 BCs 的物理化学性质、环境条件以及 SAs 的性质。通过对比六种常见的机器学习模型,发现极限梯度提升(XGB)模型在预测吸附量和吸附容量方面表现最佳。此外,研究还发现,通过 WGAN 生成的数据可以显著提高模型的预测性能。

论文的主旨:利用数据驱动的机器学习方法,特别是 WGAN 数据增强技术,来提高预测生物炭对磺胺类抗生素在水中的吸附行为的准确性。

论文的类别:环境科学与工程,具体涉及污染物吸附、机器学习和数据科学。

要解决的问题:目前缺乏系统性的机器学习模型来预测 SAs 在水中被 BCs 吸附的行为。

亮点

  1. 创新性方法:首次将 WGAN 数据增强技术应用于预测 SAs 在水中被 BCs 吸附的行为。

  2. 模型优化:通过 WGAN 生成的高质量虚拟数据,显著提高了预测模型的性能。

  3. 关键因素分析:确定了影响吸附的关键因素,包括 BCs 的比表面积、初始 SAs 浓度以及环境因素如 pH。

论文框架


图文导读

图 1:收集数据的箱线图

图 2:XGB 模型预测值与真实值的比较及残差分析图

图 3:WGAN 训练过程中的 Wasserstein 距离变化、t-SNE 可视化及增强数据集模型性能比较图

图 4:三个集成学习模型在不同数据集上的前 5 个特征重要性值

图 5:XGB 模型中吸附容量预测的特征 SHAP 值及 pH 和温度的 SHAP 图


论文细节

1. 关键思路:解决数据驱动模型中的不足

论文的核心思想是通过生成对抗网络(GAN)的改进版——Wasserstein GAN(WGAN),生成虚拟数据来增强原始数据集,从而提高机器学习模型对生物炭吸附磺胺类抗生素的预测能力。论文指出,传统监督学习模型虽然能够实现一定效果,但通常受限于数据量或模型泛化能力不足。因此,作者创新性地引入了 WGAN,利用其高效的数据生成能力来弥补原始数据集的不足。

WGAN 的关键改进在于使用 Wasserstein 距离代替传统的 Jensen-Shannon 散度,解决了梯度消失和模式崩溃的问题。这使得生成的数据更加贴近真实分布,显著提高了模型的稳定性和预测性能。


2. 数据处理与特征工程

论文在数据收集和预处理方面投入了大量精力,确保输入特征的多样性和数据质量:

特征工程的设计非常细致,充分考虑了吸附过程的多因素交互作用,为后续模型构建奠定了坚实基础。


3. 模型对比与选择

作者比较了六种常见的机器学习模型(MLR、SVM、RF、GBR、XGB、ANN)在原始数据上的表现,发现三种基于决策树的集成学习模型(RF、GBR、XGB)显著优于其他模型。最终,XGB 被选定为最佳预测模型,其测试集上的平均 R² 值分别达到 0.94 和 0.97,RMSE 值分别为 28.03 和 21.95,显示出极高的预测精度和稳定性。

此外,作者还对“pH”和“温度”两个子数据集进行了独立分析,发现不同模型的表现有所差异。例如,“温度”数据集较小且分布较分散,此时 GBR 的逐步优化机制使其更具优势。


4. WGAN 数据增强的效果

为了验证 WGAN 生成数据的有效性,作者将其应用于原始数据集的扩展,并评估了三种模型(RF、GBR、XGB)在增强数据集上的表现。结果表明:

通过 t-SNE 降维分析,作者证明了 WGAN 生成的数据在二维空间中与原始数据高度重叠,显示出生成数据的高相似性和代表性。


5. 特征重要性与具体影响分析

论文对模型的特征重要性进行了深入解析,揭示了以下几点关键结论:

通过 SHAP 值和部分依赖图(PDP)分析,作者进一步量化了各个特征的具体影响方向和强度。例如,较高的 SBET 和初始浓度会显著促进吸附,而过低或过高 pH 都会抑制吸附。


6. 创新点与意义

论文的创新点在于:

研究的实践意义包括:


思维导图

mindmap-数据驱动的机器学习提高水中生物炭对磺胺类抗生素吸附的预测.png


总结

本论文通过结合数据驱动的机器学习方法和生成对抗网络技术(WGAN),提出了一个系统性的框架,用于预测生物炭对磺胺类抗生素在水中吸附的行为。作者首先通过大量文献收集构建了高质量数据集,并利用 Z-score 标准化和 KNN 填补策略处理缺失值。随后,对比了六种常见模型的性能,确定 XGB 为最优模型。在此基础上,作者采用 WGAN 生成虚拟数据进行数据增强,显著提高了模型的预测性能。最终,通过特征重要性分析和 SHAP 值解释,揭示了影响吸附行为的关键因素,如比表面积、初始浓度和 pH。论文不仅展示了方法论的创新性,还为实际应用提供了重要参考,推动了机器学习技术在环境科学领域的深度应用。

Zhai, M., Fu, B., Wu, Z., Wang, J., Wang, W., & Wang, H. (2025). Data-driven machine learning improves prediction of sulfonamide antibiotic adsorption by biochar in aqueous phase. Bioresource Technology, 132773.