Application of CNN-LSTM Model Integrating Prophet and PCA Technology in Water Quality Prediction
-
摘要: 为了降低传统CNN-LSTM模型进行水质预测时可能会出现的错误发生率,提出了一种基于Prophet模型与PCA的CNN-LSTM水质预测方法。在水质监测数据清洗过程中采用Prophet模型进行异常值处理,使用PCA方法对影响变量进行降维,消除变量关联性,把处理结果作为CNN-LSTM模型输入,对水质总氮指标进行预测。通过实验对基于Prophet模型与PCA的CNN-LSTM水质预测方法进行验证,实验结果表明:该方法相对于CNN-LSTM模型在MAE、RMSE和MSE三种评价指标上都有了较大的提升,其中MSE提升了13%,RMSE提升了6.7%,MAE提升了5.6%。Abstract: To reduce the error rate that may occur when traditional CNN-LSTM models are used for water quality prediction, a CNN-LSTM water quality prediction method based on the Prophet model and Principal Component Analysis (PCA) is proposed. During the cleaning process of water quality monitoring data, the Prophet model is used for outlier handling, while PCA is employed to reduce the dimensionality of influencing variables and eliminate variable correlation. The processed results are then used as input for the CNN-LSTM model to predict the total nitrogen index of water quality. Experimental results validate the effectiveness of the proposed method. Compared to the standard CNN-LSTM model, the proposed method shows significant improvements in three evaluation metrics: Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and Mean Squared Error (MSE). Specifically, MSE improved by 13%, RMSE by 6.7%, and MAE by 5.6%.
-
Key words:
- metrology /
- water quality monitoring /
- principal component analysis /
- CNN /
- LSTM /
- water quality prediction
-
表 1 水质指标数据
Table 1. Water quality indicator data
指标名称 数据个数 取值范围 缺失数据量 溶解氧 5452 1.787~23.842 20 水温 5452 2.525~33.325 20 总氮 5447 1.891~12.173 25 PH 5253 7.1325 ~9.2975 219 电导率 5254 193.725~719.875 218 浊度 4818 3~ 6712.13 654 高锰酸盐指数 4973 1.636~11.62 499 氨氮 5116 0~ 1.886125 356 总磷 4973 0.014~ 0.526333 499 表 2 总氮贡献率分析
Table 2. Analysis of total nitrogen contribution rate
特征值 贡献率 累计贡献率 1 61.8115 61.81159 2 13.56109 75.37268 3 11.53721 86.90989 4 7.10878 94.01867 5 3.39473 97.4134 6 1.62339 99.03679 7 0.08836 99.12515 8 0.07955 100 表 3 总氮主成分得分系数
Table 3. Total nitrogen principal component score coefficient
主成分 F1 F2 F3 水温 -0.255 -0.066 0.188 pH 0.026 -0.228 0.760 电导率 0.250 -0.011 0.029 浊度 -0.071 0.391 0.026 高锰酸盐指数 -0.070 0.256 0.645 氨氮 0.261 0.149 0.119 总磷 -0.094 0.428 -0.059 总氮 0.261 0.149 0.119 表 4 模型参数设置
Table 4. Model parameter settings
参数类别 总氮参数值 训练次数 100 卷积核的数量 16 卷积核大小 3 LSTM神经元个数 64 预测步长 1 Adam优化算法 0.001 表 5 总氮预测结果比较
Table 5. Comparison of total nitrogen prediction results
模型选择 RMSE PCCs MAE MSE ARIMA 0.2053 0.9247 3.6723 0.0424 LSTM 0.1841 0.9574 2.9764 0.0341 CNN-LSTM 0.1751 0.9597 2.7564 0.0307 CEEMDAN-LSTM 0.1679 0.9646 2.6637 0.0282 BiLSTM 0.1653 0.9657 2.6283 0.0273 基于PCA的CNN-LSTM 0.1634 0.9667 2.6013 0.0267 -
[1] 张鼎渊. 基于EEMD-LSTM水质预测方法的研究与应用[D]. 合肥: 中国科学技术大学, 2021. [2] Wu J, Wang Z. A hybrid model for water quality prediction based on an artificial neural network, wavelet transform, and long short-term memory[J]. Water, 2022, 14(4): 610. doi: 10.3390/w14040610 [3] 王嫄嫄. 基于LSTM的水质预测方法研究[D]. 南京: 南京邮电大学, 2020. [4] 赵春兰, 李屹, 何婷, 等. 基于动态隶属度的模糊时间序列模型的水质预测研究[J]. 计算机工程与科学, 2022, 44(8): 1488-149. doi: 10.3969/j.issn.1007-130X.2022.08.020 [5] 王严. 基于LSTM多点位视图在线学习的水源地水质时间序列预测[D]. 南京: 南京邮电大学, 2023. [6] 杨坪宏, 胡奥, 崔东文, 等. 基于数据处理与若干群体算法优化的 GRU/LSTM水质时间序列预测[J]. 水资源与水工程学报, 2023, 34(4): 45-53. [7] 陈能汪, 余镒琦, 陈纪新, 等. 人工神经网络模型在水质预警中的应用研究进展[J]. 环境科学学报, 2021, 41(12): 4771-4782. [8] 褚飞飞. 基于注意力机制和长短期记忆神经网络的水质预测方法研究[D]. 南京: 南京邮电大学, 2023. [9] 吴雅楠. 基于优化BP神经网络的水质预测及工艺模糊推理研究[D]. 昆明: 昆明理工大学, 2023. [10] 魏坤鹏. 灰色预测和聚类融合理论在水质检测控制中的应用[D]. 天津: 天津工业大学, 2017. [11] 郭杨. 基于GM(1, 1)模型的河流水质主要指标预测研究[J]. 农业与技术, 2022, 42(19): 116-120. [12] 李恺. 基于灰色模糊模型对湖泊水质研究[D]. 天津: 天津大学, 2017. [13] 杨宇锋, 武暕, 王璐, 等. 基于随机森林模型的辽河高时间分辨率氮、磷浓度模拟与预测[J]. 环境科学学报, 2022, 42(12): 384-391. [14] 石晴宜, 董增川, 罗赟, 等. 基于机器学习方法的洪泽湖入湖水质评价及预测研究[J]. 中国农村水利水电, 2021(12): 53-59. doi: 10.3969/j.issn.1007-2284.2021.12.009 [15] 肖燚, 郭亚会, 李明蔚, 等. 基于机器学习的地下水水质预测研究[J]. 北京师范大学学报(自然科学版), 2022, 58(2): 261-268. [16] 袁涛. LSTM多要素水质预测模型及其在水质管理系统中的应用研究[D]. 杭州: 杭州电子科技大学, 2022. [17] 李文静, 王潇潇. 基于简化型LSTM神经网络的时间序列预测方法[J]. 北京工业大学学报, 2021, 47(5): 480-488. doi: 10.11936/bjutxb2020120032 [18] Tan W, Zhang J, Wu J, et al. Application of CNN and Long Short-Term Memory Network in Water Quality Predicting[J]. Intelligent Automation & Soft Computing, 2022, 34(3): 1943-1958. [19] Tan W, Zhang J, Liu X, et al. Dissolved Oxygen Prediction Based on PCA- LSTM[C]. Journal of Physics: Conference Series. IOP Publishing, 2022, 2337(1): 012012. [20] 孙龙清, 吴雨寒, 孙希蓓, 等. 基于IBAS和LSTM网络的池塘水溶解氧含量预测[J]. 农业机械学报, 2021, 52(S1): 252-260. [21] 中国环境监测总站. 国家地表水水质自动监测实时数据发布系统[DB/OL]. [2024-04-02]. https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html. [22] 环境专业知识服务系统. 数据服务[DB/OL]. [2024-04-02]. http://envi.ckcest.cn/environment/. [23] 王坤, 刘小杰, 刘二浩, 等. 基于AdaBoost算法的炉芯温度预测模型[J]. 钢铁研究学报, 2020, 32(5): 363-369. [24] 周玉, 朱文豪, 房倩, 等. 基于聚类的离群点检测方法研究综述[J]. 计算机工程与应用, 2021, 57(12): 37-45. doi: 10.3778/j.issn.1002-8331.2102-0167 [25] Ni W J, Shen Q L, Zeng Q T, et al. Data-driven Seeing Prediction for Optics Telescope: from Statistical Modeling, Machine Learning to Deep Learning Techniques[J]. Research in Astronomy and Astrophysics, 2022, 22(12): 125003. doi: 10.1088/1674-4527/ac977b [26] 陈婷, 项兆坤, 徐金凯, 等. 查询优化器连接顺序评估[J]. 华东师范大学学报(自然科学版), 2022(5): 48-60. [27] López G, Arboleya P. Short-term wind speed forecasting over complex terrain using linear regression models and multivariable LSTM and NARX networks in the Andes Mountains, Ecuador[J]. Renewable Energy, 2022, 183: 351-368. doi: 10.1016/j.renene.2021.10.070 [28] Pearson K. Onlines and planes ofclosest fit tosystems ofpoints inspace[J]. Philosophical Magazine, 1901, 2(6): 559-572. [29] 帅春江, 聂翔, 何伟. 主成分法分析电磁辐照对茶毛虫生长发育的影响[J]. 陕西理工学院学报(自然科学版), 2014, 30(3): 63-67. [30] 张冬萍, 刘蓬, 刘琳, 等. 黄石市磁湖水质时空分布及污染源解析[J]. 环境工程技术学报, 2022, 12(2): 560-566. doi: 10.12153/j.issn.1674-991X.20210679 [31] Zhang L, Jiang Z, He S, et al. Study on water quality prediction of urban reservoir by coupled CEEMDAN decomposition and LSTM neural network model[J]. Water Resources Management, 2022, 36(10): 3715-3735. doi: 10.1007/s11269-022-03224-y [32] Khullar S, Singh N. Water quality assessment of a river using deep learning Bi-LSTM methodology: forecasting and validation[J]. Environmental Science and Pollution Research, 2022, 29(9): 12875-12889. doi: 10.1007/s11356-021-13875-w