Predictive Analysis and Algorithmic Comparison for Faults in Laboratory Force-Measuring Equipment
-
摘要: 为提高设备管理的数字化水平,节约实验室管理成本,建立实验室设备故障预测模型,实现设备故障数据的有效利用。选取力值类设备的运行故障数据作为分析对象,基于统计方法对各影响量进行相关性分析,分别采用RidgeCV、XGBoost、LightGBM三种回归模型对该数据集进行拟合,比较、选择适宜预测设备首次故障前时间的算法。以r2、均方误差、可解释方差和平均绝对误差为模型精度衡量指标,经网格搜索-交叉验证优化后的LightGBM算法预测精度、运行速度最优,设备已服役时间和设备原值是确定首次故障前时间最为重要的特征。通过对设备故障数据的有效统筹,结合大数据分析技术,可针对不同类型设备建立符合自身规律的故障预测模型,探索出一条实验室管理的提质增效之路。Abstract: This study aims to elevate digital equipment management and reduce laboratory management costs by developing a predictive model for laboratory equipment faults, thus making effective use of fault data. Operational fault data from force-measuring equipment was selected for analysis. A correlation analysis of influencing factors was conducted using statistical methods, and three regression models—RidgeCV, XGBoost, and LightGBM—were employed to fit the dataset. These models were compared to select the most appropriate algorithm for predicting the time before the first equipment fault. Model accuracy was evaluated using r2, mean squared error, explained variance, and mean absolute error. The LightGBM algorithm, optimized through grid search and cross-validation, demonstrated the best predictive accuracy and operational speed. Key features for determining the time before the first fault included the equipment's service time and its original value. By effectively managing equipment fault data and leveraging big data analysis techniques, a tailored fault prediction model for various equipment types can be established, paving the way for enhanced laboratory management efficiency and quality.
-
表 1 力值类故障设备数据集快照
Table 1. A snapshot of the force-like faulty device dataset
序号 生产厂类别 原值/元 已服役时间/年 周检方式 使用场所 期间核查 TTFF/年 0 国产 70,000.00 47 外检 固定 无 36 1 合资 16,600.00 33 自检 固定 有 31 2 进口 280,800.00 23 功能检查 非固定 有 10 3 国产 6,000.00 28 自检 非固定 有 17 4 进口 610,000.00 24 自检 非固定 有 17 …… 表 2 数据统计表
Table 2. Data statistics table
原值/元 已服役时间/年 TTFF/年 count 4.260000e+02 426.000000 426.000000 mean 2.325525e+05 14.474178 9.793427 std 1.045419e+06 8.917163 9.918945 min 5.250000e+02 2.000000 0.000000 25% 8.485000e+03 10.000000 4.000000 50% 3.426350e+04 13.000000 7.000000 75% 1.411273e+05 16.000000 11.000000 max 1.674905e+07 56.000000 56.000000 表 3 TTFF与设备原值、已服役时间的相关性分析
Table 3. Correlation analysis of TTFF with the original value of equipment and service time
项目 r值 P值 原值 −0.08326 0.08608 已服役时间 0.90601 2.02984e-160 表 4 RidgeCV模型评估结果
Table 4. RidgeCV model evaluation results
r2 均方误差 可解释方差 平均绝对误差 方式一:RidgeCV 0.8396 0.1579 0.8434 0.3452 方式二:特征选择+RidgeCV 0.8390 0.1585 0.8429 0.3453 注:可解释方差取值范围为[0~1],可解释方差越接近于1,表示模型越能完美预测数据。 表 5 XGBoost模型评估结果
Table 5. XGBoost model evaluation results
r2 均方误差 可解释方差 平均绝对误差 方式一:XGBoost 0.7934 0.2034 0.7994 0.3409 方式二:XGBoost+GridSearchCV 0.8309 0.1666 0.8353 0.3060 方式三:特征选择+XGBoost+GridSearchCV 0.8453 0.1523 0.8469 0.3056 表 6 LightGBM模型评估结果
Table 6. LightGBM model evaluation results
r2 均方误差 可解释方差 平均绝对误差 方式一:LightGBM 0.7464 0.2497 0.7485 0.3727 方式二:LightGBM+GridSearchCV 0.8469 0.1508 0.8492 0.3020 方式三:特征选择+LightGBM+GridSearchCV 0.8295 0.1679 0.8317 0.3329 表 7 实际应用效果评价
Table 7. Evaluation of the actual application effect
TTFF预测值平均绝对误差/年 TTFF预测值标准偏差/年 1 RidgeCV −6.4 4.56 2 特征选择+XGBoost+GridSearchCV −2 18.93 3 LightGBM+GridSearchCV −1.4 5.68 表 8 预测变量的重要性
Table 8. Importance of predictive variables
列序号 特征名称 特征重要性 列序号 特征名称 特征重要性 Column_0 使用场所=现场 18 Column_6 已服役时间/年 102 Column_1 使用场所=非现场 0 Column_7 期间核查与否=否 0 Column_2 原值/元 90 Column_8 期间核查与否=是 0 Column_3 周检方式=功能检查 19 Column_9 生产厂类别=合资 0 Column_4 周检方式=外检 0 Column_10 生产厂类别=国产 4 Column_5 周检方式=自检 9 Column_11 生产厂类别=进口 7 -
[1] 张云奇. 资产全寿命周期评估模型在供电服务企业管理中的应用[J]. 电力信息与通信技, 2021, 19(8): 112-117. [2] 陈昕, 阮永娇, 曹景胜. 基于Python的汽车安全气囊跌落实验数据分析[J]. 辽宁工业大学学报(自然科学版), 2021, 41(4): 232-235. doi: 10.15916/j.issn1674-3261.2021.04.005 [3] 朱慧军, 杨洪磊. 机械设备故障规律及运行趋势预测方法综述[J]. 电子测试, 2021, 455(2): 57-58,50. doi: 10.3969/j.issn.1000-8519.2021.02.018 [4] 杜占龙, 李小民. 基于多渐消因子强跟踪UKF和约束AR模型的故障估计与预测[J]. 控制与决策, 2014, 29(9): 1667-1672. doi: 10.13195/j.kzyjc.2013.0715 [5] 何彪. 基于大数据的设备故障诊断分析[J]. 机械设计与制造工程, 2021, 50(4): 63-67. doi: 10.3969/j.issn.2095-509X.2021.04.014 [6] 张燕龙, 陈亮希, 陈兴玉, 等. 基于灰色线性回归组合模型的集成电路封装设备故障趋势预测[J]. 机械与电子, 2021, 39(3): 20-23. doi: 10.3969/j.issn.1001-2257.2021.03.004 [7] 罗毅, 武博翔. 基于深度学习LSTM-DBN的水轮机振动故障预测方法[J]. 振动. 测试与诊断, 2022, 42(6): 1233-1238,1251. [8] 袁焦, 王珣, 潘兆马, 等. 基于机器学习的列车设备故障预测模型研究[J]. 计算机与现代化, 2020(12): 49-54. doi: 10.3969/j.issn.1006-2475.2020.12.009 [9] 黄挺, 王磊, 晏鑫, 等. 基于故障率曲线和设备故障危害度的地铁车辆维修策略选择[J]. 城市轨道交通研究, 2015, 18(6): 83-86. doi: 10.16037/j.1007-869x.2015.06.018 [10] 全国实验室仪器及设备标准化委员会. 实验室仪器及设备分类方法: GB/T 40024-2021[S]. 北京: 中国标准出版社, 2021. [11] 任万滨, 翟国富. 航天继电器耐力学环境设计理论与应用[M]. 哈尔滨: 哈尔滨工业大学出版社, 2015. [12] 李馨馨. 可靠性分析在实验室仪器设备管理中的应用[J]. 化学工程与装备, 2022(1): 18-22. [13] 琚东升, 琚孟隆, 李风姣. 盐城地区2004型拖拉机使用情况研究[J]. 农机使用与维修, 2022, 311(7): 64-66. [14] 张雪梅, 袁芳, 孔祥吉. LJ6010多功能标准源系统的可靠性管理[J]. 工业计量, 2011, 21(3): 36-37. doi: 10.3969/j.issn.1002-1183.2011.03.012 [15] 任蕾洁. 考虑退化与冲击效应的机械系统可靠性分析与动态维护策略研究[D]. 西安: 西安理工大学, 2023. [16] 冯国双. 连续变量的相关与回归分析[J]. 中华护理杂志, 2011, 46(11): 1153. [17] 胡红波, 季文晖. 测量方程、观测方程与不确定度评估[J]. 中国测试, 2020, 46(9): 7-12. doi: 10.11857/j.issn.1674-5124.2020060094 [18] 胡红波, 刘爱东, 左爱斌, 等. 加速度计校准的贝叶斯不确定度评估[J]. 计量科学与技术, 2021, 65(5): 101-107,61. doi: 10.12338/j.issn.2096-9015.2020.9051 [19] 田骆冰, 徐刚, 张雅中, 等. 血清胃饥饿素水平与2型糖尿病周围神经病变的相关性研究[J]. 中国全科医学, 2020, 23(26): 3263-3267,3273. [20] 胡红波, 杨丽峰, 于梅. 零差干涉仪用于振动校准中关键技术的研究[J]. 计量学报, 2018, 39(3): 368-372. doi: 10.3969/j.issn.1000-1158.2018.03.16 [21] 胡红波. MCMC方法在测量不确定度评估中的应用[J]. 计量技术, 2020(5): 89-94,88. [22] 袁浩恒. 数据挖掘中并行离散化数据准备优化研究[D]. 昆明: 昆明理工大学, 2019. [23] 冯浩. 后件为数值型属性的关联规则发现策略研究[D]. 北京: 北京交通大学, 2009. [24] 刘家豪. 基于车联网数据的预警行为分布特征及其影响因素分析[D]. 北京: 北京交通大学, 2023. [25] 焦锐, 车晨曦, 王健, 等. 基于卡方检验的玉米大豆带状复合种植意愿相关性分析[J]. 南方农业, 2023, 17(6): 116-119. doi: 10.19415/j.cnki.1673-890x.2023.06.037 [26] 章姝俊, 陆海清, 陈佳玺, 等. 基于多因素相关性分析的气温敏感负荷预测[J]. 浙江电力, 2023, 42(9): 27-35. doi: 10.19585/j.zjdl.202309004 [27] 孟晨, 王昊, 吴鲲. 力传感器校准方程系数的不确定度分析[J]. 计量科学与技术, 2023, 67(5): 52-57. [28] 蔡明, 孙杰, 李培德, 等. 三种机器学习算法在回归应用中的对比分析[J]. 智能计算机与应用, 2022, 12(8): 165-170. doi: 10.3969/j.issn.2095-2163.2022.08.033 [29] 柯日宏, 吴升, 柯玮文. 一种识别共享单车潮汐点的时空模型和基于KNN-LightGBM的租还需求预测方法[J]. 地球信息科学学报, 2023, 25(4): 741-753. doi: 10.12082/dqxxkx.2023.220673 [30] 陈丹璐, 孙德亮, 文海家, 等. 基于不同因子筛选方法的LightGBM-SHAP滑坡易发性研究[J/OL]. [2023-10-30]. 北京师范大学学报(自然科学版): 1-18. http://kns.cnki.net/kcms/detail/11.1991.N.20230808.1452.003.html.