方法学

PM2.5模型 >

TAP建立了两级的机器学习模型,用于反演逐日完整覆盖的PM2.5浓度,技术路线图如下所示。所用数据包括PM2.5观测数据、卫星遥感AOD数据、业务化的CMAQ模拟、气象再分析资料、土地利用数据、海拔数据和人口数据等。在第一级模型中,基于观测数据定义高污染事件指数,并用综合少数类过采样技术(SMOTE)对训练数据集进行重采样,提高高污染事件在训练数据集中的占比。基于重采样后的训练数据集和随机森林算法(Random Forest)建模,实现对高污染事件的预测。在第二级模型中,利用CMAQ模拟的PM2.5浓度和PM2.5观测浓度之间的残差建立第二个随机森林模型,用残差取代PM2.5观测浓度作为学习目标值可以加强各参数对PM2.5浓度变化的响应,提高模拟精度。在两级模型中,都利用基于决策树的方法建立缺失数据与其他参数之间的关联,弥补卫星数据的缺失。

参考文献:

  • Geng, G., Xiao, Q., Liu, S., Liu, X., Cheng, J., Zheng, Y., Xue, T., Tong, D., Zheng, B., Peng, Y., Huang, X., He, K., & Zhang, Q. (2021). Tracking Air Pollution in China: Near Real-Time PM2.5 Retrievals from Multisource Data Fusion. Environ Sci Technol, 55, 12106-12115. [链接] [PDF]
  • Xiao, Q., Zheng, Y., Geng, G., Chen, C., Huang, X., Che, H., Zhang, X., He, K., & Zhang, Q. (2021). Separating emission and meteorological contribution to PM2.5 trends over East China during 2000–2018. Atmos Chem Phys, 21, 9475-9496. [链接] [PDF]
  • Xiao, Q., Geng, G., Cheng, J., Liang, F., Li, R., Meng, X., Xue, T., Huang, X., Kan, H., Zhang, Q., & He, K. (2021). Evaluation of gap-filling approaches in satellite-based daily PM2.5 prediction models. Atmos Environ, 244, 117921. [链接] [PDF]

O3模型 >

TAP建立了机器学习模型融合多源数据,用于反演逐日完整覆盖的O3浓度,技术路线图如下所示。所用数据包括O3观测数据、卫星遥感O3垂直廓线、CMAQ模拟、WRF模拟、常态化差值植生指标、夜间灯光和人口数据等。首先分别建立两个随机森林模型,一个用于关联O3观测值、CMAQ模拟O3浓度及其他变量,另一个在上个模型的基础上增加卫星遥感O3垂直廓线。由于卫星遥感数据存在缺失,第二个随机森林模型的预测值在时空上不连续。其次建立“弹性网”回归模型将两个随机森林模型的预测结果融合,既提高精度,又实现完整时空覆盖。最后,利用时空方差-协方差函数来模拟残差的相关性,在此基础上,利用时空克里金差值,进一步把站点观测的信号融合到最终的预测值中。

参考文献:

  • Xue, T., Zheng, Y., Geng, G., Xiao, Q., Meng, X., Wang, M., Li, X., Wu, N., Zhang, Q., & Zhu, T. (2020). Estimating spatiotemporal variation in ambient ozone exposure during 2013–2017 using a data-fusion model. Environ Sci Technol, 54, 14877-14888. [链接] [PDF]