并非将过去的观察结果作

Thailand Data Forum focuses on data-driven innovations
Post Reply
rochona
Posts: 8
Joined: Thu May 22, 2025 5:18 am

并非将过去的观察结果作

Post by rochona »

然而,我们在本文中将重点讨论的方法类别是时间索引模型。这些模型为输入,而是将时间索引特征(例如小时中的分钟、星期几等)作为输入,并预测该时间索引处的时间序列值。时间索引模型基于历史数据进行训练,并通过查询未来值来进行预测。

时间指数模型的一些经典示例包括Prophet(一种专门用于商业预测的开源预测工具)和高斯过程。

问题:长序列 = 非平稳性 = 性能差
虽然在机器学习工作流程中,我们通常会收集大量数据,但随着时间的推移,生成这些数据的系统可能会发生一些变化。例如,随着某种产品越来越受欢迎,它的日销量可能会比前几年大幅增长。或者,如果为某台 电话号码收集 服务器分配了不同的应用程序运行,其 CPU 利用率模式可能会发生显著变化。

这种现象导致了非平稳时间序列——收集到的数据模式会随时间变化。当我们尝试在此类数据上应用机器学习时,这会带来问题,因为机器学习技术最适合处理同分布数据(即在数据中观察到的模式保持不变)。

随着系统发生变化,数据的两个问题会导致我们的模型性能下降——协变量偏移和条件分布偏移(如图1所示)。大多数现有方法都是历史值模型,它们都存在这些问题。
Post Reply