KPI数据集
互联网服务场景下基于机器学习的KPI异常检测综述
KPI(Key performance indicator, 关键性能指标)。一种IT领域量化出的时序数据,表示互联网服务在运行过程中随时间变化的状态。
KPI异常检测技术框架
KPI监控与预处理
互联网服务KPI监控体系 主要概括为3个层次:基础资源、应用性能及用户体验,其中以基础资源监控(通常将其KPI定义为机器KPI)和应用性能监控(通常将其KPI定义为服务KPI) 在KPI监控中最为常见. 表4所示为各层次KPI监控 范围介绍及举例. 常用基础资源监控工具包括Zabbix 等,常用应用性能监控工具包括SkyWalking等。
异常检测模型构建与训练
异常检测模型构建一般又分为机器学习模型选择和机器学习模型优化设计2部分。模型的选择主要取决于KPI中的依赖模式. 不同服务存在不同的依赖模式。而模 型的优化设计则更多考虑影响检测技术性能(包括 准确性、鲁棒性、实时性、可解释性等)的多重因素, 如KPI噪声分布、模型计算复杂度等。