泛模型文件即和算法模型相关的文件,如模型配置文件、模型文件、模型生效对应的动、静态库文件、头文件等等;考虑到边缘侧设备众多,且边缘侧设备由于场景的复杂性,比如不同表计、不同场景光线信息,包括模型版本、模型生效时间、模型对应框架、算法配置文件信息等,需要统一平台进行泛管理与分发,其中泛模型管理主要包括以下几方面:
- 泛模型注册,如模型落地场景、归属单位信息、生效时间、模型运行框架、容器镜像版本等等,这类信息由部署人员预先注册至智能电力管理平台,进入数据库,持久化保存,并展示至模型管理页面;
- 泛模型控制模块,用于配置是否运行模型、模型上传与下载、泛模型更新,控制模块用于收集相关信息,生成模块化任务,自动配置完成泛模型的相关控制逻辑;
- 快速排障模块, 考虑到边缘侧设备通常远离开发维护人员,并且由于本身设计成本考虑,其容错性远远低于传统中央式数据中心,因而需要额外考虑快速排障模块,通过统一化SDK,将监控agent集成至边缘侧设备启动应用,及时上报心跳,管理平台通过心跳及时判断设备是否出现故障,并通过自动化脚本重启相关设备,如遇到无法完成恢复,及时告警给相关责任人,完成线下修复;
- 监控模块, 边缘侧通过agent接口上报运行状态信息,如表计检测中的表计读数,也包括特征的上报日志,如心跳上报日志、模型状态更新日志等等;
基于统一平台的泛模型管理功能,能够快速拿到设备注册信息,如场景、归属单位等,而考虑到边缘设备远大于传统基于service的部署方式,更新模型必然需要“空中下发”,即通过模型管理平台,上载待下发的泛模型文件至统一存储平台后,平台根据待下发的场景或设备标签,生成泛模型下发配置信息,发送到指定场景或者设备标签下的边缘设备,边缘设备集成统一的agent服务,收到泛模型下发配置后,拉取对应泛模型文件,完成泛模型的更新与生效。