Skip to main content

核心特点

大禹系统提供了构建、部署、调度、观测和扩展云边流数据分析工作流所需的平台能力。这些能力覆盖了流数据分析系统的完整生命周期:应用建模、分布式运行、自适应调度、运行时扩展、内置服务以及实验反馈。

基于 DAG 的 AI 服务流水线

大禹系统将流数据分析应用建模为基于 DAG 的 AI 服务流水线。相比只能表达线性流程的流水线,DAG 能够表示分支、汇合以及不同服务之间的依赖关系,从而支持更复杂的多阶段应用。

例如,一个视频分析工作流可以在同一个逻辑拓扑中组合检测、跟踪、ROI 级分类和识别服务。大禹系统会将这个拓扑映射到运行时处理器和调度决策,使每个逻辑阶段都能根据所选策略完成部署和任务卸载。

面向云边协同的原生运行时

大禹系统面向分布式云边环境设计。其下层系统基于 KubeEdge,大禹定制版 Sedna 和 EdgeMesh 则用于支持云端与边缘节点之间的服务下装和跨设备通信。

大禹系统的运行时组件采用容器化方式组织,并围绕云边协同进行设计。生成器、控制器、处理器、监控器等服务可以运行在异构设备上,因此适合同时包含云服务器、边缘机器和资源受限节点的场景。

自适应调度与任务卸载

调度器负责生成运行时决策,包括数据配置、任务卸载、初始部署、数据源节点选择和循环重部署。这些决策可以控制分辨率、帧率、缓冲区大小、编码行为、执行设备和服务部署位置等参数。

大禹系统内置策略目录,既包含固定策略等基线方法,也包含 Feedback Controlling、Hier-EI 系列、Hedger、CASVA、CEVAS、Chameleon、CRAVE 和自适应模型切换等高级调度策略族。这使同一平台既能支持可复现实验,也能支持新的调度研究。

基于 Hook 的运行时扩展

大禹系统采用基于 hook 的运行时扩展机制。生成器 hook 可以定制帧过滤、帧处理、压缩、数据获取和任务提交前处理;调度器 hook 可以定制配置提取、策略智能体、节点选择、初始部署和重部署;处理器 hook 可以定制服务执行、队列策略和场景特征提取。

监控器和可视化 hook 则扩展系统反馈侧的能力。由于 hook 可以通过模板、YAML 配置和环境变量选择,新的策略和运行时行为可以复用已有服务框架,而不需要重写完整控制流程。

内置 AI 服务目录

大禹系统提供了面向常见视频分析任务的处理器模板和应用服务,包括汽车检测、人脸检测、行人检测、车辆检测,性别、年龄、类别和暴露识别,车牌识别,以及模型切换检测等。

部分服务支持检测加跟踪或 ROI 加速分类模式。处理器模板还暴露 TensorRT 使用等运行时选项,并支持面向不同设备环境的镜像构建,从而帮助大禹系统运行在包括 NVIDIA Jetson 设备在内的异构云边硬件上。

可观测性与实验反馈

大禹系统将结果可视化、系统可视化和日志导出作为平台能力提供。结果可视化可以展示视频帧、ROI 标注、目标数量、端到端时延、服务处理时延、DAG 部署拓扑和 DAG 卸载拓扑等信息。

系统监控覆盖 CPU 使用率、内存使用率、带宽、队列长度、模型 FLOPs、GPU 使用率和调度开销等资源与运行时信号。后端和分发器可以导出结果日志和系统快照,为研究者和运维人员提供离线分析和策略对比所需的数据。

下一步

如需理解这些能力如何协同工作,请阅读系统整体架构。如需尝试运行系统,请从系统准备开始。系统实现可在 Dayu GitHub 仓库中查看。