集群管理
可以对集群进行健康监控以保障集群的稳定、高效与高可用性。
✅集群管理
👉集群概览
-👉 智算中心-->集群概览
- 展示集群的基础信息(ID、代码、监控地址等),还有 vGPU、算力、显存的分配率与使用率等显卡资源指标,以及节点、显卡数量等资源总览,同时呈现了资源分配和使用趋势,还有节点资源分配、使用率排行等内容。

👉集群管理
👉智算中心-->集群管理
集群管理界面,显示集群在线个数,列出了集群名称、状态、代码、所在区域、状态、Kubernetes 版本号、节点数、创建时间等信息,还可进行上线、编辑、删除、上架产品等操作,右上角有 “导入集群” 按钮。

👉导入集群
- “导入集群” 的配置界面,需填写集群名称、代码(有格式限制)、区域、Kubernetes 版本号等必填项,还可设置集群监控地址、算力供应商、管理员,配置 KubeConfig,最后可选择 “取消” 或 “保存” 操作。

👉上架产品
👉智算中心->集群管理->集群详情:上架产品
展示已上架产品信息,包括显存、CPU 核数、CPU 内存、规格描述、存储大小等,还可进行 “下架” 操作,也能点击 “+ 上架算力资源” 添加新的算力资源产品。

✅节点监控
👉节点监控
👉智算中心-->智算节点
节点管理界面,图表展示节点显卡厂商、 vGPU 分配率及算力使用率; IP、状态、系统架构、系统、显卡型号、vGPU、算力、显存等,可 “查看详情”,还支持按 IP、节点状态、显卡型号搜索节点。

👉节点详情
- 对集群节点状态的监控,展示节点状态、IP 地址、UUID 等详细信息,还有 CPU 使用率和内存使用率的实时数据及相关时间范围统计。

✅显卡监控
👉显卡监控
👉智算中心-->智算显卡
显卡管理界面,展示节点显卡厂商分布、显卡资源分配率 Top5、显卡资源使用率 Top5 等图表,展示显卡的 ID、状态、使用模式、所属节点、型号、vGPU 量、算力分配及显存分配等信息,还可对显卡进行 “查看详情” 操作。

👉显卡详情
- 对显卡的性能、功耗进行实时监控,展示显卡的实时监控详情,包括显卡状态、ID、所属节点等信息,还有算力分配率、显存分配率等性能指标,以及 GPU 功率、温度,同时呈现了资源分配和使用趋势。

✅任务监控
👉任务监控
- 任务管理界面,展示任务数量分布 、任务资源申请、多个任务 Pod 实例名称、业务 ID、任务状态(均为运行中)、所属节点、分配 vGPU、算力、显存及创建时间等;可通过任务名称、节点名称等搜索任务,还可查看任务详情。

👉任务详情
- 任务详情界面,显示任务的状态,所属节点、显存,显卡类型、分配算力、算力使用率、显存使用率,以及算力和显存使用趋势图,展示任务在特定时间段内的资源使用变化情况。
