目录
合肥市多元异构算力统一调度服务平台帮助手册
如果如您在使用合肥市多元异构算力统一调度服务平台(以下简称“平台”)的过程中有任何疑问,均可使用本手册快速寻找答案。
一、平台简介
平台是面向开发者,提供的一站式开发服务平台,平台通过对存储、任务、计算资源的抽象,集成了当下主流的AI计算、科学计算、量子计算等主流计算的通用任务流,同时底层提供了GPU、NPU、DCU等各种异构的计算卡资源,开发者可以根据需要灵活使用。
平台的理念就是通过算力异构和统一存储对接,为不同需求的用户提供统一的算力存储服务,解决用户每次需要使用新的计算资源时,都需要去新的平台注册账号、准备数据、配置环境、调试代码等一系列复杂的操作流程。
二、总体业务流程
平台总体流程包括平台注册、业务接洽、合同签订、资源(含服务)订购、服务支撑、交易结算六个关键节点。
- 平台注册:平台通过统一 门户对所有用户开放注册访问,门户展示平台可提供的算力服务能力和产品资费。
- 业务洽谈:算力使用方通过平台提供的联系方式与平台运营方洽谈业务需求,明确所需算力资源和预算。
- 合同签订 :算力使用方确认合作意向后与平台签订销售协议 ,协议明确平台服务内容、金额上限和结算模式 。合同签订后, 由平台运营人员创建算力中心的账号并完成平台账号与算力中心账号的绑定 ,根据合同约定 ,为租户账号完成预充值。
- 资源订购:算力使用方在账号完成预充值后即可使用算力调度平台进行资源订购、开通、变更、退订等操作全生命周期管理。
- 服务支撑:算力使用方在使用算力服务过程中遇到的咨询和故障问题,向平台运营方申 请售后服务支撑 ,平台运营方负责平台本身问题处理 ,并协调算力提供方进行算力产品问题处理。
- 交易结算 :平台按照合同约定的期限结合平台账单 ,定期与算力使用方进行开票结算。同时按照与算力服务商洽谈的结算模式向算力服务商统一结算。
三、计算流程
在平台进行AI算法的训练,我们需要一个这样的流程:
- 创建存储桶;
- 上传数据集(如果使用公开数据集,则跳过);
- 上传模型(如果使用公开模型,则跳过);
- 上传镜像(如果使用官方镜像,则跳过);
- 创建任务:选择训练数据集、模型、镜像,设置运行参数,如计算卡类型、环境变量、启动命令等;
- 运行任务:创建任务成功后等待任务运行;
- 运行结果:可查看作业日志,系统时间,作业输出结果等。
四、功能详细介绍
我们用了几个章节,向你详细介绍每个功能模块的使用,这一部分覆盖平台当前版本的全部功能及使用场景。
-
本章节重点介绍了注册和登录流程。
-
通用服务包含存储管理、数据集管理、模型管理、镜像管理、密钥管理、资源大厅六个模块,核心都是为训练任务提供需要的资源。
- 存储管理: 平台底层异构连接了多个计算中心的存储系统,允许用户通过统一页面在多个计算中心申请存储空间用于存储自己的训练数据,用户可在存储管理页面在各个计算中心通过申请存储桶的方式来申请存储空间,存储桶申请完成后,用户可在存储桶进行文件的上传、下载、删除、新建文件夹等操作。
- 数据集管理: 平台支持用户在平台上管理自己的数据集文件,用户可以在平台上创建自己的数据集。创建数据集需关联计算中心,以及对应计算中心存储桶内的文件路径。
- 模型管理: 平台支持用户在平台上管理自己的模型文件,用户可以在平台上创建自己的模型。创建模型需关联计算中心,以及对应计算中心存储桶内的文件路径。
- 镜像管理: 对于用户的个人化定制环境需求,异构训练平台提供用户自定义镜像的功能,支持用户通过远端镜像地址、在线存为镜像的方式构建自己的自定义镜像。构建镜像后,可在创建训练任务时选择自己的自定义镜像。同时,平台也内置提供了一些在各个计算中心可用的官方训练镜像供用户开箱即用,用户可在官方镜像列表页面查看可用的官方镜像信息。
- 密钥管理: 平台提供了远程ssh至容器的功能,为了保证远程ssh功能的安全性,平台也提供了ssh密钥配置的功能,用户可以在密钥对管理页面创建自己的ssh连接密钥,目前提供系统自动生成和本地密钥导入两种创建方式,创建密钥完成后,可在创建调试任务开启ssh功能时选择此密钥,任务启动成功后,可通过此密钥连接至容器内。
- 资源大厅: 平台提供公开数据集盒模型供用户预览和使用,支持用户查看和检索提供的公开数据集或模型,并支持用户将公开数据集或模型转为私有数据集和模型,在数据集管理和模型管理中可以查看到此数据集和模型。
-
AI计算支持用户创建普通任务、调试任务和分布式任务。
- 普通任务: 平台底层异构连接了多个计算中心,对接了计算中心的计算资源和存储资源,对外统一提供算力服务,用户可在web页面通过勾选配置的方式快速的提交一个AI训练任务,
- 调试任务: 平台提供了调试任务的能力,允许用户开启调试环境来调试自己的训练代码,调试环境启动成功后,可开启jupyter lab页面,在线编辑和调试代码,当然,也支持用户通过ssh的方式远程连接至容器进行调试。
- 分布式任务: 平台提供了分布式训练的能力,支持用户在同一计算中心不同服务器上部署分布式节点,单个分布式节点可配置不同的启动参数,用户只需在页面上完成参数配置,调度器即可自动分配合适的资源启动分布式训练。
-
平台使用算力资源和存储资源时,都会以算力的方式对用户进行结算,用户发生的每笔结算信息,都可在算力明细页面查看,用户可在算力明细页面查看每次消费或充值的信息和详情。
-
平台提供团队管理功能,用于用户之间组建团队,团队创建者可以管理团队成员,团队成员之间可以共享数据、算力资源。
-
平台提供工单功能供用户反馈使用平台时遇到的问题或者希望提交的建议,用户可以在工单模块通过提交工单的方向向管理员资源平台使用问题或反馈建议。