我们已经准备好了,你呢?

2023我们与您携手共赢,为您的企业形象保驾护航!


喜讯:国内、香港、海外云服务器租用特惠活动,2核/4G/10M仅需31元每月,点击抢购>>>

点击这里点击这里申请百度智能云VIP帐号,立即体验BML>>>

百度智能云全功能AI开发平台BML-自定义作业建模使用训练作业训练模型

使用训练作业训练模型

训练作业训练提供多种开源框架和优质的训练资源。您可以上传代码文件,数据集到BOS对象存储,通过训练作业完成训练后,训练结果会输出到BOS中的指定位置。

基本信息

填写作业名称和备注信息。作业名称填写完成后,训练作业才可以保存。

image.png

算法配置

  1. 选择算法框架:选择训练代码文件使用的算法框架,目前BML支持Paddle,TensorFlow,Pytorch,Sklearn,XGBoost,Blackhole六种主流算法框架

  2. 选择代码文件:从BOS对象存储中选取代码文件,完成代码录入。单击显示框任何位置,都可以打开选择代码文件弹窗,从弹窗中选择bucke及文件夹。双击bucket或者单击『>』图标,即可进入下一级

image.png

  1. 代码文件要求如下:

    • 选取对象可以是一个文件或者文件夹

    • 所选代码文件必须和所选算法框架对应

  2. 输入启动命令,支持python和shell两类脚本:

    • 当代码文件项选择一个单独文件时,启动命令指向该启动文件

    • 当代码文件项选择一个文件夹时,启动命令需指向该文件夹下的特定启动脚本,例如bash bml_job.sh

  3. 选择输出路径:选择输出路径存放训练产生的模型和日志文件。为避免出错,建议您选择空文件夹作为输出路径。日志文件需要打印到标准输出,才能保证系统中『日志』功能能够正常读取。

  4. 可选高级配置。提交训练作业时,可以通过高级配置来自定义环境变量。

    2024-02-04 at 13.42.05@2x.png

    • YAML文件:通过上传YAML文件来配置环境变量,支持本地上传和BOS存储导入两种方式。注意:环境变量最多配置100组,平台将在解析时对超出部分做自动截断处理。

      此外,BML平台亦提供预置环境变量,由BML平台预先定义,不建议您自行覆盖修改。

    • 手动配置:通过手动填写环境变量来配置,包括配置变量名称与对应取值。

预置环境变量

作业类型变量名变量含义示例默认值
Pytorch 作业PYTHONUNBUFFERED控制Python的标准输出和标准错误输出是否被缓冲。'1'代表输出将不会被缓冲00
PET_RDZV_ENDPOINT分布式任务同步服务的地址job-qcu5m5-1984-master-0:23456MASTER_ADDR:MASTER_PORT
PET_NNODES{实例数}:{实例数} ,代表训练任务的节点个数2:2
PET_MAX_RESTARTS训练进程的最大重启次数1000
PET_NPROC_PER_NODE当前节点创建的进程数10
MASTER_PORT分布式任务主节点的端口2345623456
MASTER_ADDR分布式任务主节点的地址job-qcu5m5-1984-master-0主节点名称
NVIDIA_VISIBLE_DEVICES训练节点可见的gpu卡设备GPU-ae58e6cc-1dec-bcb9-820c-e433d01afda6
PaddlePaddle 作业POD_IP当前节点的IP172.16.5.9
PADDLE_TRAINER_ID当前节点的ID,从0开始编号,取值为 0,1,...,(PADDLE_TRAINERS_NUM-1)0
TRAINING_ROLE当前节点的角色PSERVER或TRAINER
PADDLE_TRAINING_ROLE当前节点的角色PSERVER或TRAINER
PADDLE_TRAINERS_NUM分布式训练节点的数量2
PADDLE_TRAINERS所有分布式训练节点的ip,使用逗号 ',' 分隔172.16.5.9,172.16.5.1
PADDLE_TRAINER_ENDPOINTS所有分布式训练节点的ip、端口,取值为【node1-ip:端口, node2-ip:端口】172.16.5.9:43817,172.16.5.1:45492
NVIDIA_VISIBLE_DEVICES训练节点可见的gpu卡设备GPU-ae58e6cc-1dec-bcb9-820c-e433d01afda6
Horovod 作业K_MPI_JOB_ROLE当前节点的角色,取值为worker或者launcherworker或launcher
OMPI_MCA_orte_keep_fqdn_hostnames是否保留FQDN hostnames(全限定域名)truetrue
OMPI_MCA_orte_default_hostfilempirun命令指定hostfile,在平台中可以自动生成hostfile,无需手动修改。/etc/mpi/hostfile/etc/mpi/hostfile
OMPI_MCA_plm_rsh_args训练节点之间ssh连接使用的参数配置"-o ConnectionAttempts=10""-o ConnectionAttempts=10"
NVIDIA_VISIBLE_DEVICES训练节点可见的gpu卡设备GPU-ae58e6cc-1dec-bcb9-820c-e433d01afda6
OMPI_MCA_plm_rsh_agent指定远程代理命令,用于launcher节点给worker节点发送命令。在平台中可以自动生成,无需手动修改。/etc/mpi/kubexec.sh/etc/mpi/kubexec.sh

数据集配置

训练作业数据集配置方式是从BOS中选取数据集。在弹出的对话框中选择数据集对应的bucket和文件夹。

image.png

资源配置

BML提供CPU和GPU两类训练机型。
CPU机型供算法框架为sklearn,XGBoost,Blackhole时使用,用于机器学习训练:

机型规格说明
CPU 4核CPU 4核16GB内存
推荐:TOP云智能建站优惠活动,仅880元即可搭建一个后台管理五端合一的智能网站(PC网站、手机网站、百度智能小程序、微信小程序、支付宝小程序),独享百度搜索SEO优势资源,让你的网站不仅有颜值有排面,更有排名,可以实实在在为您带来效益,请点击进入TOP云智能建站>>>,或咨询在线客服了解详情。 

我们已经准备好了,你呢?

2023我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

131-3501-0006

上班时间

周一到周五

公司电话

130-0743-9476

二维码
线