Huggingface 多机多卡训练
huggingface
本文字数:89 字 | 阅读时长 ≈ 1 min

Huggingface 多机多卡训练

huggingface
本文字数:89 字 | 阅读时长 ≈ 1 min

运行一下脚本获取 hostfile

import os

node_ip_list = os.environ["NODE_IP_LIST"].split(',')
gpu_per_node = int(os.environ["HOST_GPU_NUM"])

with open('hostfile', 'w') as f:
    for node_ip in node_ip_list:
        node_ip = node_ip.split(":")[0]
        f.write("{} slots={}".format(node_ip, gpu_per_node))
        f.write(os.linesep)

在 main 节点使用 deepspeed 命令时加入 hostfile 参数即可

echo $CHIEF_IP
deepspeed --master_addr=$CHIEF_IP \
    --hostfile xxx/hostfile xxx.py \
    --deepspeed ./scripts/zero2.json \
    xxx