中关村商情网

搜索
中关村商情网 首页 IT业界 云计算 查看内容

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源

2023-9-15 18:04| 发布者: admin| 查看: 8737| 评论: 0

摘要: 作者:李鹏,王明,施晨,黄俊 导读 随着深度学习大语言模型的不断发展,其模型结构和量级在快速演化,依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗 ...


3)有监督微调

 

在微调开始之前,请先进入

 

https://github.com/alibaba/Pai-Megatron-Patch/blob/main/toolkits/pretrain_data_preprocessing/README.md

 

获取 json 文件。运行 run_finetune_megatron_llama.sh 脚本,需要传入的参数列表如下:

 

ENV=$1                          # 运行环境: dlc, dswMEGATRON_PATH=$2                # 设置开源Megatron的代码路径MEGATRON_PATCH_PATH=$3          # 设置Megatron Patch的代码路径MODEL_SIZE=$4                   # 模型结构参数量级: 7B, 13BBATCH_SIZE=$5                   # 每卡训练一次迭代样本数: 4, 8LR=$6                           # 学习率: 1e-5, 5e-5MIN_LR=$7                       # 最小学习率: 1e-6, 5e-6SEQ_LEN=$8                      # 序列长度PAD_LEN=$9                      # Padding长度:100EXTRA_VOCAB_SIZE=${10}          # 词表扩充大小PR=${11}                        # 训练精度: fp16, bf16TP=${12}                        # 模型并行度PP=${13}                        # 流水并行度AC=${14}                        # 激活检查点模式: sel, fullDO=${15}                        # 是否使用Megatron版Zero-1降显存优化器: true, falseFL=${16}                        # 是否使用Flash Attention: true, falseSP=${17}                        # 是否使用序列并行: true, falseTRAIN_DATASET_PATH=${18}        # 训练数据集路径VALID_DATASET_PATH=${19}        # 验证数据集路径PRETRAIN_CHECKPOINT_PATH=${20}  # 预训练模型路径EPOCH=${21}                     # 训练迭代轮次OUTPUT_BASEPATH=${22}           # 训练输出文件路径
复制代码


多节点运行示例如下所示:


export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/PAI-Megatron-Patch/examples/llama2sh run_finetune_megatron_llama.sh  \dlc    \/root/Megatron-LM-23.04   \${WORK_DIR}/PAI-Megatron-Patch  \7B     \1      \1e-5   \1e-6   \2048   \80     \0      \fp16   \1      \1      \sel    \true   \false  \false  \${WORK_DIR}/llama2-datasets/wudao_train.json   \${WORK_DIR}/llama2-datasets/wudao_valid.json   \${WORK_DIR}/llama2-ckpts/llama2-7b-hf-to-megatron-tp1-pp1   \2   \${WORK_DIR}/output_megatron_llama2/  
复制代码



鲜花

握手

雷人

路过

鸡蛋

最新评论

返回顶部