中关村商情网 › 首页 ›IT业界› 云计算 › 查看内容

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源

2023-9-15 18:04| 发布者: admin| 查看: 9911| 评论: 0

摘要: 作者：李鹏，王明，施晨，黄俊导读随着深度学习大语言模型的不断发展，其模型结构和量级在快速演化，依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗 ...

Step3: 词表扩充

扩充模型 tokenizer：将 randeng-sp.model 中的词表添加到 llama-13b-hf 文件夹下 tokenizer.model 中

扩充模型词表对应的参数矩阵

word_embedding、lm_head

新词向量可以使用原词向量均值作为初始化，比如“天气”=mean([“天”，“气”])

修改与词表大小相关的文件并保存，如 config.json

运行继续预训练脚本 run_pretrain_megatron_llama.sh，需要传入的参数列表如下：

ENV=$1                          # 运行环境: dlc, dswMEGATRON_PATH=$2                # 设置开源Megatron的代码路径MEGATRON_PATCH_PATH=$3          # 设置Megatron Patch的代码路径MODEL_SIZE=$4                   # 模型结构参数量级：7B, 13BBATCH_SIZE=$5                   # 每卡训练一次迭代样本数: 4, 8GLOBAL_BATCH_SIZE=$6            # 全局batch sizeLR=$7                           # 学习率: 1e-5, 5e-5MIN_LR=$8                       # 最小学习率: 1e-6, 5e-6SEQ_LEN=$9                      # 序列长度PAD_LEN=${10}                   # Padding长度：100EXTRA_VOCAB_SIZE=${11}          # 词表扩充大小PR=${12}                        # 训练精度: fp16, bf16TP=${13}                        # 模型并行度PP=${14}                        # 流水并行度AC=${15}                        # 激活检查点模式: sel, fullDO=${16}                        # 是否使用Megatron版Zero-1降显存优化器: true, falseFL=${17}                        # 是否使用Flash Attention: true, falseSP=${18}                        # 是否使用序列并行: true, falseSAVE_INTERVAL=${19}             # 保存ckpt的间隔DATASET_PATH=${20}              # 训练数据集路径PRETRAIN_CHECKPOINT_PATH=${21}  # 预训练模型路径TRAIN_TOKENS=${22}              # 训练token数WARMUP_TOKENS=${23}             # 预热token数OUTPUT_BASEPATH=${24}           # 训练输出文件路径

复制代码

注意设置正确的数据集挂载路径 WORK_DIR 以及运行环境 ENV，运行示例如下所示：

export WORK_DIR=/mnt/workspacecd ${WORK_DIR}/PAI-Megatron-Patch/examples/llama2bash run_pretrain_megatron_llama.sh \dlc \/root/Megatron-LM-23.04   \${WORK_DIR}/PAI-Megatron-Patch  \7B   \1    \16   \1e-5   \ 1e-6   \2048  \80  \0   \fp16  \1  \1  \sel  \true   \false  \false  \100000   \${WORK_DIR}/llama2-datasets/wudao/wudao_llamabpe_text_document   \${WORK_DIR}/llama2-ckpts/llama2-7b-hf-to-megatron-tp1-pp1   \100000000   \10000   \${WORK_DIR}/output_megatron_llama2/

复制代码

1 234 5 6 7 / 7 页下一页

鲜花

握手

雷人

路过

鸡蛋

上一篇：MaxCompute发布按量付费闲时版，计算成本最高节省66.66%下一篇：CV领域再创佳绩！阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源

最新评论

相关分类