4)离线推理 模型训练完成后,可以进行离线推理,评估模型效果。根据上面的训练流程不同,我们提供了 Megatron 格式的推理链路。对于 Megatron 训练的模型,可以直接用 Megatron 框架进行推理。 复制代码
https://atp-modelzoo-wlcb-pai.oss-cn-wulanchabu.aliyuncs.com/release/models/ pai-megatron-patch/llama2-datasets/pred_input.jsonl
以下有监督微调过程保存模型的推理代码,需要将 run_text_generation_megatron_llama.sh 脚本中 CUDA_VISIBLE_DEVICES 参数设置为 0;GPUS_PER_NODE 参数设置为 1;同时使用下列代码进行推理。此时使用单卡进行推理。注意:此处模型 tp 为 1,可使用单卡推理;如果 tp>1,则需使用相应卡数进行推理。 复制代码 4. 大模型强化学习 一般来说,SFT 微调过的模型在对话场景已经会有不错的表现了。如果想进一步提升模型效果,可以再加上 RLHF 训练。包括奖励模型(Reward Model)的训练和强化学习(PPO)的训练。这里展示了如何使用当前最常用的 RLHF 开源代码框架,DeepSpeed-Chat 和 trlx,来进行奖励函数训练(RM),以及强化学习优化(PPO)。 |