Hermes爱马仕模型微调实战记录

记录一下用Hermes微调Qwen2.5-7B的过程： ### 数据准备 - 收集了5000条高质量对话数据 - 格式：instruction + output对 - 数据质量 > 数据数量，1000条精选 > 10000条粗筛 ### 训练配置 - LoRA rank: 16 - Learning rate: 2e-5 - Epochs: 3 - Batch size: 4 - GPU: A100 40GB ### 训练时间 - 全量: 约6小时 - LoRA: 约2小时 ### 效果评估 - 通用对话：明显提升 - 代码生成：持平 - 数学推理：略有下降 ### 经验总结 1. 数据清洗是最重要的步骤 2. LoRA足够大多数场景 3. 评估要用多个维度 4. 过拟合比欠拟合更可怕