调优余弦衰减初始与最终学习率：比例控制法是否可行及更佳实践

阿华AIGC实验室

2026-6-12

余弦衰减学习率调度的超参数调优方法解析

你的方案是否有效且符合预期？

你的方法完全符合预期，是一种有效的学习率调度控制方式：

通过初始学习率start_lr乘以比例lr_ratio得到最终学习率final_lr，把「初始LR」和「最终LR相对幅度」这两个超参数解耦，用Optuna的对数均匀采样覆盖合理参数范围，既保留了余弦衰减的平滑下降特性，又能灵活探索不同的衰减幅度。
代码逻辑没问题，CosineAnnealingLR的eta_min参数就是用来设置最终最低学习率的，和你计算final_lr的方式完全匹配，不存在参数误用。

调优初始与最终学习率的更佳实践

除了你的方案，还有几种更灵活或针对性更强的思路：

直接独立调优初始和最终LR：如果不想用比例约束，可以让Optuna分别采样start_lr和final_lr，但要加个final_lr < start_lr的约束，避免出现最终LR高于初始LR的不合理情况：

start_lr = trial.suggest_loguniform("start_lr", 1e-5, 1e-2)
final_lr = trial.suggest_loguniform("final_lr", 1e-9, 1e-3)
# 确保最终学习率小于初始学习率
while final_lr >= start_lr:
    final_lr = trial.suggest_loguniform("final_lr", 1e-9, 1e-3)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=nb_epoch, eta_min=final_lr)

搭配warm-up阶段：如果模型训练初期容易不稳定，可以在余弦衰减前加入warm-up（比如用LinearLR或ConstantLR），同时把warm-up的学习率增长幅度也纳入调参范围，这在大模型训练里很常用。
用带重启的余弦衰减：试试CosineAnnealingWarmRestarts，可以额外调优重启次数和每次重启的学习率衰减比例，适合需要多次探索参数空间的任务。
自适应调度结合余弦衰减：如果不想手动调参，也可以用ReduceLROnPlateau搭配余弦衰减，让学习率根据验证集指标自动调整，但这种方式会降低超参数调优的自由度。