TensorFlow 2.0中Keras与AutoGraph、Eager执行及训练性能疑问

阿华AIGC实验室

2026-5-13

嘿，这两个问题都问到点子上了，我来给你逐一拆解清楚：

问题1：TensorFlow 2.0中使用Keras时是否在执行Eager代码？

首先明确：TensorFlow 2.x默认就开启了Eager Execution，不管你是直接用原生TF API还是基于Keras开发。不过这里有个容易混淆的点——Keras的fit()方法在训练模型主体（前向传播、反向传播、参数更新）时，会通过AutoGraph自动把这部分逻辑转换成图模式执行，以此提升性能，但回调函数的代码是在Eager模式下运行的！

这就是为什么你在TrainHistory的on_batch_end里能顺利调用.numpy()而没报错：回调的钩子函数（比如on_train_begin、on_batch_end）是用来和Python环境交互的（比如记录变量、打印日志、保存模型），TensorFlow特意让这部分保持Eager执行，方便你直接获取张量的实际数值。

你可以自己验证一下：在回调函数里加一行print(tf.executing_eagerly())，运行后肯定会输出True，这就实锤了回调处于Eager上下文。

问题2：从性能角度，tf.function装饰的自定义训练+GradientTape是否比Keras fit()更优？

结论是：没有绝对的“更优”，得看你的具体场景，但大多数情况下两者性能差异不大，甚至fit()会更省心

具体来说：

Keras的fit()底层其实已经封装了tf.function和GradientTape，它的训练循环是官方经过大量优化的实现，性能已经足够出色。
如果你用tf.function装饰自己的训练函数，理论上能做更细粒度的控制，但如果你的自定义逻辑和fit()的默认流程差异不大，性能提升微乎其微——甚至如果你的自定义代码写得不够规范（比如在tf.function里混入了大量Python侧的操作），反而会拖慢速度。
你看到的“长时间训练下差异显著”的情况，通常不是tf.function本身的功劳，而是自定义训练里做了一些fit()默认没覆盖的优化：比如更高效的批量处理逻辑、混合精度的精细调优，或者避开了fit()通用逻辑带来的少量额外开销。这些是自定义逻辑的优势，而非tf.function对比fit()的天然优势。
如果你不需要特殊的训练逻辑（比如自定义梯度计算、复杂的多任务训练流程、动态调整学习率的特殊策略），优先用fit()就好——代码简洁、官方维护，还不容易出错。只有当fit()满足不了你的定制需求时，再考虑自定义训练循环+tf.function。