如何测试TensorFlow 2.3.0在GPU上的运行速度并对比性能？

如何测试TensorFlow 2.3.0在GPU上的运行速度并对比性能？

阿华AIGC实验室

2026-5-9

TensorFlow 2.3.0 GPU性能测试指南（适配你的1060+Win10环境）

嘿，刚好你用的是TF2.3.0，我给你整理了几个适配这个版本的实用测试方法，专门用来对比两台电脑的性能，完全能替代旧版的基准工具：

一、先确认GPU环境正常（避免白忙活）

首先先跑个简单的代码，确认TensorFlow真的识别到你的1060显卡了，避免后续测试因为环境问题出偏差：

import tensorflow as tf
print("TensorFlow版本:", tf.__version__)
print("系统识别的GPU列表:", tf.config.list_physical_devices('GPU'))
print("GPU是否可被TF调用:", tf.test.is_gpu_available())

如果输出里能看到你的NVIDIA GeForce 1060，说明环境没问题，可以继续。

二、快速上手的性能测试代码（适合对比两台电脑）

这个方法不需要额外下载数据集，用随机生成的模拟数据，两台电脑可以完全复用同一套代码，保证测试条件绝对公平，能直观对比训练和推理速度：

import tensorflow as tf
import time

# 定义一个接近真实场景的测试模型（卷积网络，和你平时用的结构类似）
def build_test_model():
    model = tf.keras.Sequential([
        tf.keras.layers.Conv2D(32, (3,3), activation='relu', input_shape=(224,224,3)),
        tf.keras.layers.MaxPooling2D((2,2)),
        tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
        tf.keras.layers.MaxPooling2D((2,2)),
        tf.keras.layers.Conv2D(128, (3,3), activation='relu'),
        tf.keras.layers.MaxPooling2D((2,2)),
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(512, activation='relu'),
        tf.keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])
    return model

# 生成模拟训练数据（不用下载真实数据集，直接在内存生成）
def generate_test_data(batch_size=32):
    x = tf.random.normal((1000, 224, 224, 3))
    y = tf.random.uniform((1000,), minval=0, maxval=10, dtype=tf.int32)
    return tf.data.Dataset.from_tensor_slices((x, y)).batch(batch_size)

if __name__ == "__main__":
    # 初始化模型和数据
    model = build_test_model()
    train_data = generate_test_data()
    
    # 先预热GPU！第一次运行会加载CUDA内核，耗时偏高，预热后的数据才准确
    print("正在预热GPU，请稍等...")
    model.train_on_batch(tf.random.normal((32,224,224,3)), tf.random.uniform((32,), 0,10,tf.int32))
    
    # 测试训练速度
    print("\n开始测试训练速度...")
    start_time = time.time()
    model.fit(train_data, epochs=5, verbose=1)
    total_time = time.time() - start_time
    print(f"5轮训练总耗时: {total_time:.2f}秒，平均每轮耗时: {total_time/5:.2f}秒")
    
    # 测试推理速度（比如预测图片的速度）
    print("\n开始测试推理速度...")
    test_input = tf.random.normal((100,224,224,3))  # 一次性测试100个样本
    start_time = time.time()
    predictions = model.predict(test_input, verbose=0)
    infer_time = time.time() - start_time
    print(f"100个样本推理耗时: {infer_time:.4f}秒，单样本平均耗时: {infer_time/100:.6f}秒")

怎么用？

把这段代码复制到两台电脑上，确保两台电脑的TF版本、Python版本、CUDA/CUDNN版本完全一致；
关闭两台电脑上所有占用GPU的程序（比如游戏、其他AI训练任务）；
分别运行代码，记录输出的训练和推理耗时，直接对比数值就行。

三、更专业的基准测试（适合严谨对比）

如果需要更精准的统计数据（比如多次运行取平均、计算方差），可以用TensorFlow官方的tf.test.Benchmark类，它会输出标准化的基准报告：

import tensorflow as tf
import time

class MyModelBenchmark(tf.test.Benchmark):
    def benchmark_train_speed(self):
        model = self._build_model()
        data = self._generate_data()
        # 预热GPU
        model.train_on_batch(tf.random.normal((32,224,224,3)), tf.random.uniform((32,),0,10,tf.int32))
        
        # 多次运行取平均，减少系统波动影响
        run_times = []
        for _ in range(5):
            start = time.time()
            model.fit(data, epochs=1, verbose=0)
            run_times.append(time.time() - start)
        
        # 输出标准化报告
        self.report_benchmark(
            iters=5,
            wall_time=sum(run_times)/len(run_times),
            name='gpu_train_speed_benchmark'
        )
    
    def _build_model(self):
        # 和之前相同的测试模型
        model = tf.keras.Sequential([
            tf.keras.layers.Conv2D(32, (3,3), activation='relu', input_shape=(224,224,3)),
            tf.keras.layers.MaxPooling2D((2,2)),
            tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
            tf.keras.layers.MaxPooling2D((2,2)),
            tf.keras.layers.Conv2D(128, (3,3), activation='relu'),
            tf.keras.layers.MaxPooling2D((2,2)),
            tf.keras.layers.Flatten(),
            tf.keras.layers.Dense(512, activation='relu'),
            tf.keras.layers.Dense(10, activation='softmax')
        ])
        model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
        return model
    
    def _generate_data(self):
        x = tf.random.normal((1000,224,224,3))
        y = tf.random.uniform((1000,),0,10,tf.int32)
        return tf.data.Dataset.from_tensor_slices((x,y)).batch(32)

if __name__ == "__main__":
    tf.test.main()

运行后会输出标准化的性能统计结果，方便你做严谨的跨设备对比。

四、对比时的注意事项（保证结果公平）

两台电脑必须使用完全相同的软件环境：TF2.3.0、Python3.5、CUDA/CUDNN版本，甚至显卡驱动版本最好也一致；
测试时关闭所有后台占用GPU/CPU的程序，避免资源被抢占；
尽量多次测试取平均值，单次运行可能受系统临时波动影响；
如果你的实际业务有特定的模型/数据集，建议替换代码里的模型和数据，这样的对比结果更贴合你的真实使用场景。

关于你的提问的小建议

你的提问已经非常清晰了！如果要进一步优化的话，可以补充：

两台电脑的其他硬件参数（比如CPU型号、内存大小），这样能更全面地分析性能差异的原因；
你主要关注的是训练速度还是推理速度，可以让回答更有针对性。

内容的提问来源于stack exchange，提问作者SebNik

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠