Jupyter Notebook同时显示捕获输出及保存变量的技术方案咨询

阿华AIGC实验室

2026-5-21

解决Jupyter Notebook中同时显示富输出、捕获输出并保存变量的问题

这确实是Jupyter Notebook里处理长时任务或不稳定连接（比如SSH断开）时的常见痛点——既要实时看到输出（比如进度条、图表这类富内容），又要确保变量和输出在会话中断后能完整恢复。下面是我验证过的实用方案：

自定义上下文管理器：同时显示+捕获输出+保存变量

我们可以利用IPython的底层API，写一个自定义的上下文管理器，既把输出实时发送到浏览器显示，又把输出内容捕获下来，同时正常赋值变量。

第一步：定义捕获并显示的上下文管理器

from contextlib import contextmanager
from IPython import get_ipython

@contextmanager
def capture_and_display():
    ip = get_ipython()
    if ip is None:
        yield None
        return
    
    # 保存IPython原始的输出发布器
    original_display_pub = ip.display_pub
    captured_outputs = []
    
    def custom_display_handler(*args, **kwargs):
        # 1. 先把输出发送到前端，让你实时看到
        original_display_pub(*args, **kwargs)
        # 2. 同时把输出内容存入列表，用于后续保存
        captured_outputs.append((args, kwargs))
    
    try:
        # 替换成我们自定义的输出处理器
        ip.display_pub = custom_display_handler
        # 把捕获的输出列表返回给用户
        yield captured_outputs
    finally:
        # 执行完后恢复原始的输出处理器
        ip.display_pub = original_display_pub

第二步：使用上下文管理器执行任务并保存数据

# 初始化要保存的变量
my_processed_data = None

# 使用上下文管理器，同时捕获输出并实时显示
with capture_and_display() as captured_outputs:
    # 这里放你的实际任务代码，比如带进度条的处理
    from tqdm.notebook import tqdm
    import time
    
    my_processed_data = []
    for i in tqdm(range(20)):
        time.sleep(0.2)
        my_processed_data.append(i * 1.5)

# 把变量和捕获的输出一起保存到文件（用pickle或joblib）
import pickle
with open('jupyter_session_backup.pkl', 'wb') as f:
    pickle.dump({
        'variable': my_processed_data,
        'captured_outputs': captured_outputs
    }, f)

第三步：SSH断开后恢复变量和输出

当你重新连接Notebook后，可以加载备份文件，恢复变量并重新显示之前的输出：

import pickle
from IPython import get_ipython

# 加载备份数据
with open('jupyter_session_backup.pkl', 'rb') as f:
    backup_data = pickle.load(f)

# 恢复变量
restored_data = backup_data['variable']
# 恢复并显示之前的输出
ip = get_ipython()
for args, kwargs in backup_data['captured_outputs']:
    ip.display_pub(*args, **kwargs)

关键细节说明

兼容性：这个方法对基于IPython display系统的富输出都有效，包括tqdm的Notebook进度条、matplotlib图表、HTML输出、Pandas表格等。
序列化选择：如果你的变量包含复杂对象（比如模型、大型数组），推荐用joblib替代pickle，它对数值型数据的序列化更高效。
定期备份：如果任务运行时间很长，可以在循环中加入定期保存逻辑，避免中途断开丢失全部数据。

内容的提问来源于stack exchange，提问作者Feras