TensorFlow类NER序列标注：无需序列化TFRecord直接构建SequenceExample数据集

TensorFlow类NER序列标注：无需序列化TFRecord直接构建SequenceExample数据集

阿华AIGC实验室

2026-5-27

针对TensorFlow序列标注任务tf.data使用问题的解决方案

嘿，针对你在TensorFlow类NER序列标注任务中使用tf.data时遇到的两个问题，我来分享几个实用的解决方案，都是我实际项目里用过的：

问题1：无需序列化SequenceExample到TFRecord直接创建Dataset

完全不用先把数据存成TFRecord，有两种非常便捷的方式可以直接构建Dataset，完美适配变长序列：

方式1：用RaggedTensor配合`tf.data.Dataset.from_tensor_slices()`

TensorFlow的RaggedTensor就是专门为不等长序列设计的，它能保留每个序列的原始长度信息，而且可以直接传入from_tensor_slices创建Dataset：

import tensorflow as tf

# 假设你的训练数据是不等长的特征和标签列表
train_features = [[1, 2, 3], [4, 5], [6, 7, 8, 9]]
train_labels = [[0, 1, 0], [1, 0], [0, 0, 1, 0]]

# 转换为RaggedTensor
ragged_features = tf.ragged.constant(train_features)
ragged_labels = tf.ragged.constant(train_labels)

# 直接创建Dataset
dataset = tf.data.Dataset.from_tensor_slices((ragged_features, ragged_labels))

# 后续处理：打乱、批处理（可选dense_to_ragged_batch保留RaggedTensor格式，或padded_batch转成普通Tensor）
dataset = dataset.shuffle(buffer_size=100).apply(tf.data.experimental.dense_to_ragged_batch(batch_size=3))

这种方式最简洁，完全绕开了序列化存储的步骤，后续批处理也很灵活——既可以保留RaggedTensor格式，也可以转成填充后的普通Tensor。

方式2：用`tf.data.Dataset.from_generator()`

如果你的数据是从自定义数据源读取（比如内存列表、文本文件逐行解析），from_generator的自由度更高。你只需要写一个生成器函数，逐个返回样本的特征和标签序列：

def data_generator(features, labels):
    for feat, lab in zip(features, labels):
        yield feat, lab

# 创建Dataset时指定输出的类型和形状（None表示序列长度可变）
dataset = tf.data.Dataset.from_generator(
    lambda: data_generator(train_features, train_labels),
    output_signature=(
        tf.TensorSpec(shape=(None,), dtype=tf.int32),
        tf.TensorSpec(shape=(None,), dtype=tf.int32)
    )
)

# 后续处理：打乱、填充批处理
dataset = dataset.shuffle(buffer_size=100).padded_batch(
    batch_size=3,
    padded_shapes=([None], [None])  # 指定每个维度的填充形状
)

这种方式不需要提前把所有数据加载到内存，适合处理大规模数据集，同样不需要序列化到TFRecord。

问题2：预测时处理新的变长序列，避免冗余序列化

预测场景下确实完全没必要走TFRecord流程，直接用上面的方法就能快速构建预测用的Dataset：

处理单条/少量新数据

如果是少量待预测的变长序列，直接用from_tensor_slices配合padded_batch或者RaggedTensor即可：

# 假设新的待预测数据
new_samples = [[10, 11], [12, 13, 14], [15]]

# 方法1：用RaggedTensor构建Dataset
ragged_samples = tf.ragged.constant(new_samples)
predict_dataset = tf.data.Dataset.from_tensor_slices(ragged_samples).batch(3)

# 方法2：直接用padded_batch自动填充
predict_dataset = tf.data.Dataset.from_tensor_slices(new_samples).padded_batch(
    batch_size=3,
    padded_shapes=[None]
)

处理批量新数据

如果是从文件或数据库读取的批量新数据，用from_generator来逐行解析生成样本即可，逻辑和训练时类似，只是不需要返回标签：

def predict_data_generator(file_path):
    with open(file_path, 'r') as f:
        for line in f:
            # 解析每行数据为变长序列
            seq = list(map(int, line.strip().split()))
            yield seq

predict_dataset = tf.data.Dataset.from_generator(
    lambda: predict_data_generator("new_data.txt"),
    output_signature=tf.TensorSpec(shape=(None,), dtype=tf.int32)
).batch(3)

小提示：如果你的模型输出需要忽略填充部分，可以在预测时记录每个样本的原始长度，或者在模型中加入掩码层，这样就能得到准确的序列标注结果。

内容的提问来源于stack exchange，提问作者Vilmar

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠