Python读取模型训练数据TXT文件，避免内容转为字符串

阿华AIGC实验室

2026-5-19

解决TXT文件中训练样本读取为字符串的问题

嘿，我明白你的问题了——你把训练样本存在TXT里，用常规方法读出来全是字符串，模型根本没法用对吧？其实问题不是Python做了“字符串格式化”，而是你需要把这些字符串形式的样本转换成Python能识别的实际数据结构（比如列表、字典这类）。给你几个靠谱的解决方案：

1. 用`ast.literal_eval()`安全解析Python字面量

如果你的每个训练样本本身就是合法的Python数据结构（比如每行是一个{'feature': [1,2,3], 'label': 0}这样的字典，或者列表），这是最安全的方法。它只会解析Python的字面量，不会执行任何恶意代码，比直接用eval()靠谱多了。

示例代码：

import ast

training_data = []
# 替换成你的文件路径
with open('training_samples.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # 去掉每行末尾的换行符和前后空白
        cleaned_line = line.strip()
        # 跳过空行
        if cleaned_line:
            # 把字符串解析成实际的Python对象
            sample = ast.literal_eval(cleaned_line)
            training_data.append(sample)

2. 用`json.loads()`解析JSON格式样本

如果你的样本是JSON格式（注意JSON要求键用双引号，不能用单引号），可以直接用JSON模块来解析，这也是非常安全的方式。

示例代码：

import json

training_data = []
with open('training_samples.txt', 'r', encoding='utf-8') as f:
    for line in f:
        cleaned_line = line.strip()
        if cleaned_line:
            sample = json.loads(cleaned_line)
            training_data.append(sample)

3. 自定义解析（针对非标准结构）

如果你的样本结构比较特殊，既不是Python字面量也不是JSON，那你可能需要自己写解析逻辑，比如用正则表达式提取关键字段，或者按特定分隔符拆分字符串后转换类型。举个简单例子，假设每行是特征1,特征2,标签这样的格式：

training_data = []
with open('training_samples.txt', 'r', encoding='utf-8') as f:
    for line in f:
        cleaned_line = line.strip()
        if cleaned_line:
            feat1, feat2, label = cleaned_line.split(',')
            # 转换成对应的数值类型
            sample = [float(feat1), float(feat2), int(label)]
            training_data.append(sample)