Python代码生成数据异常求助：状态与奖励规则不符

阿华AIGC实验室

2026-5-26

解决Markov决策过程表格数据生成问题

首先，咱们来拆解你遇到的核心问题：要满足三个规则的关键在于提前缓存状态-动作-下一状态组合的奖励，以及严格过滤当前与下一状态相同的违规情况。下面是完全符合要求的Python代码，附带详细说明：

核心设计思路

先明确固定的状态、动作集合（可按需修改）
用字典缓存(当前状态, 动作, 下一状态)对应的奖励，确保相同组合奖励绝对一致
生成下一状态时，直接排除与当前状态相同的选项，从根源避免违规

完整可运行代码

import random

# 自定义配置项（可根据需求修改）
STATES = ['A', 'B', 'C']
ACTIONS = ['move', 'stay', 'jump']
REWARD_MIN, REWARD_MAX = -10, 10
NUM_GENERATED_ROWS = 20

# 缓存奖励的核心字典：键是(当前状态, 动作, 下一状态)，值是对应的固定奖励
reward_cache = {}

def generate_valid_transition():
    # 随机选当前状态
    current_state = random.choice(STATES)
    # 生成合法下一状态：排除和当前状态相同的选项
    valid_next_states = [s for s in STATES if s != current_state]
    next_state = random.choice(valid_next_states)
    # 随机选动作
    action = random.choice(ACTIONS)
    
    # 检查缓存：没有该组合就生成随机奖励并存入，有则直接读取
    transition_key = (current_state, action, next_state)
    if transition_key not in reward_cache:
        reward_cache[transition_key] = random.randint(REWARD_MIN, REWARD_MAX)
    
    return current_state, action, next_state, reward_cache[transition_key]

# 生成表格数据
table_rows = [generate_valid_transition() for _ in range(NUM_GENERATED_ROWS)]

# 打印格式化结果（也可导出为CSV/Excel）
print("当前状态 | 动作   | 下一状态 | 奖励")
print("--------|-------|----------|------")
for row in table_rows:
    print(f"{row[0]}      | {row[1]} | {row[2]}        | {row[3]}")

关键规则的实现细节

状态合法性控制：通过列表推导式valid_next_states = [s for s in STATES if s != current_state]，直接把和当前状态相同的选项从下一状态候选池中剔除，彻底杜绝当前与下一状态相同的情况
奖励一致性保证：reward_cache字典会永久存储每一个合法组合的奖励值，第一次生成时随机赋值，后续再遇到完全相同的组合时直接读取缓存，确保奖励绝对一致
随机性保证：每次生成时都会随机选择当前状态、合法下一状态和动作，每次运行程序都会得到不同的表格数据