基于线性规划求解类匹配便士型2×2×2三人博弈的混合策略

阿华AIGC实验室

2026-4-22

嘿，针对你这个类匹配便士的三人2×2×2博弈问题，我来给你梳理下用线性规划求解混合策略的实操思路——毕竟你明确说了不想用双人博弈里的无差异原则，那线性规划就是个非常合适的通用框架，完全适配你这种暂时不想代入具体a_i数值的通用场景。

首先先把咱们的博弈设定再明确下，避免歧义：

三个玩家A、B、C，每个玩家只有两个策略：X和Y，对应选择概率分别为p、q、r（选Y的概率就是1-p、1-q、1-r）
收益结构：括号里的收益顺序是(A,B,C)，α∈(0,1)用来缩放A和B的收益，A和B的收益完全对称，且所有a_i>0
已知没有纯策略纳什均衡，也不存在占优策略

接下来重点说线性规划的构建逻辑：三人博弈的混合策略纳什均衡，核心是每个玩家的混合策略都得是对另外两个玩家策略的最优反应。线性规划的思路是用「最大化最小收益」的思路（也就是极小极大定理的应用），帮每个玩家找到能保证自己获得最高最低收益的策略，再通过三个玩家的最优反应互相匹配找到均衡。

玩家A的线性规划模型

玩家A要找混合策略(p,1-p)，使得不管B和C怎么选，自己的期望收益都不低于某个值v_A，同时要让这个v_A尽可能大。先列出A在B、C所有策略组合下的期望收益：

B选X、C选X：$E_A(XX) = \alpha a_1 p + \alpha a_2 (1-p)$
B选X、C选Y：$E_A(XY) = \alpha a_3 p + \alpha a_4 (1-p)$
B选Y、C选X：$E_A(YX) = \alpha a_5 p + \alpha a_6 (1-p)$
B选Y、C选Y：$E_A(YY) = \alpha a_7 p + \alpha a_8 (1-p)$

对应的线性规划模型可以写成：

目标函数：max v_A
约束条件：
1. αa₁p + αa₂(1-p) ≥ v_A
2. αa₃p + αa₄(1-p) ≥ v_A
3. αa₅p + αa₆(1-p) ≥ v_A
4. αa₇p + αa₈(1-p) ≥ v_A
5. 0 ≤ p ≤ 1

小贴士：因为α>0，所有约束两边可以直接除以α，不改变不等式方向，这样能简化计算，不用带着α到处跑~

玩家B的线性规划模型

因为A和B的收益完全对称，B的模型结构和A完全一致，只是把变量p换成q，对应的收益系数换成B的对称项（比如A在(X,Y,X)的收益对应B在(Y,X,X)的收益），目标是最大化自己的最小收益v_B：

目标函数：max v_B
约束条件：
1. αa₁q + αa₅(1-q) ≥ v_B  # 这里的系数是根据对称性调整的，你可以根据具体收益矩阵对应替换
2. αa₃q + αa₇(1-q) ≥ v_B
3. αa₂q + αa₆(1-q) ≥ v_B
4. αa₄q + αa₈(1-q) ≥ v_B
5. 0 ≤ q ≤ 1

玩家C的线性规划模型

C的收益不受α影响，直接是a_i。同样用最大化最小收益的思路，列出C在A、B所有策略组合下的期望收益：

A选X、B选X：$E_C(XX) = a_1 r + a_3 (1-r)$
A选X、B选Y：$E_C(XY) = a_2 r + a_4 (1-r)$
A选Y、B选X：$E_C(YX) = a_5 r + a_6 (1-r)$
A选Y、B选Y：$E_C(YY) = a_7 r + a_8 (1-r)$

对应的线性规划模型：

目标函数：max v_C
约束条件：
1. a₁r + a₃(1-r) ≥ v_C
2. a₂r + a₄(1-r) ≥ v_C
3. a₅r + a₆(1-r) ≥ v_C
4. a₇r + a₈(1-r) ≥ v_C
5. 0 ≤ r ≤ 1

如何找到纳什均衡？

刚才的单个玩家模型是给定另外两个玩家策略时的最优反应，要找均衡的话，需要让三个玩家的策略互相满足最优反应条件：

先假设我们找对称均衡（因为A、B对称，大概率存在p*=q*的均衡），可以令p=q，把变量减少到p和r，再结合三个玩家的最优反应约束构建联合模型
或者分别求解每个玩家的最优反应函数（比如给定q和r，解出A的最优p；给定p和r，解出B的最优q；给定p和q，解出C的最优r），然后找三个函数的交点，这就是均衡策略组合