You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

基于线性规划求解类匹配便士型2×2×2三人博弈的混合策略

基于线性规划求解类匹配便士型2×2×2三人博弈的混合策略

嘿,针对你这个类匹配便士的三人2×2×2博弈问题,我来给你梳理下用线性规划求解混合策略的实操思路——毕竟你明确说了不想用双人博弈里的无差异原则,那线性规划就是个非常合适的通用框架,完全适配你这种暂时不想代入具体a_i数值的通用场景。

首先先把咱们的博弈设定再明确下,避免歧义:

  • 三个玩家A、B、C,每个玩家只有两个策略:X和Y,对应选择概率分别为p、q、r(选Y的概率就是1-p、1-q、1-r)
  • 收益结构:括号里的收益顺序是(A,B,C),α∈(0,1)用来缩放A和B的收益,A和B的收益完全对称,且所有a_i>0
  • 已知没有纯策略纳什均衡,也不存在占优策略

接下来重点说线性规划的构建逻辑:三人博弈的混合策略纳什均衡,核心是每个玩家的混合策略都得是对另外两个玩家策略的最优反应。线性规划的思路是用「最大化最小收益」的思路(也就是极小极大定理的应用),帮每个玩家找到能保证自己获得最高最低收益的策略,再通过三个玩家的最优反应互相匹配找到均衡。

玩家A的线性规划模型

玩家A要找混合策略(p,1-p),使得不管B和C怎么选,自己的期望收益都不低于某个值v_A,同时要让这个v_A尽可能大。先列出A在B、C所有策略组合下的期望收益:

  • B选X、C选X:$E_A(XX) = \alpha a_1 p + \alpha a_2 (1-p)$
  • B选X、C选Y:$E_A(XY) = \alpha a_3 p + \alpha a_4 (1-p)$
  • B选Y、C选X:$E_A(YX) = \alpha a_5 p + \alpha a_6 (1-p)$
  • B选Y、C选Y:$E_A(YY) = \alpha a_7 p + \alpha a_8 (1-p)$

对应的线性规划模型可以写成:

目标函数:max v_A
约束条件:
1. αa₁p + αa₂(1-p) ≥ v_A
2. αa₃p + αa₄(1-p) ≥ v_A
3. αa₅p + αa₆(1-p) ≥ v_A
4. αa₇p + αa₈(1-p) ≥ v_A
5. 0 ≤ p ≤ 1

小贴士:因为α>0,所有约束两边可以直接除以α,不改变不等式方向,这样能简化计算,不用带着α到处跑~

玩家B的线性规划模型

因为A和B的收益完全对称,B的模型结构和A完全一致,只是把变量p换成q,对应的收益系数换成B的对称项(比如A在(X,Y,X)的收益对应B在(Y,X,X)的收益),目标是最大化自己的最小收益v_B:

目标函数:max v_B
约束条件:
1. αa₁q + αa₅(1-q) ≥ v_B  # 这里的系数是根据对称性调整的,你可以根据具体收益矩阵对应替换
2. αa₃q + αa₇(1-q) ≥ v_B
3. αa₂q + αa₆(1-q) ≥ v_B
4. αa₄q + αa₈(1-q) ≥ v_B
5. 0 ≤ q ≤ 1

玩家C的线性规划模型

C的收益不受α影响,直接是a_i。同样用最大化最小收益的思路,列出C在A、B所有策略组合下的期望收益:

  • A选X、B选X:$E_C(XX) = a_1 r + a_3 (1-r)$
  • A选X、B选Y:$E_C(XY) = a_2 r + a_4 (1-r)$
  • A选Y、B选X:$E_C(YX) = a_5 r + a_6 (1-r)$
  • A选Y、B选Y:$E_C(YY) = a_7 r + a_8 (1-r)$

对应的线性规划模型:

目标函数:max v_C
约束条件:
1. a₁r + a₃(1-r) ≥ v_C
2. a₂r + a₄(1-r) ≥ v_C
3. a₅r + a₆(1-r) ≥ v_C
4. a₇r + a₈(1-r) ≥ v_C
5. 0 ≤ r ≤ 1

如何找到纳什均衡?

刚才的单个玩家模型是给定另外两个玩家策略时的最优反应,要找均衡的话,需要让三个玩家的策略互相满足最优反应条件:

  1. 先假设我们找对称均衡(因为A、B对称,大概率存在p*=q*的均衡),可以令p=q,把变量减少到p和r,再结合三个玩家的最优反应约束构建联合模型
  2. 或者分别求解每个玩家的最优反应函数(比如给定q和r,解出A的最优p;给定p和r,解出B的最优q;给定p和q,解出C的最优r),然后找三个函数的交点,这就是均衡策略组合

和无差异原则的区别

你提到已经用过无差异原则的方程,线性规划的好处是:它不需要假设玩家对两个纯策略无差异——只有当玩家的混合策略是完全混合的(即p∈(0,1)),无差异原则才对应线性规划中约束等号成立的情况;而线性规划还能处理纯策略、部分混合策略的情况,适用性更广,完全符合你想要的通用解法需求。

备注:内容来源于stack exchange,提问作者tyogi

火山引擎 最新活动