如何利用阈值停止策略最大化骰子博弈的收益?
咱们先把这个游戏的规则再明确下,避免理解偏差:
- 投掷两枚公平的6面骰子,点数之和记为$X$
- 如果$X=7$,游戏直接结束,你只能拿到0收益
- 如果$X≠7$,你有两个选择:要么停止游戏,直接获得$X$的收益;要么重新开始游戏
现在要分析的是阈值策略:选一个数值$i$($2≤i≤12$),首次掷出$X≥i$时就停止游戏拿收益;如果$X<i$且$X≠7$,就重新投掷;要是掷出$X=7$,不管啥情况都结束拿0。
接下来咱们一步步推导这个策略下的期望收益,找到最优的$i$值。
1. 先明确点数和的概率分布
两枚骰子的点数和$X$的概率是固定的,咱们列出来方便后续计算:
- $P(X=2)=P(X=12)=1/36$
- $P(X=3)=P(X=11)=2/36$
- $P(X=4)=P(X=10)=3/36$
- $P(X=5)=P(X=9)=4/36$
- $P(X=6)=P(X=8)=5/36$
- $P(X=7)=6/36=1/6$
2. 推导期望收益的通用公式
设$V(i)$为采用阈值$i$时的期望收益。根据第一次投掷的结果,咱们可以分成三种情况:
- 掷出$X=7$:概率为$1/6$,收益为0
- 掷出$X≥i$且$X≠7$:概率记为$P(X≥i,X≠7)$,此时收益为这些符合条件的$X$的平均值,即$E[X | X≥i,X≠7]$
- 掷出$X<i$且$X≠7$:概率记为$P(X<i,X≠7)$,此时咱们重新开始游戏,期望收益还是$V(i)$
根据期望的线性性质,咱们可以列出方程:
$$
V(i) = \frac{1}{6} \times 0 + P(X≥i,X≠7) \times E[X | X≥i,X≠7] + P(X<i,X≠7) \times V(i)
$$
把含$V(i)$的项移到左边整理后,得到:
$$
V(i) = \frac{P(X≥i,X≠7) \times E[X | X≥i,X≠7]}{1 - P(X<i,X≠7)}
$$
3. 逐个计算不同阈值$i$的期望收益
咱们把每个$i$对应的$V(i)$都算一遍:
i=2(只要不是7就停止)
此时停止的情况是所有$X≠7$,期望收益为:
$$
V(2) = \frac{5}{6} \times E[X|X≠7] = \frac{5}{6} \times 7 = \frac{35}{6} ≈5.833
$$
i=3(掷出≥3且≠7时停止)
停止的情况是$X=3,4,5,6,8,9,10,11,12$,计算得:
$$
V(3) = \frac{208}{35} ≈5.942
$$
i=4(掷出≥4且≠7时停止)
停止的情况是$X=4,5,6,8,9,10,11,12$,计算得:
$$
V(4) = \frac{202}{33} ≈6.121
$$
i=5(掷出≥5且≠7时停止)
停止的情况是$X=5,6,8,9,10,11,12$,计算得:
$$
V(5) = \frac{19}{3} ≈6.333
$$
i=6(掷出≥6且≠7时停止)
停止的情况是$X=6,8,9,10,11,12$,计算得:
$$
V(6) = \frac{85}{13} ≈6.538
$$
i=7(掷出≥7时停止)
停止的情况是$X=7,8,9,10,11,12$,但$X=7$时收益为0,计算得:
$$
V(7) = \frac{20}{3} ≈6.667
$$
i=8(掷出≥8时停止)
停止的情况是$X=8,9,10,11,12$,$X=7$直接结束拿0,$X<8$且≠7时重新投掷,计算得:
$$
V(8) = \frac{20}{3} ≈6.667
$$
i=9(掷出≥9时停止)
停止的情况是$X=9,10,11,12$,计算得:
$$
V(9) = 6.25
$$
i=10(掷出≥10时停止)
停止的情况是$X=10,11,12$,计算得:
$$
V(10) = \frac{16}{3} ≈5.333
$$
i=11(掷出≥11时停止)
停止的情况是$X=11,12$,计算得:
$$
V(11) = \frac{34}{9} ≈3.778
$$
i=12(只有掷出12才停止)
此时只有$X=12$时拿12,其他情况要么拿0要么重新投,计算得:
$$
V(12) = \frac{12}{7} ≈1.714
$$
4. 最优策略总结
把所有阈值的期望收益列出来对比后,可以看到:
当选择$i=7$或者$i=8$时,期望收益最大,约为6.667(即$20/3$)
简单来说,最优策略有两种等价的表述:
- 第一次掷出点数和≥7就停止(掷出7拿0,掷出8-12拿对应点数;掷出2-6就重新投)
- 第一次掷出点数和≥8就停止(掷出7直接结束拿0,掷出8-12拿对应点数;掷出2-6就重新投)
这两种策略的期望收益完全相同,都是这个游戏里能拿到的最高期望收益。
内容的提问来源于stack exchange,提问作者N.T




