You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

如何利用阈值停止策略最大化骰子博弈的收益?

骰子游戏阈值策略的最优解分析

咱们先把这个游戏的规则再明确下,避免理解偏差:

  • 投掷两枚公平的6面骰子,点数之和记为$X$
  • 如果$X=7$,游戏直接结束,你只能拿到0收益
  • 如果$X≠7$,你有两个选择:要么停止游戏,直接获得$X$的收益;要么重新开始游戏

现在要分析的是阈值策略:选一个数值$i$($2≤i≤12$),首次掷出$X≥i$时就停止游戏拿收益;如果$X<i$且$X≠7$,就重新投掷;要是掷出$X=7$,不管啥情况都结束拿0。

接下来咱们一步步推导这个策略下的期望收益,找到最优的$i$值。

1. 先明确点数和的概率分布

两枚骰子的点数和$X$的概率是固定的,咱们列出来方便后续计算:

  • $P(X=2)=P(X=12)=1/36$
  • $P(X=3)=P(X=11)=2/36$
  • $P(X=4)=P(X=10)=3/36$
  • $P(X=5)=P(X=9)=4/36$
  • $P(X=6)=P(X=8)=5/36$
  • $P(X=7)=6/36=1/6$

2. 推导期望收益的通用公式

设$V(i)$为采用阈值$i$时的期望收益。根据第一次投掷的结果,咱们可以分成三种情况:

  1. 掷出$X=7$:概率为$1/6$,收益为0
  2. 掷出$X≥i$且$X≠7$:概率记为$P(X≥i,X≠7)$,此时收益为这些符合条件的$X$的平均值,即$E[X | X≥i,X≠7]$
  3. 掷出$X<i$且$X≠7$:概率记为$P(X<i,X≠7)$,此时咱们重新开始游戏,期望收益还是$V(i)$

根据期望的线性性质,咱们可以列出方程:
$$
V(i) = \frac{1}{6} \times 0 + P(X≥i,X≠7) \times E[X | X≥i,X≠7] + P(X<i,X≠7) \times V(i)
$$

把含$V(i)$的项移到左边整理后,得到:
$$
V(i) = \frac{P(X≥i,X≠7) \times E[X | X≥i,X≠7]}{1 - P(X<i,X≠7)}
$$

3. 逐个计算不同阈值$i$的期望收益

咱们把每个$i$对应的$V(i)$都算一遍:

i=2(只要不是7就停止)

此时停止的情况是所有$X≠7$,期望收益为:
$$
V(2) = \frac{5}{6} \times E[X|X≠7] = \frac{5}{6} \times 7 = \frac{35}{6} ≈5.833
$$

i=3(掷出≥3且≠7时停止)

停止的情况是$X=3,4,5,6,8,9,10,11,12$,计算得:
$$
V(3) = \frac{208}{35} ≈5.942
$$

i=4(掷出≥4且≠7时停止)

停止的情况是$X=4,5,6,8,9,10,11,12$,计算得:
$$
V(4) = \frac{202}{33} ≈6.121
$$

i=5(掷出≥5且≠7时停止)

停止的情况是$X=5,6,8,9,10,11,12$,计算得:
$$
V(5) = \frac{19}{3} ≈6.333
$$

i=6(掷出≥6且≠7时停止)

停止的情况是$X=6,8,9,10,11,12$,计算得:
$$
V(6) = \frac{85}{13} ≈6.538
$$

i=7(掷出≥7时停止)

停止的情况是$X=7,8,9,10,11,12$,但$X=7$时收益为0,计算得:
$$
V(7) = \frac{20}{3} ≈6.667
$$

i=8(掷出≥8时停止)

停止的情况是$X=8,9,10,11,12$,$X=7$直接结束拿0,$X<8$且≠7时重新投掷,计算得:
$$
V(8) = \frac{20}{3} ≈6.667
$$

i=9(掷出≥9时停止)

停止的情况是$X=9,10,11,12$,计算得:
$$
V(9) = 6.25
$$

i=10(掷出≥10时停止)

停止的情况是$X=10,11,12$,计算得:
$$
V(10) = \frac{16}{3} ≈5.333
$$

i=11(掷出≥11时停止)

停止的情况是$X=11,12$,计算得:
$$
V(11) = \frac{34}{9} ≈3.778
$$

i=12(只有掷出12才停止)

此时只有$X=12$时拿12,其他情况要么拿0要么重新投,计算得:
$$
V(12) = \frac{12}{7} ≈1.714
$$

4. 最优策略总结

把所有阈值的期望收益列出来对比后,可以看到:
当选择$i=7$或者$i=8$时,期望收益最大,约为6.667(即$20/3$)

简单来说,最优策略有两种等价的表述:

  • 第一次掷出点数和≥7就停止(掷出7拿0,掷出8-12拿对应点数;掷出2-6就重新投)
  • 第一次掷出点数和≥8就停止(掷出7直接结束拿0,掷出8-12拿对应点数;掷出2-6就重新投)

这两种策略的期望收益完全相同,都是这个游戏里能拿到的最高期望收益。

内容的提问来源于stack exchange,提问作者N.T

火山引擎 最新活动