如何利用阈值停止策略最大化骰子博弈的收益？

阿华AIGC实验室

2026-5-19

骰子游戏阈值策略的最优解分析

咱们先把这个游戏的规则再明确下，避免理解偏差：

投掷两枚公平的6面骰子，点数之和记为$X$
如果$X=7$，游戏直接结束，你只能拿到0收益
如果$X≠7$，你有两个选择：要么停止游戏，直接获得$X$的收益；要么重新开始游戏

现在要分析的是阈值策略：选一个数值$i$（$2≤i≤12$），首次掷出$X≥i$时就停止游戏拿收益；如果$X<i$且$X≠7$，就重新投掷；要是掷出$X=7$，不管啥情况都结束拿0。

接下来咱们一步步推导这个策略下的期望收益，找到最优的$i$值。

1. 先明确点数和的概率分布

两枚骰子的点数和$X$的概率是固定的，咱们列出来方便后续计算：

$P(X=2)=P(X=12)=1/36$
$P(X=3)=P(X=11)=2/36$
$P(X=4)=P(X=10)=3/36$
$P(X=5)=P(X=9)=4/36$
$P(X=6)=P(X=8)=5/36$
$P(X=7)=6/36=1/6$

2. 推导期望收益的通用公式

设$V(i)$为采用阈值$i$时的期望收益。根据第一次投掷的结果，咱们可以分成三种情况：

掷出$X=7$：概率为$1/6$，收益为0
掷出$X≥i$且$X≠7$：概率记为$P(X≥i,X≠7)$，此时收益为这些符合条件的$X$的平均值，即$E[X | X≥i,X≠7]$
掷出$X<i$且$X≠7$：概率记为$P(X<i,X≠7)$，此时咱们重新开始游戏，期望收益还是$V(i)$

根据期望的线性性质，咱们可以列出方程：
$$
V(i) = \frac{1}{6} \times 0 + P(X≥i,X≠7) \times E[X | X≥i,X≠7] + P(X<i,X≠7) \times V(i)
$$

把含$V(i)$的项移到左边整理后，得到：
$$
V(i) = \frac{P(X≥i,X≠7) \times E[X | X≥i,X≠7]}{1 - P(X<i,X≠7)}
$$

3. 逐个计算不同阈值$i$的期望收益

咱们把每个$i$对应的$V(i)$都算一遍：

i=2（只要不是7就停止）

此时停止的情况是所有$X≠7$，期望收益为：
$$
V(2) = \frac{5}{6} \times E[X|X≠7] = \frac{5}{6} \times 7 = \frac{35}{6} ≈5.833
$$

i=3（掷出≥3且≠7时停止）

停止的情况是$X=3,4,5,6,8,9,10,11,12$，计算得：
$$
V(3) = \frac{208}{35} ≈5.942
$$

i=4（掷出≥4且≠7时停止）

停止的情况是$X=4,5,6,8,9,10,11,12$，计算得：
$$
V(4) = \frac{202}{33} ≈6.121
$$

i=5（掷出≥5且≠7时停止）

停止的情况是$X=5,6,8,9,10,11,12$，计算得：
$$
V(5) = \frac{19}{3} ≈6.333
$$

i=6（掷出≥6且≠7时停止）

停止的情况是$X=6,8,9,10,11,12$，计算得：
$$
V(6) = \frac{85}{13} ≈6.538
$$

i=7（掷出≥7时停止）

停止的情况是$X=7,8,9,10,11,12$，但$X=7$时收益为0，计算得：
$$
V(7) = \frac{20}{3} ≈6.667
$$

i=8（掷出≥8时停止）

停止的情况是$X=8,9,10,11,12$，$X=7$直接结束拿0，$X<8$且≠7时重新投掷，计算得：
$$
V(8) = \frac{20}{3} ≈6.667
$$

i=9（掷出≥9时停止）

停止的情况是$X=9,10,11,12$，计算得：
$$
V(9) = 6.25
$$

i=10（掷出≥10时停止）

停止的情况是$X=10,11,12$，计算得：
$$
V(10) = \frac{16}{3} ≈5.333
$$

i=11（掷出≥11时停止）

停止的情况是$X=11,12$，计算得：
$$
V(11) = \frac{34}{9} ≈3.778
$$

i=12（只有掷出12才停止）

此时只有$X=12$时拿12，其他情况要么拿0要么重新投，计算得：
$$
V(12) = \frac{12}{7} ≈1.714
$$

4. 最优策略总结

把所有阈值的期望收益列出来对比后，可以看到：
当选择$i=7$或者$i=8$时，期望收益最大，约为6.667（即$20/3$）

简单来说，最优策略有两种等价的表述：

第一次掷出点数和≥7就停止（掷出7拿0，掷出8-12拿对应点数；掷出2-6就重新投）
第一次掷出点数和≥8就停止（掷出7直接结束拿0，掷出8-12拿对应点数；掷出2-6就重新投）

这两种策略的期望收益完全相同，都是这个游戏里能拿到的最高期望收益。

内容的提问来源于stack exchange，提问作者N.T

火山引擎最新活动

方舟 Coding Plan

HOT

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

查看详情

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

查看详情

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

查看详情

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠

查看详情

ArkClaw 专属智能伙伴