求偏置硬币中连续三次正面先于三次反面出现的概率
其实思路和你熟悉的连续两次的情况完全一致,只是需要定义更多的中间状态来跟踪当前的连续结果,一步步推导就好啦~
第一步:定义状态
我们先定义几个关键状态,用来描述当前抛掷后的“连续趋势”:
- ( S_0 ):初始状态(还没有连续相同的结果,或者说上一次结果和之前的不连续)
- ( S_H ):最后一次抛掷结果是正面(当前连续1次正面)
- ( S_{HH} ):最后两次抛掷都是正面(当前连续2次正面)
- ( S_T ):最后一次抛掷结果是反面(当前连续1次反面)
- ( S_{TT} ):最后两次抛掷都是反面(当前连续2次反面)
我们要求的是初始状态下,连续三次正面先出现的概率,记为 ( P_0 = P(A | S_0) ),同时定义:
- ( P_H = P(A | S_H) ):当前最后一次是正面时,最终成功的概率
- ( P_{HH} = P(A | S_{HH}) ):当前连续两次正面时,最终成功的概率
- ( P_T = P(A | S_T) ):当前最后一次是反面时,最终成功的概率
- ( P_{TT} = P(A | S_{TT}) ):当前连续两次反面时,最终成功的概率
- ( q = 1-p ):硬币出现反面的概率
第二步:写出状态转移方程
根据每个状态下的抛掷结果,我们可以写出对应的概率转移方程:
状态( S_{HH} ):已经连续两次正面,再抛一次:
- 正面(概率( p )):直接成功(概率1)
- 反面(概率( q )):进入状态( S_T )
$$ P_{HH} = p \times 1 + q \times P_T $$
状态( S_H ):最后一次是正面,再抛一次:
- 正面(概率( p )):进入状态( S_{HH} )
- 反面(概率( q )):进入状态( S_T )
$$ P_H = p \times P_{HH} + q \times P_T $$
状态( S_0 ):初始状态,第一次抛:
- 正面(概率( p )):进入状态( S_H )
- 反面(概率( q )):进入状态( S_T )
$$ P_0 = p \times P_H + q \times P_T $$
状态( S_{TT} ):已经连续两次反面,再抛一次:
- 反面(概率( q )):直接失败(概率0)
- 正面(概率( p )):进入状态( S_H )
$$ P_{TT} = p \times P_H + q \times 0 = p P_H $$
状态( S_T ):最后一次是反面,再抛一次:
- 反面(概率( q )):进入状态( S_{TT} )
- 正面(概率( p )):进入状态( S_H )
$$ P_T = p \times P_H + q \times P_{TT} $$
第三步:联立方程求解
现在我们把这些方程逐步代入化简:
先把方程4代入方程5,得到( P_T )的表达式:
$$ P_T = p P_H + q \cdot p P_H = p P_H (1 + q) $$
因为( q=1-p ),所以( 1+q=2-p ),也可以写成( P_T = p P_H (2-p) )把( P_T )代入方程1,得到( P_{HH} )的表达式:
$$ P_{HH} = p + q \cdot p P_H (2-p) $$再把( P_{HH} )和( P_T )代入方程2:
$$ P_H = p \left( p + q p P_H (2-p) \right) + q \cdot p P_H (2-p) $$
展开并合并同类项:
$$ P_H = p^2 + p^2 q (2-p) P_H + p q (2-p) P_H $$
$$ P_H = p^2 + p q (2-p) (p + 1) P_H $$把含( P_H )的项移到左边,解出( P_H ):
$$ P_H \left[ 1 - p q (2-p)(p+1) \right] = p^2 $$
代入( q=1-p ),化简分母:
$$ 1 - p(1-p)(2-p)(1+p) = 1 - p(1-p^2)(2-p) = 1 - (2p - p^2 - 2p^3 + p^4) = -p^4 + 2p^3 + p^2 - 2p + 1 $$
所以:
$$ P_H = \frac{p2}{-p4 + 2p^3 + p^2 - 2p + 1} $$接下来把( P_H )代入( P_T )的表达式,再代入方程3,就能得到我们要的( P_0 ):
$$ P_0 = p \cdot \frac{p^2}{D} + q \cdot \frac{p^3(2-p)}{D} $$
其中( D = -p^4 + 2p^3 + p^2 - 2p + 1 ),合并分子:
$$ P_0 = \frac{p^3 + (1-p)p^3(2-p)}{D} = \frac{p^3(1 + (1-p)(2-p))}{D} $$
化简分子里的括号部分:
$$ 1 + (1-p)(2-p) = 1 + 2 - 3p + p^2 = p^2 - 3p + 3 $$最终得到:
$$ P(A) = \frac{p3(p2 - 3p + 3)}{-p^4 + 2p^3 + p^2 - 2p + 1} $$
验证特殊情况
我们可以用几个特殊值验证这个结果是否合理:
- 当( p=1 )(硬币永远正面):代入得( P(A)=1 ),符合预期
- 当( p=0 )(硬币永远反面):代入得( P(A)=0 ),符合预期
- 当( p=0.5 )(公平硬币):代入分子( (0.5)3((0.5)2 -30.5 +3)= (1/8)(1/4 - 3/2 +3)=7/32 ),分母( -(0.5)^4 +2(0.5)^3 +(0.5)^2 -2*(0.5)+1=7/16 ),所以( P(A)= (7/32)/(7/16)=0.5 ),符合对称情况的预期
内容的提问来源于stack exchange,提问作者user531716




