多元回归符号：论文叙述中使用R的~指代模型是否合规？

阿华AIGC实验室

2026-5-19

关于论文中使用R风格~指代回归模型的可行性分析

Great question—this is something tons of R-savvy researchers stumble on when bridging code and academic writing! Let’s break this down clearly:

可行的场景（放心用）

如果你的目标读者是熟悉统计编程/R的同行（比如统计学期刊、计算生物学、量化社会科学领域），直接用y ~ x1 + x2这种写法完全没问题。很多顶刊的方法部分都会用这种简洁的表述来快速指代模型，同行一眼就能理解你说的是“以y为响应变量，x1和x2为预测变量的线性回归模型”，省去重复写带β系数的完整方程的麻烦。比如你可以写：
我们对比了简约模型M1: y ~ x1和全模型M2: y ~ x1 + x2 + x3的调整R²和AIC值，发现全模型拟合效果更优。

面向非R背景读者时，先定义再使用：如果你的读者是不熟悉R的领域（比如部分医学、人文社科期刊），直接甩~符号可能会让他们困惑。这时候建议第一次出现时先写出完整的数学方程，再把R风格写法作为简称，比如：
我们构建的线性回归模型为 $y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \epsilon$（下文简写为y ~ x1 + x2），其中$\beta_0$为截距项，$\epsilon$为随机误差。
别在数学推导里替代正式符号：~在R里是“响应变量对预测变量”的语法糖，但和统计领域的正式符号（比如贝叶斯中表示分布的$\sim$）不是一回事。绝对不能把严谨的数学方程写成y ~ x1 + x2，这种写法只适合在叙述性文字里指代模型，不能用于推导过程。

如果还是顾虑~的受众局限性，还有这些便捷选项：

给模型编号：比如“模型1：$y = \beta_0 + \beta_1x_1 + \beta_2x_2$”，之后直接用“模型1”或“M1”指代。
用通用统计表述：比如“y对x1、x2的线性回归模型”，适合重复次数不多的场景。
用正式统计符号：比如$y \mid x_1, x_2 \sim \mathcal{N}(\beta_0 + \beta_1x_1 + \beta_2x_2, \sigma^2)$，适合需要明确模型分布的严谨场景。

总的来说，只要根据读者群体调整用法，~符号是论文里高效指代回归模型的好工具！

内容的提问来源于stack exchange，提问作者R Tyler McLaughlin