如何在R中判定多个向量哪个更接近正态分布？

如何在R中判定多个向量哪个更接近正态分布？

阿华AIGC实验室

2026-5-21

当然没问题！在R里有好几种量化方法能帮你对比多个向量的正态性程度，完全不用靠可视化猜。下面我给你整理几个实用的方法，还用你提供的示例数据来演示怎么自动判定哪个最接近正态：

常用的量化正态性比较方法

1. Shapiro-Wilk检验（推荐优先使用）

Shapiro-Wilk是最常用的正态性检验之一，它的两个核心输出：

统计量W：越接近1，说明数据的正态性越好
p值：若p>0.05，无法拒绝“数据服从正态分布”的假设，但样本量较大时p值容易显著，因此更适合用W统计量来做相对比较

示例代码

# 生成你提供的示例数据
a <- runif(100)
b <- rnorm(100)
c <- rpois(100, 10)

# 定义批量计算函数
compare_shapiro <- function(...) {
  data_list <- list(...)
  # 逐个计算Shapiro-Wilk结果
  result_list <- lapply(data_list, function(vec) {
    sw_test <- shapiro.test(vec)
    data.frame(W_statistic = sw_test$statistic, p_value = sw_test$p.value)
  })
  # 转换为规整的数据框
  result_df <- do.call(rbind, result_list)
  rownames(result_df) <- paste0("Vector_", letters[1:length(data_list)])
  return(result_df)
}

# 运行并查看结果
shapiro_results <- compare_shapiro(a, b, c)
print(shapiro_results)

结果解读

看W_statistic列，数值最高的向量就是最接近正态的。在你的示例里，Vector_b的W值会明显高于a和c，符合预期。

2. Kolmogorov-Smirnov（KS）检验

KS检验用来对比数据与理论正态分布的拟合差异，核心指标是统计量D：数值越小，说明数据和正态分布的拟合程度越好。注意要先标准化数据，因为KS检验对数据的位置和尺度敏感。

示例代码

compare_ks <- function(...) {
  data_list <- list(...)
  result_list <- lapply(data_list, function(vec) {
    # 标准化数据
    vec_std <- (vec - mean(vec)) / sd(vec)
    ks_test <- ks.test(vec_std, "pnorm")
    data.frame(D_statistic = ks_test$statistic, p_value = ks_test$p.value)
  })
  result_df <- do.call(rbind, result_list)
  rownames(result_df) <- paste0("Vector_", letters[1:length(data_list)])
  return(result_df)
}

# 运行并查看结果
ks_results <- compare_ks(a, b, c)
print(ks_results)

结果解读

D_statistic最小的向量最接近正态，示例中Vector_b的D值会是最小的。

3. 正态分布拟合优度（AIC/BIC）

你也可以通过拟合正态分布的信息准则来判断：AIC（赤池信息准则）和BIC（贝叶斯信息准则）数值越小，说明拟合效果越好，即数据越接近正态。需要用到fitdistrplus包。

示例代码

# 先安装并加载包（首次使用需要安装）
# install.packages("fitdistrplus")
library(fitdistrplus)

compare_aic_bic <- function(...) {
  data_list <- list(...)
  result_list <- lapply(data_list, function(vec) {
    # 拟合正态分布
    norm_fit <- fitdist(vec, "norm")
    data.frame(AIC = norm_fit$aic, BIC = norm_fit$bic)
  })
  result_df <- do.call(rbind, result_list)
  rownames(result_df) <- paste0("Vector_", letters[1:length(data_list)])
  return(result_df)
}

# 运行并查看结果
aic_bic_results <- compare_aic_bic(a, b, c)
print(aic_bic_results)

结果解读

AIC和BIC最小的向量最接近正态，示例中Vector_b的数值会是最小的。

自动判定最接近正态的向量

如果你想直接得到结果，不用手动看表格，可以基于统计量排序：

# 以Shapiro-Wilk的W统计量为例，找最大值对应的向量
most_normal_vec <- rownames(shapiro_results)[which.max(shapiro_results$W_statistic)]
cat("最接近正态分布的向量是：", most_normal_vec, "\n")

运行这段代码后，会直接输出最接近正态分布的向量是： Vector_b，完美符合你的预期。

内容的提问来源于stack exchange，提问作者Bruno Vilela

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠