如何在R语言中处理非数值类别变量并进行相关性分析？

如何在R语言中处理非数值类别变量并进行相关性分析？

阿华AIGC实验室

2026-5-20

嘿，作为R新手碰到这种混合数值和分类变量的相关性问题太正常啦！我来一步步给你理清楚怎么处理～

第一步：先明确不同变量类型的相关性分析逻辑

首先得搞清楚，不同类型变量之间的相关性不能一概而论，得针对性选方法：

数值型vs数值型：用传统的Pearson（线性相关）、Spearman（秩相关）或Kendall相关，这也是你最初尝试的场景
数值型vs分类型：二分类用t检验+效应量（如Eta平方），多分类用方差分析（ANOVA）+效应量，用来衡量分类变量对数值变量的解释力
分类型vs分类型：用卡方检验+关联强度指标（如Cramer's V、Phi系数），判断两个分类变量是否独立

第二步：处理数据集，适配分析工具

ggcorr（来自GGally包）默认只识别数值列，所以如果想把分类变量纳入相关性可视化，得先做编码转换，但要注意合理性：

1. 分类变量的合理编码

二分类变量：比如性别，可转成0/1数值，保留相关性意义：

library(tidyverse)
df <- df %>%
  mutate(gender_num = as.numeric(factor(gender)) - 1) # 把因子转成0/1

多分类变量：比如州，用独热编码（One-hot Encoding），每个分类水平生成一个0/1列，但要注意变量维度不要爆炸：

# 生成独热编码列并合并到原数据
encoded_state <- model.matrix(~ state - 1, df) %>% 
  as.data.frame() %>% 
  rename_with(~ str_remove(., "state")) # 去掉列名里的前缀

df_encoded <- bind_cols(df, encoded_state)

2. 用ggcorr分析编码后的数据集

现在就可以把编码后的数值列喂给ggcorr了：

library(GGally)
ggcorr(df_encoded[, sapply(df_encoded, is.numeric)], 
       method = c("pairwise", "spearman"), # 选适合的相关方法
       label = TRUE) # 显示相关系数

第三步：跨类型变量的针对性分析

如果不想强行编码分类变量，直接用更适配的方法更靠谱：

数值vs二分类变量

用t检验看组间差异，再用Eta平方衡量效应量（类似相关性强度）：

# t检验
t.test(income ~ gender, data = df)

# 计算Eta平方
library(lsr)
etaSquared(aov(income ~ gender, data = df))

数值vs多分类变量

用ANOVA看组间差异，同样搭配Eta平方：

anova_result <- aov(income ~ state, data = df)
summary(anova_result)

# 效应量
etaSquared(anova_result)

分类vs分类变量

用卡方检验判断独立性，Cramer's V衡量关联强度：

# 卡方检验
chisq.test(table(df$gender, df$state))

# Cramer's V
library(rstatix)
cramer_v(df$gender, df$state)

第四步：更省心的混合类型可视化

推荐用GGally::ggpairs，它能自动识别变量类型，对不同组合用不同图表：

数值vs数值：散点图+相关系数
数值vs分类：箱线图
分类vs分类：马赛克图/堆叠条形图

示例代码：

GGally::ggpairs(df, aes(color = gender)) # 用分类变量做颜色区分

这个工具不用手动编码，直接就能展示所有变量间的关系，非常适合探索性分析。

小提醒

别为了用ggcorr强行把所有分类变量转成数值——比如多分类的州，编码后的数值没有顺序意义，得到的Pearson相关完全没有实际解释价值，一定要根据变量类型选对应方法！

内容的提问来源于stack exchange，提问作者craft

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠