计算机与人类评分一致性研究应选用何种ICC模型？

计算机与人类评分一致性研究应选用何种ICC模型？

阿华AIGC实验室

2026-5-19

算法与人类评分一致性研究的ICC调参实操指南

嘿，我来帮你梳理下这个研究的核心逻辑和实操步骤，结合你提到的组内相关系数（ICC）、网格搜索和自助法，给你一些具体的建议：

核心研究设计复盘

你当前的研究框架很清晰：

样本：约400个采用连续量表评分的项目
评分主体：计算机算法 + 人类评分者
调参逻辑：在训练队列中通过网格搜索遍历参数集，用自助法估计每个参数组合对应的ICC，最小化ICC后将最优参数迁移到测试队列

分步实操建议

1. 训练/测试队列划分

首先要确保队列划分的合理性：

采用分层随机抽样划分训练集（建议占比70%-80%）和测试集，保证两组项目的评分分布、特征分布尽可能一致
如果项目有分类属性（比如不同难度、不同类型），按属性分层，避免抽样偏差

2. 网格搜索与自助法ICC估计

针对每个参数组合，按以下流程计算ICC的自助法估计值：

构建参数网格：根据算法的可调参数定义候选值，比如param_grid = {'alpha': [0.01, 0.05, 0.1], 'hidden_units': [16, 32, 64]}
自助法迭代（建议设置迭代次数N≥1000）：
1. 从训练队列中有放回地随机抽取400个样本（和原训练集大小一致）
2. 用当前参数组合的算法对样本重新评分
3. 计算该样本下算法评分与人类评分的ICC：这里推荐使用ICC(2,1)，适用于双评分者（算法+人类）的绝对一致性评估，能反映两者评分的整体吻合程度
对N次迭代得到的ICC值取均值，作为该参数组合的最终ICC估计值

3. 参数选择与测试集验证

在所有参数组合中，筛选出ICC值最小的那组参数（这里要确认下你的目标：如果是希望算法和人类评分差异最大化，最小化ICC是合理的；如果是要让两者更一致，应该改为最大化ICC，别搞反了哦）
将选中的参数应用到测试队列，计算测试集上的ICC值，验证调参效果的稳定性

人类评分者相关的关键注意点

如果涉及多名人类评分者，先评估人类内部的评分信度（比如计算人类评分者之间的ICC），只有当人类自身的评分一致性足够高时，算法调参的基准才可靠
若存在人类评分缺失的项目，优先使用完整评分的项目进行分析；如果必须保留，可采用多重插补法填充缺失值，避免自助抽样时引入偏差

内容的提问来源于stack exchange，提问作者Ben

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠