计算机与人类评分一致性研究应选用何种ICC模型?
算法与人类评分一致性研究的ICC调参实操指南
嘿,我来帮你梳理下这个研究的核心逻辑和实操步骤,结合你提到的组内相关系数(ICC)、网格搜索和自助法,给你一些具体的建议:
核心研究设计复盘
你当前的研究框架很清晰:
- 样本:约400个采用连续量表评分的项目
- 评分主体:计算机算法 + 人类评分者
- 调参逻辑:在训练队列中通过网格搜索遍历参数集,用自助法估计每个参数组合对应的ICC,最小化ICC后将最优参数迁移到测试队列
分步实操建议
1. 训练/测试队列划分
首先要确保队列划分的合理性:
- 采用分层随机抽样划分训练集(建议占比70%-80%)和测试集,保证两组项目的评分分布、特征分布尽可能一致
- 如果项目有分类属性(比如不同难度、不同类型),按属性分层,避免抽样偏差
2. 网格搜索与自助法ICC估计
针对每个参数组合,按以下流程计算ICC的自助法估计值:
- 构建参数网格:根据算法的可调参数定义候选值,比如
param_grid = {'alpha': [0.01, 0.05, 0.1], 'hidden_units': [16, 32, 64]} - 自助法迭代(建议设置迭代次数N≥1000):
- 从训练队列中有放回地随机抽取400个样本(和原训练集大小一致)
- 用当前参数组合的算法对样本重新评分
- 计算该样本下算法评分与人类评分的ICC:这里推荐使用ICC(2,1),适用于双评分者(算法+人类)的绝对一致性评估,能反映两者评分的整体吻合程度
- 对N次迭代得到的ICC值取均值,作为该参数组合的最终ICC估计值
3. 参数选择与测试集验证
- 在所有参数组合中,筛选出ICC值最小的那组参数(这里要确认下你的目标:如果是希望算法和人类评分差异最大化,最小化ICC是合理的;如果是要让两者更一致,应该改为最大化ICC,别搞反了哦)
- 将选中的参数应用到测试队列,计算测试集上的ICC值,验证调参效果的稳定性
人类评分者相关的关键注意点
- 如果涉及多名人类评分者,先评估人类内部的评分信度(比如计算人类评分者之间的ICC),只有当人类自身的评分一致性足够高时,算法调参的基准才可靠
- 若存在人类评分缺失的项目,优先使用完整评分的项目进行分析;如果必须保留,可采用多重插补法填充缺失值,避免自助抽样时引入偏差
内容的提问来源于stack exchange,提问作者Ben




