试卷分析中的常用指标有的有多种定义,本文中提到的指标是这个试卷分析软件中使用的指标。软件中容易理解的指标,例如平均分、标准差等,在这里就不再赘述。
高分平均
得分前 25% 的学生的平均分。
低分平均
得分后 25% 的学生的平均分。
全距
最高总分与最低总分之间的差。
难度
$$难度=1-\frac{平均分}{总分}$$
按这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。
一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于0.3的试题不能太多。
区分度
$$区分度=\frac{高分平均-低分平均}{总分}$$
计算式显示区分度的范围应该是 $[0,1]$,其值越大,则说明试题的区分度就越强。
区分度是区分应试者能力水平高低的指标。试题区分度高,则可以拉开不同水平应试者分数间的距离,使高水平者得高分,低水平者得低分,而区分度低则不易反映出不同应试者间的水平差异。
一般认为,区分度高于0.3,试题便可以被接受。
信度
这里采用的是 Cronbach 信度系数,又被称为内部一致性系数。
$$\alpha=\frac{k}{k-1}\left(1-\frac{\sum_{i=1}^{k} \sigma_{i}^{2}}{\sigma_{X}^{2}}\right)$$
其中 $k$ 是小题数目,$\sigma_{i}^{2}$ 是第 $i$ 小题得分的方差,$\sigma_{X}^{2}$ 是各学生总分的方差。
从计算式来看,该信度的值有可能是负的,比如有可能各小题得分的波动很大,但学生的总分波动却较小。
通常来说,信度取值应当在 $[0,1]$ 之间(这一点并没有严格的论证)。其值越大说明试题的内部一致性较高,即各小题得分的波动较小;其值越小说明内部一致性较低,即各小题得分的波动较大。
换个场景解释,如果对同一人多次进行同一测验,如量腿长、量臂长、量腰围等等。如果信度较高,则表示每一部位的测量波动相对总和来说较小,即可认为该测量方法内部一致性较高,或可信度较高。如果信度较低,则表示每一部位的测量波动相对总和来说较大,说明该测量方法可信度较低。
信度达到多少才是“好”的呢?这和其他很多统计量一样,并没有严格的论证,更多的是经验或“想当然”,所以说法比较多。看到比较多的观点认为,信度大于 0.7 则视为可接受。