有效的人才测评及选拔测验具有四个特点:信度高、效度离、成本–效率低、在法律上站得住脚。
信度
信度(reliability)是指测量结果的稳定程度,也就是测量结果多大程度上不受随机因素的影响。如果测量结果不稳定或者受到随机因素的严重影响,那么测量就是没用的。例如,假设我们想做一个狗屋,用一把尺子测量板材的长度。我们想让每个板材的长度都是1.2米,可是每测量一次,我们都会得到一个不同的结果。如果用同一把尺子测量同一块板材多次,每次得到的结果都不相同,那么尺子就是不可靠的。因此没有用。对于选拔测验而言,情况也是如此。如果同一应聘者多次参加同一测验,每次得到不同的分数,那么我们就无法确定应聘者的真实分数。结果,选拔测验的分数就没有什么价值。因此,有效的选拔技术一定具有较高的信度。可以通过4种方式确定测验的信度:重测信度、复本信度、内部一致性、评分者信度。
效度
效度(validity)指的是从测验分数或者评价做出的推断多大程度上能被证据证明其正当性。信度、效度都高的测验,才是有用的测验。信度高的测验,效度不一定就高。例如,我们根据身高招聘打字员,对身高的测量(用尺子)无疑是可靠的,大部分成人的身高不会发生什么变化,两个人测量同一应聘者的身高也会得到非常接近的结果。然而,身高与打字成绩有关吗?这一点很值得怀疑。
所以,尺子测量到的身高是可靠的,但是身高不是预测打字成绩的有效方式。尽管信度和效度不是一回事,但是它们是有关系的。测验的信度限制了测验的效度。也就是说,信度不高的测验,效度一定不高;但是,信度高的测验,效度不一定就高,正如我们在上面的例子看出来的那样。我们可以认为信度是效度的必要非充分条件。
一般可以从五个方面考察测验的效度:内容效度、效标效度、构想效度、表面效度和已知群体效度。
成本–效率
如果几个测验的效度大致相同,那么我们就要考虑成本。例如,选拔警察,经常会用到温德利人事测验或者韦氏成人智力量表(Wechsler Adult Intelligence,简称WAIS)之类认知能力测验。两个测验的信度大致相同,效度也大致相同。然而,温德利的价钱是每个应聘者只需几美元,可以团体施测,限时12分钟。WAIS的价钱是每个应聘者100美元,只能个体施测,限时1小时。考虑到两个测验都同样有效,所以不用请教什么工业与组织心理学家就能看出使用哪个测验更划算。但是,在很多情况下,孰优孰劣并不是这么明显,这时,我们就要使用公式确定最好使用哪个测验。
一个测验经常是要么团体施测,要么是个体施测,团体施测当然往往比个体施测更便宜、更高效,但是团体施测也会遗漏很多信息。例如,有些智力测验需要个体施测,之所以如此,是为了观察受测者是如何解决问题、给出答案的。如果团体施测,就只能得到一个单纯的答案而已。
心理测验施测方式最近的一个创新是使用计算机和互联网。在计算机辅助测验中,应聘者在计算机终端答题,计算机自动计分,立即给出结果和解释。因为计算机辅助测验可以降低施测成本、缩短反馈时间、生成值得受测者信赖的结果,所以很多私营组织和公立机构都采用了这一方式。很多州的政府机构发现,让应聘者就近参加计算机辅助测验,而不是千里迢迢从外地赶来参加测验,可以节省很多成本。施测效率提高的同时测验效度并没降低,因为,正如我们前面提到的那样,用电子方式施测得到的结果与传统纸笔方式施测得到的结果是差不多的。
计算机测验中,一个越来越常用的技术是计算机自适应测验(computer adaptive testing,简称CAT)。实际上,你参加过的CAT就是一种计算机自适应测验。在计算机自适应测验中,计算机根据受测者前面题目的答题情况选择下一个题目。例如,如果一连3个乘法题受测者都答对了,那么计算机也许就会换一种数学题,而不是让受测者浪费时间继续回答7个乘法题。测验开始时,计算机一般给出一个中等难度的题目,如果受测9者做对,计算机就会估计他的能力高于中等水平,然后再给他一个难度高一点的题目,如果受测者做错,计算机就会估计他的能力低于中等水平,然后给他一个难度较低一点的题目。CAT背后的逻辑是,如果受测者连简单的问题(例如加减法)都答不对,那么让受测者继续做复杂的题目(例如代数和几何)就是没有意义的。CAT的优点是用更少的题目、更短的时间更加精确地确定应聘者的能力以及应聘者能够立即得到反馈;测验分数不仅要根据受测者答对多少题目来解释,而且要根据受测者答对了哪些题目来解释。