郭小军:基于速度与准确率权衡的心理测量学模型及应用论文

郭小军:基于速度与准确率权衡的心理测量学模型及应用论文

摘 要:在大规模被试评价中,任务完成的准确率一直是评价的主要指标。然而,在各种任务情景中,反映执行者素质的指标除了结果的正确性之外,决策过程的时效性同样是极其重要的。因此,开发一个适合大规模评价情景,同时考虑速度与准确率权衡的模型,探索被试作答准确率与速度间的关系将具有重要的价值。基于认知心理学实验中的速度与准确率研究,构建一个基于速度与准确率权衡的心理测量学模型。新模型参数能非常稳定而又精确地被估计,同时模型中的变量及其关系也能够很好地得到实测数据的支持。

关键词:速度与准确率权衡;大规模评价;认知实验;心理测量

1 引言

人们在解决现实问题做出决策时,总是希望得到一个正确的结果。然而,在任何情景下,时间几乎是一个不可回避的因素,在决策的过程中,总是需要考虑时间的有限性,不可能对任务进行无限制地思考和讨论,比如智力测验中既要保证结果的正确性,同时又要保证快速作答;而在人格测验中,如果评价结果涉及到高利害关系时(比如工作应聘),被试就可能进行更长时间的思考,以选择有利的结果,当然,作答时间过长可能会被视为虚假作答的反映;而在解决现实问题时,处理方式的合理性和做出决定的快速性有时可能会同等重要,被试只能在权衡结果和速度的基础上,做出一个最优的决策。因此,在评价被试完成任务的质量时,应该同时考虑结果的准确性和反应过程的流畅性水平。

然而,在实际的大规模评价项目中,准确率一直是评价被试任务完成质量的主要指标。研究者和实践者往往忽视被试在任务完成过程中的时间使用效率,而反应时其实能揭露准确率所不能反映的一些关键信息与心理活动,能够反映被试在不同维度上的素质水平。在被试评价指标中,准确率反映的主要是被试的信息完备性或知识丰富性水平,而反应时则反映了被试的信息加工流畅性水平。信息完备性指的是被试是否拥有所考察项目规定的知识结点及正确的联结模式;而流畅性水平反映了被试所有相应知识结点的强度以及知识结点之间的联结强度(熟悉度)。在完成一个测验任务时,被试要正确作答测验项目,前提是被试头脑中已存储了相应的知识结点及正确的联结模式,而且知识结点的强度与知识结点之间的联结强度能够支持被试流畅地提取相应的信息。被试作答测验项目时,不仅仅反映了其能力水平,同时也反映了被试的信息提取的流畅性水平。所以,要更全面,更加科学地评价被试的水平,应该将准确率指标和反应时指标有机地结合在一起,在实际任务解决中,既考虑结果的准确性,又考虑决策过程的时效性。

在认知心理学中,已经进行了大量的基于速度与准确率指标及其权衡关系(speed-accuracy tradeoff,SAT)的研究,如概念加工(McElree,Jia,& Litvak,2000),句子理解(McElree,2000;McElree,Foraker,& Dyer,2003),记忆(McElree,1998),注意(McElree & Carrasco,1999;McElree & Carrasco,2001;Carrasco,McElree,Denisova,& Giordano,2003;Carrasco,Giordano,& McElree,2005;Giordano,McElree,& Carrasco,2009)等领域。在不同实验条件下,通过对SAT模型参数组合进行变化,计算模型与数据拟合的指数(Reed,1976),最后确定最佳的参数组合形式,从而评价这些条件对心理现象的影响。在认知心理学实验研究中,较为深入地研究了认知加工任务中速度与准确率指标,研究了不同刺激条件下的速度与准确率的权衡变化关系。但是,认知心理学实验关于速度与准确率权衡的研究仅仅局限于实验室内,并且进行的都是非个人层面的小样本研究;在被试信息处理上,对于错误作答的项目时间,则该项目的反应时会用其他被试均值等方法进行替换,当被试作答错误项目过多时,则被试的作答结果一般认为是无效的;另外,认知心理学实验任务往往都是非常简单的重复任务,较难应用于复杂的任务加工中,这就严重限制了速度与准确率及其权衡范式的研究范围。

我国小学阶段语文阅读教学普遍为“灌输式”教学,即仍然以老师的讲解为主,只有少数教师会在教学过程中加入其他比如讨论式教学方式。但是当前社会对学生的要求已经改变了,传统教学模式下培养出来的学生走出校门后很难快速融入社会,时代需要更加积极主动、具有灵活性的人才。

在心理测量学研究中,总是假设完成任务的时间足够充分,被试能力得到完全测量。然而,实际测试中总是在强调准确率的同时,会限定任务完成的时间。因此测试结果会在一定程度上反映被试速度与准确率的结合。前期研究中对反应时的忽视或许是由于客观条件的限制,但是随着电脑使用的普及,搜集被试的反应时变得越来越简单与便利。心理测量学研究者也逐渐认识到单纯依靠准确率信息来评价被试的局限性,于是,反应时研究开始受到关注。van der Linden(2006)构建了一个对数正态模型分析被试反应时数据;考虑到对数正态分布对反应时分布存在不适用情况,Klein Entink,van der Linden 和 Fox(2009)提出具有一般性的Box-Cox正态转换的反应时模型;之后,Meng,Tao和Shi(2014)将对数正态模型扩展到多级计分模型;并且孟祥斌(2016)发现对数偏正态比对数正态拟合反应时分布更佳。为了减小对反应时分布的依赖性,部分研究者借鉴生存分析,将反应时分布作为一个半参数部分构建反应时分析模型。Ranger和Ortner(2012,2013)以及Ranger和Kuhn(2014,2015)提出潜在特质的比例风险模型以及相关反应时模型;Wang,Fan,Chang和Douglas(2013)将潜在特质的比例风险模型与准确率模型进行联合估计,发现能较好拟合实测数据。Wang,Chang和Douglas(2013)还基于半参数基础上,提出一个更有一般性的线性转换模型。在大规模评价项目中,如PISA(Program for International Student Assessment)、TIMSS(The Third International Mathematics and Science Study)、NAEP(The National Assessment of Educational Progress)等,测量的项目任务较为复杂,信息加工量比较大,信息加工过程更加复杂;既可以对群体水平进行评价,也可以对个体加工水平进行评价;在作答信息利用上,错误作答信息与正确作答信息具有同样重要的价值,共同为准确评价被试水平或项目质量提供有用信息。但是,在已提出的大部分反应时测量学模型中,都无法反映出被试作答过程中速度与准确率权衡的现象;对于在相同时间内作答错误与作答正确的不同被试,现有的反应时模型无法区分两种被试的流畅性水平;特别是当被试作答过程中存在权衡时,注重准确率或者注重反应时的两种被试,现有模型也无法充分有效估计被试的流畅性水平;另外,速度与准确率权衡作为作答过程中的基本现象,现有的模型无法进行有效的描述与刻画。考虑到“被试流畅性水平”似乎更能表示一种内隐的、潜在的特质,下文将以流畅性水平表示加工速度。

4.4.3 目镜头眼间距过小,不能双眼观察 出现这种情况主要是个别人眼间距太小,不能适应正常摆放的显微镜的目镜头的眼间距,但目镜头进一步缩小受镜架的阻挡,不能双眼观察。解决办法:可以把固定目镜的螺栓松动后旋转180°,重新固定,进一步缩小两目镜头的距离,适合眼间距窄的学生使用。

综上所述,研究拟探索的问题是,借鉴已有的认知心理学实验研究成果和心理测量学研究成果,开发一个考虑速度与准确率及其权衡关系的心理测量学模型,以期实现认知心理学实验成果从实验室走向大规模评价应用中。

2 基于认知心理学实验SAT函数模型的构建

2.1 认知心理学实验SAT函数模型

以假阳性(1-特异度)为横坐标,真阳性(灵敏度)为纵坐标绘制ROC曲线,可以检验BIOCLIM模型的精度。根据Swets的评价标准,ROC曲线下面积(即AUC值)越接近1时表明模型的精度越高[14]。从图4可以看出,ROC曲线的AUC值为0.998,远大于随机测试的AUC值(0.5),说明BIOCLIM模型的可靠性极高,可用来预测紫玉兰的潜在分布区。

d′(t)=λ*(1-exp(-β*(t-δ)))t>δ且t≠0

(1)

式(1)中,d′表示的是被试辨别力水平,在信号检测实验中,用击中概率与虚报概率各自对应的正态化标准分数之差来表示;t表示的是控制加工时间,指的是以刺激呈现的时间为起点的被试认知加工时间,在SAT实验范式中作为操作变量由实验设计者来预先设定;λ是渐近线水平参数,反映的是在加工时间足够时,被试群体能达到的最大辨别力水平;δ是截距参数,是辨别力处于随机水平时(d′=0)的加工时间;β为加工速率,是辨别力水平随着时间变化的变化速率,反映函数曲线的陡峭程度。该函数描述了被试信息加工的动态过程。在认知实验过程中,主试通过设置不同的控制加工时间(函数(1)中的时间t),并获取被试在对应控制加工时间条件下的辨别力水平,从而可以了解被试群体在实验条件中的加工速度与准确率之间的权衡关系(如图1所示,δ=0.2,β=2,λ=3.1)。

图1加工时间与辨别力关系

关于反应时间变量,需要明确三类概念。第一类是预先设定的控制加工时间,对每个被试都是固定不变的,即函数(1)中的时间t。第二类是被试的期望加工时间t*(vander Linden,2009),即被试在项目上的理论作答时间。第三类是被试的实际观测加工时间可以任意变化,不同被试完成同一项目的加工时间可能不同。在认知实验SAT范式中,通过设置不同控制加工时间点来研究和了解被试的速度与准确率权衡关系。但是在大规模评价中,通过重复测量,为测验项目设置不同的控制加工时间是不现实的。于是,通过期望加工时间t*与实际观测加工时间的组合关系来表示认知实验中不同控制加工时间点的情况,同时又能够应用于大规模评价项目中。在函数(1)中,δ指随机加工时间,t-δ则反映了被试的精细加工时间,t*-δ和亦为同理。根据SAT实验范式,当控制加工时间t低于被试完成项目的期望加工时间时,则对应时间差即实际观测加工时间小于期望加工时间,被试作答时间不足,或者被试追求更快的解题速度;当控制加工时间t等于被试完成项目的期望加工时间时,则对应即实际观测加工时间与期望加工时间相等,被试在准确率与速度方面进行了很好的权衡;当控制加工时间t高于被试完成项目的期望加工时间时,则对应的即实际观测加工时间大于期望加工时间,被试有剩余时间思考,从而追求更高的准确率。所以,时间差能有效实现控制加工时间t的功能。在认知实验中,加工时间可以作为操作变量由主试控制,以研究速度与准确率的权衡关系;而在实际的大规模评价中,加工时间只能由被试自身控制,但可以通过与期望加工时间比较,同时结合作答准确率来评价被试准确率与作答速度之间的权衡关系。根据函数(1)的定义,要求t-δ>0,选择指数转换,即

另外,采用Yen统计量对SAT模型与实测数据拟合情况进行评价,如式(4)所示。Yen统计量服从自由度为m-k的χ2分布,其中m为组数,k为项目参数个数,Oij是类j对项目i的正确作答比例,Eij是类j对项目i正确作答的理论比例,rj是类j的被试数。

2.2 认知心理学实验SAT函数模型变量的分析与再建

在函数式(1)中,β为加工速率,反映曲线的陡峭程度,与项目反应理论模型的区分度内涵一致,因此,β值在0.1到2.5之间(罗照盛,2012)。

入库河道生态护坡除了满足防洪工程安全、水土保持以及美化环境、日常休闲外,同时还兼顾维护各类生物适宜栖息环境和生态景观完整性的要求。因此,生态护坡的建设需在防洪工程建设和安全管理与生态保护和修复间寻找最佳的平衡点。目前常用的护坡技术有:①自然型材料防护方式。通常采用植被、木桩、石块等自然材料维护河岸稳定性,保持河岸自然特性。②生态型材料防护方式。通常采用三维植被网、生态混凝土、鱼槽等生态型材料维护河岸稳定性,保持河道自然性,该种方式通常用于安全性要求较高的河岸防护。

在信号检测论中,d′表示的是被试在噪音背景中识别信号的辨别力水平;上渐近线参数λ表示的是在充足反应时间条件下,被试群体理论上能达到的最高辨别力水平。以二值记分项目为例,信号指正确选项,噪音指错误选项,击中为选择正确选项,即为p,虚报为选择错误选项即为Q=1-p,则被试辨别力水平为d′=Zp-Z1-p,根据正态分布性质,Zp=-Z1-p,则d′=2Zp,则有并且项目的渐近线参数λ对所有被试都是相同的,因此,取值范围为(0,1)之间,即函数式(1)可以转换为:

综上所述,加快明确村集体经济组织的法律主体地位,是保障其可以独立自主进行经济活动、顺利推进农村改革、切实保护农民利益的首要关键点,应当在系统研究当前理论和农村实际问题的基础上,得出相应的对策。

p(t)=1-exp(-β*(t-δ))t>δ且t≠0

大量认知心理学研究(Dosher,1976,1984;Reed,1973,1976;Wickelgren,1977;Carrasco et al.,2003;Giordano et al.,2009)表明,函数(1)能较好地拟合认知任务加工中速度与准确率权衡的动态数据。

2.3 心理测量学SAT模型构建

通过对函数(1)中各变量内涵的分析与表达形式的再建,并结合van der Linden(2009)的分析,构建出一个新的反映了加工速度与作答准确率权衡关系的模型,如下式(2):

p(Uij=1│

根据模型(2)及设定相应条件后的参数估计结果,项目正确作答概率与被试流畅性水平和项目时间压力的理论关系分别如图2与图3所示。

(2)

对于被试的权衡状态可以采用两个方法进行评价。方法一,绘制被试在所有项目上观测时间和期望时间差与准确率的散点图,根据各散点位于X=0与Y=0.8的四个区间的聚集趋势进行评价;方法二,首先,基于理论模型和参数估计结果,模拟多个观测时间点,绘制模拟观测时间点和期望时间差与准确率的关系曲线,然后,通过实际观测时间与准确率的点在曲线的位置,推断被试在项目上的权衡倾向。

数学核心素养是数学课程目标的集中表现,在学生自主发展中发挥不可替代的作用,是在数学学习过程中逐步形成的,既反映课程内容的主线,聚焦课程目标要求,也是学业质量的集中反映.[3]数学核心素养就是数学教育过程中,学生逐步形成的适应个人终身发展和社会发展需要的必备的数学思维品质和数学能力,是数学知识、能力和态度的综合表现.数学核心素养是数学课程落实“立德树人”这一教育根本任务的具体表现,是从发展性角度对数学课程的目标定位,为当前高中数学教育新一轮改革指明了方向,理应成为当前数学课堂教学的价值取向和实践的内驱力.[4]

vander Linden(2009)分析了被试的实际观测作答时间、流畅性水平参数和项目的时间压力参数三者之间的关系,并通过式(3)进行表示,

Reed(1973)提出了一个基于速度与准确率权衡模式下的函数模型,如下函数式(1):

(3)

式(3)中,表示了被试的期望作答时间表示了实际观测作答时间与期望作答时间之间的差异大小,与前文中表示了相同的意义,反映了被试作答过程中受到其他因素的影响。观测时间和期望时间差与准确率结合可以反映被试作答中的权衡关系。当被试作答倾向又快又好时,则时间差偏向负数且准确率高;当被试作答倾向好却慢时,则时间差偏向正值且准确率高;当被试作答倾向差却快时,则时间差偏向负值且准确率低;当被试作答又差又慢时,则时间差偏向正值且准确率低。被试的权衡不同,则作答结果也会不同,但是又快又好是所有被试以及决策者都青睐的目标。

2.4 心理测量学SAT模型参数估计

2.4.1 参数估计的MCMC算法

在估计心理测量学SAT模型的参数时,首先假设被试与项目各自之间的作答时间与准确率是相互独立的,即项目之间的作答时间与准确率以及被试之间作答时间与准确率分别独立。研究使用R语言自编程序进行参数估计,其M-H的Gibbs抽样过程如下所述。

滴灌管网的铺设是该技术最重要的一步。科学合理的滴灌管网布置,可以在灌溉的基础上节约水资源。滴灌管网包括主管道、支管和滴灌管。开关通常安装在主板上,当满足特殊需要时,开关经常安装在支管上。最终将主管连接到水头,水头上要装有压力表,并配有回流装置,主要是为了防止泵功率因管路压力过大而引起,从而避免危险。另外,第一部分还应装有过滤装置,防止水中杂质在滴管头部堵塞,不能正常发挥功能。

(1)被试流畅性水平参数

从对数正态分布中随机抽取,同时设定向转移的函数式为:

(2)项目参数

分别从对数正态分布和对数正态分布中随机抽取,且设定则向转移的概率式子为:

其中是被试流畅性水平的第v次取样状态,指项目时间压力参数的第v次取样状态,则是项目速率参数的第v次取样状态。

2.4.2 模拟研究及结果

为了验证模型参数估计的可行性与精度,采用Monte Carlo方法进行模拟研究。首先,被试参数分布为ln(τ)~N(0,1),取值范围为-3到3之间,项目时间压力参数d分布为ln(d)~N(0,1),取值范围为-3到3之间,项目速率参数β分布为β~LN(0,1),取值为0.1到2.5之间;其次,通过公式(3)计算理论加工时间,由于被试在作答过程中受到权衡的影响,观测时间以tij=t*+U(-t*,t*)生成,其中U指均匀分布,当均匀分布生成的值在(-t*,0)之间时,意味被试在提前作答,追求速度,当均匀分布生成的值在(0,t*)之间时,则被试愿意花费更多的时间追求准确率,由此生成作答时间矩阵;然后,通过公式(2)计算p与随机数比较,生成作答矩阵。

模拟研究涉及两个变量,分别为被试量与测验长度,其中被试量分为N=200、500、1000,而测验长度分别为J=20、50,每种条件重复50次。参数返真性指标采用均方误差MSE和相对偏差BIAS。

(一)强化茶文化顶层设计。一是细化茶园建设规划。将茶叶种植与绿色发展理念、镇域经济发展深度融合,通过政策和制度引导激励相关镇街和茶园由粗放种植向精细管护转变,提炼和设计好各具特色的以茶文化为主题的茶园发展规划。二是把茶元素融入城市建设中。在特色城镇、美丽乡村、美丽社区、美丽家园等活动中植入茶文化元素,在城市雕塑、园林景观、路灯外观上以茶具、茶壶、茶山为造型,以各大主干道为重点,打造淡雅古朴、清新秀气、特色鲜明的永川茶文化景观。三是依托城市公园和湿地建设或在一些游客量大的景区,打造一批充满浓郁巴蜀特色的茶馆,凸显出永川休闲宜居的城市品质和茶文化特色。

表1参数返真性(平均MSE和BIAS)

参数平均指标J=20J=50N=200N=500N=1000N=200N=500N=1000τMSE0.1320.1390.1370.0600.0560.054BIAS-0.0070.019-0.001-0.0040.008-0.006dMSE0.0970.0480.0140.0970.0400.021BIAS-0.063-0.018-0.017-0.084-0.036-0.028βMSE0.0310.0200.0200.0310.0190.014BIAS0.0520.0390.0390.0550.0360.027

表1中结果反映了被试量与测验长度对心理测量学SAT模型的参数估计精度的影响情况。项目参数和随着被试量的增加,MSE和BIAS值都明显降低;被试参数随着测验长度增加,MSE和BIAS都明显降低。结果说明MCMC估计方法对模型参数的估计是非常有效的。

3 心理测量学SAT模型合理性分析

3.1 心理测量学SAT模型理论逻辑分析

首先,在问责力度加强的具体工作方面,首先应当明确科研经费管理的责任落实不仅仅应该落在具体经费使用者和基层科研人员及科室头上,中层管理乃至中高层管理在此过程中也负有不可推卸的责任,必须将其统统纳入问责追究。此外,还应加强在横向上的岗位与岗位之间相互监督约束的落实力度,从而建立一个纵横交错、立体化无死角的内部监督约束网络,大大提升经费管理科学性规范性落实力度。

图2表示,在时间压力ln(d)=0,两项目区分度分别为β=0.5和β=1.5时,不同流畅性水平被试在两道项目上的正确作答概率。从图中可以看出,流畅性水平τ越高,项目正确作答概率越高;同时,项目区分度β越高,项目特征曲线越陡峭,表现出越强的区分作用或对流畅性水平的变化越敏感。

图3表示,当固定被试的作答时间,设定被试流畅性水平lntau=0和lntau=2,且项目区分度β=1时,随着项目时间压力参数d的增大,被试的项目正确作答概率逐渐降低;同时可以看出,对相同的时间压力,流畅性水平越高,正确作答概率越高,这是由于时间压力越大,被试作答该项目所需时间越多,而对于时间压力越低的项目,流畅性水平越高则时间就越充分,所以正确作答概率就越大,也就是说,项目的时间压力参数d与被试正确作答概率p成反比关系。

为了解释被试作答时的权衡关系,参照认知实验中的控制时间设置,在估计项目参数、被试流畅性水平后,模拟了被试在7个不同的观测时间点上(分别用A、B、C、D、E、F、G代表)的项目作答结果,然后绘制时间差与准确率关系权衡曲线,最后,依据被试在权衡曲线上的实际位置,作为被试作答时间与准确率权衡发展趋势的评价依据,示例如图4。图中,项目时间压力参数ln(d)=0,速率参数β=1,选择了三个流畅性水平分别为lntau=-1、lntau=0和lntau=1的被试。为便于解释,将关系图分割成四个象限。在百分制中,通常80分被定义为优秀的起始值,于是将0.8定义为高准确率,研究者也可以根据实际情况定义不同的高准确率标准,观测作答与期望作答时间差为0被当作被试作答时间权衡的一个分割点。根据这两个标准将图形分成四个象限。在四个象限中,第一象限上的作答结果被定义为慢而好,第二象限作答结果被定义为又快又好,第三象限作答结果为快而差,而第四象限作答结果则是又慢又差。图4表示了被试在不同的模拟观测时间点上的作答准确率,当然,在实际作答中的观测作答时间点只有一个,但还是可以根据模型参数的估计结果模拟被试在多个观测作答时间点上的作答结果,并以此作为评价每个被试作答每个项目过程中的权衡状态。如图4中右端lntau=1的被试,如果该被试的实际观测作答时间点位于A点,可以认为他过分追求作答速度,而如果他的实际观测作答时间点位于E、F或G点,则可以认为他作答太谨慎,过分追求准确率。

图2 流畅性水平与准确率关系 图3时间压力与准确率关系

图4时间与准确率关系

3.2 模型与实测数据拟合情况分析

理论模型与实测数据之间的拟合检验是验证模型合理性的关键。如果理论模型与实测数据之间能够很好拟合,则说明实测数据能够通过理论模型进行描述,或者说,理论模型能够很好地解释实测数据结果。

为了检验模型与实测数据的拟合情况,采集了瑞文标准推理测验(张厚藥,王晓平,1985)实测数据进行分析。在测验设计时,期望测试中被试作答存在明显的速度与准确率权衡行为,而不是纯能力测验或者纯速度测验,测验指导语要求被试又快又准确地作答,同时对作答又快又准确的被试承诺给予一定奖励。被试选自两所县城高中的学生,数据收集程序采用E-prime1.1编写,开始时由主试在机房主机上统一操作演示与讲解,之后再由学生进行作答,每次测试安排三个主试机动。测验长度为60题,控制测验最长作答时间为45分钟。共施测340名被试,排除无效被试20名。参数估计采用两条链,每条链长为20000,burn-in设置为10000,参数拟合收敛采用潜在量尺缩减因子(potential scale reduction factor,PSRF)(Brooks & Gelman,1998),通常 PSRF<1.1或1.2,研究选择参数的 PSRF 均要求小于 1.1 来表示参数估计已经拟合。

在参数估计后,首先,将被试按流畅性水平大小分成九个组,获取每个组的被试在每个项目上的平均作答时间与平均正确作答比例(实际观测值),以及每组被试在每个项目上的理论正确作答概率(通过模型参数估计得到);然后,描述实际观测值与理论正确作答概率之间的关系,以此为基础,评价理论模型与实测数据之间的拟合情况。

模型与数据拟合情况主要通过在项目水平上,作答准确率与被试流畅性水平理论与观测曲线来评价,如图5所示。图形的两条直线表示实际观测值与理论值的散点趋势线,两条直线越一致,则表明实际观测结果与理论值越一致。

在准确率与流畅性水平的关系曲线上,任意选择了测验中的四个项目,分别绘制了四个项目(第2、12、36、53题)的观测与期望曲线图,O指的是观测曲线,E则是期望曲线。从第2题到第53题,项目的时间压力参数是逐渐增大的,但是四个项目的理论与观测曲线都非常趋近,而且图形也呈现出随着流畅性水平增大,准确率提高的趋势。

图5不同项目流畅性水平与准确率关系

第二是日用品的改变导致的谜语费解。从前的一些日用品已经或者行将淘汰,以之为谜底的谜语就令年轻人费解,自然面临着被淘汰的命运。如例11的谜底“火钳”,例12的谜底“草鞋”,现在在城镇甚至在一些乡村都已经很难觅其踪迹了,其谜语的费解是显而易见的:

Yen统计量

(4)

选择上文中的四个测验项目(2,12,36,53),通过计算四个项目的Yen统计量与临界值进行比较,结果发现四个项目的Yen统计量的值分别为10.68、8.61、14.20、14.56,都明显要小于临界值18.48。在所有60个项目上,小于临界值的项目为52个,超过临界值项目为8个。在8个非拟合项目中,χ2值低于18.8的项目占3个;χ2值在20左右有4个项目,只有项目59明显超过临界值。

综合而言,通过观测曲线与期望曲线的一致性以及Yen统计量检验的结果,同时考虑模型稳健性的特点,可以认为模型与实际数据拟合结果良好。

其中,p指被试在项目上的准确率;Uij表示被试i在项目上j的作答情况,1为正确作答,0为错误作答;tij指被试i在项目j上的实际观测作答时间;τi为被试i的流畅性水平参数,τ越大,则被试流畅性水平越高,τ越小,流畅性水平越低;dj是项目j的时间压力参数,也就是作答项目所需的时间量或工作量;βj为项目j的区分度参数,也叫速率参数,是反映项目曲线的陡峭程度。

随着最严格水资源管理制度的深入落实,提高建设项目水资源论证在我国环境资源管理制度体系中的地位,进一步完善建设项目水资源论证制度体系迫在眉睫。在完善建设项目水资源论证制度体系过程中,应当坚持先易后难、循序渐进、逐步完善的原则,先出台或修订相关规范性文件和部门规章,逐步修订或出台相关法律法规。同时,加强对建设项目水资源论证工作的宣传,提高社会公众对建设项目水资源论证工作的认识,加强行业管理部门与其他相关部门的协调合作,推进地方建设项目水资源论证相关地方法规规章建设,并鼓励其根据自身实际开展制度创新。

对于第一种评价方法,选择了两个流畅性水平非常接近的被试,绘制他们在全部及部分试题上时间差与准确率关系散点图,分别如图6左图与右图所示。在图中,两个被试流畅性水平皆为lntau=-0.07,两虚线分别对应Y=0.8,X=0。在左图中lntau1被试,第一象限到第四象限项目数分别为15、28、12、5,从阴影部分也反映出第二象限项目数占明显优势,也就是又快又好,所以该被试整体上在准确率与速度上进行了较好的权衡;对被试lntau2,其第一象限到第四象限的项目数分别为38、9、10、3,从阴影部分也可以看出第一象限项目数占明显优势,也就是好却慢,也就是该被试整体上更多追求的是正确率。为了进一步分析两个被试的权衡特征,选择了项目参数非常接近的14个项目,绘制了图9中的右图。在右图上,通过两条参考线,明显可以看出,被试lntau2的各点都在第一象限,即倾向准确率,观测时间基本都高于期望时间,正确率也较高;而被试lntau1的各点倾向第二象限,观测时间基本低于期望时间,同时也具有较高的正确率。

(2)脱磷(P)能力强。高炉法和电炉法处理红土镍矿无法使用高磷原料,熔炼过程中磷几乎100%进入粗镍铁中。富氧侧吹煤粉熔融还原技术脱磷能力强,可适当放宽原料含磷的限制,拓宽原料来源和降低成本。红土镍矿、还原煤以及辅料中的磷在熔炼过程中,侧吹煤粉喷枪将煤粉喷入高铁渣熔池中,原料中少量的磷被碳还原成单质P4挥发进入烟气,剩余磷绝大部分进入渣中,镍铁基本不含磷,主要化学反应见式(1)。

图6相同流畅性水平时间与准确率权衡

对于第二种评价方法,选择了流畅性水平分别为-0.385和0.555的两个被试,同时选择了四个有代表性的项目(β参数分别为1.10、2.36、1.45、0.134,时间压力参数d分别为0.393、-0.741、1.48、-1.80),每个项目均模拟了6个观测时间点,加上实际观测时间,共7个时间点,绘制观测时间和期望时间差与准确率关系散点和曲线,如图7所示。在图中,E对应的是模拟观测时间与准确率的散点,O为实际观测时间与准确率的散点,数字1-4分别代表四个不同项目,两条虚线分别为X=0,Y=0.8。

对于流畅性水平为-0.385的被试,项目1的观测时间点O1处的准确率接近达到最大值,同时观测时间明显高于期望加工时间,说明被试在项目1上作答比较谨慎,更倾向于提高准确率,属于好却慢;而在项目2上,观测时间点O2处的准确率仍然有较大的增长空间,被试此时做出了决策,不过被试的准确率仍然达到了0.8以上,同时观测时间低于期望时间,说明被试在项目2上是又快又好。在项目3和项目4上,两个项目的时间压力都偏大,准确率偏低,但是两个项目权衡曲线的陡缓程度存在差异,这是由项目的速率参数决定。在项目3上,速率参数较小,权衡曲线增长缓慢,被试很难在合理的时间内完成作答,被试提前做出了决策,属于快而差;而项目4的时间压力大且速率参数也偏大,权衡曲线陡峭,虽然有较好的上升空间,但观测时间已经高于期望时间,被试的努力尝试仍未达到较高的准确率,权衡收益相对成本不占优势,在追求一定准确率后做出了决策,属于又慢又差。

对于流畅性水平为0.555的被试,情形与上一被试非常相近,只是在项目1上速度与准确率权衡较好。

速度与准确率权衡是被试作答项目过程中的一个基本现象,每个被试对每个项目的权衡倾向可能都存在差异。

图7不同流畅性水平时间与准确率权衡

4 讨论

目前,关于反应时的研究正在逐步受到关注。但是已有的反应时模型都未涉及被试作答过程中速度与准确率权衡现象的处理,更多的是单纯针对反应时信息而言,而速度与准确率权衡是被试决策过程中的一个基本现象,直接影响到被试的作答时间与作答准确率。因此,开发一个可以应用于大规模评价中的速度与准确率权衡的心理测量学模型将具有重要的价值。

反应时能反映出被试作答项目时的重要信息,能从不同角度评价被试完成任务时的决策过程。研究以认知心理学实验的速度与准确率权衡模型为基础,通过理论逻辑分析和数据分析,提出了一个新的心理测量学的速度与准确率权衡模型。

在调查中,社区书记表示基层政府的许多工作仍然是发包到社区,“上面千条线,底下一根针”的局面仍然没有得到有效改善。 街道和社区的职责难以区分,许多工作最后还是落到社区,无形中增加了社区的工作量。

新模型借鉴已有的认知心理学实验研究成果和心理测量学研究成果,首先,它能够使速度与准确率权衡模型应用于更复杂的认知任务情景中,实现认知心理学实验成果从实验室走向大规模评价应用中;另外,相对已有的测量学模型而言,新模型考虑了速度与准确率及其权衡关系。而且,新模型并不依赖于反应时的分布,它是基于被试作答过程的权衡机制构建,从而能够针对被试作答项目的不同权衡与反应进行区别对待,而不是像现有的反应时模型将不同作答结果等效处理。在正确的项目作答时间上,现有的模型(van der Linden,2006;Ranger,et al,2012,2013;等等)和文中模型都是作为有效作答信息进行处理,但是速度与准确率权衡模型同时兼顾考虑了被试在作答过程中的权衡状态;而对于错误的项目作答时间,现有的反应时模型仍然将其作为完全有效数据进行处理,也就意味着在同一个项目上,作答正确的时间与作答错误的时间代表同样的意义,而文中速度与准确率权衡模型则将错误作答时间识别为部分有效时间,也就是说,被试实际所花费的作答时间与正确作答该项目所需的时间是有差距的,从认知实验角度而言,项目正确作答的时间是必须经历正确提取项目考察知识结点和相关联结以及应用的时间过程,而错误作答项目只经历其中部分过程,同时兼顾速度与准确率权衡,将被试识别为不同的权衡状态。为了验证速度与准确率权衡模型,通过模拟分析和实测数据分析发现,新的基于速度与准确率权衡的心理测量学模型参数能非常稳定而又精确地被估计,同时能很好地应用于大规模心理测验任务解决中。

人们在解决现实问题并做出决策时,反映了被试三个方面的心理特征与品质,分别为标志知识技能完备性的能力水平、标志知识技能熟练度的流畅性水平、标志速度与准确性权衡标准的倾向性(Kagan,Rosman,Day,Albert,& Phillips,1964;Grigorenko & Sternberg,1995)。能力与流畅性水平都是被试潜在特质的不同方面,只是能力反映被试作答准确率高低,而流畅性水平反映被试作答时间长短。有些被试可能三者均有很好的表现,而有的被试可能表现更加冲动,反应快,但是精确性差,而有些被试喜欢反复验证,反应慢,但精确性水平更高。心理测量模型可以应用于有时间限制条件下的问题处理情景,比如在大规模被试能力水平评价项目中,被试作答同时需要考虑时间与结果的准确性问题。而对于具有充足作答时间的能力测验(纯能力测验)或者只考察速度的速度测验(纯速度测验),速度与准确率权衡模型也能适用,但是由于被试在纯能力测验上,不需要太在意时间的影响,而纯速度测验,测验项目普遍偏向简单,则被试在作答过程中,就不需要特别在意权衡速度与准确率的倾向,难以激发被试在作答过程中的权衡行为,也就无法发挥速度与准确率权衡模型的优势。在测验项目上,项目所考察知识技能点的复杂度一方面表现为项目难度,另一方面是项目的时间压力水平。对于项目时间压力水平,在项目时间不变前提下,项目越复杂,项目时间压力水平越高;当项目复杂度相同,项目设定时间越短,项目时间压力水平越高。项目时间压力是项目复杂度与项目设定时间的结合。在整个测验上,测验的时间设置,标准的把握都是基于被试评价的实际需要。针对相同的测验,当目标是评价被试知识技能完备性,也就是能力时,测验的时间就需要尽力充足,以避免因为时间不足或者知识运用不熟练,影响作答结果;当目标是评价被试知识技能熟练度,也就是流畅性水平时,需要压缩测试时间,给予被试足够的时间压力,以免因为时间设置不当,时间压力过低;最后当评价目标为被试综合素质,也就是能力与流畅性水平兼顾评价时,则需要设置时间压力不是特别大,同时时间又不充裕时,由被试在作答过程中的权衡倾向,综合考察被试的素质。因此,在模型数据收集与测验项目选择上,针对不同的被试评价目标,测验的时间设置需要慎重考虑。

当然,还有许多问题需要今后进一步探讨。比如,权衡指标的分析,虽然通过被试的观测时间和期望时间差与准确率结合分析,可以将被试的权衡倾向进行识别,但是将权衡倾向整合成一个统一的评价指标,或者以参数的形式在模型中反映出来,将更便于了解与分析被试的权衡状态。另外,如何在模型中整合被试能力水平是今后需要进一步研究的问题。

参考文献

罗照盛.(2012).项目反应理论基础.北京:北京师范大学出版社.

孟祥斌.(2016).项目反应时间的对数偏正态模型.心理科学,39(3),727-734.

Brooks,S.P.,& Gelman,A.(1998).General methods for monitoring convergence of iterative simulations.JournalofComputationalandGraphicalStatistics,7,434-455.

Carrasco,M.,McElree,B.,Denisova,K.,& Giordano,A.M.(2003).Speed of visual processing increases with eccentricity.NatureNeuroscience,6(7),669-700.

Carrasco,M.,Giordano,A.M.,& McElree,B.(2005).Attention speeds processing across eccentricity:Feature and conjunction searches.VisionResearch,46(13),2028-2040.

Dosher,B.A.(1976).The retrieval of sentences from memory:A speed-accuracy study.CognitivePsychology,8,291-310.

Dosher,B.A.(1984).Degree of learning and retrieval speed:Study time and multiple exposures.JournalofExperimentalPsychology:Learning,Memory,andCognition,10,541-574.

Giordano,A.M.,McElree,B.,& Carrasco,M.(2009).On the automaticity and flexibility of covert attention:A speed-accuracy trade-off analysis.JournalofVision,9(3),1-10.

Grigorenko,E.L.,& Sternberg,R.J.(1995).Thinking styles.In D.H.Saklofske & M.Zeidner(Eds.),Perspectivesonindividualdifferences.International Handbook of Personality and Intelligence.

Kagan,J.,Rosman,B.L.,Day,D.,Albert,J.,& Phillips,W.(1964).Information processing in the child:Significance of analytic and reflective attitudes.PsychologicalMonographs:GeneralandApplied,78(1),1-37.

Klein Entink,R.H.,van der Linden,W.J.,& Fox,J.P.(2009).A Box-Cox normal model for response times.BritishJournalofMathematicalandStatisticalPsychology,62,621-640.

McElree,B.,Jia,G.X.,& Litvak,A.(2000).The time-course of conceptual processing in three bilingual populations.JournalofMemory&Language,42,229-254.

McElree,B.(1998).Attended and non-attended states in working memory,accessing categorized structrures.JournalofMemory&Language,225-252.

McElree,B.(2000).Sentence comprehension is mediated by content-addressable memory structures.JournalofPsycholinguisticResearch,29,111-123.

McElree,B.,& Carrasco,M.(1999).The Temporal Dynamics of Visual Search,Evidence for Parallel Processing in Feature and Conjunction Searches.JournalofExperimentalPsychology:HumanPerceptionandPerformance,25(6),1517-1539.

McElree,B.,Foraker,S.,& Dyer,L.(2003).Memory structures that subserve sentence comprehension.JournalofMemoryandLanguage,48,67-91.

McElree,B.,& Carrasco,M.(2001).Covert attention accelerates the rate of visual information processing.ProceedingsofTheNationalAcademyofSciencesofTheUnitedStatesofAmerica,98(9),5363-5367.

Meng,X.B.,Tao,J.,& Shi,N.Z.(2014).An item response model for Likert-type data that incorporates response time in personality measurements.JournalofStatisticalComputationandSimulation,84,1-21.

Ranger,J.,& Ortner,T.(2012a).A latent trait model for response times on tests employing the proportional hazards model.BritishJournalofMathematicalandStatisticalPsychology,65,334-349.

Ranger,J.,& Ortner,T.(2013).Response Time Modeling Based on the Proportional Hazards Model.MultivariateBehavioralResearch,48,503-533.

Ranger,J.,& Kuhn,J.T.(2014).An accumulator model for responses and response times in tests based on the proportional hazards model.BritishJournalofMathematicalandStatisticalPsychology,67,388-407.

Ranger,J.,& Kuhn,J.T.(2015).Modeling Information Accumulation in Psychological Tests Using Item Response Times.JournalofEducationalandBehavioralStatistics,40(3),274-306.

Reed,A.V.(1973).Speed-accuracy trade-off in recognition memory.Science,181,574-576.

Reed,A.V.(1976).List length and the time course of recognition in human memory.Memory&Cognition,4,16-30.

van der Linden,W.J.(2006).A lognormal model for response times on test items.JournalofEducationalandBehavioralStatistics,31,181-204.

van der Linden,W.J.(2008).A hierarchical framework for modeling speed and accuracy on test items.Psychometrika,72,287-308.

van der Linden,W.J.(2009).Conceptual issues in response-time modeling.JournalofEducationalMeasurement,46,247-272.

Wang,C.,Chang,H.H.,& Douglas,J.A.(2013).The linear transformation model with frailties for the analysis of item response times.BritishJournalofMathematicalandStatisticalPsychology,66,144-168.

Wang,C.,Fan,Z.W.,Chang,H.H.,& Douglas,J.A.(2013).A semiparametric model for jointly analyzing response times and accuracy in computerized testing.JournalofEducationalandBehavioralStatistics,38,381-417.

Wickelgren,W.(1977).Speed-accuracy tradeoff and information processing dynamics.ActaPsychologica,41,67-85.

APsychometricModelforSpeed-accuracyTradeoffandApplication

Guo Xiaojun Luo Zhaosheng

(Psychology College,Jiangxi Normal University,Nanchang 330022)

Abstract:The accuracy of completing a task has always been the main evaluation index in the large-scale assessment.However,during a variety of task situations,all the indexes indicating the quality of the doers are extremely important,including the correctness of the result as well as the timeliness of the decision-making process.Therefore,the precision of results and fluency level of reaction should be regarded as the two indispensable indexes that evaluate the quality of each individual in finishing tasks.Grounded on the research of speed and accuracy in cognitive experiment,the manuscript will make the cognitive experiment of the speed-accuracy tradeoff model out of the lab and make it a large-scale assessment of model that can be applied to more complex situations of cognitive tasks by building a psychometric model based on the speed-accuracy tradeoff.The new psychometric model of parameters based on speed-accuracy tradeoff can be estimated very stably and accurately.At the same time,the variables of model and their relations can be well supported by the real data.Finally,the quality of the subjects can be evaluated from different methods by the speed-accuracy tradeoff model.

Keywords:speed-accuracy tradeoff;large-scale assessment;cognitive experiment;psychometric model

中图分类号:B841.2

文献标识码:A

文章编号:1003-5184(2019)05-0451-10

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

郭小军:基于速度与准确率权衡的心理测量学模型及应用论文
下载Doc文档

猜你喜欢