A Framework for the Development of Computerized Adaptive Tests

原文出處:Thompson, N. A., & Weiss, D. A. (2011). A framework for the development of computerized adaptive tests. Practical Assessment, Research, and Evaluation, 16(1), 1. 

在過去的40年裡,已經有大量研究專注於電腦適性測驗(CAT)的技術方面,例如試題選擇算法、試題曝光控制和終止標準。然而,關於開發電腦適性測驗的實踐指南的文獻卻相對較少。本文旨在將一些可用的研究方法整合成一個通用框架,以指導任何電腦適性測驗評估的開發。 

電腦適性測驗(CAT)是一種先進的考試運用方法,在過去近40年來得到了大量的技術研究支持。另一部分文獻則研究了CAT的背景,如與紙本或電腦管理的傳統測驗的比較(Vispoel, Rocklin, & Wang, 1994)以及將CAT方法應用於特定測試(Sands, Waters, & McBride, 1997; Gibbons等人,2008)。然而,除了在一些技術書籍中,如Flaugher(2000)關於試題庫的討論,或Wise和Kingsbury(2000)以及Parshall, Spray, Kalohn和Davey(2006)關於實際問題的討論外,很少關注到CAT背景下的測試開發過程。此外,尚未將研究和建議整合起來形成一個通用的CAT開發模型。本文的目的是提出這樣一個CAT評估項目開發模型,該模型足夠通用,適用於所有評估項目,但又足夠具體,能為初次接觸CAT的人提供指導。特別強調了模擬研究在充分回答CAT開發過程中遇到的問題方面的必要性。 

該框架(表1)旨在涵蓋從開始到出版的整個電腦適性測驗開發過程,而非僅涉及心理測量方面。因此,它並不是從實施CAT的決定開始,而是在考慮CAT是否可能成為給定評估項目適當的測試管理方法時提出問題。在開發試題庫或遞交平台之前,需要回答幾個重要問題。只有這樣,測試開發過程才能按照表1中顯示的步驟進行。 

表1:建議的CAT框架 

本文接著討論與每個階段相關的一些問題。然而,這個討論並不全面。在很大程度上,每個評估項目的情況都是不同且獨特的,因此會引發其自身的問題。此外,其他資料來源已經對個別方面給予了廣泛關注,例如Georgiadou, Triantafillou和Economides(2007)對試題曝光的技術討論。因此,評估項目應將此框架僅作為一個指導,而非全面的配方,以確定與手頭情況相關的問題,以及為每個決策提供指導所需的研究、商業或心理測量工作類型。 

這不僅從實用角度來看非常重要,而且因為這是有效性的基礎。在這些階段中,如果沒有足夠的研究和文件記錄來開發CAT,至少可能會導致效率低下,最糟糕的情況下可能在法律上難以辯護。例如,在沒有實證證據支持選擇的情況下,任意設定實時CAT的規格(終止標準、最大試題數等)可能導致考生分數的準確性並不如所聲稱的那樣,從而降低對其解釋的有效性。 

背景

儘管許多資料(例如Lord, 1980; Wainer, 2000, van der Linden和Glass, 2010)詳細討論了CAT作為遞送算法的細節,但一些背景知識對於提供討論的參考框架是必要的。

從架構的角度來看,CAT由五個組件組成(Weiss & Kingsbury, 1984; Thompson, 2007)。第一個組件是經過校準的試題庫,因此作為測試內容開發(例如,數學考試的數學試題)。其餘四個組件屬於心理測量而非內容,指的是CAT系統中的算法。

CAT通過將前兩個組件視為給定值,然後循環執行3、4和5,直到滿足終止標準(圖1)。例如,考生坐在電腦前參加考試。電腦預先加載了試題庫(其中包括每個試題的心理測量數據),並為考生確定了特定的起始點。為此起始點選擇一個試題,即測試中的第一個試題。回答該試題後,將對其進行計分並獲得考生能力(θ)的估計。然後對終止標準進行評估;如果尚未滿足,將選擇另一個試題(組件3),考生將回答,然後更新考生的分數(θ)(組件4),並再次評估終止標準(組件5)。

圖 1:CAT算法示例流程圖 

因為CAT的遞送是這些算法之間的協作,因此確立算法的適當規範與開發合適的試題庫同樣重要。確定規範的研究過程並未被廣泛理解,通常僅依賴負責測試計劃的心理測量師的專業意見。本文不僅為心理測量師提供了一個可遵循的過程模型,還為非心理測量師闡明了一些問題,這些非心理測量師在過程中也是利益相關者,並對過程中所需的一些工作負有責任。 

大多數CAT都建立在試題反應理論(IRT)的基礎上。IRT是一個功能強大的心理測量範式,對於測試開發、試題分析和考生評分具有很多優點。關於CAT,最重要的優點是它將試題和考生放在同一個尺度上,有助於直接將考生與最適合他們的試題相匹配。雖然CAT仍然可以用古典測試理論設計(Frick,1992;Rudner,2002;Rudner&Guo,即將出版),但這個優點意味著絕大多數CAT都基於IRT。因此,熟悉IRT是理解CAT所必需的。對於未接觸過的讀者,可以參考Embretson和Reise(2000)或de Ayala(2009)。雖然本文努力提供盡可能廣泛和通用的框架,但本文的觀點主要局限於基於IRT的CAT,因為它在該領域具有優勢和普及程度。對於基於古典測試理論的CAT,或者不完全適應的測試,例如固定程序分支或多階段測試,該框架需要進行一定的調整,但原則仍然適用。 

步驟1:可行性、適用性和規劃研究

CAT開發的第一個階段是確定CAT方法對於測試計劃是否可行。由於CAT算法在概念上具有吸引力並具有某些眾所周知的優點,非心理測量學者利益相關者可能會喜歡這個想法,並希望在不了解CAT的情況下繼續進行。一位主管或教授可能聽說CAT通常只使用常規測試的一半(Weiss & Kingsbury, 1984)甚至更少的試題,然後簡單地決定測試計劃將轉向CAT。這可能相當危險,不僅從心理測量學的角度,而且從業務角度。將評估計劃從固定形式測試轉換為CAT並不是一個可以輕易作出的決定。

因此,應首先研究實際和業務方面的考慮因素。該組織是否具有心理測量學專業知識,或者如果使用外部顧問,它是否能負擔得起?該組織是否有能力開發大量的試題庫?是否有可負擔的CAT遞送引擎可供使用,或者該組織是否有資源開發自己的引擎?將測試轉換為CAT是否可能帶來預期的測試長度縮減?測試長度的減少是否可以節省足夠的考生就座時間——這可能很昂貴——以轉化為實際的貨幣節省?或者即使CAT成本更高並且無法大幅減少就座時間,該事實是否因精度和安全性的提高而足以抵消組織的成本?

幸運的是,許多這樣的問題不僅可以通過猜測來回答,還可以通過心理測量學研究來回答。蒙特卡羅模擬研究(van der Linden & Glas, 2010)可以讓研究人員不僅估計CAT會產生的測試長度和得分精度,還可以評估試題曝光等問題以及產生所需考生得分精度所需的試題庫的大小。這些研究通過模擬大量虛擬考生在不同條件下的CAT來進行。然後,可以比較結果以作出決策。例如,可以為300個試題的庫和500個試題的庫模擬CAT,並將結果進行比較,以確定哪個對組織來說是更好的目標。在這個階段,這種方法非常重要的原因是,在撰寫任何試題或在有任何實際數據之前,就可以進行蒙特卡羅研究。

蒙特卡羅模擬基於IRT為給定的θ值提供對試題的正確反應概率的精確估計這一事實。這使得研究人員可以輕鬆地為試題生成反應,前提是該試題的參數和θ值。例如,假設一個平均考生(θ = 0.0)被計算為對一個試題的正確反應概率為0.75。從範圍為0到1的均勻分佈中生成一個隨機數。如果值為0.75或更小,則生成的反應為“正確”。如果值大於0.75,則生成的反應為“不正確”。給定試題庫的試題參數和一個考生θ值樣本,可以輕鬆生成整個正確/不正確反應的數據集。如果是隨機生成的,基於預期參數進行生成會讓模擬更具有說服力。如果已發表的研究中類似的測試被發現平均鑑別度參數為0.7,那麼顯然生成一個反映這一事實的試題庫是有意義的。 

這個數據集可以用來模擬電腦適性測驗(CAT)。模擬的電腦適性測驗與實際的電腦適性測驗運作方式相同,唯一的區別是試題反應不是由真實的考生提供,而是在生成的反應表格中查找或實時生成。如果電腦適性測驗選擇了某個特定試題進行測試,模擬程式只需從數據集中提供該反應即可。

由於蒙特卡羅電腦適性測驗模擬只能使用專門的軟體完成,因此第一步是獲取必要的軟體。需要兩款軟體:一款根據您提供的規範生成數據集的軟體,另一款模擬電腦適性測驗的表現。WINGEN(Han,2007)和PARDSIM(Yoes,1997)可以根據各種規範模擬基於試題反應理論(IRT;Embretson&Reise,2000)的數據集。然後可以使用FireStar(Choi,2009)或CATSim(Weiss&Guyer,2010)模擬電腦適性測驗。CATSim將兩者優勢結合,可以模擬自己的蒙特卡羅數據集、使用真實數據集,或者在電腦適性測驗模擬過程中進行兩者的混合。或者,如果測試計劃具有相當多的心理測量專業知識,可以在內部開發模擬軟體,但是所花費的時間很可能超過獲取現有軟體的成本。

在蒙特卡羅模擬中,有幾個重要的依賴變量需要考慮。最重要的兩個是平均測試長度和測試精度,精度以測量標準誤差來量化。對於常規測試,測試長度是固定的,但精度是可變的;處於分布中心的考生在衡量潛在能力方面的誤差通常較小,因為中等難度的試題是最常見的。對於適性測試,測試長度通常是可變的,但如果試題庫設計得當,電腦適性測驗(CAT)旨在為所有考生提供等效精度,這也是有效模擬至關重要的原因之一。

此階段的下一步是根據蒙特卡羅研究結果進行商業案例評估。例如,假設一個測試計劃目前使用四個常規固定形式的測試,每個測試有100個試題,其中20個試題重疊以進行等化。這相當於一個擁有340個試題的庫。最初可能認為,轉向電腦適性測驗至少需要一個擁有1000個試題的庫,但蒙特卡羅模擬顯示,500個試題的庫就足夠了。考慮到目前的試題庫有340個試題,額外的試題開發成本將比最初預期的要小得多。此外,模擬顯示,500個試題的庫可以產生與目前測試同樣精確的測試,但平均只需要55個試題。開發160個新試題的成本,進行必要的電腦適性測驗研究,並轉向電腦適性測驗引擎,是否能夠通過每位考生節省45個試題的時間和使用超過四個形式的額外安全性來抵消?這些問題是此步驟的核心,但也應該考慮到非商業優勢,例如能夠以相同的精度衡量所有考生,或者由於只看到合適的試題而改善考生的測試體驗。 

步驟2:開發題庫內容

一旦最終決定轉向電腦適性測驗,下一步就是建立題庫。同樣,這應該在可能的情況下基於實證證據來完成。前一步驟中的模擬研究應該被利用,並可能擴展以為題庫提供指導;如Veldkamp和van der Linden(2010)所指出,模擬在此步驟中是有用的,並不一定僅限於在Flaugher(2000)中描述的試驗測試之後使用。題庫中試題的數量非常重要,同時試題參數的分布以及實際考慮因素,如內容分布和預期試題曝光問題也很重要。應該完成各種情況的模擬,例如難度範圍廣泛的試題庫與範圍狹窄的題庫,或者是偏斜難度的題庫,或者是具有更高鑑別度試題的題庫與鑑別度較低的題庫。Veldkamp和van der Linden還討論了最佳試庫研究;Reckase(2003)的方法可以提供有價值的信息。

設計這些研究的一個重要考慮因素是測試訊息功能(TIF;Embretson&Reise,2000)應該與測試目的相匹配。如果測試是根據單一分數線(例如,及格/不及格)對考生進行分類,則在該分數線附近需要的訊息比在能力範圍的極端上需要的訊息更多。對於極端的考生,並不需要精確的分數,因此極端困難的試題並不必要。相反地,如果需要為所有考生(包括能力非常高或非常低的考生)提供精確的分數,則需要適合這些考生的試題。大量非常容易或非常困難的試題是必需的。

幸運的是,在許多情況下,並不需要一個全新的題庫。可以利用現有的題庫。事實上,為了連續性的目的,這樣做通常非常有用。通過將新開發的試題與現有題庫連接和混合,這確保了在過渡到電腦適性測驗期間,試題反應理論(IRT)底層的量表保持恆定。當然,這樣做也大大減少了需要開發的試題數量。 

無論題庫是由全新的試題組成,還是由新舊試題混合組成,都必須考慮測試計劃中試題的統計要求。如果測試計劃有很高的標準,並且通常在開發過程中淘汰大量試題,那麼在這個階段也必須考慮這一點。

步驟3:預測、校準和連接

試題開發完成後,必須進行預測。這對電腦適性測驗絕對是必要的,因為試題是根據試題反應理論(IRT)的試題參數與考生匹配的,而這些參數是通過對實際考生對試題的反應進行統計分析來估算的。預測所需的樣本量因所使用的IRT模型而異(Embretson&Reise,2000)。例如,Yoes(1995)建議對於三參數IRT模型,每個試題需要500至1000名考生。這個步驟中的主題在Flaugher(2000)中有更詳細的描述。

有兩種預測方法,參考前面關於電腦適性測驗試題庫將是全新的還是新舊混合的問題,以及在試題開發和預測階段現有測試是否必須保持運行。如果電腦適性測驗的試題庫將是全新的,則可以簡單地大量使用試題;在開發400個新試題的庫時,每個考生可能有時間看到100個新試題。如果是新舊混合的,並且當前的測試必須保持運行,則可以將新試題“種入”目前運行的測試中。讓我們繼續前面的例子,除了340個現有試題外,還需要160個新試題。考慮到有些試題可能並不如預期的好,假設我們正在預測200個試題。如果考生已經在進行100個試題的固定形式測試,那麼進行所有200個新試題將使測試長度增加三倍,這將耗費太多時間。由於需要200個試題,而且有四個形式,所以只給每個考生50個新試題是有道理的。可以隨機選擇50個試題,或者使用各種計劃(Verschoor,2010)按預定的區塊選擇。無論如何,關鍵是計劃預測試題的安排,以便有足夠的考生看到每個試題,以提供所需的最少反應次數。 

在預測完成後,必須使用試題反應理論(IRT)校準軟件估計試題參數。其中一個重要組成部分是鏈接(linking),,它確保所有試題的參數都校準在一個共同的尺度上。有幾種方法可以做到這一點,但需要做一個重要區分,即將新試題放在現有尺度上的方法(例如,Stocking和Lord,1980)和建立新度量標準的方法(Lee和Weiss,2010)。顯然,如果題庫將完全更新,則很少需要將其與現有尺度關聯。同樣,如果題庫被設計為包含現有測試中的試題,並且有必要保持該尺度,則建立新度量標準的方法是不合適的。有關鏈接的指導,請參考Kolen和Brennan(2004)。 

這個校準階段涉及到額外的統計分析。最常見的是,檢查試題統計數據,如難度和鑑別度,以確定試題是否需要被剔除或修改並重新進行預測。即使測試計劃正式基於試題反應理論(IRT),經典統計數據仍然對此非常有用。另一個試題層面的統計數據是模型擬合度(model fit)分析,,即數據如何支持已假定的校準試題反應理論(IRT)模型。具有顯著問題的試題,例如加速度或猜測易感性,通常具有較差的擬合度,這意味著這些試題的試題反應理論(IRT)參數不夠穩定,無法在電腦適性測驗(CAT)中使用。

最後,在此階段還需要進行維度分析。試題反應理論(IRT)假設測試是單維的(除非使用多維試題反應理論模型),因此該試題庫的預測中的試題應進行因子分析以確保這一點。適當的程序是使用四分相關進行因子分析(對於正確/不正確評分的試題),可以使用軟件程序MicroFACT(Waller,1997)執行,或使用TESTFACT 4(Bock等,2003)進行全信息因子分析(full-information factor analysis)。Bejar(1980;1988)建議在試題反應理論(IRT)框架內使用另一種方法來評估維度。

步驟4:確定最終電腦適性測驗的規範

此時,已經開發並使用IRT校準了一個試題庫。然而,這僅僅是之前描述的電腦適性測驗的五個組件中的第一個。在電腦適性測驗可以發布和分發之前,必須確定其餘四個組件。與試題庫的規劃一樣,這不應基於任意決策,而應基於模擬研究(Flaugher,2000)。然而,在此階段有一個重要區別:我們現在已經開發了一個實際的試題庫,並有真實考生回應這些試題的數據。如果目的是估計電腦適性測驗將來在真實考生中的表現,那麼真實數據顯然比隨機生成的數據更好。因此,可以利用這些數據進行新的模擬研究,稱為事後模擬(post-hoc simulation)真實數據模擬(real-data simulation)

事後模擬與蒙特卡羅模擬一樣,根據試題庫中每個試題的回應為每個考生模擬電腦適性測驗。不同之處在於,蒙特卡羅模擬生成每個考生對每個試題的回應,而事後模擬則利用真實數據。例如,如果第一個考生的電腦適性測驗模擬確定該試題庫的第19題應該是第一個出題的試題,蒙特卡羅模擬將根據試題參數、個人參數(θ)和假定的IRT模型生成對該試題的回應。另一方面,使用事後模擬時,無需生成回應;模擬算法只需查找第一個考生對第19題的實際回應。

這種模擬在預測設計中存在一個重大缺陷,即考生只看到試題庫中很小一部分的試題。在上面的示例中,每個考生只會看到已開發的540題試題庫中的150題(目的是保留500題):現有表格中的100題和50個新試題。如果在此數據集上進行事後模擬,每個考生的390個試題都無法得到回應。為解決此問題,開發了第三種模擬,即混合模擬(hybrid simulation)(Weiss&Nydick,2009;Weiss&Guyer,2010)。在可用時使用真實數據,但根據每個考生的θ生成缺失的回應,這些θ是根據他/她回答的試題估算的。這使得可以更有效地使用真實試題庫和真實考生模擬CAT。

事後模擬或混合模擬對於使用真實試題庫比較和評估CAT四個算法組件中不同方法和規範至關重要。每個組件中通常都有一些重要的問題需要回答,例如比較試題曝光方法或在試題選擇算法中應用內容限制;像CATSim(Weiss&Guyer,2010)這樣的軟件旨在提供選項來專門回答此類問題。沒有經過這些模擬研究充分研究的CAT的可辯護性要低得多。例如,試題庫可能不足以滿足試題選擇、內容平衡或終止標準算法的需求;如果沒有模擬研究,這可能直到考試進入實地後才被意識到。

題庫(Item bank)

試題庫不必完全按照原樣使用。雖然已經開發了500個試題的庫,但也許試題的質量比預期的更高,而只需使用400個試題的庫就足夠了,這樣可以將其他100個試題在稍後的時間點進行輪換。模擬可以輕鬆比較使用所有500個試題的CAT和僅使用試題庫中400個試題的CAT。

起點(Starting point)

在給每個考生發放試題之前,有幾種選擇可以作為起始θ估計。最簡單的方法是分配一個固定值,對應平均分數。在IRT中,這通常是0.0,因為該量表以考生為中心。

讓每個考生都以相同的初始θ估計開始存在明顯的缺點。因為CAT算法根據θ估計為考生選擇最佳試題,如果每個考生的估計值相同,那麼每個考生都將收到相同的第一個試題。如果認為這是考試安全或試題曝光問題,可以實施一些隨機化。例如,估計值可以是在-0.5到+0.5範圍內隨機選擇的值,或者應用類隨機的試題選擇方法,這兩者都可能使得有幾個可能的起始試題。

然而,CAT 的目標是盡可能地使考試適應每個考生。前面提到的兩個起點都假定對考生一無所知。但是,在很多情況下,關於考生的信息是可獲得的。最明顯的是先前測試的分數。如果在學校對兒童進行CAT作為一種形成性評估計劃的一部分,它們通常每年使用幾次。在這種情況下,第一次測試的分數對於後來的測試來說是理想的起點,因為學生的能力可能在類似的範圍內,儘管希望在某種程度上有所提高。

另一個選擇是使用外部信息來估計考生的能力。例如,Castro, Suarez和Chirinos(2010)研究了像動機和社會經濟地位這樣的外部因素。在教育情境中,其他評估或學術信息可能很有用。例如,在教育過程結束後進行專業許可或認證的測試中,可以將過程中的績效指標,如平均成績點,作為起點,如果研究表明存在相關性。雖然這對每個考生來說並非完美的預測,但平均而言,這將提高效率,從長遠來看,可以節省大量的時間和試題曝光。對於少數預測不准確的考生,CAT的適應性將會彌補這一點。

試題選擇演算法(Item selection algorithm)

試題選擇演算法非常重要,因為它不僅涉及確定最合適試題的具體計算,還涉及實際限制的影響。試題選擇通常基於試題訊息(item information)的概念,試圖量化某些試題在某種情況下比其他試題更合適的觀念。例如,對於一個相當聰明的考生來說,安排一個非常簡單的試題是沒有多大意義的;他們幾乎可以肯定會回答正確。對於能力較低的考生也是如此。

試題選擇中的一個重要考慮因素是測試的目的是獲得θ的精確點估計還是進行廣泛決策。如果測試的目的是用一定的精度估計θ,那麼選擇在考生的θ估計上提供最多訊息的試題是合適的。然而,如果測試的目的是基於切分分數對考生進行分類,使用似然比方法(Reckase, 1983),則設計試題選擇演算法在切分分數處評估訊息通常更有效(Eggen, 1999; Eggen & Straetmans, 2000; Thompson, 2009)。

計算用於選擇試題的試題反應理論訊息標準有很多方法,大量的電腦適性測驗研究包括模擬研究,旨在比較不同的試題選擇方法(例如,Eggen, 1999; Weissman, 2004)。2010年國際電腦化適性測驗協會會議包括兩個直接關注試題選擇演算法研究的分會。然而在實踐中,這些差異往往微不足道;因此,有人認為應評估使測試更有效的其他途徑(Thompson, 2009; van der Linden, 2010)。

基於同樣的原因,評估試題選擇過程中實際限制的影響通常更為重要。最常見的兩種限制類型是試題曝光限制和試題特徵限制。試題曝光限制是為了應對電腦適性測驗總是嘗試選擇最佳試題的事實(這些試題往往具有最高的鑑別度參數)而融入試題選擇演算法的子演算法。因此,具有較高鑑別度參數的試題遠比具有中等或低鑑別度的試題使用得更頻繁。為了解決這個問題,通常會實施某種隨機化。參見Economides, Georgidou, 和 Triantfillou(2007)對這些方法的評論。

許多測試計劃還要求測試受到某些非心理測量特徵的限制。典型的例子是內容限制,如數學測試要求一定比例的試題涵蓋代數、幾何和概率。另一個例子是認知水平,包括布魯姆(Bloom, 1956)的分類法,這可能要求測試中簡單回憶問題的比例不超過一定程度。

這兩種類型的限制都會降低適性演算法的效率,因為它們阻礙了選擇鑑別度最高試題的自然選擇過程。然而,從更廣泛的角度來看,它們可能非常重要。因此,在確定電腦適性測驗規範時,應該在事後或混合模擬中考慮到它們,並提供關於它們使用的詳細指導。模擬不僅對評估試題曝光限制的應用有用,而且對比較控制試題曝光的不同方法的效率也有用。

評分演算法(θ估計)(Scoring algorithm (θ estimation))

大多數電腦適性測驗除了試題選擇外,還使用試題反應理論進行評分。儘管Rudner(2002)表明使用古典測驗理論設計的電腦適性測驗在對考生進行分類方面效率相當高,但對於點估計考生能力的電腦適性測驗需要試題反應理論所能提供的精確性。模擬研究可用於比較使用不同評分演算法設計的電腦適性測驗的效率。這不僅包括古典與試題反應理論之間的比較,還包括試題反應理論方法之間的比較,如最大概似法和貝氏方法。後者的比較在觀察結果上差異很小,但具有一些重要意義。最大概似估計偏差較小(Lord,1986),但存在一個缺點,即它需要混合反應模式(至少一個正確和一個錯誤反應),而在第一個試題被施測後,這永遠不會是情況。然後必須在非混合反應向量的情況下應用子演算法;模擬也可以幫助進行該規範。 

終止標準(Termination criterion)

雖然電腦適性測驗可以設計為固定長度(例如,所有考生都接受100個試題,但試題是根據題庫自適應選擇的),但它們也允許實施可變長度(variable-length)的測驗。這樣的測驗不僅將試題適應考生,而且還適應所需試題的數量。實現這一目標有不同的方法。有些方法評估考生的θ估計,有些評估測量的標準誤,有些則考慮題庫。

一個基於θ估計的終止標準的例子是,在每個試題後θ估計不再變化超過一個小數量時終止測驗。這是因為電腦適性測驗是一個迭代過程,因此估計在測驗開始時通常變化很大,但最終會“鎖定”在考生的能力上。對於測量的標準誤同樣如此;它在測驗開始時相對較大,並且隨著測驗的進行會減小。

另一種方法是將終止標準基於題庫,而非考生參數。一個例子是最小訊息標準(minimum information criterion);如果題庫中沒有剩餘的試題能提供至少達到試題選擇演算法所定義的最低訊息水平,那麼可以停止測驗,因為沒有更多值得施測的試題。

然而,最常用的終止標準是最小標準誤標準(minimum standard error criterion)。這種方法設計測驗在考生達到一定標準誤或等效地,一定精度水平時停止。例如,當標準誤變為0.25或更小時,測驗可能會停止。這意味著在每一側的95%置信區間上具有±2個標準誤差,大約是一個θ單位寬。這個終止標準具有為所有考生產生等精度(equiprecise)分數的優點,前提是題庫得到妥善開發。

就像試題選擇一樣,這個演算法也受到實際限制。典型的限制是測驗長度限制,以最小值或最大值的形式出現。最小值確保每位考生至少接受一定數量的試題;如果測驗可以在僅用10個試題的情況下讓考生失敗,那麼確保考生在失敗之前至少看到20個試題可能在政治上是有利的,以努力減少投訴。最大值確保整個題庫不會被施測完畢。在及格/不及格的電腦適性測驗中,如果考生的真實θ等於切分數,即使給出整個題庫,他們也永遠無法被明確分類,因此測驗可能設定在相對較大的數字,如200個試題時終止。 

這些選項都直接控制電腦適性測驗的運作,並直接影響考生所看到的試題數量。一般來說,試題越多的測驗產生的分數精度越高,反之亦然。模擬研究是必要的,以評估這種權衡程度並產生符合測試計劃要求的測試規格。如果使用最小標準誤差標準,可以在不同誤差水平下進行模擬,例如0.25、0.30和0.35,然後評估需要更高精度的試題數量。

步驟5:發布實際電腦適性測驗

一旦確定所有必要組件的規格以及任何其他演算法,最終的電腦適性測驗就可以發布。如果測試開發和交付軟件已經存在(例如,組織已購買系統或訪問某個系統),這個步驟就不會遇到太多困難。在前面章節描述的大部分選項都表現為電腦適性測驗系統內的簡單單選按鈕或複選框。然而,如果組織正在開發自己的平台,這個步驟可能是最困難的。幸運的是,如果是這種情況,大部分開發工作可以與前四個步驟同步進行,節省大量時間。這個步驟還包含了與所有測試(不僅僅是電腦適性測驗)相關的實際分發和交付問題及努力,例如測試安全。

後記:維護電腦適性測驗

當測驗發布後,電腦適性測驗開發所涉及的研究並未終止。作為電腦適性測驗維護,還需要進行額外的研究。可能最重要的事情是檢查實際的電腦適性測驗結果是否與基於模擬的預期結果相符。例如,如果事後模擬預測,考生平均需要47個試題才能達到0.25的最小標準誤差,那麼在實際運行的電腦適性測驗的第一個月內是否真的發生了這種情況?

另一個重要問題是題庫的維護,有時稱為"更新"。因為在大規模測試中,試題可能會過度暴露,因此可能需要將過度暴露的試題替換出去,並將新的試題替換進來。這通常是通過將新試題加入題庫進行預測,然後在獲得足夠的樣本量進行校準後將其轉換為得分試題。然而,有些研究已經探討了在預測過程中將試題立即校準到題庫的線上校準方法。

要選擇退役的試題是考試贊助商的選擇。需要考慮幾個問題。最明顯的是試題暴露;如果一半的考生看到了某個特定的試題,而且眾所周知試題通常會被放到網際網路上,那麼這個試題很可能被認為是受到損害的。更具體地檢查這個問題的方法是參數漂移研究。如果該試題受到損害,那麼會有更多的試題需要退役。

摘要

計算機化適性測試(CAT)的開發需要大量的心理測量專業知識。因此,CAT的開發通常完全交由從事CAT工作的專業人員來進行。但隨著CAT的普及,進行CAT工作的人員的心理測量專業知識可能不足以在一定程度的指導下開發出合法可靠的CAT。本文為大多數情況下的CAT開發提供了一個寬泛的框架。然而,儘管這個模型相當通用,並且討論了許多問題,但它並不完全全面。許多測試項目都有特殊的問題,不僅需要確定,還需要單獨處理,以便將它們以盡可能實證的方式進行研究。然而,這一原則,即將問題的答案通過模擬研究實證地確定,仍適用於所有項目。