An Overview of Computerized Adaptive Testing

原文出處:Magis, D., Yan, D., von Davier, A.A. (2017). An Overview of Computerized Adaptive Testing. In: Computerized Adaptive and Multistage Testing with R. Use R!. Springer, Cham. https://doi.org/10.1007/978-3-319-69218-0_3 

翻譯君:ChatGpt

檢查員:maoosu

在本章中,我們簡要介紹了電腦適性測驗理論,包括測試設計、測試組合、試題庫、試題選擇、評分與等化、內容平衡、試題曝光和安全。我們還總結了基於IRT的試題選擇過程,列出了常用的試題選擇方法,並簡要概述了基於樹的適性測試。

3.1 簡介和背景

電腦適性測驗(CAT)一直被用來衡量能力和成就,以及測量人格和態度變量。CAT的主要目的是產生比線性測試更有效和準確的測試。憑藉其優越的性能,CAT已成為心理測量學和教育測試領域的重要且熱門的研究和實踐應用。為了提高電腦測試的準確性和能力估計的準確性,需要降低與能力估計相關的誤差。能力估計的誤差是可用於測量的信息量的函數。如果能夠增加信息量,那麼誤差的幅度將相應地減小。在不增加測試長度的情況下增加可用信息量的一種方法是定制測試。CAT是一種定制測試,根據每個測試者在每個管理試題後的當前估計能力水平進行調整,稍後將詳述。

具體來說,在CAT框架下,測試涉及迭代管理適應於每個測試者估計能力水平的試題,以產生更準確的能力估計。在理想的CAT中,試題按照每個測試者的最佳順序逐一選擇和管理,使得每個選擇的試題在當前測試步驟中都是最有用或最具信息量的。此外,下一個試題的選擇取決於先前管理的試題、測試者的回應和測試者能力水平的暫定估計。與線性測試相比,CAT具有很多優點;其中之一是,在提供相同或更高精度的能力估計的同時,減少了測試者的測試時間。它還可以在測試管理後立即產生能力估計,為測試者提供即時反饋(Magis & Raîche, 2012)。此外,由於每個測試者的試題順序不同,減少了欺詐或作弊的風險。

CAT文獻的數量不斷增加,Wainer(2000)、Mills, Potenza, Fremer和Ward(2002)、van der Linden和Glas(2010)以及Yan, von Davier和Lewis(2014)的著作對CAT理論、實施和應用的所有重要方面進行了全面討論。然而,直到最近,還缺乏靈活的開源軟件包來運行CAT並在此框架內進行密集的模擬研究。R包catR(將在下一章中介紹)正是為實現這一目標而開發的。 


3.2 CAT基本原理

CAT的元素包括一個包含預校準試題的試題庫、選擇合適試題的過程、在每個試題管理後估計能力水平的過程、停止標準以及最終估計和評分。有許多實際問題需要考慮,例如試題暴露和內容平衡。對於分類測試,最終估計將是基於能力估計的分類。

項目反應理論(IRT)方法在CAT的幾個過程中被使用,重點是提高能力估計的準確性和效率。 CAT應用需要一些基本的IRT假設。在本書中,假定潛在特質是單維的(即單維假設),並且在給定潛在特質或能力的條件下,試題反應是條件獨立的(即局部試題獨立假設)。這些假設在第2.1節中簡要概述。它們在適性測試中非常常見(Weissman,2014),儘管最近已經出現了多維CAT研究計劃(Reckase,2009;Segall,2010)。

正如Magis和Raîche(2012)所描述的,任何CAT過程都需要一個校準試題庫,並可以在四個連續步驟中進行示意性分解。

圖 3.1 電腦適性測驗過程的示意圖 

3.3 測驗設計與實施

設計和實施電腦適性測驗(CAT)涉及許多方面,如測驗目的,導致不同的測驗設計、試題庫設計和維護、內容平衡和測驗組合、評分和等化、信度和效度、測驗安全性和曝光控制。

對於能力測試的目的,CAT設計專注於能力測量的準確性,即各種測試者能力水平的估計準確性。IRT方法通常用於測驗和試題庫設計、測驗組合、試題校準、試題選擇和模型參數估計。還有用貝葉斯方法的IRT方法用於CAT(van der Linden,1998a)。對於分類測試的目的,CAT設計專注於分類的準確性,即將測試者分類為合適群體的準確性。IRT方法也用於測驗和試題庫設計、測驗組合、試題校準、選擇和估計計算機化精通測試(CMT)的兩個類別(Lewis和Sheehan,1990)和分類測試(Eggen,2010; Glas和Vos,2010; Smith和Lewis,2014)。還有其他非基於IRT的方法,包括用於CAT的基於樹的方法(Yan,Lewis和Stocking,2004),參見第3.8節。

設計CAT時要考慮的基本問題是:測驗應該多長?將使用多少試題?第一個和後續試題如何選擇?選擇試題和能力估計的數學模型是什麼?停止標準是什麼?該測驗將如何評分?內容平衡要求是什麼?如何控制試題曝光?所有這些問題都可以通過像catR這樣的可靠且易於使用的軟件包直接解決和研究。


3.4 測驗組合

在過去的二十年裡,許多研究人員為電腦適性測驗的測驗組合方法做出了貢獻。目前,實踐中使用了幾種自動化測驗組合(ATA)算法。

傳統上,經典測驗理論(CTT)中的試題難度和試題鑑別度參數被用於測驗組合。在現代IRT中,測驗信息函數(2.23)成為測驗組合的主要統計量。由於測驗信息函數與能力或潛在特徵的測量標準誤差(SE)之間的密切關係,通過操作測驗信息函數可以控制測量誤差的水平(Zheng, Wang, Culbertson, & Chang, 2014)。許多研究人員提出了不同的測驗組合方法,包括Lord使用目標測驗信息曲線的方法(Lord,1977)和Samejima對相同能力水平的相同測驗信息函數(Samejima,1977)。匹配TIF的原則仍然是測驗組合方法的主流方法(Zheng等人,2014)。

常用的自動化測驗組合(ATA)方法包括線性規劃方法,該方法在二進制空間中優化目標函數,受到多個約束的限制(van der Linden,2008; van der Linden和Diao,2014; van der Linden和Guo,2005)。目標函數包括測驗信息函數、組合測驗信息與目標的偏差以及多個平行測驗形式之間的差異。啟發式方法通過每次選擇一個試題添加到測驗中來進行一系列局部優化(Ackerman,1989;Lord,1977)。目標函數包括受到內容覆蓋等“外圍”約束懲罰的TIF(Zheng等人,2014)。

在這些方法中,加權偏差模型(WDM;Swanson和Stocking,1993)最小化加權和(絕對)偏差,標準化加權絕對偏差啟發式(NWADH;Luecht,1998)將每個加權偏離目標的偏差標準化為通用尺度。WDM和NWADH將所有約束視為目標,並將標準(標準化)偏差的加權和形成為標準。最大優先指數(MPI;Cheng和Chang,2009;Cheng,Chang,Douglas和Guo,2009)乘以由每個約束允許的剩餘試題數量計算出的因子。 


3.5 試題庫

試題庫是可供考生答題的試題集合,它是適性測驗的核心工具。對於電腦適性測驗(CAT),試題庫在CAT過程開始之前已經過校準。也就是說,試題庫中的試題在適性測驗中進行試題選擇時已經過了大量的預試、實地測試或試驗測試。

為了構建CAT試題庫,測驗設計者首先設計一個藍圖,該藍圖可以支持組裝所需的CAT(van der Linden,Veldkamp,&Reese,2000)。藍圖應根據測驗目的(即熟練度測驗或分類測驗)描述基於測驗規範的試題庫設計,並說明為解決手頭的測驗組合問題,最佳試題庫需要哪些類型的試題。然後,可以應用此藍圖來指導和培訓試題編寫人員,使他們根據測驗規範編寫試題。

有許多用於試題庫設計和維護的方法,包括整數編程模型、啟發式方法和蒙特卡羅方法(Belov和Armstrong,2009;van der Linden,2000,2005;van der Linden,Ariel,&Veldkamp,2006;Veldkamp和van der Linden,2010)。另一種方法是使用藍圖作為自動生成試題的起點,而不是試題編寫(Irvine和Kyllonen,2002;Veldkamp,2014)。這種方法使用的技術之一是試題克隆,即通過改變與試題難度無關的屬性,從父試題衍生出克隆試題家族(Bejar等,2003;Geerlings,Glas,&van der Linden,2011;Glas和van der Linden,2003)。


還有一些方法可以通過應用不可行性分析來診斷實際試題庫的弱點,以確定缺少哪些類型的試題(Belov和Armstrong,2009;Huitzing,Veldkamp,&Verschoor,2005)。從這些方法中獲得的診斷信息可以用來對藍圖設計進行微調(Veldkamp,2014)。

總之,測驗設計者需要獲得測驗規範,創建足夠多的各個內容類別的試題,根據規範審查試題質量,審查試題的公平性並對新編寫的試題進行初始預試或試驗。一旦完成預試,心理測量學家和統計學家需要使用經典測試理論(CTT)或項目反應理論(IRT)對試題進行校準,並使用CTT或IRT標準對試題質量進行統計審查。任何因瑕疵或模糊、與總觀察分數相關性低或難度極低或極高而不符合質量規範的試題都應該被淘汰。因此,只有選定的合格試題才能添加到試題庫。試題庫的大小、規範和內容平衡也將定期進行評估/重新評估。

一個經常被問到的問題是:“我們的試題庫需要多大?”試題庫越大,對使用該試題庫的CAT過程越好。但實際上,並不總是可以實施一個非常大的試題庫。此外,很難說適性測驗的試題庫應該有多大。平衡的試題庫應包含整個難度範圍的試題,從容易到困難的試題。這使得可以精確估計整個能力水平範圍,因為容易的試題對低能力水平最有信息量,困難的試題對高能力水平最有信息量。包括容易或困難的試題允許對低或高能力考生進行精確估計。 

3.6 基於IRT的CAT

本節簡要概述了基於IRT的CAT的最重要方面,通過描述圖3.1中顯示的四個步驟。

3.6.1 初始步驟

第一步的目標是從試題庫中選擇至少一個試題並將其提交給考生。通常情況下,會選擇一個試題,而在不了解考生能力水平的情況下,第一個試題被認為是在先驗人群平均能力值(通常設為零)附近最具信息量的。但是,這種常用方法還有很多改進之處。

首先,如果關於考生能力水平的一些先驗信息是可用的,則可以將其納入初始步驟。一些修改包括將先驗平均能力水平調整到人群平均能力水平,如果高於或低於零,以及如果有關於該水平的先驗信息,選擇一個難度水平非常接近考生能力水平的初始試題。

其次,可以根據不同的最優標準選擇初始試題。Urry(1970)提出,不是確定對初始能力水平最具信息量的試題,而是選擇一個難度水平最接近這個初始能力水平的試題。這被稱為bOpt或Urry的規則。需要注意的是,它最適用於二分IRT模型,因為在多分IRT模型中,難度水平沒有直接對應的等效(而是考慮許多閾值參數,而不是單一的難度水平)。

第三,選擇初始步驟的多個試題可能是有益的。這在文獻中並不常見或明確說明,也不在典型的CAT軟件中提供。但是,這種方法可以考慮用於選擇兩個或三個試題,每個試題都指代不同的先驗能力水平,以便從CAT開始時就覆蓋一定範圍的能力。此外,出於內容安全原因,應避免為所有考生選擇相同的初始試題。對這種方法的改進是為每個初始能力水平選擇一小組試題(根據所選最優規則),並隨機抽取其中一個試題進行初始管理。這個過程在保持選定試題的近乎最優的同時,避免了相同起始試題的管理(從而限制了試題的過度暴露)。這被稱為隨機迷惑方法(Kingsbury和Zara,1989年)。還可以考慮使用不那麼優秀的方法,例如隨機選擇起始試題或讓考試管理員決定哪些試題必須分配給每個考生。 


3.6.2 測試步驟

測試步驟是CAT過程的自適應部分開始發揮作用的地方。在管理開始試題之後,測試步驟如下進行:

如果停止規則未得到滿足:

(a) 根據選擇的試題選擇方法(見3.6.3節)從合格試題中選擇下一個管理的試題;

(b) 記錄考生的回答並更新回答模式;

因此,涉及的主要技術方面是使用當前回應模式和管理項目集進行臨時估計,以及選擇下一個項目的最優方法。本節重點介紹CAT過程中的能力估計;下一節提供有關項目選擇的詳細信息。

如2.3.2節所述,有多種能力估計器可用:最大似然、加權似然和貝葉斯估計器是CAT中最受歡迎的估計器(Magis & Barrada,2017;Magis & Raîche,2012;van der Linden & Glas,2010)。在測試步驟中,不是經常使用相同的能力估計器,有時使用混合規則是有用的,即首先使用一個估計器,然後在管理一定數量的項目之後或滿足特定條件時切換到另一個估計器,例如在CAT的最初階段,當只有很少的項目回應可用。在只有一個或兩個這樣的回應的情況下,可能會觀察到恒定的模式,即只有正確的或僅有不正確的回應(在二分法評分項目的情況下),或僅第一個或僅最後一個回應類別(在多分法評分項目的情況下)。在這種情況下,眾所周知最大似然估計器返回無限的能力估計(參見2.3.2節)。這在最初階段產生了相當大的不穩定性,因為選擇了對這些極端能力估計最具信息量的項目,而這些項目很可能根本不適合測試者的真實能力水平。

為了克服這種不良情況,最常見的方法是首先使用一個始終返回有限能力估計的估計器,然後在回應模式不再恒定時切換到任意所需的能力估計器(包括最大似然),或者繼續使用相同的初始能力估計器進行CAT。在能力尺度的極端收斂於零的先驗能力分佈,以及大多數常見的單維IRT模型的加權似然估計(WLE),都是返回有限能力估計的適當估計器(Magis & Verhelst,2017)。

處理CAT早期階段(僅限二分題)中的恆定模式的另一種方法是使用Dodd、De Ayala和Koch(1995)建議的啟發式調整方法。它們基本上是從初始能力猜測(通常為零)開始,然後迭代調整這個初始猜測

具有某種固定的增量或減量(取決於最後一個回應是正確還是錯誤)。例如,如果當前的回應模式只有正確的回應,那麼當前的能力估計將增加一定的值,迫使下一個選定的項目更加困難,並且(希望)下一個回應將是不正確的,從而產生不再恆定的模式。

從當前能力估計中加或減的值取決於選擇的啟發式步長調整方法。通常建議兩種方法:固定步長調整,其中步增或減是恆定的並由測試管理員確定;或者可變步長調整,其中當前能力水平增加或減少的幅度是當前值與項目庫中最大(或最小)難度水平之間距離的一半。

根據Dodd等人(1995)的說法,可變步長調整的性能略好於固定步長調整(考慮的固定步長值為0.4和0.8)。然而,Magis(2015a)表明,在CAT的早期階段使用BME或WLE在整個CAT估計過程中的性能優於步長調整。

3.6.3 試題選擇方法 


儘管試題選擇是測試步驟的一個組成部分,但有許多方法可用於選擇下一個試題,因此它值得在單獨的章節中進行詳細說明和討論。

在電腦適性測驗的當前階段已經管理了t-1個試題(t>1)(要麼都在初始步驟中,要麼在測試步驟中)。此時,我們希望選擇第t個試題作為電腦適性測驗評估的最佳選擇。讓Xt-1表示當前的回答模式,由前t-1個回答組成,針對感興趣的考生(在本節中,省略了第2章中引入的人下標i以簡化表示法)。集合St將表示符合資格的試題集合,即在第t步可供選擇的所有試題集合。讓θt-1.Xt-1/表示當前的臨時能力估計(使用當前回答模式),θt.Xt-1;Xj/表示在第t步管理試題j(j∈St)並更新回答模式Xt-1與試題回答Xj後獲得的臨時能力估計。最後,表示法jt*表示在過程的第t步選擇的試題。

有了這些表示法,就可以正式介紹試題選擇方法。據我們所知,迄今為止已經引入了至少14種試題選擇方法。首先介紹最知名和最受歡迎的方法。然後討論一些更新和特定的技術。

以下試題選擇方法在電腦適性測驗文獻中最常見(例如,Choi和Swartz,2009;Magis和Raîche,2012;van der Linden和Glas,2010;Wainer,2000;Weiss,1983)。

(方法介紹略)

正如您所看到的,有許多不同的試題選擇規則可供選擇。為了簡單和計算方便,大多數實際運行的電腦適性測驗程序都依賴於簡單的MFI規則,但實際上,每個規則都有自己的優缺點。有關這些方法之間的比較研究可以在Barrada等人(2009),Chang和Ying(1996),Choi和Swartz(2009),Segall(2004)和van der Linden和Glas(2010)中找到。 


3.6.4 停止步驟

停止步驟設定了停止適應性試題管理的參數。通常有四個主要的停止規則(van der Linden和Glas,2010),分別是(a)長度標準,(b)精度標準,(c)分類標準,和(d)資訊標準。

長度標準設定了要管理的試題總數,當已經管理了這個數量的試題時,CAT過程就會停止。較長的測試可提高能力估計的精度,但較短的測試在CAT早期階段調查特定問題時也可能有用(Rulison&Loken,2009)。使用固定的CAT長度可確保所有受試者接受到完全相同數量的試題,但代價是能力估計的各種精度水平。

精度標準在能力水平達到預定精度水平時停止CAT。換句話說,當臨時能力水平具有相應的標準誤差小於或等於預先指定的閾值時,CAT就會停止。由於較長的測試具有更高的精度(因此標準誤差較小),因此在管理足夠長的測試時,通常會達到此標準。當需要確保所有受試者的最低精度時,建議使用此標準,但這可能意味著根據試題庫對估計能力水平的資訊程度,向受試者提供不同長度的CAT測試。

分類標準用於技能掌握測試。主要目的是確定受試者的能力水平高於或低於表示技能掌握的能力水平。在實踐中,這個掌握水平通常固定在某個準確的能力閾值,精度標準包括將當前能力估計的臨時置信區間與此閾值進行比較。

如果這個置信區間與閾值重疊,那麼對受試者的最終分類(掌握或未掌握)還沒有足夠的把握。另一方面,如果置信區間不涵蓋分類閾值,那麼可以將受試者分類為掌握技能(如果閾值低於置信區間的下限)或者未掌握技能(如果閾值高於置信區間的上限)。顯然,這個過程可以擴展到多個分類閾值。 

最後,資訊標準專注於每個試題在臨時能力估計下所攜帶的資訊量。CAT繼續的必要條件是剩餘的合格試題具有足夠的資訊量,使得總資訊量顯著增加。對於這條規則,閾值是至少有一個合格試題所攜帶的最小資訊量。如果在臨時能力估計下,所有合格試題的資訊值都小於預定閾值,CAT就會停止。這一標準可用於避免管理對能力估計和相關精度沒有足夠資訊量的試題。

儘管大多數CAT程序都專注於單一的停止規則,但也可以同時考慮多個停止規則,並在至少有一個規則滿足時強制終止CAT過程。這種“多重停止規則”方法具有一定優勢,例如它可以確保在管理完整個試題庫之前停止CAT。這個選項可以在像Firestar(Choi,2009)和catR等軟體中找到。


3.6.5 最終步驟

最終步驟使用自適應測試的完整回應模式,返回測試者能力水平的最終估計。在這個最終步驟中,可以考慮使用任何可用的能力估計器。可以在測試步驟中使用相同的估計器,也可以在測試和最終步驟中結合不同的估計器,例如,在過程的前幾個步驟中使用貝葉斯估計器(以避免在全對或全錯模式下出現無窮大的估計),並在最終階段使用傳統的最大似然估計。在這個最終階段,還可以報告CAT的其他信息,例如能力的最終標準誤差值和相應的置信區間。


3.7 內容平衡、曝光和安全性

CAT的實際應用可能是一個相當複雜的過程。由於心理計量、內容平衡和安全性目標與可用的試題資源相互作用,強調試題選擇過程中的某一目標通常會以另外兩個目標為代價。試題組(即基於相同刺激的試題)在試題庫中也會降低試題選擇方法的有效性(Steffen,2016年11月10日,個人交流)。試題庫越大,對於具有內容平衡和曝光控制的CAT管理越有利。但是,在某些情況下,試題庫永遠不會太大。這是因為當測試管理的頻率增加時,每個試題被管理的頻率也會相應增加。對於某些運營測試,試題庫中只有有限數量的試題,或者由於各類別的眾多限制,試題庫中某些特定內容領域的試題有限。


根據測試組合要求,試題選擇必須滿足一定的內容覆蓋要求,以便每個CAT都能平衡地代表各種內容。這被稱為內容平衡,即每個CAT必須在一定程度上平衡來自各類別試題的預定百分比(Kingsbury和Zara,1989)。強制CAT內容保持平衡可以確保至少有一定比例的測試試題來自每個類別。

有一些方法可以控制內容平衡,包括加權偏差ATA方法(Swanson和Stocking,1993),使用ATA平衡內容的陰影測試方法(van der Linden和Glas,2010),以及Leung,Chang和Hau(2003)和Riley,Dennis和Conrad(2010)的方法。它們需要:(a)將試題分為目標區域的子組;(b)每個子組中應該管理的試題的相對比例集合。有了這些元素,Kingsbury和Zara(1989)提出了一個簡單的方法,有時被稱為受限制的內容平衡方法(Leung等人,2003):


當試題庫中的某些試題被多次選擇時,如果重新使用的試題曝光率超過應有的次數,可能會出現問題。重新使用試題的曝光率稱為試題曝光率。試題可能過度曝光的一個原因是,這些試題在平均能力水平上非常具有信息量,因此可能比其他試題被選擇得更頻繁(Davey & Parshall,1999;van der Linden,1998b)。

如果試題曝光率過高,那麼測試安全性將成為測試的一個嚴重問題。如果一個試題過度曝光,那麼關於該試題的預先知識可能變得可獲得,為某些考生帶來不公平。過度曝光的試題也可能表現不同,提供誤導性信息,並對能力估計產生問題。消除這些過度曝光的試題可能會因為開發和校準試題庫中的試題而帶來很高的成本。因此,確保試題不被過於頻繁地管理非常重要(Chang & Ying,1996;Stocking & Lewis,1998)。

有一些方法可以控制試題曝光。這些方法包括在當前能力估計附近選擇多個最佳試題,然後在這些試題中隨機選擇一個作為下一個管理的試題:這是隨機法(Kingsbury & Zara,1989,1991)。其他常用方法包括5-4-3-2-1技術(Chang & Ansley,2003;McBride & Martin,1983),Sympson和Hetter方法(Hetter & Sympson,1997),Davey和Parshall方法(Davey & Parshall,1999;Parshall,Davey,& Nering,1998),Stocking和Lewis的有條件和無條件多項式方法(Stocking & Lewis,1998)以及最近的最大優先指數方法(Cheng & Chang,2009)。最後需要注意的是,一些試題選擇方法旨在包含試題曝光控制,例如第3.6.3節中描述的比例和進階方法(Barrada等人,2008,2010)。


3.8 基於回歸樹的CAT

由於當前的CAT在很大程度上依賴IRT,因此當樣本量很小或違反IRT假設時,例如在多維測試中,CAT表現不佳。作為一種替代方法,樹基CAT算法(Yan等人,2004)被引入,並似乎在多維情況下表現得比基於IRT的CAT更好或者一樣好。

基於樹的CAT使用Friedman、Stone和Olshen(1984)引入的回歸樹方法。這些是用於預測連續因變量(回歸)和類別變量(分類)的遞歸劃分方法,並隨後被稱為分類和回歸樹(CART)。鑑於目前基於IRT的CAT應用的局限性,包括強烈的模型假設和實際校準樣本大小,Yan等人(2004)引入了基於樹的CAT方法。圖3.2是一個使用回歸樹的試題級CAT的例子。管理的第一個試題是試題31。如果考生回答試題31正確,那麼下一個管理的試題將是更困難的試題,試題27。如果考生回答試題31不正確,那麼下一個管理的試題將是更容易的試題,試題28。適應性測試以這種方式繼續,直到管理最後一個試題。如果最後一個試題,例如試題8,回答正確,則這個8題測試的最終估計得分將是35(在0-60的比例上)。

在基於樹的CAT中,試題得分是指對試題的正確回答。標準得分是由所有試題組成的測試的正確回答總數。試題得分還確定了當前考生樣本分裂為兩個子樣本的方式,分別應用於下一階段的較容易和較困難的試題。基於樹的CAT可以看作是一個預測系統,根據考生在每個測試階段的試題得分,將他們有效地分配到合適的組別。它根據他們走的路徑和他們回答的試題來預測他們的總得分,而無需引入潛在特徵或真實得分。詳細的基於樹的CAT算法可以在Yan, Lewis和von Davier(2014b)中找到。

Yan等人(2004)表明,當樣本量足夠大且適應性測試足夠長時,在一維示例中,基於IRT的CAT比基於樹的CAT更好地估計了真實得分。

Fig. 3.2 An example of a tree-based CAT [reproduced with permission from Yan et al. (2014)]

然而,他們發現,在測試的早期階段,基於IRT的CAT的最大似然估計與基於樹的CAT相比表現非常差。特別是,當試題是二維的時候,在所有測試長度上,基於樹的CAT明顯比基於IRT的CAT提供了更好的預測。這表明回歸樹在選擇自適應測試的前幾個試題方面表現得更好,並提供了更有效的預測,例如在“路由測試”中。因此,當IRT假設不滿足時,非參數樹形的CAT方法可能是一個可行的解決方案。這種方法在評分時提供了最優路由和效率。 

3.9 結語

CAT是一種現代化的評估和測試管理方法。它需要開發和校準一個合適的試題庫以及一個高效的計算機界面,用於測試管理、數據收集和輸出生成。後者的目標不能在沒有包含從能力估計到下一個試題選擇以及信息功能計算的所有方面的高效軟件包的情況下實現。R包catR包含了這些元素,下一章的目的是為它的架構和功能提供詳細的描述。