Ch1. Overview of Adaptive Testing

原文出處:Magis, D., Yan, D., von Davier, A. A., Magis, D., Yan, D., & von Davier, A. A. (2017). Overview of Adaptive Testing. Computerized Adaptive and Multistage Testing with R: Using Packages catR and mstR, 1-5 

在這本書中,我們提供了電腦適性測驗(Computer Adaptive Testing,簡稱CAT)和多階段測驗(Multistage Testing,簡稱MST)以及試題反應理論(Item Response Theory,簡稱IRT)的概述。我們簡要討論了與CAT和MST相關的重要概念。然後,我們介紹了用於CAT和MST模擬的R開源軟體套件catR和mstR,並提供了如何使用它們的示例。

本書的結構旨在帶領讀者了解CAT和MST模擬的所有關鍵方面,包括數據生成、試題庫、模擬的試題參數生成,以及使用catR和mstR功能進行估計和評分。本章簡介還提供了各種形式測驗的比較和後續章節的概述。

1.1 線性測驗、CAT和MST

傳統上,線性測驗一直是衡量考生知識、技能和能力的最常見方法,特別是在教育評估中。然而,在過去的二十年里,電腦科學和技術迅速發展,對電腦化測驗(Computer-Based Testing,簡稱CBT)的需求大幅增加。尤其是,電腦適性測驗在很多實際場景中被使用,因為它們在測試方面具有高效和精確性。最近,電腦化多階段測驗(MST)因其特點和效率而變得非常流行。

1.1.1 線性測驗

線性測驗通常是以紙筆形式進行,通常被稱為紙筆測驗。在線性測驗中,所有考生都會看到每一個試題,無論該試題對他們來說是非常容易還是非常困難。知識或能力相對較高(或較低)的考生仍需要回答容易(或困難)的試題。由於低能力考生在所有困難試題上都可能答錯,高能力考生在所有容易試題上都可能答對,因此這些容易和困難試題對於衡量考生在度量尺度的高端和低端能力提供的訊息較少。結果是,線性測驗需要大量試題才能在最終分數上獲得均勻的精確度(Rudner,1998年)。

電腦化測驗是在電腦上進行的測驗,可以是線性、適應性或多階段測驗。線性電腦化測驗與傳統的線性紙筆測驗相似,只是它是通過電腦進行的。因此,電腦化測驗具有許多與電腦化相關的優點,如測驗排程的靈活性以及測驗管理、測驗組合和分數報告的效率,但也受到與線性紙筆測驗相同的限制。

1.1.2 電腦適性測驗(CAT)

電腦適性測驗(CAT)也是在電腦上進行的測驗。除了電腦化管理外,它還使用基於演算法的方法來管理試題。具體來說,在測驗過程中,選擇和管理的試題會根據考生在測驗過程中估計的能力水平進行調整,而估計的能力在每個試題管理後都會不斷更新。因此,CAT是一個試題級別的適應性測驗,可以是固定長度或可變長度。能力估計不僅用於表示考生的能力水平,還用於確定從可用試題庫中選擇後續試題。通常情況下,CAT比傳統的線性測驗更有效率(例如,測驗時間較短)(Wainer, Kaplan, & Lewis,1992年)。因此,近年來CAT得到了廣泛的應用。

已經證明,CAT在傳統線性測驗方面具有優勢。這些優勢包括在整個能力分佈範圍內對考生表現進行更有效和精確的測量(Hendrickson,2007年;Lord,1980年;Wainer,2000年)。如前所述,傳統線性測驗對於該群體中平均能力的考生測量效果相當好,最高精確度通常出現在能力平均值為預期測量群體的考生的分數上。對於在度量尺度兩極的考生,當測驗相對較短時,線性測驗給出的測量精度較低。換句話說,線性測驗在為該群體內存在的所有能力水平提供精確測量方面存在困難(Betz & Weiss,1974年;Hambleton & Swaminathan,1985年;Hendrickson,2007年;Lord,1980年)。由於CAT專注於個別考生估計的能力水平的測量,它們可以為所有考生提供精確的測量,包括平均能力的考生以及在度量尺度兩端附近的考生(Hendrickson, 2007; Lord, 1974; Mills, Potenza, Fremer, & Ward, 2002; Wainer et al., 1992)。在第3章的圖3.1中,有一個CAT的示意圖。 

1.1.3 多階段測驗(MST)

多階段測驗(MST)也會根據考生估計的能力水平進行調整。它是CAT和線性測驗之間的一種折衷,結合了兩者的特點。基於幾十年的研究(Betz & Weiss,1974;Hambleton & Swaminathan,1985;Hendrickson,2007;Lord,1980;Luecht,1998;van der Linden,Ariel,& Veldkamp,2006;van der Linden & Glas,2010;Wainer,Bradlow,& Wang,2007;Yan,von Davier,& Lewis,2014),MST可以結合大部分CAT和線性測驗的優點,同時將其缺點降到最低。因此,MST在現實世界的測試應用中越來越受歡迎。

儘管MST與CAT非常相似,但與典型CAT中針對每個考生單獨適應性地管理試題不同,該算法會為每個考生管理預先組裝的試題組(稱為模塊),並在多個階段中構建測驗(見第6章圖6.1)。在MST中,所有考生在測驗的第一階段都需要完成一組初始試題,通常稱為導引測驗(圖6.1中的模塊A)。根據他們的表現,考生將被分配到第二階段適應考生估計能力水平的幾個不同模塊之一(圖6.1中的模塊B和C)。階段數和每個階段可用模塊數可以根據MST的設計而變化。MST最後一個階段的模塊通常被稱為測量測驗(圖6.1中的模塊D、E和F)。與CAT類似,MST也專注於個別考生的能力水平測量,因此可以為所有考生提供精確的測量,包括那些平均能力和在度量尺度兩端附近的考生(Yan等,2014)。

表1.1列出了線性測驗、CAT和MST的主要優點和缺點。

1.2 本書組織

本書的組織如下。首先,第2章提供了從原理和假設到常用試題反應理論(IRT)模型、參數和能力估計以及相關討論的綜述。本書的其餘部分分為兩個主要部分,第一部分專注於電腦適性測驗(CAT),第二部分則關注多階段測驗(MST)。

第3章從基礎知識開始,介紹CAT的概述,到測驗設計和實施,基於IRT的CAT試題庫、組卷、估計、評分、聯接和等化,以及基於樹的CAT。第4章介紹了R開源軟件包catR及其功能。它詳細說明了如何使用catR函數進行CAT模擬的每個步驟,包括數據生成、參數生成和評分。第5章展示了使用catR進行模擬的一些實例,以幫助讀者和catR用戶在實踐中。

表1.1 線性測驗、CAT和MST設計的比較 

在本書的第二部分,第6章從基本概念開始,提供了MST的概述,包括測試設計和實施、基於IRT的MST試題庫、組卷、估計、評分、連接和等化,以及基於樹的MST。第7章介紹了R軟件包mstR,說明了它與catR之間的特點和相似之處。詳細說明了如何在MST模擬的每個步驟中使用mstR功能。最後,第8章提供了使用mstR進行模擬的示例。R軟件包catR和mstR提供了多種選項,可以在模擬的CAT或MST環境中生成響應模式,首先提供一個經過校準的試題庫,然後根據CAT或MST評估設計提供選項。這些軟件包集成了多個規則,用於提前選擇試題或模組、能力估計、下一個試題選擇或模組選擇、停止標準,並且可以控制像試題暴露和內容平衡這樣的關鍵問題,適用於CAT和MST。這些軟件包的通用架構使得catR和mstR具有靈活性,易於更新,許多組件甚至可以在CAT和MST框架之外使用(例如,能力估計和相關標準誤計算程序)。這些軟件包在選擇底層的邏輯試題反應模型方面也具有靈活性,可以處理給定真實能力水平的大量模式生成。這提供了一個優勢,即可以通過在各種設置下(不同的能力水平、不同的試題選擇規則等)生成大量響應模式來評估試題庫的質量,並將結果與模擬模式進行比較。這些軟件包還可以作為實際CAT和MST評估平台的計算引擎,例如基於網路的平台Concerto(Kosinski等,2013)。

在本書中,考慮了catR的3.12版本和mstR的1.0版本。作為開源軟件包,它們可以很容易地被R用戶更新或修改。這些軟件包可以從綜合R存檔網絡(Comprehensive R Archive Network,簡稱CRAN)上獲得,網址為 http://CRAN.R-project.org