maoosu - ch6. An Overview of Computerized Multistage Testing

Ch6. An Overview of Computerized Multistage Testing

在本章中，我們將簡要介紹電腦化多階段測驗理論，包括測驗設計、測驗組建、試題庫、模組選擇、路由、評分和鏈接，以及曝光和安全。我們還提供了基於試題反應理論（IRT）的模組選擇過程的總結，以及基於樹的多階段測驗。

6.1 簡介和背景

與電腦適性測驗（CAT）類似，多階段測驗（MST）是一種測驗設計，在測驗過程中根據考生的能力水平調整測驗難度。MST可以被視為CAT和線性測驗的混合，並包括了兩種設計的特點。隨著技術的發展，MST在測驗行業的興趣逐漸增加，並允許對MST實施進行精確的調整。

最早的多階段測驗出現在20世紀50年代和60年代，並在古典測驗理論框架下設計（Angoff & Huddleston, 1958; Cronbach & Gleser, 1965; Linn, Rock, & Cleary, 1968）。多階段適性測驗的開發是為了使測驗適應學生的能力。最初，多階段測驗更多地用於分類，而不是對學生進行排名（Smith & Lewis, 2014）。在試題反應理論（IRT）背景下的定制測驗工作始於Lord（1971b）和Weiss（1983）。Lord（1980）對兩階段測驗的概述為未來幾年的研究設定了豐富的研究議程。

MST和CAT在某種程度上是相似的，因為測驗中試題的呈現順序取決於考生在之前試題上的表現。然而，在MST中，算法在考生回答一組試題（稱為模組(modules)）後進行調整，而不是像CAT中每回答一個試題後調整。具體來說，測驗開始時，所有考生都要回答一組試題，稱為路由模組(routing module)。接著，計算每位考生在路由模組中的試題表現，並與標準分進行比較。如果考生的分數高於標準分，則接著回答更困難的一組試題（更困難的模組）；如果考生的分數低於標準分，則回答更容易的模組。

因此，MST在靈活性、複雜性和實用潛力方面是線性測驗和CAT的折衷。MST的測驗長度比線性測驗短，而且在測量考生能力方面幾乎與CAT一樣有效。MST中存在的短階段越多，它就越像CAT。在本章中，我們使用前面章節介紹的符號和方法概述MST設計。我們首先詳細描述MST，然後討論設計考慮因素，以及用於校準和評分的方法（如CAT中的IRT和CART）。

6.2 多階段測驗基礎

多階段適性測驗是由稱為模組的預組裝短線性測驗組成的測驗，分階段進行（最少2個階段）。這些模組具有不同的難度水平，並符合試題曝光和內容表現的測驗要求。測驗的適性部分是通過根據考生在之前階段的表現，為每個階段的考生選擇一個模組來實現的（如圖6.1所示的MST設計示例）。這個過程減少了測驗長度，但不一定會丟失太多訊息，因為試題比線性測驗更精確地針對特定能力水平。第一階段的模組（通常第一階段只有一個模組）被稱為路由模組，模組選擇標準被稱為路由。一些手動或半手動測驗組建過程允許測驗開發人員對每個模組的內容進行修訂，並有助於在每個模組內實施試題修訂（Yan, von Davier, & Lewis, 2014）。稍後將討論，如果測驗組建是自動進行的，例如在影子測驗方法中（van der Linden & Diao, 2014），則可能會失去這個優勢。

在圖6.1中，我們以三個階段的MST設計為例，第一階段有一個模組（路由模組），第二階段有兩個模組（低難度和高難度），第三階段有三個模組（易、中、高難度）。考生首先將面對路由模組，然後根據他/她在這些試題上的表現，他/她將被引導到下一階段的較容易或更困難的模組。這一原則將適用於引導至下一個階段。

由路由階段、後續階段和模組組成的結構被稱為面板。在標準化的操作測驗中，多階段測驗可以由多個平行面板組成，以提高測驗安全性和試題及模組的曝光率。當個人參加測驗時，選擇其中一個面板，考生需要回答該面板內由路徑定義的模組子集（例如，圖6.1中的A-C-F）。

在本書中，僅考慮一個面板來描述MST。在大型標準化測驗的操作管理中，多個面板部署到不同的考生子組。

圖6.1 多階段測驗設計示例

為了針對特定目的設計一個MST，需要在做出最終決定之前調查和模擬幾個設計特性。例如，每個模組中的試題數量、每個階段的模組數量以及階段數量取決於所需的測驗長度、內容、排名或分類的準確性，並且都受到研究模擬特定測試情況的研究研究的影響。實際上，擁有一個靈活並支持在MST設計實施之前和期間進行分析的軟體包（如下一章將介紹的mstR）是主要目的之一。

除了設計MST或每個MST面板外，還需要設計試題和/或模組和/或面板池，從中自動選擇特定試題並將其包含在特定模組和面板中，或者從中直接選擇預組裝模組的模組池組裝面板，或者從中為特定考生子組選擇預組裝面板。這種分層自動過程用於適應和設計測驗單元，同時考慮各種內容規範、難度規範和曝光率，使大型操作MST成為一個工程產品（參見Luecht，2014）。

6.3 測驗設計與實施

MST的一個設計考慮重點是針對一系列考生能力水平的能力估計準確性。另一種MST方法旨在提高將考生分類到合適分組的準確性。當前的操作型MST通常運行在試題反應理論（IRT）框架下；IRT用作試題校準、試題池設計、模組組裝、路由算法和評分的基礎（參見Hambleton＆Zenisky，2013; Lord，1971a; Luecht，1998, 2014; Luecht＆Nungester，1998等等）。在CAT的情況下，還有其他非基於IRT的替代方法，包括基於樹的MST方法（Yan等，2014，參見第6.8節）。

在設計MST時，需要考慮幾個問題。除了測驗的基本問題，如測驗長度、模組數量和每個模組的試題數量外，還需要設計測驗和每個模組的難度水平，需要決定並制定測驗評分規則的制定方法，如何設計試題池，試題池如何補充，以及如何將新試題與試題池中的試題放在同一比例尺上（試題池的鏈接策略），最終，如果截止分數是基於觀察到的正確數量，還需要如何在多個面板之間鏈接截止分數。其他問題包括確定試題選擇和試題與人員參數估計的數學模型，測驗組裝，內容平衡要求以及試題曝光控制。為了根據測驗目標調查所有這些方面的最佳設計策略，需要進行大量模擬並根據測驗目標評估結果。同樣，所有這些都可以通過像mstR這樣的可靠且易於使用的軟件包直接研究。

基於IRT的MST的實施可以分為兩個部分：MST的組裝和應用。要組裝MST，根據一些標準將試題集合組裝為模組。然後，使用這些模組構建面板。還需要指定路由規則。

MST的模組組裝方法可以通過選擇一些試題集來實現，該試題集最大化或超過固定能力&的某些選定信息測量的閾值。試題集還可能需要滿足所有測驗約束。在MST中使用的最常見的信息測量是費舍爾信息。但是，還有其他方法，例如Kullback-Leibler信息（KL）或Continuous Entropy Method（CEM），這些方法已應用於認知診斷CAT（Cheng，2009；Xu，Chang＆Douglas，2003）。在MST語境下，還存在基於CAT的可能性加權模組信息（LWMI）和後驗加權模組信息（PWMI）等方法。

模組可以通過使用線性規劃來最大化/最小化目標函數來組裝。Fisher信息和KL選擇標準在第3.6.3節中有描述。

6.4 測驗組裝

多階段測驗中的測驗組裝使用統計和非統計要求、經過校準的試題庫和基於數學優化過程的計算機程序。自動試題選擇以及模組和面板的優化需要滿足這些約束。自動測驗組裝（ATA）的研究（Hambleton和Zenisky，2013）涵蓋了創建目標規範、在每個模組上相對於截止分數定位目標、模組的統計質量以及整合約束的策略。然而，由於本章僅專注於一個面板，這一步將不在這裡詳述。有關測驗組裝的章節，請參閱Yan等人（2014）。

6.5 試題庫

在本章中，我們不深入探討試題庫的細節，因為mstR套件假設已經存在一個試題庫。有關詳細信息，我們請讀者參閱Veldkamp（2014）。在這裡，我們簡要概述設計和填充試題庫的過程和考慮因素。

為測驗創建試題庫涉及各種任務。過程始於獲得測驗和模組規範。創建足夠數量的內容類別中的試題後，測驗專家將審查試題質量。在對新編寫的試題進行初始預測後，對代表性樣本的考生進行評估，然後對審查過的試題進行校準。利用統計和敏感性分析審查試題質量。持續進行的過程包括評估和重新評估試題庫的大小、規範和內容平衡。多階段測驗結果取決於試題庫質量與測量目標的相對關係。多階段測驗不會過度使用高度區分的試題，這可能是計算機適性測驗的情況。然而，多階段測驗需要詳細的測驗藍圖、特定的統計和非統計目標、試題庫中足夠的試題和足夠的考生樣本大小以進行試題校準。

將試題庫與測驗設計選擇相匹配是評估中的關鍵過程之一。這個總體目標為持續研究提供了幾個機會，如試題和測驗安全策略、試題庫組成、自動測驗組裝以及試題格式的整合和自動評分的納入。

6.6 試題反應理論(MST)基礎

本節提供試題反應理論(MST)的重要概念簡介。

6.6.1 模組選擇

下一個模組的選擇基於當前的預估能力(或測驗)分數與預定門檻(或切割分數)的比較，並根據此門檻選擇下一個模組的規則。然而，在試題反應理論(MST)的方法中，更好的選擇下一個模組的方法是使用與訊息相關的標準，例如基於 Fisher 訊息的方法。大多數這些標準都可以從電腦適性測驗(CAT)的背景中推導出來(參見3.6.3節)，並利用模組內所有試題計算出的Fisher或Kullback-Leibler訊息。在MST中，也可以考慮用於CAT的似然加權訊息和後驗加權訊息函數的擴展。在認知診斷CAT中實現的連續熵方法(CEM)也可以使用。

對於Rasch和2PL模型，當難度參數和潛在特徵具有相同值時，試題提供的最多訊息，這也是正確回答的概率等於50%的位置。

6.6.2 路徑規則

可以使用多種方法來實施路徑規則，包括基於正確分數數量的切割分數或根據估計的潛在特徵值的截止點來設定切割分數。這些切割分數可以基於訊息函數或根據潛在特徵值分佈而定。

路徑準則可以通過能力估計來表達，如果使用EAP，準則可以設計成與特定樣本或特定測驗時間無關。這對於運營MST可能很方便，因為可能存在同儕效應。

此切割分數可以轉換為測驗階段結束時所獲得的EAP能力估計的特定測驗結果加總分數(Haberman和von Davier，2014)。此外，那些依賴於測驗結果（而不是基於EAP或MAP）的標準需要在不同測驗管理者之間進行等化。

6.6.3 潛在特徵估計

多階段測試依賴於一個想法，即能力估計或分類決策所涉及的錯誤是測量可用信息的函數。如果可以將試題的信息貢獻定義為測試受試者能力的函數，則可以為受試者量身定制測驗。試題反應理論提供了確定信息貢獻的方法。MST的另一優點是，對於運營部分的試題得分，與路徑無關，只與該試題所在階段和受試者的能力有關，即使在路徑規則下也是如此（參見Eggen和Verhelst，2011年; Mislevy和Chang，2000年）。

對於CAT，有多種能力估計器可用：最大似然估計、Bayes模態估計（或最大後驗估計）、期望後驗估計和加權似然估計是最常見的方法。這些方法在2.3.2節中詳細描述。在MST中，這些估計值是在整個模組管理結束時計算出來的。此外，模組內的臨時能力估計不再需要，因此估計步驟比CAT中更快。此外，如果路徑模組包含足夠分散的難度試題，跨能力標度觀察到一個常數模式（即二元試題的全對或全錯回答）的機會就越小，因此常數模式的調整方法（如4.5.3節所述）在MST場景下不太可能需要。

如2.1節所述，傳統IRT模型的主要假設之一是局部試題獨立性(LI)。 LI特性確保IRT模型參數的估計不會受到根據先前階段能力將測試受試者路由到階段的影響。對於像MST這樣的適性測試，路徑規則對EAP或MAP估計器使用廣義偏差數信賴模型時（Eggen和Verhelst，2011年；Mislevy和Chang，2000年），其對局部試題獨立性的影響不太大。對於使用3PL IRT模型結合ML估計器的情況，路徑規則的影響更為嚴重（Haberman和von Davier，2014年）。MLE依賴於馬丁格爾隨機過程的中心極限定理來應對路徑規則，它需要大量的試題，並且不能定義在極端分數的測試受試者上（von Davier和Haberman，2014年）。

從漸進意義上（Holland，1990年）來看，如果初始的j個階段總是有大量的試題，那麼階段j的MAP、EAP和MLE估計值會非常接近。這一特性支持了推薦使用更長的模組進行MST（如果估計器不是EAP），這導致測試開發者面臨一個難題，因為MST的目標之一是允許較短的測試時間。

除了這些方法外，Haberman和von Davier（2014年）研究了IRT估計值與總正確數或總分數之間的關係，並顯示基於正確分數的估計器具有所需的漸進特性。另一種對MST進行打分的方法是使用正確數和基於樹的回歸或分類進行路徑規則，如本章稍後所述。

6.7 試題反應理論連結

在運營程序中，需要將試題參數進行連結，因為每次測試管理使用的試題都不同，需要將新的試題納入試題庫。為了保證測試的可比性，測試管理和測試規格是標準化的。為了總是有足夠的新試題放入試題庫中，需要在測試受試者人群的代表樣本上進行新試題的管理。

在MST運營程序中，試題連結分為三個階段。在數據收集的初始階段，使用（傳統的）測試管理建立模組和路徑規則。第二階段始於MST管理開始，並收集數據以確定評分規則、開發新的測試模組、等化路徑規則的分數，並確保測試的可比性。在第三階段，當涉及到許多MST管理時，考慮特殊程序以維持穩定的連結和測試效度。

由於涉及到可能達到數千個試題，因此在運營程序中的人口參數連結尤其具有挑戰性。在大多數測試程序中，所使用的方法是將邊際最大概似（MML）應用於觀察到的試題反應，就好像所有試題都向每個測試受試者呈現一樣。

進行試題校準和連結有三種主要方法：同時校準、序列連結和同時連結。同時校準通常在起始期間使用，也是預先等化的基礎。如果每次管理的試題數量不是很大且樣本量足夠大，則同時校準所有試題是最有效率的方法。在精確正常近似的情況下，估計值是漸近有效的。

然而，在運營程序中，試題數量和管理次數往往相當大，這導致同時估計試題參數時出現困難。因此，更常用的方法是分別校準試題參數的序列連結，通常在每次管理（或一批管理）中使用，以將新試題與試題庫中的試題放在同一尺度上（Stocking＆Lord，1983）。

最後，同時連結用於調整分別校準的參數，並校正個別校準的測量和抽樣誤差。它在評估的生命週期中定期使用。此方法僅適用於幾乎持續管理模式的運營程序，並且存在累積誤差風險（Haberman＆von Davier，2014）。

目前，現有的CAT和MST程序大量依賴IRT。然而，當樣本較小或IRT假設被違反（例如，單一維度）時，CAT表現不佳（Yan，Lewis和Stocking，2004）。作為一種替代方法，基於樹的CAT算法（Yan等，2004）似乎與基於IRT的CAT或MST一樣有效。

同樣，在CAT背景下，開發了Tree-based MST 方法（Yan，Lewis和von Davier，2014b）。在Tree-based MST 算法中，模組得分是指模組中答對的試題數或總分。標準得分是所有試題的總答對數。模組的截止得分將當前的測試參與者分成兩個子樣本，以便在下一階段管理更簡單和更困難的模組。

Tree-based MST 是一個預測系統，它可以根據每個階段的模組得分，有效地將測試參與者路由到適當的群組中。它根據他們所走的路徑和他們所回答的模組，預測他們的總分，而不引入潛在特質或真實得分。

Tree-based MST 有三個步驟（針對這裡考慮的三階段 MST）：首先，在第一步，計算所有考生在路由模組（Module A）上的觀察總正確分數。接下來，對於每個可能的分數，將當前樣本分成兩個子樣本（節點），計算準則的子樣本平方和的總和，找到使組內平方和最小的最優分數門檻。在第二步中，計算第一階段和第二階段模組的總觀察正確分數。然後，對於可能將第二階段樣本分成兩個子樣本的每個可能的分數對，將更高的一部分與更低的一部分組合起來，並對三個組進行類似的分割，重複進行第1步的過程，以找到使三個組內平方和最小的最優分數門檻對。在第三步中，對每個子樣本（對應於四個路徑中的一個）計算準則對觀察正確分數的多元線性回歸。

雖然 Tree-based MST 主要適用於 IRT 假設不成立的情況下，但它仍然沒有在 mstR 中實現。更多細節可以參考 Yan 等人 (2004) 和 Yan 等人 (2014b)。

6.9 結論

本章提供了MST的概述。MST是一種複雜的測試設計，需要工程和心理測量學的特點相結合。在開發MST時需要考慮眾多實際問題，並且無法事先詳細說明。需要進行大量模擬和調整來優化MST。以下是需要進行多次重複模擬的元素列表：

• 測試設計和組裝

• 試題庫和維護，多個試題庫

• 試題選擇；添加、刪除和修改試題；超出級別的試題

• 保持量尺一致性

• 反應模型

• 校準的質量

• 多維度、差異項目功能、速度

• 計分程序

• 測試安全和試題曝光

其中一些特徵在第8章中通過模擬示例說明。

Google Sites

Report abuse