Bayesian Computerized Adaptive Testing

原文出處:Veldkamp, B. P., & Matteucci, M. (2013). Bayesian computerized adaptive testing. Ensaio: Avaliação e Políticas Públicas em Educação, 21(78), 57-81. 

摘要

電腦適性測驗(Computer Adaptive Testing,簡稱CAT)具有許多優點。不幸的是,開發和維護一個實際運作的CAT仍然相當昂貴。在本文中,我們描述了開發實際運作的CAT所涉及的各個步驟,並回顧了這些主題的相關文獻。貝氏(Bayesian)CAT被介紹為一種替代方案,並提出使用經驗先驗(empirical priors)來估計試題和人的參數,以降低CAT的成本。本文提出了引出經驗先驗的方法,並提供了兩個小例子,說明了貝氏CAT的優勢。本文討論了使用經驗先驗的影響,提到了限制,並提出了一些建議供未來研究。

關鍵詞:貝氏試題反應理論建模(Bayesian IRT modeling)。電腦適性測驗(Computerized Adaptive Testing)。引出先驗(Eliciting priors)。試題反應理論(Item Response Theory)。試題選擇(Item selection)。參數估計(Parameter estimation)。

簡介

在電腦適性測驗(Computer Adaptive Testing,簡稱CAT)中,試題的難度會根據考生的表現水平進行調整。通過這種方式,可以通過少量試題獲得更多關於考生水平的訊息。測試長度可減少高達40%,而不會降低測量精度。此外,考生不會對過於容易或過於困難的試題感到厭煩,在這個數位時代,考生通常喜歡電腦化測驗,並更喜歡CAT而非紙筆測驗。Weiss(1973)提出了第一個CAT。之後,許多大型測試,例如美國軍事職業適性檢測(Armed Services Vocational Aptitude Battery,簡稱ASVAB)(SANDS;WATERS;MCBRIDE,1997)、研究生管理專業錄取考試(Graduate Management Admission Test,簡稱GMAT)(RUDNER,2010)或MathCAT(VERSCHOOR; STRAETMANS,2010),都採用了適性測驗方式進行。 

儘管適性測驗有明顯的優勢,但在CAT剛開始實施時,還存在一些誤解和缺點。首先,開發CAT變得相當昂貴,因為必須編寫和預測大量試題。題庫需要包含足夠多不同難度的試題,以便算法能夠選擇與考生估計能力水平相近的難度試題。這意味著試題開發、預測和試題校準的成本相當高。此外,在CAT的早期,人們認為CAT可以實現持續測驗。考生可以在覺得準備好時登錄並進行測試。由於測試內容會根據考生的能力水平進行調整,因此認為抄襲答案的可能性可以忽略不計。此外,通過應用試題暴露控制方法(SYMPSON;HETTER,1985)來控制兩個考生接受相同測試的概率。不幸的是,有人組織起來試圖通過記憶試題並將其發布到網路上來破解題庫。對於幾個高風險測試,在測試投入運營後幾天內,試題內容就被揭露了。 

因此,CAT在教育測量方面的受歡迎程度降低了。即使人們意識到與題庫妥協有關的問題是持續測試而非CAT的問題,但題庫成本高昂的問題仍然存在。這些成本可以通過減少測試長度或降低試題開發成本來降低。減少測試長度將導致測試的訊息量減少和測量誤差增加。減少試題編寫的支出意味著用於編寫、預測和校準新試題的資金減少。這將導致試題質量的不確定性增加。這兩種影響都是不希望出現的。

在本文中,我們建議使用經驗先驗來降低CAT涉及的成本。我們引入基於考生和試題的協變量來引出經驗先驗的方法,以提高CAT的效率。首先,介紹了CAT的一般框架,並更詳細地介紹了CAT的各個步驟。在此之後,介紹了CAT的貝氏模型以及在CAT中引出和實施經驗先驗的程序。提供了一些結果。最後,討論了在CAT中應用經驗先驗的影響,並提到了一些未來研究的主題。

電腦適性測驗

在進行電腦適性測驗(CAT)之前,必須設計一整套測試系統。Sands, Waters e Mcbride(1997),Wainer等人(2000),以及Van der Linden ; Glas(2010)描述了開發和實施CAT涉及的各個方面。

首先,需要制定測試規範。在此過程中,必須回答很多問題。在本段中,我們僅提及其中的一些問題。測試的目的是什麼?是用於分類、掌握決策還是熟練程度估計?這是固定長度還是可變長度的測試?是否有任何內容或其他類型的規範需要滿足?該測試是通過網路進行,還是在特定的測試地點進行?該測試是持續進行還是僅在特定時段進行?有多少考生將參加測試?將使用哪些類型的試題?是否有任何需要考慮的具有特定需求的考生群體?通常需要相當一段時間才能對實際測試有完整的了解。然而,在設計框架上投入時間和資源確實是值得的。

下一步是選擇一個測量框架。在CAT中,應用試題反應理論(IRT)模型(LORD,1980)來描述觀察到的反應與考生潛在能力之間的關係。IRT將試題參數與人員參數區分開來,這是一個非常方便的特性。試題參數可以在試題預測期間單獨估計。校準後的試題可以存儲在題庫中,並在測試過程中適應性地選擇其中的一些試題以估計人員參數。對二分試題進行評分時,最常應用的是邏輯IRT模型。可以將3參數邏輯模型(3PLM)表示為:

其中θ j 表示第 j 位考生的能力,而(ai,bi,ci)表示試題 i 的鑑別度、難度和猜測參數。在2參數邏輯模型(2PLM)中,猜測參數被假定為零。最後,在Rasch模型或1參數邏輯模型(1PLM)中,所有試題的鑑別度參數也被假定彼此相等。此外,文獻中還提出了許多評分多值試題的模型(OSTINI;NERING,2006)。當多個能力解釋反應行為時,可以應用多維IRT模型(SEGALL,1996;VELDKAMP;VAN DER LINDEN,2002;RECKASE,2009)。 

一旦撰寫了測試規範並選擇了IRT模型,就可以開發題庫。有時,題庫是從頭開始開發的,首先可以開發藍圖(VELDKAMP;VAN DER LINDEN,2000)以指導試題編寫過程。在其他應用中,可能有一組先前的試題可用於開發題庫(VAN DER LINDEN;ARIEL;VELDKAMP,2006)。對於許多測試計劃,將主題庫和操作題庫區分開來。主題庫包含測試計劃可用的所有試題。定期添加新試題,當試題暴露過多或其內容不再符合要求時,舊試題(暫時)退休。從主題庫中選擇操作題庫(ARIEL;VAN DER LINDEN;VELDKAMP,2006),在某些應用中,可以選擇幾個平行操作題庫以在位置和時間上輪換(WAY;STEFFEN;ANDERSON,1998,ARIEL;VELDKAMP;VAN DER LINDEN,2004)。作為經驗法則,Stocking(1994)建議題庫中的試題數量約為測試長度的12倍。一旦試題可用,它們可以進行預測和校準。在預測期間,對試題進行管理並估計其試題參數,要么使用商業軟件包,例如BILOG-MG3(ZIMOWSKI等人,2003),要么使用可用於估計IRT模型的非商業軟件包之一。預測樣本的大小取決於IRT模型。模型中的參數越多,樣本大小就必須越大。對於2參數IRT模型,經常建議樣本大小為500或更多,而對於3參數模型,通常建議每個試題至少有1000名候選人的樣本大小。 

對於數百個試題的大型題庫,要求每個候選人回答所有試題通常是過於嚴格的。相反,可以應用連接設計(SCHEERENS; GLAS; THOMAS,2003,第8章),其中所有候選人回答試題的一個子集,並且各個試題子集之間存在重疊。為了校準整個題庫,可能需要數千個候選人的預測樣本。模型擬合統計數據可用於檢查試題的心理測量質量,並決定試題是否可以添加到題庫中,或者是否需要先進行修訂(GLAS,1988)。經常發生的情況是,只有一半的試題表現出理想的心理測量特性,而另一半則必須被拒絕。在開發題庫時,必須考慮到這個數字。題庫開發步驟的結果是一個具有平衡內容和試題難度分佈的操作題庫,使得對於每個候選人的表現水平,總是至少有一個試題可用。 

CAT的實際測驗過程包括五個基本步驟:

這些步驟將在下一節中進一步詳細介紹。另一個問題與應用CAT平台有關。有許多商業軟體包可用於CAT的實施(請參閱www.iacat.org,資源,以了解概述)。此外,許多測試機構也開發了自己的定制CAT軟體,以滿足其特定需求。

開發一個操作性的CAT的整個過程通常需要幾年時間。儘管理論框架已經建立,並且可用於實施測驗的軟體也已經存在,但仍有許多決策需要做出。題庫必須仔細開發,因為題庫的質量決定了CAT的質量。此外,建議進行充分的現場測試,以免在測驗實施後遇到麻煩。


電腦適性測驗的五個基本步驟

上一段已經介紹了電腦適性測驗的五個基本步驟,本段將更詳細地討論這些步驟,以提供更深入的了解。一些步驟相對容易實現,但特別是題目選擇的步驟涉及許多問題。

步驟1:起始(Initiation)

在第1步中,對考生的能力水平進行了初始估計。通常,能力水平的初始值設置為人口能力分佈的平均值(THISSEN; MISLEVY, 2000)。另一種方法是從能力分佈中隨機抽取初始值。此外,也可以根據已知的有關考生的信息進行初始化(VAN DER LINDEN,1999)。

步驟二:試題選擇(Item selection)

對於電腦適性測驗,已經有很多試題選擇規則被提出。其中最常應用的是最大費雪訊息量(BIRNBAUM, 1968)規則,但也有其他選擇規則,如費雪區間訊息量(VEERKAMP; BERGER,1997)、Kullback-Leibler訊息量(CHANG; YING, 1996; VELDKAMP; VAN DER LINDEN, 2002)或互信息量(WEISSMAN, 2007)。這些選擇規則的共同點在於,它們試圖最大化獲得的候選人信息,以最小化估計誤差。然而,Chang和Ying(1999)發現,在CAT測驗的早期階段,能力估計還不是很精確。因此,他們認為在不確定的能力估計下選擇非常具有信息量的試題可能不是最優的選擇。作為替代,他們提出了α分層CAT,其中試題庫按鑑別度參數進行分層。鑑別度較低的試題具有較平的試題信息曲線。在CAT早期階段,通過選擇鑑別度較低的試題,這些試題將提供相當量的信息,而不論候選人真實能力水平如何。當估計能力水平更加精確時,可以選擇鑑別度較高的試題。在過去的十年中,已經進行了許多比較研究,以找到最佳的試題選擇規則。但是沒有一個總體的贏家。當選擇二十個或更多的試題進行測驗時,大多數試題選擇規則表現良好。 

在第二步中,測試規格也必須被考慮在內。這些規格可能與測試內容有關,也可能是關於時間限制、答案鍵的分佈、字數或者是排除含有提示其他問題的問題。這些規格可以是關於測試的心理計量特性或技術問題的,例如對於一個文本段落或圖表必須選擇的最少問題數。有關各種規格的概述,可以參見Van der Linden (2005年,第2章)。 Kingsbury和Zara (1998) 提議按照內容分類對題庫進行分層,並對各個層進行旋轉選擇。當必須滿足有限數量的規格時,這種方法可能很有效。對於需要制定大量規格的測試計劃,這種方法可能變得難以處理。 Stocking和Swanson (1993) 引入了加權偏差模型,其中對各種規格設置目標,並最小化其與這些目標之間的加權偏差。 Luecht (1998) 則開發了標準化加權絕對偏差啟發式方法。但是,這兩種方法都不能保證最終的CAT能滿足所有規格。作為替代方案,Van der Linden和Reese (1998) 提出了影子測試方法,這是一種二階段程序的題選方法,其中使用 0-1 線性規劃技術確保所有規格都將得到滿足。在第一階段,構建一個完整的測試(影子測試),該測試在當前能力估計的項目選擇規則方面表現最佳並滿足所有規格。在第二階段,從影子測試中選擇最佳的未測試項目並提供給考生。關於影子測試方法的詳細描述,也可以參見Van der Linden (2005年,第9章)。 

另一個必須提到的問題是題目曝光控制。當採用最大費雪信息來選擇下一個題目時,只有那些在此準則下表現最佳的題目將被選中。通常,題庫中的題目中只有20%會被選中進行考試,而另外80%的題目則完全不會被選中。當採用任何其他最大化某種信息準則的選擇規則時,都可以發現相同的情況。最佳的題目會被過度曝光,而其他題目在考試期間幾乎不會被曝光。 Van der Linden和Veldkamp(2007)對這一現象進行了更詳細的研究,發現對於運行中的題庫,只有很少一部分題目能夠在整個能力範圍內提供最大的信息。我們對包含499道題目的運行中題庫進行了相同的分析。這些題目是智力測試電池的一部分。為了校準這些題目,它們已經被分配給3000名代表荷蘭勞動力的預測樣本。每個候選人回答了題庫中的一部分題目。使用Bilog MG(ZIMOWSKI et al.,1996)對題目進行了校準,使用了2PLM。對於每個能力水平,最具信息量和次具信息量的題目的曲線如圖1所示。 

圖1 - 不同能力水準下最具資訊性(實線)和次具資訊性(虛線)題目的曲線 

在我們的分析中,只有499道題目中的12道在任何能力水平下都是最具信息量的。當優化選擇題目時,這些題目將被選擇。很明顯,它們的曝光率將很高。同樣的現象也可以觀察到第二和第三最具信息量的題目組。由於只需要選擇26個題目進行CAT,這說明了為什麼只有銀行中20%的題目實際上被使用。這有一些不良影響。曝光率最高的題目可能會被考生知曉,這意味著測試安全問題,並可能破壞測試結果。除了這個風險外,還有投資損失。編寫和預測試未被選中的題目已耗費大量的精力和金錢。為了解決題庫中題目曝光過高和曝光過低的問題,提出了曝光量控制方法。其中最著名的曝光量控制方法是由Sympson和Hetter(1985)提出的。在他們的方法中,他們在選擇題目後進行概率實驗。實際上,他們將其作為CAT的偽算法的第2b步。在這個實驗中,被選中後被考慮給予的概率取決於題目的受歡迎程度。在一個大量的模擬研究中,設置了這些概率,以使得所有題目的期望曝光率都小於所允許的最大曝光率(通常設置在rmax = 0.20或rmax = 0.25)。更受歡迎的題目通過這個障礙的概率很小,而不那麼受歡迎的題目被選擇的概率接近於1。當選擇的題目未能通過障礙時,就選擇下一個題目(步驟2),直到選擇的題目通過Sympson Hetter概率實驗,可以將其分配給考生。已提出許多修改Sympson Hetter方法的方法。 

在他們的方法中,他們在選擇一個試題後進行概率實驗。事實上,他們將這個步驟作為CAT的偽代碼的第2b步。在這個實驗中,被選中後被選中的概率取決於該試題的流行程度。在一個大量的模擬研究中,這些概率被設定為,對於所有試題,預期曝光率都小於允許的最大曝光率(通常設定為rmax=0.20或rmax=0.25)。較受歡迎的試題通過這個障礙的概率較小,而較不受歡迎的試題被選中的概率接近於1。當選中的試題未能通過Sympson Hetter的概率實驗時,就選擇下一個試題(第2步),直到一個試題通過了概率實驗並可以用於候選人的測驗為止。對於Sympson Hetter方法的許多修改被提出。例如,Stocking和Lewis(1998)發現在某些能力組內,即使應用了Sympson Hetter方法,也會選擇相同的試題。因此,即使整體曝光率低於某個範圍內的能力值高。因此,他們建議修改Sympson Hetter方法,使其取決於能力估計。這樣做的代價是需要更加廣泛的模擬研究。Van der Linden和Veldkamp(2004, 2007)提出了一種完全不同的方法。他們開發了一種曝光控制方法,不需要任何模擬,而是基於觀察到的曝光率。在他們的試題適格性方法中,對於每個曝光率高於所限制的最大曝光率的試題進行概率實驗。在這個概率實驗中,決定該試題是否適合於測驗,即它是否被包含在從中選擇後續試題的子試題庫中。 

在他們的"題目適格性"方法中,對於題庫中暴露率高於最大暴露率的每一個題目,都進行概率實驗,以確定是否適合被使用,即確定其是否被包括在下一個題目選擇的子題庫中。是否適合被選擇的概率取決於觀察到的暴露率和最大暴露率的比率。Barrada、Abad和Veldkamp(2009)比較了這兩種方法,發現題目適格性方法的性能略微更好。此外,Barrada、Olea和Veldkamp(2009)觀察到,在CAT開始時隨機選擇題目並將更有信息量的題目留到結尾時會得到更好的效果,因為在適應測試的結尾,考生的能力值分佈在整個能力網中,暴露問題較少。因此,可以根據題目在測試中的位置應用多個最大暴露率。他們能夠證明,這種方法可以獲得更平衡的題庫使用方式,並且測量精度幾乎不會降低。所有這些方法都集中在控制暴露率,通常假定當限制最有信息量的題目的暴露率時,低暴露問題會減少。在實踐中,暴露控制方法僅增加了少量低暴露的題目的使用。Revuelta和Ponsoda(1998)解決了這個問題。他們提出了進行題目選擇的漸進或受限方法,其中的選擇既基於所提供的信息,又包括一個隨機成分。在CAT的早期階段,隨機成分更為重要。隨著時間的推移,信息成分更為重要。通過部分隨機化題目選擇,可以獲得更均勻的暴露率。α分層方法(CHANG;YING,1999)也處理低暴露問題。 

在CAT的早期階段,試題是從鑑別度較低的層面中選擇的。這些試題的信息量較少,且往往具有較低的曝光率。僅從這些層面中選擇試題有助於提高這些試題的曝光率,減少低曝光率的問題。在處理曝光過高的方法與處理低曝光的方法相結合時,可以得到最好的曝光控制效果。因此,Veldkamp、Verschoor和Eggen(2010)提出了一種結合這兩種方法的方法。 

在CAT中的試題選擇一直是一個重要的研究課題,這也是使CAT與線性測試形式不同的自適應試題選擇過程。本段只涵蓋了其中的一小部分文獻。大部分現有的論文都是關於使用單一維度IRT模型校準二分制試題的CAT。現在,焦點轉向開發更多複雜的試題類型和使用更複雜的IRT模型(通常是多維的)進行校準的CAT方法。儘管已經取得了驚人的結果,仍有許多領域需要研究。 

第三步:施測(Administration) 

第三步是將試題呈現給受試者。呈現方式必須對各種電腦平台和不同種類的螢幕都有良好的適應性。必須確保每位受試者在同樣的資訊基礎上作答,不受任何干擾。呈現完試題後,受試者可以有限制或無限制的時間作答。當限制回答時間時,可以考慮使用回答時間模型(VAN DER LINDEN, 2007)來糾正測驗速度的影響。在某些CAT中,多個試題會在同一個頁面上呈現,例如,當它們都與同一刺激相關時。但在大多數CAT中,每次只會呈現一個試題。重要的是要意識到,由於每個後續試題的選擇是基於之前試題的信息獲得的,所以在大多數CAT中不允許回顧先前的回答。允許試題回顧會降低測量效率,並使CAT容易受到應對策略的影響(WAINER, 1993),此外,它也會違反局部獨立性的假設,即指在給定某個受測者的得分時,觀察到的回答與彼此獨立。Bowles和Pommerich(2001)研究了試題回顧的影響,發現其對能力估計的偏誤和均方根誤差只有有限的影響。 

第四步:能力估計(Ability estimation)

CAT中的能力估計非常類似於紙筆測驗中的能力估計。對於每個回答模式(u1,u2,...,ug),其中ui表示是否正確回答第i個試題(ui=1)或未回答(ui=0),且g為所施測試題的數量,都可以定義一個似然函數:

由於試題已經被校準,因此試題參數被認為是已知的。可以應用高斯求積程序來獲得能力參數的最大似然估計值(ABRAMOWITZ; STENGUN, 1964)。值得注意的是,最大似然估計值在觀察到混合反應模式之前是未確定的。作為替代方案,可以應用Warm估計器(WARM,1989),其中最大化加權似然函數。

第五步:停止規則(Stopping rules)

在CAT中,測驗的組成會根據受試者的表現進行調整。因此,高表現和低表現的受試者將回答不同的試題集,測量精度可能因受試者而異。為了補償這一點,當達到預定的測量精度水平時,可以終止CAT。這樣可以保證所有受試者都以相同的測量精度進行測量,即使有些受試者可能需要回答比其他人更多的問題。對於一些應用,可變長度CAT可能不可行,這可能是因為測試內容已經被詳細指定,或者因為受試者可能認為可變長度的測試是不公平的。對於這些應用,CAT可以在固定的試題數後終止。第三個停止規則,有時與可變長度或固定長度CAT相結合,是為整個測試設置時間限制。出於實際原因,這非常方便,但應該注意測試速度過快可能會影響測試的效度。

貝氏CAT框架

在CAT中,試題參數和能力參數的估計是基於預測測試(試題參數估計)或操作測試(能力估計)期間獲得的反應模式。不考慮有關試題組成或候選人背景信息的其他信息。當考慮額外的信息時,CAT的效率可能會提高,並且可以應用貝氏IRT框架將額外信息包含在CAT中。

貝氏IRT模型

在教育和心理測量學中,我們通常對於題目和受試者參數的分布感興趣,其分布是基於觀察到的反應樣本。當應用貝氏定理(1763)時,對於題目和受試者參數給定數據的條件概率可以被建模為以下形式:其包含先驗信念和在題目和受試者參數值條件下,對於數據所應該具有的參數模型的組合: 

在這個框架下,ξ代表試題參數(ai, bi, ci),θ代表人或能力參數。IRT模型可以用於建模觀察數據和試題以及人參數之間的關係。然而,貝氏模型的有趣補充是可以應用有關試題和人員的信息來引導具有信息量的先驗分布。

在貝氏框架中,通常使用正態梯度IRT模型(LORD,1952)而不是方程(1)中的邏輯IRT模型。 三參數正態梯度模型(3PNO)可以表示為:

3PLM和3PNO兩者定義的試題特徵曲線是相同的,只有一個縮放常數d = 1.702。為了在此模型中估計試題和能力參數,可以應用Gibbs採樣器(GEMAN; GEMAN,1984)。除了其他人外,Albert(1992)、Béguin和Glas(2001)、Fox和Glas(2001)以及Matteucci、Mignane和Veldkamp(2009)還為各種IRT模型開發了Gibbs採樣器。標準化的軟件包,如MATLAB或R包,可以用於貝葉斯參數估計。Albert(1992)提供了2PNO模型的MATLAB代碼,而Fox(2010)則提供了幾個更複雜的IRT模型的R代碼。 

獲取和包含試題參數的先驗知識

文獻中已經提出了幾種方法,以基於試題特徵預測試題參數。在試題克隆中,從父試題派生出一系列的克隆家族,通過變化那些被假定與試題難度無關的屬性來實現(BEJAR,1993;GLAS; VAN DER LINDEN,2003)。Luecht(2009)提出了評估工程方法,其中基於描述在量表各級別的表現預期的構造圖生成試題。Sheehan(1997)引入了分類和回歸樹(CART)(BREIMAN等人,1984)的應用,以建立解決試題所需技能和試題難度之間的關係模型。所有這些方法的共同點在於它們都會產生具有一定不確定性水平的試題參數的初始預測值。將這些預測值納入參數估計過程中,可能會大幅降低題庫開發成本。 

在電腦適性測驗中納入關於受測者的背景資訊

在測試期間可能會有多種與考生能力相關的背景變數,這些變數可能包括社經或人口統計變數,也可能是之前測試的分數。一些作者已經討論了在電腦適性測驗中納入這些額外信息的問題(ZWINDERMAN,1991,1997;VAN DER LINDEN,1999,VAN DER LINDEN;PASHLEY,2010;MATTEUCCI;MIGNANI;VELDKAMP,2009)。首先,額外信息可以用於找到候選人能力的初始估計。當初始能力估計值接近候選人的真實能力時,只會選擇具有信息量的試題,試題暴露度問題會減少,電腦適性測驗會更快地收斂,從而產生更短、更便宜的測試。Guyes(2008)通過展示,低質量的初始估計可能導致電腦適性測驗收斂非常緩慢,從而激勵使用更精確的初始能力估計。此外,可以使用有信息量的先驗來制定能力參數的後驗分布,並應用期望後驗(EAP)估計來獲得能力估計值。已經開發並比較了貝葉斯試題選擇標準(OWEN,1975;VAN DER LINDEN,1998;VAN DER LINDEN;PASHLEY,2010;VELDKAMP,2010)。Matteucci和Veldkamp(2012)甚至提出了使用Gibbs取樣器進行能力估計的方法,例如處理人群能力不符合正態分布的應用場景。 

實證範例

為了說明如何使用試題和受試者的實證資訊,本文分析了一份電腦適性智商測驗的資料。Connector Ability(MAIJ-DE MEIJ等人,2008)是一種用於測量智商的測驗,適用於人力資源發展領域,無論是在求職過程中還是在職業發展中使用。它包含多個子測驗:數字序列、圖形序列和雷文矩陣。所有試題都可以通過應用一定的規則來解決。例如,在數字序列子測驗中,每個試題都由一個數字範圍組成,考生必須從一組選項中選擇正確的下一個數字。每個試題都可以描述為:

二級操作數

1 4 10 22 46 ? 

可以拆解成 

初始數字為1,第1級運算符為加法,第1級運算數為3,第2級運算符為乘法,第2級運算數為2。因此,下一步將是2*(2*(2*(2*(+3))))= +48,正確答案是94。在連接器測驗中,數列題的難度進一步增加,因為添加了兩個數列的混合題。這些題目的奇數位置屬於第一個數列,而偶數位置屬於第二個數列。對於所有子測驗,完整的規則集都會在測驗的介紹部分向候選人呈現。某些運算符比其他運算符更難,而操作數的大小也會影響題目的複雜性。在此示例中,我們使用題目特徵作為背景信息,以引出先驗項目參數。對一個子測驗的得分用作有關該人的背景信息,以引出人參數的信息先驗分布。 

範例1. 試題參數估計

Matteucci、Mignani和Veldkamp(2012)研究了在電腦適性測驗中使用信息先驗的方法。他們使用了一個包含391道數列題的題庫,這些題目已經使用2PNO模型進行了校準。鑑別度參數在[0.10, 2.35]的範圍內,中位數為0.69。難度參數在[-3.30, 2.30]的範圍內。研究人員使用MATLAB 7.1(MATHWORKS,2005)中的回歸樹來建立一個模型,該模型根據試題特徵預測心理測量學試題參數。最小節點大小設置為10,應用1-SE規則選擇最佳樹,並應用了10倍交叉驗證。所得的回歸樹被用作試題參數估計過程中的信息先驗。

為了模擬真實的試題校準過程,從391道試題庫中隨機選擇20道試題。使用100名考生的回答模式進行模擬作為校準樣本。為了評估使用不同的先驗分布進行試題參數估計的參數恢復情況,研究人員使用了試題參數的模糊先驗分布,該分布表示為確保鑑別度參數為正的指示函數的乘積,即

(參見ALBERT,1992;FOX;GLAS,2001;BAKER;KIM,2004),與使用回歸樹引出的實證先驗分布進行了比較。 

使用Gibbs取樣器(MATTEUCCI; MIGNANI; VELDKAMP,2009)估計參數。對於每個模擬,使用5000次迭代,燒燬期為500次,進行100次重複實驗。通過計算R軟件包BOA(SMITH,2007)中實現的蒙特卡羅誤差來檢查算法的收斂性。一個經驗法則是,蒙特卡羅誤差應小於標準差的5%。所有模擬均在軟件MATLAB 7.1(MATHWORKS,2005)中實現。從校準的試題庫中隨機選擇20道試題。基於它們的鑑別度參數,將它們分為低鑑別度(α <0.60)、中等鑑別度(a∈[0.60, 1.00])和高鑑別度(a> 1.00)的題目,並基於其難度分為非常簡單(b < -1.00)、簡單(b∈[-1.00,0.00])、中等(b∈(0.00,1.00])和困難(b > 1.00)的題目。這些分類用於比較基於回歸樹引出的實證先驗和模糊先驗重新估計試題參數的結果。結果如表1和表2所示。 

表1 - 使用不同先驗分布回復試題鑑別度參數 

表2 - 使用不同先驗分布回復試題難度參數 

使用具資訊的先驗分布能夠更準確地回復試題的參數值。特別是在鑑別度較高的試題(a > 1.00)和中等鑑別度的試題(a ∈[0.60,1.00])中,使用經驗先驗分布可顯著提高測量精度,平均均方根誤差(RMSE)降低了50%以上。這對於CAT尤其重要,因為高鑑別度的試題被選中更多次以進行測驗。對於試題的難度參數,影響較小,只有對於非常容易的試題(b < −1.00),使用經驗先驗分布才能使RMSE減少50%以上。

這個例子告訴我們,使用經驗先驗分布可以大幅減少樣本量,同時不損失測量精度。這是一種降低CAT成本的方法。

Example 2. 估計個體參數

為了研究背景變數對於CAT的影響,本研究使用Connector能力的Raven矩陣(RM)子量表分數作為Number Series (NS)子測驗的相關信息。 Matteucci、Mignani和Veldkamp(2009)的方法被應用於找到兩個子量表之間的關係。它可以被表述為: 

其中,θNS和θRM代表NS和RM分量上的潛在分數。

Matteucci和Veldkamp(2012)研究了在CAT中使用背景信息對人員參數的影響。該研究對660名已知其NS和RM分數的真實參與者進行了NS CAT模擬。在這個例子中,NS題庫由499道使用2PNO模型校準的試題組成。Connector Ability是一個可變長度的CAT,其中標準誤(SE)<0.32被用作每個子測試的終止規則。

在一個模擬研究中,將基於公式6的經驗先驗分布θNS〜N(-0.243 + 0.394·θRM,0.414)與非信息先驗θNS〜N(0,1)進行比較,作為CAT的初始化和能力估計。對於每個參與者,CAT被複制10次以獲得可靠的結果。根據已知的660名參與者的能力,他們分布在能力範圍{<-0.9;[-0.9,-0.6];(-0.6,- 0.3];(-0.3,0.0];(0.0,0.3];>0.3}之間,以模擬回答模式並重新估算人員參數。當SE < 0.32時,CAT終止。表3報告了各個參與者組的結果測試長度。

表3-使用不同先驗估計人員參數 

對於真實能力接近零的參與者,使用信息先驗分布結果略微縮短了測試時間。然而,對於能力最低和最高的參與者,測試時間的縮短相當明顯。因此,可以成功地使用經驗先驗分布來縮短測試時間,而不會損失測量精度。

討論

本文介紹和回顧了CAT的各種方面。文章認為,儘管CAT具有一些重要的優點,但開發和維護成本很高。一般來說,比線性測試的成本高得多。為了降低成本,引入了貝氏CAT。在貝氏CAT中,先驗信念和觀察數據被結合起來估算試題和人員參數。實驗表明,在試題參數估計和人員參數估計階段,通過獲取試題和人員參數的經驗先驗分布,並將其應用於CAT中,可以取得相當大的收益。因此,貝氏CAT可能是CAT的一個重要未來方向。

當然,訊息的品質非常重要。如果模型的預測能力低,幾乎不會有任何收益。此外,正如Guyer(2008)所示,CAT初始化的不準確甚至會導致測試時間更長,且提供的訊息更少。另一個問題與使用實證先驗的倫理影響有關。當它們應用時,每個考生的分數不僅基於他/她的回答,而且還考慮背景資訊。在醫學應用中,使用有關患者的可用信息來獲得測試結果的更精確結果不會成為問題。但在高風險的教育測量中,這是不被接受的。對於這些應用,可以考慮在CAT執行期間使用實證信息,但僅基於回答模式報告最終分數。

就試題參數估計而言,使用實證信息較少具有爭議。最近,自動試題生成的興趣大大增加。基於克隆模型、CART模型或評估工程模型,可以預測心理測量試題參數,並且可以完全跳過耗時昂貴的預測測試階段。最初,預測的試題參數可以用於測試,並且這些參數可以即時更新(MAKRANSKY,2009)。當然,試題參數的不確定性一開始是相當大的,這可能會導致測試中訊息被高估(HAMBLETON; JONES,1994)。但是最近,已經有一些論文關於在測試組合期間考慮試題參數的不確定性(VELDKAMP,2012)。

最後,本文主要討論了提高CAT效率的方式,這只是CAT迷人方面中的一個。另一個重要的研究主題是使用更複雜的試題類型。目前幾乎所有的操作CAT都使用二分或多分類的多選題。但由於CAT是在電腦上進行的,可以開發具有建構性回答和試題之間依賴關係的更複雜的試題類型。新的IRT模型將需要考慮這些試題類型。此外,幾乎所有操作CAT都是為學習評估而開發的。已經開始了第一個CATs為學習評估開發的計劃(EGGEN,2011),其中使用自適應算法優化學習過程,而不是測量學習結果。需要進一步研究和實踐工作來探索CAT的所有可能性。