Applications of Item Response Theory

Computer Adaptive Testing and Differential Item Functioning

原文出處:Shultz, K. S., Whitney, D. J., & Zickar, M. J. (2020). Measurement theory in action: Case studies and exercises. Routledge. 

翻譯君:ChatGpt

檢查員:maoosu

在第20單元中,試題反應理論(Item Response Theory, IRT)的兩個主要應用是開發電腦適性測驗(Computer Adaptive Testing, CATs)和檢查差異試題功能(Differential Item Functioning, DIF)。除此之外,還有許多其他不太為人知的試題反應理論應用,例如適當性測量和測試等化,但很遺憾,我們在這裡沒有足夠的篇幅來詳細介紹。然而,鑑於試題反應理論的技術性以及對很多人來說神秘的本質,我們認為至少要討論幾個更突出的應用技術。在這樣做的過程中,我們希望展示試題反應理論的實用性,並激發您進一步了解試題反應理論及其在各種測量問題上的應用。然而,與試題反應理論本身一樣,這兩個主題都相當複雜。因此,我們僅對這些主題做一個簡要概述,並建議您參考 de Ayala(2009)、Embretson 和 Reise(2000)、Raju 和 Ellis(2002)、Tay, Meade 和 Cao(2015)以及 Wainer, Dorans, Flaugher, Green 和 Mislevy(2000)的著作,以獲得有關實踐中實施這些程序的更詳細討論。 

電腦適性測驗

在測試歷史上,無論是測量認知能力、成就、才能還是態度的測試,絕大多數都是以傳統的紙筆形式進行。然而,我們越來越多地看到測試通過電腦進行,許多測試甚至通過網際網路進行。當一個紙筆測試只是從紙張轉移到電腦上時,通常被稱為電腦化測試(Computer-Based Testing, CBT)。這類測試可能具有許多實際優勢,包括立即得出分數而無需單獨的答題卡、使用多媒體試題、通過網際網路輕鬆進行測試交付,以及更容易創建測試分數數據庫。然而,僅將紙筆測試轉換為電腦化測試並無實質的心理測量優勢。實際上,研究表明,在大多數情況下(除了速度測試外),紙筆測試與相同的電腦測試之間存在幾乎完美的一致性(Mead & Drasgow,1993)。 

相反地,當使用試題反應理論(Item Response Theory, IRT),如第20單元所述,來開發、實施和評分電腦化測試時,具有顯著的心理測量和實用優勢。

特別是,與傳統紙筆測試相比,電腦適性測驗(Computer Adaptive Testing, CATs)可以更有效、更高效。有效性意味著CATs在估算個體能力水平方面通常更為準確。換句話說,CATs的測量誤差通常比傳統紙筆測試要小,因為測試是特別根據個體估計的能力水平量身定制的。此外,基於經典測試理論(Classical Test Theory, CTT)的傳統測試假設測量誤差在能力分數分布中是均勻的。正如第20單元所討論的,試題反應理論並無此假設。相反,對所有能力水平的測量誤差都進行估計。這一特性使得測試者在適應性地實施測試時具有很大的靈活性。例如,測試開發者可以對某個人編寫一個適應性測試,直到他們的測量標準誤差達到可接受的水平。相比之下,對於固定行政測試,許多測試者的標準誤差可能無法接受。由於CATs是根據個體的能力水平量身定制的,測試者無需回答傳統紙筆測試中的大量問題即可獲得相當或更好的能力估計,因此CATs也更為高效。結果,大多數CATs的長度約為紙筆測試的一半(即縮短了50%),但測量特性相同或更好。此外,由於低能力的個體不會浪費時間回答極其困難的問題,反之,高能力的個體不會浪費時間回答對他們來說極其容易的問題,因此CATs更具效率。這種效率是通過CAT中的每個試題提供比典型紙筆測試更多有用訊息來實現的,從而讓測試使用者能更有效地區分不同能力水平的測試者(Wainer等,2000)。如果您正在閱讀這本教科書,讓您回答“24 × 4 =?”這個試題是毫無意義的。對於數學能力高於小學水平的人來說,它不會提供任何心理測量訊息。然而,對於區分高低能力的六年級學生來說,這個試題可能非常具有啟示性。 

除了之前提到的電腦化測試(CBTs)的實用優勢(例如,使用多媒體、無需單獨的答題卡、更容易創建和維護測試成績數據庫),電腦適性測驗(CATs)還具有提高測試安全性的實用優勢。擁有大量試題庫(以及超出本書範疇的標準做法),兩個測試者收到相同試題的可能性非常小。試題暴露的降低使測試具有更長的使用壽命。例如,在作者研究生時代,研究生入學考試(GRE)每年只用紙筆形式進行幾次。

因此,為了在某些研究生入學申請截止日期之前完成考試,第一作者不得不去加拿大參加GRE考試。現在,GRE通過電腦適性測驗(CAT)不間斷地進行,只需預約並支付費用即可。另一個優點是,測試者通常會在幾分鐘內收到成績(儘管在很多情況下,它們會被視為非正式成績,直到稍後被認證)。再次回到作者當時的情況,等待GRE結果是焦慮的幾個月。假設測試者使用電腦很舒適,那麼與擁擠的學校體育館進行的大規模測試相比,電腦適性測驗(CAT)可能是一個壓力較小的測試環境。因此,與傳統紙筆測試相比,電腦適性測驗(CATs)具有許多實用和心理測量上的優勢。

然而,您可能猜到,電腦適性測驗(CATs)也帶來了一些潛在挑戰。例如,在大多數情況下,電腦適性測驗需要在所有能力範圍內提供大量試題;擁有大量優質試題是必要的,以確保有一個用於廣泛測試者的鑑別度試題庫,並使得任何單個試題的曝光率保持在較低水平。正如在第12單元中所提到的,創建單個優質試題可能非常困難且耗時,更不用說創建一組適合每個能力水平的優質試題了。此外,電腦適性測驗基於試題反應理論(IRT),這是一個基於模型的理論。如果您的數據不符合模型的假設,或者僅僅是與您提出的模型不太匹配,那麼從電腦適性測驗(CAT)獲得的結果將不具備先前提到的所有優勢。由於這些實用和技術限制,電腦適性測驗(CATs)直到最近才局限於大型測試運營,如教育測試服務(ETS)和美國軍方。儘管現在有商業化的軟件程序可以讓組織進行電腦適性測驗,但仍然需要測量學家隨時監控電腦適性測驗的表現。此外,許多測試組織會在現有的電腦適性測驗中添加新試題,並在試題曝光率過高之前將它們淘汰。這種持續的發展使得電腦適性測驗成為一種強大的技術,但也使得它必須由具有強大測量技能的人來運行。因此,根據我們的經驗,具有強大試題反應理論技能的研究人員在工作保障方面表現出色! 

那麼,電腦適性測驗(CAT)究竟是如何運作的呢?在電腦適性測驗中,隨著測試者進行測試,測試會根據個人的能力水平進行調整。例如,測試者通常首先會回答中等難度的試題(即θ= 0.0或在-0.50和+0.50之間)。然而,如果已知某人在被測量的特質上顯著高於或低於平均水平,則可以使用更難或更容易的試題來開始測試。假設我們從中等難度的試題開始,個人回答第一個試題正確,則評估其θ水平(預計高於平均水平),並給她一個更困難的試題(即θ> 0.0);而如果她回答第一個試題錯誤,則會給她一個更容易的試題(即θ< 0.0)。這種自適應的試題管理方式將持續,直到對個人能力水平(θ)的估計達到一定的預先確定的信心水平(即測量的標準誤)。 

正如您所推測的,基於少量回答對測試者的θ值的早期估計將具有比基於大量回答的測試者的θ值更高的測量誤差。此外,以非系統性方式回答的個體與其θ值也將存在很多測量誤差。因此,有些人可能只需要回答少量試題就能準確估計他們的能力水平,而其他可能回答得較不系統的人可能需要更多試題。在某些情況下,計算機可能已預先設定好最小和/或最大試題數量。因此,可能存在某些情況,在允許的最大試題數量或時間限制內無法足夠精確地估計個人的能力水平(θ)。 

幾個顯著的電腦適性測驗應用實例包括:研究生入學考試(GRE)的綜合考試;武裝部隊職業適性檢查(ASVAB),用於選擇和安置武裝部隊新兵;以及註冊護士國家理事會執照考試(NCLEX-RN)。在這三個例子中,都使用了試題反應理論(IRT)來開發和實施各自測試的電腦適性版本。也就是說,測試開發者編寫並校準了一系列難度不同(bi)的試題。此外,對於大多數試題而言,在指定能力水平上的試題鑑別度(ai)將會很高。然而,這三個測試之間有一個重要的區別。對於前兩個測試,目標是盡可能精確地估計測試者的能力水平(θ)。對於NCLEX-RN(或任何專業執照考試),目標並非對θ進行精確估計,而是估計θ是否高於或低於給定的臨界合格分數。因此,通過CAT進行的許可考試可能需要較少的試題,因為測量過程的目標(即合格/不合格);然而,當測試者的θ水平非常接近臨界分數時,CAT可能實際上需要更多的試題,以便自信地確定合格/不合格等級,而這比僅僅估計θ所需的試題要多。因此,在傳統測試中,我們通常希望有各種難度的試題範圍,而在許可考試中,我們需要更多接近截止分數的試題。 

幾乎所有大型測試公司現在都使用CAT技術,儘管對於較低量測試的CAT使用仍然相對較低。CAT的好處是巨大的,但維護CAT的費用使其對於每年沒有數千測試者的測試不那麼受歡迎。


差異試題功能

正如本書從第1模塊開始所強調的,心理和教育測試不僅僅是一個心理測量過程,還可能受到政治和個人價值觀的影響。因此,由於測試可能未能取得有價值的結果,人們可能會聲稱這是因為測試本身存在偏誤。在第11模塊中,我們討論了測試偏誤的問題以及如何最好地估計它。然而,一旦發現測試存在一些測試偏誤的證據,應該怎麼辦?我們要丟棄整個測試嗎?

正如您在本書中看到的,測試開發和驗證過程是漫長而艱辛的。因此,我們不想僅僅因為可能已經花了幾年時間製作的測試而丟棄整個測試,尤其是具有良好且有前景的心理測量特性的測試。

相反地,儘管我們可能已在某個特定測試的開發上投入了大量資源,但我們當然不希望進行顯示出明顯測試偏誤的測試。那麼有什麼替代方案呢?很可能只有測試上的少數幾個試題是觀察到的測試偏誤的主要貢獻者。因此,我們需要確定哪些單個試題是有偏誤的,並修改或丟棄這些特定試題,用具有更少(理想情況下是沒有)偏誤的試題替換它們。那麼如何識別有偏誤的試題呢?檢測試題偏誤是一個涉及定性和定量證據的整體過程。在本模塊中,我們將重點介紹一種稱為差異試題功能(DIF)的測試偏誤定量或實證證據。(在練習21.3中,您將進行定性試題偏誤審查。)當具有相同能力水平(θ)的不同群體的個體在回答某個試題的正確答案概率上有所不同時,該試題就顯示出DIF。儘管我們可以查看超過兩個群體,但我們在這裡將專注於一次比較兩個群體,通常被稱為焦點群體和參照群體。例如,如果您想查看某些認知能力試題是否對女性存在偏誤,那麼女性將被確定為焦點群體,男性將被確定為參照群體。因此,群體可以基於各種特徵;然而,通常使用基於性別、種族和族裔的人口統計群體,因為這些群體的個人受到主要民權就業法律的保護。 

在討論IRT方法在試題偏誤方面的應用之前,應該指出其他非IRT方法也很常見且具有悠久的歷史。例如,Mantel-Haenszel(M-H,卡方)技術被廣泛用於評估試題偏誤。這種分析的關鍵信息是為每個試題設立的2(焦點與參照群體)乘以 i(其中i是測試中的試題數量)的表格。對於在剩餘測試試題上得分相同的個體,比較兩個群體之間的試題支持率。例如,在一個20道題的測試中,我們將比較在其他考試題目中答對10道題的男性和答對10道題的女性的試題支持率。如果在其他考試題目中答對10道題的男性有58%的概率答對特定試題,而答對10道題的女性只有42%的概率答對該試題,那麼這將是該試題對女性存在偏誤的有力證據。這些支持率是在所有可能的測試分數中計算的,並使用基於卡方統計量的M-H統計量對生成的表格進行統計顯著性檢驗。顯著的M-H統計量將表明某個特定試題存在偏誤

M-H技術的一個挑戰是,在給定分數等級的某個特定群體中,我們可能會有太少的樣本(有時甚至沒有)。因此,在實踐中,可能會建立分數組(例如,十分位數或四分位數),而不是單個原始分數,以獲得足夠的樣本大小。請注意,M-H方法是一種非IRT技術;它基於測試和試題分數,而不依賴於任何潛在特徵。

另一個著名的用於估計試題偏誤的非IRT技術是使用邏輯回歸(LR)。在LR中,使用三個預測因素來預測試題結果(即,通過/失敗):(a)總測試分數,(b)指定群體成員資格的變量,和(c)總測試分數和群體成員資格之間的交互作用。如果群體成員資格的回歸權重顯著,但交互作用不顯著,則稱為均勻差異項功能(DIF)(Raju&Ellis,2002)。均勻DIF是指試題在焦點和參照群體之間的難度存在差異,但在區別度方面沒有差異。

另一方面,如果群體成員資格和總測試分數之間的交互作用的回歸權重顯著(無論群體成員資格權重本身是否顯著),則表示非均勻DIF。正如您可能猜到的,非均勻DIF意味著對於具有相同能力水平的不同群體中的個體,試題在難度和區別度方面均存在差異。這個過程類似於(但不完全相同)使用調節的多元回歸(MMR)來確定測試偏誤的坡度和截距偏誤形式(即,均勻DIF類似於截距偏誤,非均勻DIF類似於坡度偏誤)。然而,在處理試題級數據時,我們評估的是測量偏誤(即試題是否對不同群體表示潛在結構的能力相等)。相反,在測試偏誤中,我們確定預測偏誤(即測試是否差異性地預測某些感興趣的標準)。因此,儘管試題和測試偏誤相似,但它們表示對基本不同形式的偏誤的評估。

根據Raju和Ellis(2002)以及Tay, Meade和Cao(2015)的研究,有幾種基於試題反應理論(Item Response Theory, IRT)的方法可以用來檢測DIF。其中一種方法是對給定試題的焦點組和對照組的試題反應函數(例如圖20.1中顯示的)進行視覺檢查。與之前討論的LR過程類似,可以找到均勻和非均勻的DIF。當兩個組別的bi(難度)參數不同時,就會出現均勻DIF,而ai(鑑別度)參數的差異則表示非均勻DIF。當兩個IRF曲線相交時,就可以看到這種情況。利用Lord的卡方統計量可以對這些參數之間的差異進行顯著性檢驗。因此,IRF的檢查提供了DIF的視覺證據,Lord的卡方提供了統計證據;然而,兩種方法都無法提供DIF實際程度的指標。對於大樣本,即使IRF之間的微小差異也可能被認為是顯著的。相反,在小樣本中,IRF之間的大差異可能無法達到顯著水平。Raju和Ellis(2002)討論了幾種實際繪製兩個IRF之間區域差異的統計方法,從而作為DIF程度的指標。最近的研究進展提出了額外的統計方法,不僅可以幫助研究人員確定DIF的統計顯著性,還可以量化DIF的效應大小,幫助考生在保留或移除個別試題時做出更明智的決策(參見Tay等人,2015)。 

在試題反應理論(IRT)框架下計算DIF統計數據的過程可能相當複雜。然而,在比較來自不同群體的試題參數之前,首先必須將兩個群體鏈接在一起。也就是說,必須對不同群體的分數進行等化,以便試題參數表示有意義的差異,而不僅僅是與兩個分布相關的偽象。兩個群體在能力方面可能存在差異,因此在比較兩個群體之間的參數時需要考慮這些差異。詳細討論鏈接試題參數超出了本綜述的範圍。然而,簡單地說,您的量表中的一部分試題將作為鏈接試題用於將測試等化。這其中的問題是要決定使用哪些試題。理想情況下,您將希望使用不顯示DIF的試題。然而,要確定DIF,首先必須執行鏈接過程。因此,大多數IRT用戶執行一個迭代過程,在該過程中識別出DIF試題,然後將其移除,再次運行鏈接研究,直到不再識別出DIF試題。然後,剩餘的試題將用於鏈接目的。另一方面,較新的IRT程序(例如IRTPro)使用概率比過程,允許進行多組IRT建模,從而減少了鏈接步驟的需要(Embretson和Reise,2000)。總之,無論使用哪種DIF程序,我們的關鍵目標都是識別並在必要時移除在具有相同能力水平的不同群體之間具有不同難度和/或鑑別度的試題。

儘管基於IRT的DIF方法複雜,但它們可以通過幫助確定試題偏誤的來源來多方面提高測試的質量。儘管基於經典測驗理論(CTT)的方法可以粗略地指出哪些試題對某個特定群體的運作效果不佳,但基於IRT的方法可以更好地了解差異的性質。此外,還有基於確認性因素分析(CFA)的技術可以用於識別不同群體之間的潛在特質結構差異(見Tay等,2015),這可以與IRT為基礎的DIF方法結合使用,以便更好地了解個別試題如何在不同群體之間運作。

然而,使用基於IRT的方法來檢測DIF的挑戰之一是與基於CTT方法相比,樣本大小需求的增加。Tay等人(2015)建議每個群體至少有500個案例(以及至少四個量表中的試題)。對於許多類型的試題偏誤分析,這可能是一個挑戰,特別是在焦點群體是少數群體的情況下,某些特定樣本可能具有較小的樣本量。在這些情況下,可以通過基於CTT的方法進行初步分析,然後在收集到更多數據之後進行IRT分析。

結語

在上一節中,我們介紹了一些基本的IRT概念,並展示了它們如何用於評估試題的質量。在本節中,我們專注於兩個基於IRT的應用,它們可以更好地解釋這種測試框架的重要性和威力。試題反應理論(IRT)的程序對於許多古典培訓的心理學家仍然是一個謎(見Foster,Min和Zickar,2017)。然而,隨著專業軟件變得更加易用,並且有更少的技術參考資料可用於解釋其基本原則,IRT的使用正變得越來越突出。此外,隨著接觸IRT較廣泛的新畢業生進入該領域,它的使用應該會繼續增加。因此,IRT模型的應用顯然變得越來越普及,但絕不是主流。因此,我們撰寫本模塊的目的不是為了提供有關IRT應用的技術細節,而是激起您對IRT可能應用的興趣,並提供一些如何應用IRT的例子。 

最佳實踐

實際問題


Case Study 21.1 解釋電腦適性測驗給非專業人士

Scott是教育測量學研究生,他的姐姐Gail最近拿到了護理學位。幾周前,Gail和她的朋友Tammy參加了國家護理師許可證考試(NCLEX-RN)的CAT版本。Gail已通過考試,但Tammy卻沒有。通過這個許可證考試是美國某州的所有護理學生必須通過的。Gail很高興自己通過了考試,但對於沒有通過考試的Tammy感到失望。Gail不太理解CAT的工作原理,回想起他們的對話,Scott覺得自己很難向她解釋清楚。

“我們實際上參加了不同的考試,這似乎不太公平。這些考試必須包含相同的試題才能進行比較,對吧?” Gail問道。

“這不一定要求的。”Scott開始解釋,“測驗稱為“適性”是因為它根據你的能力水平進行調整。”

“如果我還沒有參加過考試,那電腦怎麼知道我的能力水平呢?” Gail有些困惑地問道。

“電腦從一個中等難度的試題開始,然後根據你的答對或答錯情況來給你一個更簡單或更困難的試題。”Scott解釋,“然後,電腦使用這些信息來計算你在護理學方面的能力。”

“但只問了幾個問題,它怎麼可能做到這一點呢?”Gail有些不解地說。

“一開始,你的能力估計並不是很好。這就是為什麼電腦不只是問你幾個問題,” Scott試圖解釋,“事實上,我剛剛在網上查找有關NCLEX-RN的信息,它說他們必須進行至少75道問題。”

“啊,我覺得我開始明白了,”蓋爾帶著一絲苦笑說道。“但是,我仍然不明白為什麼Tammy和我不能回答相同的問題。”

有些沮喪的斯科特說:“好的,讓我再用另一種方式解釋給你聽…” 


問題探討:


Case Study 21.2 應用於題目反應偏差的分析

教育測驗服務公司發現SAT考試中的一道類比題存在題目反應偏差(DIF)。這道題目是一道類比題,問:「草莓:紅色 如同(a)桃子:成熟,(b)皮革:棕色,(c)草:綠色,(d)橙子:圓形或(e)檸檬:黃色。」測試問題在希斯潘尼克裔考生中顯示出DIF,因為他們更熟悉綠色而不是黃色的檸檬。因此,他們更有可能選擇(c)而不是正確答案(e)。ETS用於確定DIF的程序是ETS心理測量師開發的一種統計量,稱為Delta統計量,該統計量比較了不同群體在解決問題上的難度。除了DIF分析外,ETS還收集了一個專家小組,他們識別出希斯潘尼克裔考生更有可能將檸檬與綠色聯繫在一起,而不是黃色。因此,這道題目最終被放棄,因為這個問題的目的是評估類比知識,但對於至少一個群體,即希斯潘尼克裔,這更是評估不同水果顏色的知識。

思考問題

練習 21.1 電腦適性測驗線上評估

目標:透過對現有適性測驗的調查,熟悉IRT和CAT。

背景:在模組概述中,我們討論了IRT的關鍵要素以及如何應用於電腦適性測驗和差異試題功能。我們提到,現在許多大型測驗都以適性測驗的形式進行。許多這樣的測驗都有針對考生的詳細說明,介紹適性測驗的過程。

練習21.2 試題偏誤/公正性評估

目標:提供機會,使用試題偏誤/公正性評估來對可能存在偏誤的測試試題進行批判性評估。

網頁https://scholarworks.umass.edu/pare/vol4/iss1/6/由Ronald Hambleton和H. Jane Rogers編寫,標題為“試題偏誤評估”。該網頁提供了一些測試創建者可以自問的問題,以減少測試試題中的偏誤。在查看網站上的簡要說明後,使用“樣本問題以解決公平問題”和“樣本偏誤問題”,對表13.4中的13個組織行為試題進行可能的性別(男女)和種族/族裔(白人對非裔美國人和白人對西班牙裔)的試題偏誤進行評估。

練習 21.3 CAT/DIF 文獻搜尋

目標:透過文獻搜尋,熟悉 CAT 和 DIF 文獻。個人或小組進行文獻搜尋,找到一篇最近的實證文章,該文章提供了 IRT 在應用測試情況下的應用範例,特別是關於電腦適性測驗 (CAT) 或差異試題功能 (DIF)。然後撰寫簡要摘要和/或做一個短報告,概述 IRT 的應用,重點是批判該特定 CAT 或 DIF 應用中 IRT 的使用。