maoosu - Improving Measurement via Item Response Theory: Great Idea, But Hold the Ra

Improving Measurement via Item Response Theory: Great Idea, But Hold the Rasch

原文出處：Harvey, R. J. (2016). Improving measurement via item response theory: Great idea, but hold the rasch. The Counseling Psychologist, 44(2), 195-204.

翻譯君：ChatGpt

檢查員：maoosu

摘要

在我對Mallinckrodt、Miles 和 Recabarren 的重要貢獻的回應中，我支持他們的建議，即應增加試題反應理論（IRT）的使用。IRT的優點眾多，大多源於IRT模型通常對試題反應與潛在特質之間的關聯採取更現實的觀點，而非傳統測驗理論所做的那樣。然而，我對他們提倡Rasch IRT模型表示關注，這種模型可能過於簡化了試題和特質之間的關聯方式。存在許多其他的IRT模型，包括基於理想點測量哲學的模型（大多數IRT模型使用支配(dominance)模型）。我建議研究人員應該尋求確定哪種IRT模型最適合他們的試題——包括更大的問題，即支配(dominance)與理想點(ideal-point)方法哪一種更可取——並避免假設某一模型總是表現最好。

除了Mallinckrodt、Miles 和 Recabarren（2016 [本期]）在重要貢獻中所呈現的觀點之外，許多研究人員提出我們應該超越基於古典測驗理論（CTT）的方法，轉而採用基於試題反應理論（IRT）的方法來發展評估工具(e.g., Drasgow & Hulin, 1990; Embretson, 1996; Hambleton, Swaminathan, & Rogers, 1991; Harvey & Hammer, 1999; Hulin, Drasgow, & Parsons, 1983; Lord, 1980; Samejima, 1979; Thissen & Steinberg, 1985; Wright, 1977). 。顯然，Mallinckrodt 等人在將輔導心理學領域，乃至整個心理學領域，推向這一重要目標的努力是值得稱讚的。

儘管研究人員多年來一直在倡導轉向IRT（例如，Lord, 1980; Wright, 1977），但實現這一目標的進展一直很緩慢。其中一個可能的原因是IRT模型在數學上通常比CTT更為複雜，而且直到相對近期，應用這些模型所需的軟體配置複雜且使用困難。實際上，我一直在思考是否能夠看到IRT終於超越CTT，成為心理測量中主導的方法。

從正面來看，轉向IRT有許多優點。這些優點包括：(a) 使用電腦化適性測驗技術來增強試題安全性，同時減少管理時間並保持精確度（例如，Waller 和 Reise, 1989）；(b) 通過量化適當性指數檢測不當的評估分數（由於偽裝、語言技能不足等原因）（例如，Drasgow、Levine 和 McLaughlin, 1987）；(c) 通過差異試題功能（DIF）確定個別測試試題對考生子群體的偏見程度，或在總分級別檢測差異測驗功能（DTF）（例如，Hambleton 等人，1991；Hulin 等人，1983）；(d) 獲得更精確的考生特質分數估計，這些估計利用了試題反應中包含的更多訊息，這在使用CTT的數量正確得分方法時是不可能的（例如，Hambleton 等人，1991；Hulin 等人，1983）；(e) 一般來說，使用更能準確反映我們試圖測量的潛在結構與我們實際可以觀察到的試題反應之間可能存在的複雜關係的測量模型（例如，Carter 等人，2014；Embretson，1996；Samejima，1979）。

這最後一個問題在有關測量的廣泛使用的支配模型（例如，Likert，1932；這形成了Rasch和較舊IRT模型的概念基礎）與替代的理想點方法（例如，Carter等人，2014）的持續辯論中尤其顯著，這些較新的IRT模型是基於後者。越來越多的研究（例如，Carter等人，2014；Drasgow，Chernyshenko，和Stark，2010）表明，理想點方法在測量諮詢心理學家廣泛感興趣的非認知個體差異特質（例如，個性、興趣、價值觀、態度）時，可能一致優於基於支配方法的方法。

Rasch Limitations

鑑於這篇文章代表了對Mallinckrodt等人（2016）的重要貢獻的回應，你可以正確預期我將至少提供一個與他們所推進的主題有所不同的觀點。首先，讓我強調，我強烈同意他們的總體結論（即，我們應該放棄CTT，轉向在開發和修訂新的評估工具時使用基於IRT的方法），以及他們關於試題寫作的焦點小組方法的有用性，以及基於相關人口統計因素搜尋DIF的重要性的建議。

然而，我對兩個問題表示關注：（a）Rasch IRT模型的技術限制，這些模型因採用過於簡化的觀點來描述潛在特質與觀察到的試題反應之間的關係而受到廣泛批評；（b）許多研究人員在所有評估開發情境中教條式地偏愛單一的測量哲學並應用它，而幾乎不考慮確定它在特定情況下提供對潛在特質與評估試題之間的關係的真實呈現程度。這些問題將在接下來的章節中討論。

二元Rasch模型(Binary Rasch Model)

Rasch模型（例如，Wright, 1977）最初是為處理二元試題反應（例如，能力和成就評估中的正確/錯誤打分試題）而開發的。二元試題反應數據也可以在非認知評估中產生，從多選評分中獲得，這些評分不是以正確/錯誤的方式進行計分。例如，許多個性和興趣評估（例如，Myers–Briggs類型指標[MBTI]；參見Harvey & Hammer, 1999）向受試者提供一對單詞或陳述，要求他們選擇最能描述自己的一個。這樣的評分可以被虛擬編碼（0/1），這樣如果選擇的選項反映了特質的關鍵（高）極（例如，在單詞對“喜歡安靜vs.愛與陌生人見面”中，如果量表是以外向性為鍵控方向，且個人選擇了“愛與陌生人見面”選項，則給予“1”分）。

儘管不難找到對Rasch模型（例如，Wright, 1977）的熱情支持者，並確定某些領域中它仍然受歡迎的情況（例如用於某些類型的教育成就和執照基礎評估；例如，Wu, West, & Hughes, 2008），許多心理計量學家認為，基於二進制評分的Rasch模型在很大程度上只具有歷史意義，因為它在描述特質與試題關係的形式上存在重大限制（例如，Drasgow & Hulin, 1990; Embretson, 1996; Hambleton等人，1991; Hulin等人，1983; Lord, 1980）。也就是說，二元Rasch模型只估算一個試題有差異的單一指數：難度或b參數。

正如Mallinckrodt等人（2016）的圖1所示，使用這類Rasch IRT模型校準的評估中的每一個試題都有一個相同形狀的試題特徵曲線（ICC），而試題僅在特質軸上的左右位置有所不同（隨著向右移動難度增加）。這暗示了許多心理計量學家認為在許多評估情況下根本不可持續的兩個觀點：即（a）所有試題在與潛在特質的關聯強度上是相同的（即，ICC在其最大拐點處的斜率，由a參數表示），以及（b）沒有如猜測（對於正確/錯誤試題）或社會期望性（對於個性或興趣試題）等過程會導致一些真實特質得分非常低的人仍然可以猜中正確答案（通過成功猜測）或支持關鍵標竿(keyed pole)（在社會期望的方向上，對於個性或興趣試題），這由“偽猜測”非零下限漸近線參數(nonzero-lower-asymptote parameter)c表示。

顯然，在多項選擇的正確/錯誤試題上，猜測成功的情況經常發生，而許多人在完成自陳式人格特質量表時選擇以比其他人更符合社會期望的方式來表現自己。同樣，無論你如何努力，在現實世界的情況中，評估中的試題通常在區分力和與潛在特質的關聯強度方面有顯著差異（例如，在CTT中計算的試題-總分相關或在多因素量表中的因子負荷量）。在這種情況下，Rasch模型在定義上根本是錯誤的，它無法提供對觀察到的試題與潛在特質之間的真實關係的準確描述。

Mallinckrodt等人（2016）的文章展示了對多項式試題（即，有序類別反應，如利克特型同意-不同意量表）使用Rasch IRT模型的應用，因此需要注意的是，之前提到的關注特別針對二元模型。然而，這些問題在這裡討論，因為（a）實際中看到的二元Rasch模型的使用率高於多項式變體，（b）Mallinckrodt等人詳細討論了二元Rasch模型的優勢，以及（c）他們實際上在“Rasch戰爭”中（McNamara和Knoch，2012）採取了提倡Rasch模型而不是包括鑑別和漸近線參數的更現實IRT模型的立場。因此，我得出結論，如果研究人員在選擇使用一個描述試題-特質關係的更複雜但準確的模型與一個更容易估算但強加過於簡化的試題功能觀點的模型之間有選擇，他們應避免在開發新的評估工具時使用未適配的模型。

Rasch支持者的確提出了一種策略來處理他們的模型不適用於許多實際評估試題的事實：淘汰那些不符合他們對試題應如何運作的理論的試題（這是Mallinckrodt等人，2016推薦的過程中包括的一種策略）。從某種意義上說，這的確解決了問題，但我和許多其他人持相反的觀點：當理論顯然與數據不一致時，你不應該忽視數據，而應該修改理論，使其能夠解釋與之相關的所有現有實證數據。

多項式反應Rasch模型(Polytomous Rasch Model)

關於Mallinckrodt等人（2016）使用多項式反應Rasch模型的建議（見附錄A和第162-167頁），儘管他們描述的程序在一定程度上是適當的，但過程的複雜性令人質疑是否可以通過選擇一個更通用的IRT模型來實現更簡單的方法。也就是說，他們描述的許多迭代步驟中涉及移除試題的行為（例如，基於因子負荷差異），如果一開始選擇的是一個更靈活或更真實的IRT模型，而不是多項式Rasch模型，這些步驟可能是不必要的。

例如，存在多維IRT（MIRT）模型（例如，參見Brown和Maydeu-Olivares, 2013; Hartig和Höhler, 2008），用於處理測量多個特質的工具。與其因為在Mallinckrodt等人（2016）建議的迭代探索性和驗證性因子分析中觀察到的多維性而淘汰大量試題，不如在MIRT解決方案中模型化特質的更複雜性質（使用所有試題）。相反，如果目標是發展一個單維量表，研究人員可以選擇更通用的多項式IRT模型，這些模型能夠表達更複雜的試題-特質關係，無需淘汰不適配的試題（例如，Roberts, 2001; Roberts等人，2000）。受限的通用分級展開模型（GGUM; Roberts等人，2000）的特殊情況存在於許多不同類型的試題，包括基於恆定單位、多單位、評分量表和部分信用假設的模型。

總之，我並不質疑Mallinckrodt等人（2016）推薦的相對複雜過程可能產生可接受的結果。然而，我建議通過採用一個更通用和靈活的IRT模型，研究人員可能能夠在減少過程的複雜性和減少因不適應Rasch模型的嚴格假設而淘汰試題的需求方面進行有價值的權衡。

在選擇測量模型時避免教條主義

在“Rasch戰爭”中沒有必要堅持固執立場

Mallinckrodt等人（2016）正確指出，研究人員對Rasch模型的看法高度兩極化（例如，McNamara與Knoch，2012）。也就是說，有些人熱情地讚揚其優點，並在所有情況下推薦使用它，而其他人則認為其模型與實際試題運作的方式如此不符，應完全避免使用。

然而，我建議研究人員不要像Mallinckrodt等人（2016）那樣選擇Rasch的一方，倡導使用可用的最簡單模型（二元或多項式Rasch），也不應推進相反的教條認為Rasch在任何設置中都不應使用。相反，我建議研究人員應專注於選擇最適合給定評估情境的工具。從一個能夠代表潛在特質與試題之間多種關係方式的通用IRT模型開始（例如，三參數用於二元數據，GGUM用於多項式），然後如果結果顯示不需要額外的複雜性，再轉向更簡單的IRT模型。

顯然，如果偶然創建了一個所有試題具有相同鑑別度，且所有ICC都有無猜測度(zero lower asymptote)的題庫，那麼無疑應使用Rasch模型。然而，正如Rasch支持者所使用的“丟棄所有不適合理論的試題”的方法所暗示的那樣，實際中找到這樣的情況是不太可能的。

鑑於大多數諮詢心理學家使用的評估類型可能會遇到在其鑑別參數上有顯著差異的試題，且這些試題可能表現出猜測度(nonzero lower ICC asymptotes )（例如，由於不同的社會期望性），我的建議是在選擇用於使用的IRT模型時“保留Rasch”(hold the Rasch)，並從使用評估中試題類型最通用的IRT模型開始（例如，參見Roberts等人，2000；Thissen與Steinberg，1985）。簡而言之，從一個通用模型開始並添加限制以簡化它（同時仍準確地模型化真實的試題-特質關系）要比從一個對現實嚴重簡化的模型開始，然後迭代地丟棄所有不適合它的試題容易得多。

如果在過程結束時結果表明使用Rasch模型是合適的，那麼就採用它。然而，特別是對於諮商心理學家常用的非認知評估類型，根據我的工具開發經驗（例如，Harvey & Hammer, 1999），發現新評估所編寫的試題展示相同的鑑別度和猜測度是非常不尋常的。

支配與理想點模型之間的對立

最後，避免教條主義的需要涉及的是一個比“Rasch戰爭”問題更大的測量模型問題。具體來說，我們是應該基於支配模型的假設（例如，Likert, 1932）來開發評估，這一模型形成了Rasch和許多IRT模型的概念基礎，還是我們應該採用反映Thurstonian方法的理想點模型（例如，Carter等人，2014）？這兩種模型體現了關於潛在特質和試題反應之間關系的根本不同的觀點。

支配模型體現了許多IRT模型（例如，見Mallinckrodt等人，2016的圖1）關於ICC形狀的邏輯。也就是說，隨著考生在潛在特質（x軸）上的分數增加，我們看到在該程度上得分的人回答試題正確（正確/錯誤）或關鍵方向回答的機率單調增加。這一功能從低開始（在Rasch模型中為零），增加直到達到上限漸近線 (upper asymptote)（此時所有人都回答正確，或給出關鍵(keyed)反應）。

相比之下，理想點模型（詳情見Carter等人，2014；Roberts等人，2000）是基於這樣的觀點，即一個人將根據他們在特質上的真實分數與該試題的位置參數（即，其在特質尺度上的左右位置）之間的匹配程度來評定一個說明的準確性（對於二元或多項式Likert型量表）。試題位置與個人在特質上的真實位置之間的差異越大（無論哪個方向），他們將該說明的準確性評定得越低。

對於形容雙極性量表的高低極端的試題（這是非認知評估中的常見做法），基於支配和理想點模型的IRT方法會產生相似的結果（即，如Mallinckrodt等人，2016圖1所示的單調遞增ICC）。然而，對於性質較為溫和的試題——即描述中間區域的人們會認同的事物——這兩種方法會出現分歧，理想點方法產生的試題反應函數呈倒U形（即最初增加，達到高峰，然後在較高分數時下降）。例如，在內向性—外向性量表上，像“我喜歡社交，但有時我也喜歡獨處”的試題可能會獲得中間範圍得分者的高度認同，而從高低兩端得分者那裡獲得較低評價（即因為高度內向的人可能根本不喜歡社交，而高度外向的人想要一直社交）。

越來越多的研究（例如，Carter 等人，2014；Drasgow 等人，2010；Stark 等人，2006）表明，理想點模型在許多情況下可能是衡量非認知心理特質的更佳方式，超過傳統的支配模型。例如，使用 GGUM 模型的 Zimmermann 等人（2015）發現，理想點方法在衡量《精神疾病診斷與統計手冊》第五版（DSM-5；美國精神醫學會，2013）中的「標準A」個性功能障礙領域的維度時是有效的。Carter 等人（2014）發現，就使用這些分數預測表現結果變量而言，理想點方法在衡量謹慎性方面尤其優越。

總之，我支持Mallinckrodt等人（2016）提出的建議，即我們應該加快從古典測試理論（CTT）向基於試題反應理論（IRT）的工具開發過渡，並且我們應該經常搜索（並丟棄）展現出顯著人口統計差異功能（DIF）的試題。然而，我對他們的結論提出異議，即我們應該依賴Rasch模型來進行此操作，以及我們應該遵循一個複雜的迭代過程來移除未能符合該模型對試題與潛在特質關係的嚴格觀點的試題。相反，只有在用一個更通用的IRT模型進行擬合後的結果表明不需要額外的複雜性時，我們才應該使用二元或多項式Rasch模型。

此外，鑑於最近的研究（例如，Carter等人，2014；Drasgow等人，2010；Stark等人，2006）表明，在許多情況下，我們可以通過超越傳統的支配模型（大多數IRT方法的基礎，包括Rasch）並採用理想點方法來獲得更好的測量，我們應當積極追求這種替代方法，當我們開發新的評估時。值得注意的是，這種選擇對我們編寫試題的方式具有根本性的影響。也就是說，當使用理想點方法編寫試題時，我們尋求產生那些在量表“平均”範圍內得分的個體會將之評為高度準確描述自己的試題。相比之下，使用支配模型編寫試題時，我們尋求識別那些位於量表高低極端的人會認同為高度準確的陳述。

Google Sites

Report abuse