Rasch Measurement v. Item Response Theory: Knowing When to Cross the Line

原文來源:Stemler, S. E., & Naples, A. (2021). Rasch Measurement v. Item Response Theory: Knowing When to Cross the Line. Practical Assessment, Research & Evaluation, 26, 11. 


翻譯君:ChatGpt

檢查員:maoosu

摘要

當學生在測驗中得到相同的分數時,是否意味著他們對該主題的了解程度相同?這個問題的答案比起最初看起來的更為複雜。本文比較了古典與現代測驗理論在估計學生能力方面的區別。重點闡述了Rasch量度與IRT之間的區別。通過建立第二個參數(試題鑑別度)並允許試題特徵曲線交叉,如IRT模型所做的那樣,估計個人能力時將更多的信息納入考慮,但測量尺度對所有考生的意義不再保證相同。我們闡述了這兩種方法之間的區別,並使用R語言的模擬(提供代碼)證明,同一個體的IRT能力估計可能會因參加測驗的人群樣本不同而顯著波動,而Rasch個體能力估計在不同條件下是無樣本且無測驗的。這些觀點在基於標準的評估和電腦適應測試的背景下尤為重要,因為目標是確切地說明所有個體在每個能力水平上所知並能做的事情。 

假設兩名學生在一次測驗中答對了相同數量的試題。這是否意味著兩名學生對材料的理解程度相同?儘管這個問題看似簡單,但有三種截然不同的方法可以回答這個問題,這些差異對我們如何解釋測驗結果具有深遠的影響,特別是在基於標準的評估和電腦適應測試(CAT)的背景下。

這三種不同的方法分別對應於古典測驗理論(Crocker & Algina, 1986; Nunally & Bernstein, 1994)、Rasch量度理論(Bond & Fox, 2001; Bond, Yan, & Heene, 2020; Borsboom, 2005; Fisher, 1991; Ludlow & Haley, 1995; Masters, 1982; Michell, 1986, 1997, 1999; Wilson, 2005; Wright & Stone, 1979; Wright, 1995)和試題反應理論(Embretson & Reise, 2000; Hambleton & Jones, 1993; Hambleton, Swaminathan, & Rogers, 1991; Van der Linden, 2018)。每種技術周圍都有大量的文獻;然而,就本文的目的而言,我們將關注每種技術的關鍵特徵,並直接比較它們如何回答上面提出的看似簡單的問題。我們從對古典測驗理論(CTT)的簡要介紹開始,以提供一些歷史基礎,然後將主要注意力轉向比較兩種廣泛使用但在哲學上截然不同的現代測試方法:Rasch量度和試題反應理論(IRT)。最後,我們用R語言的一個實例來說明由於選擇不同的分析和解釋學生測驗成績方法而可能產生的實際差異。

古典測驗理論 Classical Test Theory 

第一種方法用於確定每位學生對某一主題的了解程度,它是最熟悉的方法,對應於所謂的古典測驗理論(Crocker & Algina, 1986)。從CTT的角度來看,100道試題中正確回答70道對每個人來說意味著相同的事情;得分為70。他們回答正確的試題數被稱為原始分數。CTT中的原始分數(X)被認為是由考生的真實能力(T)加上或減去一定程度的測量誤差(E)構成的。誤差是影響觀察分數的所有非考生能力導致的因素,例如幸運猜測導致原始分數上升,或者測驗環境中的干擾使考生無法展示真實能力,從而降低原始分數。CTT模型可以用簡單的方程式表示:X = T + E。

在CTT範式下,得分為50的人與得分為60的人之間的知識差距等同於得分為80的人與得分為90的人之間的知識差距。在這兩種情況下,考生之間都存在10分的差距,這意味著每對考生之間的知識差距相同,因為假設量表是均勻的;也就是說,量表上每個點之間的距離是相等的。

CTT對從測驗中抽取的試題難度沒有固有的假設。試題可以全部簡單,全部困難或是混合。這一概念是指每次新測驗都是從它們所評估的廣泛知識領域中隨機抽取的試題。因此,在CTT範式下,兩個在100道試題中正確回答70道的人可能回答了不同的70道試題,我們會得出他們對這個領域的知識程度相同的結論。即使這兩個考生在100道試題中錯過的30道試題完全不同,這種情況也可能發生。

為了說明,圖1中的圓圈表示正在進行測試的廣泛知識領域(例如,代數)。圓圈內的每個數字代表一個特定的試題。作為一個實例,考慮兩個考生A和B。考生A正確回答了以下試題(1、4、5和7)。考生B正確回答了以下試題(1、2、6和8)。在CTT下,兩位參與者的能力被認為是相等的,因為他們都正確回答了四個試題,儘管它們不是相同的四個試題。因此,根據CTT,對本文核心問題的回答是肯定的,如果兩名學生回答了相同數量的試題,則可以說他們對材料的理解程度相同。 

Figure 1. Classical Test Theory – Item Pool and Example Scores from Two Test-Takers 

Rasch 測量理論

用於確定每位學生對某一主題了解程度的第二種方法對應於Rasch 測量理論,它與CTT有一些相似之處,但也有一些重要區別。

Rasch 測量的三個核心特徵使其具有區別性。首先,該技術假定所研究的構念(但不一定是正在分析的觀察數據)呈正態分布。第二是得出的測量應該是test-free” 和 “person-free的命題。第三是認為Rasch測量的目標是構建一個單維量表,然後測試數據與該模型的適配程度。現在讓我們更深入地考慮每個核心特徵。

構念被假定為正態分布

從CTT觀點和Rasch 測量觀點來看,如果兩個學生獲得相同的原始分數(例如,100個試題中70個回答正確),那麼結論是肯定的,可以說兩個學生在某一主題上展示了相同的知識水平。然而,與CTT假設原始分數量表上每個點之間的差距是均勻的不同,Rasch 測量方法則假定原始分數下的知識分佈呈正態曲線 - 這是我們對心理學研究中的大多數構念所做的假設,也是心理學和教育中廣泛使用的大多數統計技術的基礎(Coolidge, 2012)。

在Rasch 測量下,當原始分數(即正確回答的試題比例)經過羅吉特變換時,正態性假設會顯現出來。羅吉特變換非常簡單,可以在方程1.1中找到。 其中 p 是一個人在測驗中正確回答試題的比例。 

Equation 1. Logit transformation for person ability

羅吉特變換的作用是拉伸分佈的尾部以近似正態曲線,並將分數差異放在等間隔量表上,使學生能力估計之間的差異更有意義(Wright & Stone, 1979)。因此,theta能力估計為0羅吉特的人與theta能力估計為1羅吉特的人之間的能力差異,與theta能力估計為1羅吉特的人與theta能力估計為2羅吉特的人之間的能力差異完全相同。這些單位現在以原始分數無法達到的方式等間隔。換句話說,儘管CTT假定原始分數背後有正態分佈,但它將原始分數的差異看作是量表上每個點的等間隔。然而,在正態分佈中,不同點之間的分數間隔並不相等,分數接近分佈極值時間隔會增加,分數接近平均值時間隔會減少。CTT原始分數並未反映這種正態性假設;Rasch能力估計則是。

由於我們將原始數據轉換為羅吉特(也稱為theta或個人能力估計)所需的唯一信息是正確回答的試題數量,因此它代表了所謂的充分統計量(Anderson, 1977; Michell, 1997, 1999; Rasch, 1960, 1966; Wright & Stone, 1979)。這意味著我們不需要其他信息就可以估計個人能力。儘管能力估計有時通過迭代過程(例如,最大似然(maximum likelihood)、無條件估計 (unconditional estimation )等)進行refined ,但從實際角度來看,初始估計始終從上面顯示的簡單公式開始,關鍵在於原始分數數據為我們提供了足夠的統計量來進行轉換。

如果我們假設,由一個世紀的教育和測驗研究所支持,能力/知識遵循正態曲線,那麼我們必須得出結論:回答50個試題正確的學生和回答55個正確的學生之間的知識差距實際上小於回答90個正確的學生和回答95個正確的學生之間的知識差距。為什麼?因為當一個人接近分佈的極端時,回答更多5個試題正確需要更多的知識,而當一個人接近分佈的中間時則需要較少的知識。換句話說,原始分數(即測試中正確回答的試題數量)的5分差異在尺度上不同點的意義不同。因此,儘管兩個回答相同數量問題正確的人可以說具有相同的知識/能力,但是一個人比同儕少回答五個試題正確的知識/能力差距取決於分佈上的差距位置。圖2提供了五個測試者的實例。 

Figure 2. Uniform v. Normal Distribution with Worked Examples 

請注意,測試者B和C都回答了相同數量的正確試題(52),因此在古典測試理論(CTT)和Rasch測量理論下都被認為具有相同的知識/能力。測試者D和E也回答了相同數量的正確試題(90),並且在古典測試理論(CTT)和Rasch測量理論下都被認為具有相同的對材料的掌握。測試者B(52)比測試者A(50)多回答了兩個正確的試題,測試者F(92)比測試者E(90)多回答了兩個正確的試題。在古典測試理論(CTT)下,以原始分數表示的測試者A和B之間的能力差距(2分)與測試者E和F之間的能力差距(2分)相同。然而,在Rasch測量理論下,以他們的theta估計表示的能力差距,測試者E和F之間的差距要大得多(2.44 - 2.19 logits = .25 logits),而測試者A和B之間的差距則較小(.08 - 0 logits = .08 logits)。 

衍生測量應該是“無人”的和“無測試”的(Derived measures should be “person-free” and “test-free”)

在古典測試理論(CTT)下,一個人的能力取決於測試中試題的難度。如果一整個教室的學生參加的測試主要由容易的試題組成,那麼學生將獲得很高的分數,我們可能會得出結論說他們對這個主題都有很高的認識。相反,如果相同的學生參加了主要由困難試題組成的測試,他們將獲得較低的分數,我們可能會得出結論說他們對該主題的認識較少。從這個意義上說,我們將主題知識歸因於測試者是“依賴於”測試中試題的難度級別。

在Rasch測量方法下,邏輯變換創建了一個構造被假定為正態分佈的區間級別。如果觀察到的數據不符合正態分佈,則通過減去平均值(即,使估計居中)並糾正數據中的擴散來解決這個問題。通過減去平均值和方差,我們創建了一個無人的,無測試的測量方法。此外,使Rasch方法成為“無測試”和“無人”的關鍵特徵是這樣一個觀點,即即使從相同的量表中給出更多或更少困難的試題子集,試題難度的排名順序也將保持不變。通過這種方式,測試者知識的估計不依賴於他們接收到的具體試題。我們預期所有的測試者都會首先回答最容易的試題,然後是次容易的試題等等。因此,無論參與者是否接受了容易或困難的試題測試,只要知道他們回答了多少個試題,我們就對他們回答正確的哪些試題和錯過的試題有相當大的信心。他們將回答正確的試題的期望是基於我們對他們原始分數的了解,並且是隨機的(即,概率性的),而不是決定性的(即,完全可預測的),因為人們有時會猜測或錯過他們知道答案的試題,這是由於情境因素(例如,緊張,環境中的干擾)。 


在Rasch模型下,我們可以通過知道一個人答對了多少題來判斷他答對了哪些題目。例如,如果一個考生在10道題中答對了4道,那麼他們很可能答對了測試中最容易的4道題。我們如何知道哪些題目最容易呢?一種常見的方法是根據數據來估計,觀察每個題目的答對比例,這個統計數據被稱為題目難度。然後,我們可以評估我們的考生是否如預期地答對了最容易的4個題目,通過對預期結果和觀察到的結果進行定量檢查。如果考生答對了測試中最難的一道題目,卻錯過了一道較容易的題目,那將是非常出乎意料的。如果他們答對了測試中最容易的四道題目,並且答錯了最困難的題目,那將完全符合我們的期望。這種關於答對題目順序的假設使我們的量表具有內在意義,而古典測試理論(CTT)則不具有這種意義。

題目難度的不變排序對於量表開發過程至關重要。如果一個題目不符合這種線性結構(例如,得分低的人答對,得分高的人錯過題目),那麼我們可以用適合統計數據來評估它。適合統計數據提供了每個題目的預期表現(基於參與者能力)和同一參與者在同一題目上的觀察表現之間差異的定量表達。適合統計數據是我們評估是否真正構建了一個具有已知性質的量表的方法。而且,更重要的是,通過期望題目難度的不變排序,這允許我們測試數據與我們模型的適合度。我們有關於知識進步的理論。如果我們的數據或題目不符合這個理論,我們需要修改題目、丟棄題目或重新審視理論。 

通過使用客觀測量來構建量表,我們得到了一個優勢,那就是無論誰參加測試,無論他們的知識水平如何,他們答對的第一個題目始終(最可能)是測試中最容易的題目,然後是次容易的題目等等。雖然這個群體的能力可能會上下波動,但題目難度的順序是不變的。

在Rasch模型下,題目的難度水平也經過相同的邏輯變換,因為我們假設題目的難度也遵循正態分佈。公式2提供了用於推導題目難度估計的公式,其中p是參加測試的人正確回答該題目的比例。 

Equation 2. Logit transformation for item difficulty 

在這種情況下,正確回答給定試題的人數是我們轉換的足夠統計量。也就是說,我們只需要知道正確回答給定試題的人的百分比,我們就可以將試題難度轉換為可以與人的能力放在同一個羅吉特尺度上的羅吉特值。因此,考試者的知識和試題的難度可以放在同一個試題地圖上,稱為試題地圖或Wright Map(Wilson,2005)。這讓我們可以說類似於“Eric的能力(theta)為1.2羅吉特,這個試題的難度(diff)為0.8羅吉特。Eric應該能回答正確。” 

在Rasch模型下,試題難度和人的能力有一個預期的分布,我們希望這兩個分布都遵循正態曲線。當試題的難度與考生的能力完美匹配時,該考生有50%的機會正確回答該題。在這種情況下,羅吉特值為ln(50/50)= 0。偏離0羅吉特的任何變化都會在比例失衡的情況下進一步拉伸。因此,參與者不是在與其他參與者的得分進行比較,而是在與該量表的預期分布進行比較。如果一個考生正確回答了50%的題目,那麼他們的得分是0羅吉特,正好是我們基於能力的正態分布所預期的中間值。 


將人的能力和試題難度的方程式結合起來,我們可以使用所謂的試題特徵曲線(ICC)來圖形化地描述測試試題及其特徵。試題特徵曲線圖形化地顯示了在給定能力水平的情況下,一個人回答某個試題正確的概率。Y軸表示回答正確的概率,X軸表示考生的能力水平。每條曲線代表一個試題,這樣,我們可以評估測試試題的特徵以及它對給定考生的表現。在圖3中,我們可以看到對於給定的試題,回答第一個試題正確的概率隨著人的能力而增加,而回答第二個(虛線)試題正確的概率對於任何給定的人都低於實線,因為試題具有不同的難度水平(即,試題2比試題1更難)。


Figure 3. Item Characteristic Curve for two items of different difficulty.

Rasch模型在方程式3中用數學方式表示。

𝑋𝑖𝑠 = response of person s to item i (0 or 1)

𝜃𝑠 = ability level for person s

𝑏𝑖 = difficulty of item i

Equation 3. Generalized formula for the Rasch Model 

實際上,一個人回答一道題目正確的機率取決於兩個因素:1)他們的能力水平(theta)和2)題目的難度(b)。如果一個人的能力水平超過了題目的難度,那麼他們正確回答該題目的機率就會更高。如果他們的能力低於題目的難度,那麼他們正確回答該題目的機率就會降低。 

檢驗資料是否符合單維度模型 

在Rasch測量方法下,兩位測驗參與者都答對了70題,但答對的題目不同,他們將得到相同的能力估計值(畢竟,這只是原始分數的一個Logit轉換)。然而,Rasch模型為每位測驗參與者引入了“適配統計量”,讓我們能夠查看他們所回答的題目是否按照我們基於該線性刻度所推導的順序進行。如果一位測驗參與者具有可接受的適配統計量,這意味著他們回答的題目在我們可以接受的誤差範圍內,按照預測的順序答對了。換句話說,他們最有可能在測驗中答對了最簡單的70道題目。相反,如果另一位測驗參與者答對了許多難題,錯失了許多簡單的題目,但仍然得分70分,那麼他們的適配統計量將表明測驗參與者的回答模式對我們線性刻度模型的適配性較差,我們有理由更仔細地檢查他們的數據。圖4提供了一個實際的例子。 

Figure 4. Rasch Measurement – Item Pool and Example Scores from Two Test-Takers 

讓我們重新考慮之前在CTT中討論的兩位受試者(A和B)。這次他們在圖4中展示。他們都答對了4道試題,但在我們的量表中,他們答對了不同的4道試題。他們的Rasch能力估計將是相同的,因為這只是他們原始分數的邏輯轉換; 但是,他們的適配統計量看起來會很不同,因為他們答對了不同的試題。在右側,我們可以看到這兩位受試者與他們答對的試題之間的連線。我們可以將適配統計量看作是某人反應模式有多出乎意料的平均或摘要。如果有人正確回答了超出他們能力水平的問題,我們會感到驚訝。如果問題難度稍微高一點,我們的驚訝程度會降低。如果問題難度高很多,我們的驚訝程度就會更大。在這個圖中,從每個人到比他們的能力水平高的試題的垂直距離,表示他們的反應模式有多出乎意料,這是用粗體的垂直線標示的。當我們在試題上平均這些距離時,可以發現人B的“出乎意料”程度更高,表明他的反應模式與量表的適配度較差。

Rasch模型的優勢在於它可以幫助我們建立一個測量尺度,然後檢查我們的數據是否符合模型。換句話說,我們可以從實證上檢驗測試參與者是否按照我們預期的順序回答了我們設計的試題。如果一個人對試題的反應模式不符合模型,我們可以進一步檢查他們的反應模式,以排除作弊或其他不端行為。然而,如果有很多人的反應模式不符合模型,那麼我們應該重新考慮我們的測量尺度是否符合我們的意圖。也許這個尺度對於某些具有特定特徵的測試參與者群體來說效果不佳。相反,如果參與者普遍符合模型,那麼我們可以得出結論,我們建立了一個有意義的尺度,可以根據他們對試題的反應來準確地說明人們所知道和能做的事情。 

試題反應理論(Item Response Theory) 


第三種方法用於確定學生對某一主題的掌握程度與前兩種方法截然不同,且在直觀上相當有吸引力。回想一開始的問題:如果兩位考生都對100道題目中的70道答對了,他們在該領域是否擁有相同的知識水平?在試題反應理論(IRT)中,答案是:這要取決於他們各自答對了哪些題目。只有在兩位考生都答對了完全相同的題目時,我們才能聲稱他們擁有相同的知識水平。如果其中一個考生錯過了一道簡單的題目,但答對了一道更難的題目,那麼他們的估計知識水平就會不同於那個答對了70道最簡單題目的人。

從概念上來說,我們可以將這種方法看作是以不同的權重來加權每個試題的總分。因此,我們不能僅僅把一個學生答對的70道題目加起來,我們需要先將每道試題乘上一種權重,然後再加起來,最終的知識估計是“加權”分數,而不是實際答對的題目數量。然而,權重不是事先基於某種理論來指定的,而是基於整個樣本對每個試題的反應以及從該信息中獲得的試題特徵來進行實證推導的。圖5提供了關於CTT、Rasch和IRT所使用的知識估計方法的比較示意圖。請注意,在下面的圖中,較大圓圈的試題對推導分數的貢獻更大/權重更高。

Figure 5. Comparison of approach to person knowledge estimation between CTT, Rasch, and IRT

Rasch模型是一個一參數IRT模型嗎? 

公式4呈現了一般化的IRT公式,可包含最多三個參數。 如果我們逐步分解公式4,這些參數所代表的概念是直截了當的。首先,beta(𝑏)代表試題難度,回想一下圖3中的ICC,較大的 𝑏 表示更難的試題(將ICC向右移動),而較小的 𝑏 表示較簡單的試題(將ICC向左移動)(見圖6A)。Alpha(𝑎)代表試題鑑別度,表示試題區分不同能力水平的程度。圖形上,這反映在ICC的陡峭程度上(見圖6B)。較陡峭的ICC意味著在一個小的能力範圍內,能力水平的微小差異將對正確回答的概率產生很大的影響,而較平緩的曲線將在較寬的能力範圍內進行差異化,但在能力差異較小的情況下精度較低。最後,c代表虛假猜測參數,反映了偶然獲得正確答案的非零概率。這個參數只是將曲線的左端提高一些非零的量(見圖6C)。ICC顯示無論測試者的能力水平如何,他們總是有一些即使很小的機會回答正確。 

Equation 4. Generalized formula for IRT 

𝑋𝑖𝑠 = response of person s to item i (0 or 1)

𝜃𝑠 = trait level for person s

𝑏𝑖 = difficulty of item i

𝑎𝑖 = discrimination for item i

𝑐𝑖 = lower asymptote (guessing) for item i

Figure 6. Worked example of parameter impacts on ICCs. 

從數學角度來看,Rasch模型似乎可以被視為一個一參數IRT模型,其中試題區分度參數被固定為所有試題等效,而猜測參數則未被使用。實際上,很多人稱Rasch模型為一個一參數IRT模型。然而,Rasch測量與IRT之間存在著深刻的哲學差異,這些差異與數學密切相關。具體而言,IRT是一個統計模型,其目標是建立一個解釋盡可能多的觀察變異性的模型。相比之下,Rasch模型的目標是建立一個測量尺度,使其在測試者之間具有不變性,並測試數據是否符合該模型。當模型引入第二個參數時,這些方法之間的哲學和數學區別變得明顯,其原因將在下一節中描述。 

跨越界線:當 ICC 可以交叉時會發生什麼? 


IRT模型的第二個參數是試題鑑別度參數,也稱為試題-總分相關,代表該試題得分(0或1)與其餘測驗總分之間的點雙列相關。試題鑑別度值為1.0表示有完美相關,也就是所有在測驗分數分布的前半段的受測者都回答正確,而所有在測驗分數分布的後半段的受測者都回答錯誤。這樣的試題可以提供有關受測者能力的大量信息。試題鑑別度值為0.0表示該試題得分與測驗整體得分之間沒有任何關係,該試題對於了解受測者能力沒有用。

Rasch模型的一個主要批評是它要求所有試題具有相同的鑑別度,因此它們對於能力估計的貢獻是平等的。實際上,這種權重稱為試題鑑別度,在實際應用中,試題鑑別度很少是相等的。有時候受測者會在偶然情況下回答錯誤,有時候也會因試題設計不當而出現此情況。例如,如果在閱讀測驗中加入了一個數學方程式,你可能不想讓該數學試題對學生的閱讀能力進行評估。從IRT的角度來看,如果我們在構建測驗時不要求試題鑑別度相等,而是估計試題鑑別度的差異,我們實際上可以構建出更好的預測模型。因此,這就是邏輯模型中的第二個參數,也就是我們得到2參數IRT模型的參數。


二參數模型會針對代表測試參與者的表現,估算每個試題的鑑別度值。IRT方法假設這些參數估計值在不同樣本間會相對穩定,因為我們不知道真實情況,而最佳解決方案是建立符合我們所擁有的數據的模型。換句話說,我們正在「建立一個適合我們數據的模型」。

然而,當我們基於我們的數據進行鑑別度參數建模時,我們將不再具有不變和普遍意義的測量尺度。特別是,當我們以統計方式建模第二個參數時,我們允許同一個試題對於不同測試參與者具有不同的含義,取決於參與者的能力水平。換句話說,對於一個低能力的參與者而言,特定的試題可能極其困難,但對於高能力的參與者而言,該試題可能是測試中最容易的試題之一。其中一種傳達這些信息的方式是所謂的試題特徵曲線(ICC)。ICC以Y軸顯示試題的正確答案概率,以X軸顯示參與者的能力水平。

圖7顯示了四個試題的ICC,每個試題的難度不同。在圖7的上方框中,Rasch ICC估計假定所有測試參與者的試題鑑別度水平相同。換句話說,假定測試中的每個試題都是對所有測試參與者而言,最高能力的參與者有更好的機會正確回答該試題,而能力較低的參與者回答該試題的正確機率低於50%。當試題的難度與參與者的能力完全匹配時,參與者有50%的機會正確回答該試題。

Figure 7. Item Characteristics Curves that allows ICCs to cross. 

然而,在圖7的下半部分,我們可以看到允許試題鑑別度參數變化的IRT情境中,試題特性曲線可以交叉的情況。在所示範例中,試題1的鑑別度統計不佳。問題在於,一旦允許特性曲線交叉,就會引入一個完全不同的前提和目標集,這會使得研究中的基本概念會隨著受試者的能力水準不同而有多種意義。透過檢視圖7所示範例中受試者能力與正確反應機率的交集,我們可以看到低能力受試者(例如,人員A)和高能力受試者(例如,人員C)在回答試題2的正確機率比回答試題1還高。然而,中等能力水準的受試者(例如,人員B)在回答試題1的正確機率高於回答試題2。

一旦允許特性曲線交叉,就會暴露出Rasch作為測量模型和IRT作為統計模型之間的根本差異。當特性曲線交叉時,建構的測量尺度不再對所有受試者具有相同的意義。測試中最容易和最難的試題對所有受試者來說不再相同。中等能力水準的人們有一個不同於高或低能力的人們的最容易到最難試題的尺度。這在嘗試基於受試者正確回答的試題來說明受試者所知道和能做的事情時,會帶來問題。

此外,在IRT模型下,鑑別度低的試題對能力估計的貢獻比較小。因此,能力本身不再是影響受試者回答試題的唯一特徵。

IRT 的支持者有時會主張,假定沒有猜測或猜測不會影響學生能力在大多數多選題環境中也是站不住腳的。三參數邏輯模型(3PL)允許根據任何特定試題猜測的可能性調整學生的能力估計。第三個參數是偏移量或僅獲得正確答案的機率,這意味著無論你的能力水平如何,你總是有一定機率回答該試題正確。毕竟,幸运猜测也是多项选择考试的一部分。這就是為什麼對於某些試題(例如圖7中的第2個試題),其下限漸近線並未接近0。Rasch 對這個論點的反駁是,人猜測,而試題不會猜測(people guess, items do not guess )(Wright,1988)。因此,如果猜測是問題所在,最好通過使用適配度統計量而不是引入另一個參數到統計模型中來評估。 

特定客觀性 - 回顧

在Rasch的公式中,觀察到的回答行為是估計人員能力和評估試題難度的充分統計量。原始分數包含了所有必要的資訊,適合度統計量可以告訴您數據中是否有異常情況。然而,在IRT的兩參數模型中,僅僅知道一個人獲得了多少正確的試題答案是不夠的,我們需要知道他們獲得了哪些試題的正確答案。在這種情況下,原始分數不再是一個充分的統計量,因為它並不能提供所有必要的信息以便我們在模型下估計能力。因此,得分相同的兩個人可能會有不同的能力估計值,因為他們可能會回答不同的試題。具體來說,他們將回答具有不同鑑別指數的試題。

因為我們現在需要知道試題的鑑別指數才能估計人員能力,所以人員能力估計不再具備“特定客觀性”(Wright&Stone,1979)這一數學特性。這意味著,人員能力不能獨立於試題難度進行估計。這種違反帶來的後果是,我們不能再確信我們的能力估計值落在線性等間隔尺度上,因為它們現在在某種程度上依賴於樣本。這一點——原始分數不再是充分統計量——是Rasch測量支持者和IRT支持者之間爭議的主要原因。

用R進行模擬比較

IRT 能力估計和 Rasch 能力估計究竟有多大差異?這個問題的答案因每個數據集而異,差異程度可以從幾乎沒有察覺到的差異(Wright,1995)到相當大且具有意義的差異。為了更好地說明這些差異,我們在 R 統計程式中建立了一個模擬,比較了 Rasch 能力估計和 IRT 人員能力估計。對於這個例子,我們模擬了 30 個具有正態分布能力和 15 道難度從容易到困難的試題的分數。然後,我們從這個樣本中選取一個人,並使用 Rasch 測量方法和二參數 IRT 模型分別估計他們的能力。所有的試題都是二分法計分(對/錯)。接下來,我們模擬了八個新的數據集,唯一的限制是每個試題都保留了相同比例的正確和錯誤反應(即試題難度),同時允許它們的鑑別度參數有所不同。在現實中,這個限制永遠不可能得到滿足,但為了簡單起見,在這裡我們強制實施了這個限制。 


在每一個模擬中,我們還加入了來自單個人的反應模式(我們稱之為目標個體)到模擬運行中,並在新數據集的情況下估計他們的能力。這種方法使我們能夠展示Rasch能力估計保持非常穩定,而IRT能力估計可能會有相當大的變化。在圖8中,每個模擬運行在一個水平行中顯示(用顏色劃分)。每個小圓圈表示樣本中31個人中一個人的IRT能力估計值。大實心正方形顯示我們目標個體的Rasch能力估計值在整個模擬中幾乎保持不變。相比之下,大圓圈顯示了我們目標個體在IRT參數化下的能力估計值。此模擬的代碼可在以下網址中獲取:

https://github.com/anomalosepia/irtSimsupp/tree/ master

這些模擬結果也加深了我們對 Rasch 與 IRT 模型之間的差異的認識。如我們在圖 8 中所看到的,同一個人的結果能力評估可能會因模擬資料集中的試題鑑別度而大幅度變化。相較之下,Rasch 模型並不受此影響,人物能力評估穩定不受試題鑑別度的差異。因此,Rasch 評估的是測驗中人物和考試本身的性質,而 IRT 評估的是在現有樣本中人物能力的估計值。

換言之,相同的人物和回答模式被放入八個不同的資料集,利用 Rasch 方法,由於原始得分足以估計人物能力,我們對該人物的知識的估計在不同資料集中保持一致。該人物的適配統計數值會因資料集而異,但人物能力的估計值卻始終保持穩定。相反地,IRT 能力估計值受到資料集中的試題鑑別度參數的影響,會因此根據試題不同而賦予不同的權重。因此,我們對該學生的能力估計受到其他參與測驗人員表現的影響,因為試題鑑別度參數是根據其他參與者的表現所得出的。因為必須引入試題鑑別度參數才能估計人物能力,因此原始得分不足以告訴我們學生的知識和技能水平。遺憾的是,由於不足以作為一個充分統計量,我們違反了特定客觀性的要求,不能再確信我們的新尺度包含能力譜上等間隔的點。相反地,我們只有一個序位尺度。

Figure 8. Comparison of Rasch v. IRT person ability estimates for a single person relative to different item characteristics. 

結論


總之,讓我們回到一開始的簡單問題:如果兩個學生在同一個測驗上得分相同,他們的知識是否相同?這個問題的答案取決於你在計算學生分數時願意接受的假設。每種方法都有優點和限制,我們都應該了解我們偏好模型的限制。不論我們是否認識,我們分析數據的方法都有許多哲學上的涵義,我們必須準備接受這些涵義,至少暫時是這樣。

經典測試理論提供了一種簡單的方法,可以粗略地近似學生的知識。它的局限在於測量尺度至多是序數尺度,這意味著得分之間的差異並不相等。它不假設能力服從正態分布。並且它並沒有告訴我們哪些學生可能會正確地回答哪些問題。此外,測驗上的得分完全取決於其他考生的表現以及測驗項目的難度。

Rasch測量為我們提供了一種將序數尺度轉換為基於正態分布假設的間隔尺度的技術。在能力估計分數分布的極端端點上的差異與分數中間的考生之間的差異具有不同的含義。此外,Rasch模型產生的能力估計值獨立於測試的難度和其他考生的能力。該模型將人的能力和項目的難度放在同一尺度上,因此提供了有關哪些項目最有可能被任何測試參與者正確回答的期望值。我們可以通過分析適合度統計量來測試數據與一維模型的適合度並相應地進行修訂。


Rasch 模型的威力並不在於其能力估計值的使用。畢竟,這些估計值只是一個邏輯轉換,因此它們將與 CTT 原始分數高度相關。相反,Rasch 模型真正的威力來自其適合度統計數據,這使我們能夠評估我們是否真正建立了一個線性刻度,以便所有測試參與者都可以使用相同的方式,從而促進測試結果的有意義解釋。在 Rasch 模型下,測試分數對於所有測試參與者都具有一致的含義,而在使用 CTT 或 IRT 模型時則沒有這種含義。這就是 Rasch 模型區別於統計模型的測量模型的原因。

IRT 允許我們靈活地將更多信息納入我們的參數估計中。它不是依靠試題鑑別度的假設,而是根據參與者的數據對試題鑑別度進行建模,並將該信息納入學生能力估計值中。然而,這樣的增強建模是有代價的。一旦允許試題特性曲線交叉(即試題鑑別度不同),我們的刻度對所有測試參與者的含義就不再相同,因此我們無法說明學生在每個人能力水平上所知道和能做的事情。此外,我們不再保證等間隔測量(即我們可以放棄對構念正常性的假設),我們的估計值也不再具有特定客觀性,因此它們不再是自由人或自由測試。估計值實際上是 CTT 中加權分數的一個版本,在其中更具鑑別度的試題權重更高。這是 CTT 的統計校正,但 IRT 無法幫助推進構建一個可以更有意義地跨測試參與者解釋的刻度。

總之,選擇使用哪一種測量模型是取決於你想要達成的目標,而且這個選擇會帶來一些後果。如果你想要利用測驗項目中的最大資訊,根據個人對項目的回答來建立個別的能力估計,並且認識到項目的鑑別度不相等且可能存在猜測,那麼選擇使用 2 或 3PL 模型可能是一個合理的選擇。然而,如果你想要建立一個真正的線性、等距測量尺度,這個尺度可以在所有測驗參與者中產生相同的意義,並且可以讓你對任何特定能力水平的學生知識和能力做出陳述,例如基於標準的評量和CAT,那麼只有Rasch模型才能勝任。