ITEM RESPONSE THEORY

A Historical Perspective and Brief Introduction to Applications

原文出處:Luecht, R. M., & Hambleton, R. K. (2021). Item Response Theory: A Historical Perspective and Brief Introduction to Applications. In The History of Educational Measurement (pp. 232-262). Routledge. 

翻譯君:ChatGpt

檢查員:maoosu

毫不誇張地說,試題反應理論(IRT)已經改變了現代測量的格局。與此同時,IRT 並不是在 1980 年代神奇地出現的一套全面的模型和參數估計器、軟體工具和應用程序。相反,它從最初的理論統計建模概念和估計過程演變和成熟,現在包括用於不同類型的反應數據的各種測試應用的統計模型。

一方面,越來越多的先進 IRT 模型和改進的估計技術仍然是許多參與心理測量研究的調查者的關注焦點。與此同時,IRT 顯著影響了實際評估實踐,使組織能夠設計和校準試題庫,大大促進了測試表單的製作和分數處理。IRT 還深刻地影響了測試開發者如何設計和組裝測試。此外,現代電腦適性測驗和多階段測試設計在沒有 IRT 的情況下將無法實現。

本章介紹了一些可追溯至 1920 年代的關鍵研究;它還包括了對實際應用的討論,強調了 IRT 的優勢。我們將 IRT 的故事分為三個部分,每個部分代表一個特定的主題:(a)IRT 模型和建模;(b)參數估計和軟體;以及(c)實際 IRT 應用在實際操作中。 IRT 的完整故事比我們在這裡能夠呈現的更為複雜和引人入勝。然而,我們希望我們的故事能以一種連貫的方式將一些重要的研究和發展聯繫在一起,使“現代 IRT”成為世界上最重要的測量理論。

IRT 模型和建模


正如 Bock(1997)所指出的,IRT 的歷史幾乎可以追溯到一個世紀(另見 Hambleton & Swaminathan,1985;Hambleton,Swaminathan 和 Rogers,1991;van der Linden,2016;Faulkner-Bond 和 Wells,2016;Thissen 和 Steinburg,2020)。 IRT 的基礎無疑可以在 Thurstone(1925)關於量表的開創性工作的兩個方面中找到。首先,Thurstone 提供了一種統計“校準”測試試題的方法;也就是說,通過使用考生正確和錯誤反應的觀察模式,將測試試題相對於潛在量表進行統計定位。其次,他能夠以潛在量表為函數,直觀地展示正確反應的經驗概率。

常態 Ogive 建模

到二戰結束時,Ogive 模型 - 特別是常態 Ogive 模型 - 已經成為展示觀察到的能力得分與考生在任務上成功比例之間關係的相對標準方法(Thissen 和 Steinberg,2020)。 Lawley(1943)建議在試題分析和測試構建中使用 Ogive 函數。 Tucker(1946)基於常態 Ogive 模型,使用產品刻度相關性,明確地表徵觀察到的反應與潛在的“真實得分”之間的關係。

最早的理論心理測量建模研究,導致最初被稱為潛在特質理論的研究主要涉及兩個基本問題。第一個問題涉及為二分評分測試試題建立統計反應函數模型 - 這就是 Lazarsfeld(1950)所稱的跟踪線和 Tucker(1946)稱之為試題特徵曲線(ICC)的東西。實際上,Frederic Lord 一直使用試題特徵曲線理論這一說法,直到他的《教育測量學報》文章“試題特徵曲線理論的實際應用”發表(Lord,1977)。正是在那篇文章中,Lord 似乎首次使用了試題反應理論這一詞。然而,針對試題反應建模,正是 Lord 將 20 世紀 40 年代末發表的許多更具說服力的已發表和未發表研究匯集到一起,撰寫了兩篇開創性的文章和一篇專著:第一篇發表在《教育與心理測量》(Lord,1953a),第二篇發表在《心理測量學報》(1953b)。兩篇論文都源於 Lord 的博士論文中的專著(Lord,1952),該專著在 Harold Gulliksen 的指導下在普林斯頓大學完成。這部專著常被認為是心理測量潛在特質理論的誕生。 

《教育與心理測量》的文章(Lord,1953a)仔細闡述了該模型三個重要方面的理論基礎。首先,這篇文章明確使用了一個橄欖形的試題特徵函數,即 Pi(θ) ≡ Pi,條件是潛在能力。他進一步闡明並說明了試題鑑別度和試題難度在同時定位和塑造相對於未知θ的試題特徵函數中的作用。其次,他將試題特徵函數概念化為測驗中的可加性,產生測驗特徵函數

(即真實分數,

)。

第三,Lord 使用廣義二項函數展示了觀察分數頻率分佈與試題特徵函數之間的關聯。

正如前面提到的,Lord 顯然受到了 Lawley(1943)和 Tucker(1946)早期建模工作的影響。但他還能夠直接整合 Lazarsfeld(1950)關於似然函數的發展,現在由獨立的、條件性試題特徵函數組成(即相對於與真實分數不同的單維潛在能力的試題反應概率)。

《心理測量學報》的文章(Lord,1953b)明確引入了二參數正態橄欖(2PN)模型,用以數學表示試題特徵函數(改編自Lord,1953b,第58-59頁):

在這裡,潛在特質 θ 是正態分佈的,平均值為零,變異數為一,試題參數是 ai,從 θ 的非線性回歸中估計的權重係數,以及 bi,試題在 θ 度量上的位置。來自 Finney(1947)的 probit 模型估計量的推導,Lord 還推導出了斜率 ai,位置參數 bi,以及能力參數的最大似然估計量(參見方程 6 到 12)。

緊接著 Tucker(1946)確定正態橄欖反應函數與“真實”分數之間的相關性的舉措,Lord 將斜率(試題鑑別度)定義為潛在潛質 θ 和正態橄欖函數下的正態分布偏差 Ri 之間的相關性;也就是說,

圖 11.1 展示了正態橄欖函數用於描述 θ 的六個值的概率,

其中 цi ai 和 bi 代表單個 ICC(頂部圖像),使用具有固定值的累積正態函數(例如,ai=a=1.0,如中間圖像所示)。底部圖像顯示了六個相應的 ICC,其中不同的 bi 參數產生值 γ -1.25; -0.75; -0.25; 0.25; 0.75; 1.25。儘管其理論上具有代表 ICC 的實用性,但 2PN 的實際應用仍受到估計甚至是中等長度測試的模型參數所需的繁瑣數值計算步驟的極大限制,這是 Lord(1953b)明確意識到的(第62頁)。

Lord(1953b)還引入了一個偽猜測調整的三參數正態橄欖模型作為 Pi* = Pi + (1 - Pi) / q 作為二進制評分項中 q 個替代方案的一種公式計分機制,其中 Pi 是 2PN 模型(方程式1)。將 ci 設為 (1 - Pi) / q,模型還可以寫成 Pi* = ci + (1 - ci) * Pi,與 Birnbaum 隨後的帶有[隨機]偽猜測調整的反應函數的 logistic 參數化更緊密地對齊。

最初的Rasch模型家族

Georg Rasch 在 20 世紀 40 年代和 50 年代的丹麥研究與 Lord 在美國探索的相同類型的度量問題。Rasch 最早的工作引入了一個泊松模型來校準教育數據。這導致了根據一個人的能力 ξ 和試題難度 δ,建立二進制評分項成功概率的模型: 

在出版他的著作《部分智力和成就測試的概率模型》(Rasch, 1960)之後,Rasch 受邀在芝加哥大學進行一系列講座,在那裡他與 Benjamin Wright 開始了長期的合作關係。Rasch 的書籍由芝加哥大學的 MESA 出版社重新出版,並由 Wright 撰寫前言和後記,這並非巧合(Rasch, 1960, 1980)。

Rasch 和 Wright 最強烈的動機是創建一個滿足客觀測量條件的模型家族,其中潛在分數不依賴於使用的特定試題集,試題特徵不依賴於使用的考生群體。作為數學統計學家,Rasch 在演示如何使用泊松模型推導條件概率時曾思考過這一點,而無需引用潛在能力(見 Rasch, 1960, 1980, pp. xxvii-xxviii)。他們的合作關係對 Rasch 模型家族的發展和擴散起到了確定性作用,因為實際上是 Wright 及其學生和同事後來創建了許多用於處理多類響應數據的 Rasch 模型的擴展(例如,Andrich, 1978;Masters, 1982)。

Wright 還培養和推廣了 Rasch 的不變性和特定客觀性概念(Rasch, 1960, 1961),認為這些是與 Thurstone 最初的標度動機一致的真正測量的標誌(Wright & Stone, 1979;Engelhard, 1984, 2008, 2013)。正如 Wright 在 Rasch 書籍的重新出版版本的前言中所說,“客觀測量,即超越測量儀器的測量,不僅需要能夠獨立於被測物品的測量儀器,還需要一個校準儀器功能的響應模型,該模型可以分離儀器和物品效應。”(p. ix)。

在丹麥之外,涉及二進制響應數據的對數據Rasch模型試題分析的第一個演示應用直到將近十年後才得到發表,當時 Wright 和 Panchapakesan(1969)提出了熟悉的單參數Rasch邏輯模型(1PL): 

通過引入兩個簡單的標誌 

將其應用到Rasch的原始模型中。因此,Wright 和 Panchapakesan 的單參數Rasch模型將項目響應概率函數描述為潛在特徵θ和試題位置參數(即,在大多數測試的上下文中,一個難度參數bi)之間的簡單差異。

2PL和3PL模型的出現

正如Bock(1997)指出的那樣,是 Alan Birnbaum 在《心理測試成績的統計理論》(Lord & Novick, 1968)的章節以及早期的一套空軍報告(Birnbaum, 1958a, 1958b)中將IRT的許多關鍵理論元素正式化和整合。Birnbaum將Berkson(1953, 1957)創造的基於單一潛在特徵θ的條件邏輯響應函數的必要理論依據和估計量歸功於Berkson。Birnbaum用Berkson的估計器代替了Lord最初使用的在計算上更為繁瑣的正態橢圓模型,用更方便計算的邏輯函數。Birnbaum(1967, 1968)進一步指出,邏輯函數的一個優點是它不需要對潛在特徵θ的概率分布作出假設。在計算上,使用邏輯函數簡化了對估計試題和個人參數的最大似然估計的數值所必需的偏導數條款。

此外,Birnbaum建議使用完整的響應模式來估計潛在分數,並提出了條件測量信息和最大似然估計的θ的條件誤差方差的重要概念。最後,他引入了更通用的三參數邏輯(3PL)模型,

其中 ai 是一個項目得分權重,通常被稱為區別參數,bi 是一個項目位置,表示在θ度量上的拐點, 此時響應概率為 

並且 ci 是一個偽猜測參數,表示當θ值較低時,為了考慮隨機噪聲(猜測),響應函數向左的調整。

D常數

20世紀70年代,IRT文獻中也開始出現了2PL和3PL模型的輕微變化(例如,Hambleton&Cook,1977)。到那時,該模型通常被重新表示為:

其中指數中的常數D設置為1.702(或四捨五入為D = 1.7)。正如Camilli(1994)所指出的,這個常數有一個相當簡單的目的:使2PL和3PL模型可以近似之前的常態橢圓模型,如圖11.2所示。Haley(1952)已經推導出這個常數,作為將邏輯函數與常態橢圓函數相連接的方法。然而,將D-常數包含在3PL中的合理依據肯定是將2PL和3PL模型中的試題和個人統計數據放在一個公共報告尺度上。

事實上,這種比例轉換的唯一實用性是能夠在一個公共試題庫中互換使用大規模的常態橢圓試題參數估計(例如,Urry,1977)和邏輯模型參數估計。除了約定俗成外,現代試題反應理論(Item Response Theory, IRT)校準和評分中似乎幾乎不需要D-常數。

IRT模型擴展


20世紀60年代和70年代的試題反應理論(IRT)建模沿著兩條不同的道路發展。一條道路涉及對2PN和2PL模型在多項數據(例如,有序反應數據,如部分信用建構反應分數或Likert態度反應量表)以及無序反應選擇反應的一些相當創新的擴展。第二條道路也涉及為多項數據開發模型,但保持在Rasch模型家族之內—需要足夠的統計數據。

到了20世紀60年代中期,Fumiko Samejima(1969, 1972)獨立開始研究采用有序類別評分的教育表現數據的替代模型,例如Likert類型的反應格式以及多個選擇。她開發了常態橢圓和邏輯版本的所謂分級反應模型(GRM)和廣義GRM。GRM描述了來自有序試題觀察分數(例如,試題i的作文測驗項目上的xi∈ [0到mi],或者建構反應項目的部分信用評分)的特定分數或更高分數的概率。

邏輯版本的GRM可以寫成

其中 ai 是一個斜率參數,bik 是Samejima稱為邊界概率的位置參數。例如,一個具有有序反應分數x =(0,1,2,3)的試題將有三個邊界反應函數,P(Xi ≥ 1 | θ)= Pi1,以及 P(Xi ≥ 2 | θ)= Pi2,P(Xi ≥ 3 | θ)= Pi3,其中 P(Xi ≥ 0 | θ)= 1。特定類別反應的概率可以通過減去相鄰邊界概率輕鬆獲得;例如,P(Xi = 2 | θ)= Pi1 - Pi2 和 P(Xi = 0 | θ)= 1 - Pi1,簡化為二進制分數的2PL。

不久之後,Darryl Bock(1972)提出了一個名義反應模型(NRM),作為更一般的多項羅吉特模型的IRT專用擴展。 NRM可以表示為

與試題 i 相關的分類選擇。通過對模型進行相對簡單的重新參數化,其中 

其中 Ti 是一個 (mi - 1) x m 的線性約束矩陣,Bock 繼續優雅地提出了一個高度通用的多項羅吉特模型。 

Bock的模型在概念上與Samejima的異質GRM相似,但更通用。不幸的是,除了作為分析多選題干擾項模式和估計Wainer等人(2007)的測試片段模型參數的試題分析工具之外,這兩個模型都沒有廣泛使用。然而,他們在北卡羅來納大學教堂山分校的最初合作對於利用和應用Bock在為復雜的IRT估計問題推導創意貝葉斯估計解決方案方面的相當專業知識是至關重要的。本章接下來的部分將介紹其中一些解決方案。

其他IRT模型的擴展與Rasch建模傳統相關,並導致了單參數logistic模型的相對簡單擴展,這些擴展經常依賴於Rasch早期將其logistic模型推廣到多項數據的經驗。例如,Andrich(1978,2016)開發了著名的評分量表模型(RSM):

其中bi是一個試題參數,表示相對於θ的平均反應函數的位置,dk是一個閾值參數,表示相對於bi的一組共同評分類別反應函數的相等位置。對該模型進行簡單的重新參數化可創建每個試題的類別特定步驟參數,dik = bi + dk。

Masters(1982)後來在他的部分信用模型(PCM)中顯式地包括了試題特定得分點和相應的閾值參數,dij,對於j = 1到mi有序類別。即,

閾值參數在大多數應用中與試題難度不同。公式12中PCM的上部參數化的一個重要特徵是閾值參數也可以被限制在試題之間相等。這些限制使得Andrich(1978)的評分尺度模型(RSM)成為PCM的特殊(受限)情況。

在Samejima最初的努力之後的幾十年間,新模型的發展持續進行。例如,David Thissen和Lynne Steinberg(1984)將Bock(1972)的NRM擴展為多項選擇模型(MCM),以從干擾項模式中提取訊息。Thissen和Steinberg(1986)繼續合作,為直至那時已經引入的大多數熱門試題反應理論(IRT)模型開發了一個分類法。

稍晚,Muraki(1992,1993)通過添加試題鑑別度參數ai,擴展了Masters的PCM。 Muraki的廣義部分信用模型(GPCM)可以寫成

與Masters(1982)和Masters和Wright(1984)一樣,Muraki的模型允許對試題特定參數施加限制。 

到了1990年代中期,試題反應理論(IRT)模型中反應函數的新穎和引人入勝的參數化不斷增多,僅僅在估計器、計算機軟體和心理學和教育研究人員所提出的所有模型的實際應用方面略遜一籌。例如,van der Linden和Hambleton(1997)的現代試題反應理論手冊介紹了從多維擴展的邏輯模型到反應時間模型的27個IRT模型。但是,只為其中一小部分模型開發了一致且穩健的估計器。而且,在1990年代,受支持的試題反應理論模型的可用軟體校準和評分套件數量更少。 

試題反應理論參數估計和軟體

儘管在1980年代和1990年代持續出現新模型,但到了20世紀70年代末,試題反應理論(IRT)的理論基礎已經奠定。但是還需要解決另一個技術問題:模型參數估計。

最初的估計主要集中在費希爾(Fisher)(1925)對最大似然估計(MLE)的引入以及Fisher和Yate's(1938)對邏輯試題反應函數和牛頓-拉弗森估計器的發展。如前所述,Lord(1953b)直接使用Finney的MLE方法為probit模型演示了關於ai,bi和θ的2PN對數似然函數的偏導數。到了20世紀70年代末,聯合最大似然估計(JMLE)開始成為參數估計的首要方法。

然而,最初在Lord和Novick(1968)中提出並在Bock和Lieberman(1970)以及Bock和Aiken(1981)中形式化的貝葉斯方法也開始出現。貝葉斯估計方法需要對特定IRT模型參數的合理先驗分佈做出假設。一些沉浸在MLE傳統中的人可能對這些假設感到不舒服。然而,高效貝葉斯估計器的開發,尤其是Bock和Aiken(1981)使用Dempster、Laird和Rubin(1977)的期望最大化(EM)算法的適應性實現邊際最大似然,以及隨後引入的BILOG(Mislevy和Bock,1983)迅速推動了試題反應理論(IRT)朝廣泛使用的方向發展。然而,這讓我們在試題反應理論參數估計的故事中走得太遠。首先了解為什麼貝葉斯影響是必要的。 

JMLE and CMLE for the Rasch Family of Models

(此節暫略)

JMLE for the 2PN, 2PL and 3PL Models

(此節暫略)


邊際最大似然估計(MMLE)


對JMLE問題的一個創造性解決方案是通過Bock和Aiken的合作提供的。結合了Samejima(1969)使用貝葉斯統計對任何二分法或多分法反應模式的後驗可能性最大值存在條件的嚴格證明,Bock和Lieberman(1970)對θ分佈的近似積分網格的邊際最大似然(MMLE)貝葉斯解以及Dempster、Laird和Rubin(1977)的期望最大化(EM)算法,Bock和Aiken(1981)能夠開發一個實現MMLE的EM算法。

在Bock和Aiken對MMLE的EM算法實施中,對θ的個別值的估計被替換為潛變量的期望後驗分布P(θ | U)。對後驗求和所需的相關積分也被替換為一個離散的高斯-埃爾米特積分網格點,θk,k = 1,…,q。也就是說,給定每個反應模式r的唯一後驗分布,可以表示為

其中Pik ≡ Pi(θk),Qik = 1 – Pik 以及P~ 是形成適當概率密度函數所需的歸一化求和。Bock 和 Aiken 進一步證明,這些後驗分布項可以通過在q個點中為每個觀察到的反應模式U分配頻率來累積為偽計數。將方程17和18合併,我們基本上得到了可以在EM算法的"M"步驟中通過使用Newton-Raphson迭代進行最大化的期望導數項,直到 

達到可接受的容忍度。 

這個EM在IRT估計中的貢獻常被忽略,也許是因為其推導的技術複雜(也參見Swaminathan&Gifford,1982,1985a,1985b;Thissen,1982)。其意義有兩個方面。首先,MMLE明確區分了項目校準-即,從估計θ中估計項目參數。這種分離使得可以使用有效的抽樣策略,獨立於考生的評分和定標程序,優化一個或多個測試形式或項目庫的校準。其次,只要我們能夠為結構參數指定對數似然函數和相關的導數,這種基本的EM算法就擴展到本章介紹的所有模型。事實上,它甚至可以應用於多維IRT估計(例如,Bock,Gibbons和Muraki,1988)。

儘管在過去二十年中,馬可夫鏈蒙特卡洛方法(MCMC)已經出現,用於多維IRT和相關的因子分析應用(例如,Cai,2010),但MMLE仍然是2PL,3PL,GRM和GPCM單維模型的操作項目校準的首選方法。


IRT軟體

實際應用IRT至少到1980年代中期(Hambleton&Cook,1977,Bock,1997,Thissen&Steinberg,2020)才開始普及,這主要是由於缺乏可用的軟體。ETS的研究人員可以使用Wood,Wingsky和Lord(1986)的LOGIST軟體,其他地方的研究人員可以使用BICAL(Wright&Mead,1978)。但是,直到五六年後,大規模研究和操作使用的方便套件才真正存在。

在1980年代和1990年代,出現了一些相對低成本的商業軟體套件,主要來自兩個組織:由Benjamin Wright領導的芝加哥大學的MESA和由Darryl Bock(獨立於芝加哥大學)共同創立的Scientific Software International(SSI)。

Wright&Linacre(1983)推出了MSCALE,一個微型計算機程序,使用JMLE來估計1PL Rasch模型,RSM和PCM的參數。稍後發布了一個新版本BIGSTEPS(Wright&Linacre,1991),主要針對擁有Unix計算機的機構。WINSTEPS(Wright&Linacre,1998; Linacre,2020)包含了MSCALE和BIGSTEPS的所有功能,還提供了圖形用戶界面。

SSI分發了三個IRT校準包,處理非Rasch應用。MULTILOG(Thissen,1983,1991)使用MMLE估計多類別數據的項特徵,其中包括2PL模型以及GRM,NRM和MCM。從軟體的角度來看,後三個模型是實現為具有設計矩陣(方程式10中的T)約束的多項式邏輯模型的特殊情況。SSI還分發了BILOG(Mislevy&Bock,1983)及其多組先前版本BILOG-MG,帶有增強的圖形界面(du Toit,2003)。BILOG和BILOG-MG實現了MMLE以估計項特徵,並進一步提供MLE得分,Bayes期望後驗(EAP)得分估計(Bock&Mislevy,1982)或最大後驗(MAP)估計(Mislevy,1986)。

雖然現在當然有許多其他的IRT軟件包可用 - 包括現在通過R編程語言提供的大量IRT應用程序軟件包(R Core Team,2020) - 簡單的事實是,自20世紀80年代中期以來,MESA / WinSteps.com和SSI(後來是VPG)通過為最終用戶提供可訪問的軟件,將IRT應用帶到了全球,讓IRT得到了實現。 

Invariance, Robust Estimation and Data-Model Fit

IRT的挑戰在1970年代和1980年代並未因改進估計和軟體而完全解決。實際上,在1980年代末期和1990年代及之後,出現了三個新的相關差異分析問題: (i)偵測和處理資料模型不適合; (ii)參數不變性和估計的穩健性; 和(iii)特殊的與故意的多維度性。這些都是複雜的問題;本章的範圍無法精確地探討這些問題的歷史。然而,我們不提到這些問題也是不妥當的。

這三個問題都涉及某種殘差-即涉及三個量(通常被視為成對出現)的差異:(1)觀察到的項目反應分數u(對於項目i和人員j進行索引); (2) 理論上真正的模型作為預期反應函數(ERF),E ui j和j; i Ξ Pij,與模型參數θj之間的偏差或偏差函數; (3) 這三個量中的任意兩個之間的差異或函數。 

選擇性地,我們可以考慮在不同條件下收集的觀察反應數據之間的差異(例如紙筆測試與電腦測試)。或者,我們可以考慮使用估計的預期反應函數(ERF)或不同群體之間的不同模型之間的差異。

數據模型適配查找觀察數據和估計的ERFs之間的差異。大的差異意味著項目參數估計和/或分數可能被錯誤地描述。例如,Yen(1984)的Q1和Q3統計量考慮了3PL模型下一種殘差的幅度變異和協方差。當分別通過項目或測試者聚合考生時,Wright&Stone(1979)和Masters和Wright(1984)開發了幾種用於Rasch家族模型的項目和人物適配測量方法。 Hambleton等人(1991)和Wells和Hambleton(2016)總結並提供了一些有用的圖形技術,以評估數據模型適配性。 Glas(2016)總結了許多有用的統計殘差不適合指標。最後,Sinharay(2016)總結了貝葉斯數據模型適配和相關殘差分析。

參數不變性研究通常關注於測試條件或兩個或更多考試人群子組的估計期望反應函數之間的差異。在過去的三十年中,已經開發了大量的差異項目反應方法(例如,Holland&Wainer,1993年;Camilli,2006年;Penfield&Camilli,2006年)。Engelhard(2013年)和其他人將參數不變性概念擴展到評分過程和評分者。

多維度檢測通常以三種方式之一進行分析。第一種方法涉及分析可能違反單一維度IRT模型所需的局部獨立性假設的殘差模式,這是由於特定或困擾因素(McDonald,1981年,1999年;Yen,1984年,1993年)。第二種方法傾向於使用某些主成分或因子分析變體將額外的分量或因子擬合到殘差化的相關性或協方差矩陣中(例如Ackerman,1992年,2006年)。第三種方法使用基於概率的方法在測試水平上更全面地評估適合度(例如Orlando&Thissen,2000年-另見Glas,2016年,Cohen&Cho,2016年和Sinharay,2016年)。

實用IRT應用

Frederic Lord顯然是最早看到可以通過IRT開發的廣泛應用之一。這並不意味著Lord開發了這些應用。但是,他確實有眼光看到了當時的技術限制(例如,計算能力限制,存儲限制,網絡和軟件)。實際上,儘管他最早的工作集中在最終成為IRT的理論基礎上,但Lord最有效的貢獻可以歸因於他在1977年的文章中提出的四個實際應用,並在他1980年的書中進行了擴展,名為《應用項目反應理論解決實際測試問題》。首先,Lord 展示了如何使用廣義二項式函數從項目特徵函數對 θ 的觀察分數分佈進行描述。他的方法創建了經典測試理論和 IRT 之間的直接聯繫,因為可以分別估計平均值和方差。 

其中,P^ij = Pi(θ^j)是基於估計值的題目特性函數。 

Lord進一步顯示,特徵函數也可以用於估計平均誤差方差和估計傳統測試信度係數。 

第三個,Lord 在1970年代和1980年代的許多出版物都致力於應用Birnbaum(1968)擴展Fisher的測量精度函數進行測試設計。例如,他1977年的文章明確使用了“目標測試信息函數”這一詞語——這一詞語在後來的自動測試組裝(ATA)研究文獻中廣泛使用(見van der Linden,2005; Luecht,2014)。在IRT中,這個想法很簡單。根據特定的θ值或沿著潛在尺度的指定區間/區域,將測量精度或峰值測試信息放在最需要的地方。

第四個,Lord 倡導使用條件測量精度進行測試組裝,包括固定試題測試表、試題級自適應測試,甚至是多階段測試(也可見Samejima,1977)。最後,Lord在測試分數等效方面做出了廣泛的貢獻。這些應用中的許多都不可能在電腦技術和計算算法趕上之前實現。Lord清楚地預見了將測試級函數在未觀察的潛在變量上分解成加法項目函數的價值。

在這裡,我們通過總結自1990年代初以來出現的一些操作應用來擴展Lord對IRT的貢獻。我們將我們對此主題的故事限制在三個廣泛的應用類別中:(1)題庫和量表維護;(2)測試設計和組裝;以及(3)電腦適性測試(CAT),包括試題級和多階段測試(MST)。有關IRT應用的更完整描述可在許多書籍、期刊論文和技術報告中找到(例如,參見van der Linden,2016; Wells&Faulkner Bond,2016; Drasgow,2016; van der Linden&Glas,2010)。


Item Banking和量表維護

Lord(1977,1980)設想使用已經經過IRT校準的題目來填充未來的測試表,從而消除了需要進行後續測試表間得分等化的需求。他稱之為預等化。預等化的焦點轉向建立和維護整個題庫的潛在能力量表θ,以便從庫中選擇任何題目用於測試設計、組裝和得分。預等化也是自適應測試的前提。然而,預等化意味著所有題目都已經校準到相同的題目能力量表θ上。當開發新題目時,需要將其校準,然後鏈接到公共θ度量上。已經有許多有效的IRT等化方法為此目的而開發(例如,見Wright,1977; Wright&Stone,1979; Lord,1980; Stocking&Lord,1984; Wingersky,Cook&Eignor,1987; Hanson&Béguin,2002; Kolen&Brennan,2014)。

一般來說,有兩種方法可以將新題目鏈接到現有的能力量表上,這兩種方法都利用在所有新測試表中包含一定數量的連接題目。一種方法包括三個基本步驟。第一步是分別校準所有新測試表。這稱為局部校準。第二步使用已經校準到θ尺度上的題目,稱為鏈接題目,估計一個合適的統計鏈接函數,用於局部校準項目參數估計和其庫項目估計之間。最後,鏈接函數應用於所有新的(以前未校準的)項目的項目參數估計。

(此節以下暫略)

Information Functions for Test Design and Assembl

(此節暫略)


IRT的適性測驗應用

適性測驗(CAT)自1980年代就已經存在(參見Lord, 1980; Weiss & Davidson, 1981; Kingsbury & Weiss, 1983)。但隨著第一批廣域網路和互聯網應用的出現,這一技術在1990年代中期變得更加可行(e.g., Eignor, Stocking, Way, & Steffen, 1993; Mills & Stocking, 1996; Zara, 1994; Sands, Waters, & McBride, 1997)。

一個基於試題的適性測驗實際上是兩個獨立的過程的組合:(a)一個即時估算潛在分數的評分程序;(b)一個試題選擇程序,選擇一個或多個試題,以最大化考生在個人臨時分數下的測量精度。有很多CAT的變體,但基本的測試交付模型是從幾個項目開始初始化評分。CAT然後進行,直到滿足特定的停止規則,例如固定測試長度,最小化誤差方差要求,或決策效用標準(參見Sands等人,1997; van der Linden和Glas,2010)。圖11.6顯示了五名真實能力為&2.75、0、1.25、2.5的受試者的50試題模擬CAT。左邊的圖像顯示了θ的能力估計值,最終收斂到它們的真實值。誤差棒表示估計的標準誤(SE =方程式25的平方根)。當更多試題被執行時,SE會變小。右邊的圖像顯示了從600道題庫中每個受試者選擇的50個項目的最大信息位置。


不幸的是,MLE 在CAT中使用2PL或3PL模型時的穩定性要差得多,尤其是在CAT試題選擇序列的早期階段,當試題數量無法產生良好的條件似然函數時。1980年代提出了兩種解決方案,都涉及貝葉斯估計。Mislevy和Bock(1982)最初提出使用EAP(即後驗分佈的期望值或平均值)。Mislevy(1986)後來引入了MAP分數估計器(即後驗似然函數的模式)。

另一種變化是,在1990年代中後期就可以實現的。Lord(1980)和其他人已經提出了多階段測試(MST)的概念。但是,創建和部署由預組裝模塊組成的自動適應面板的可行方法直到下一個十年才出現(有關更完整的歷史背景,請參見Yan&von Davier,2019)。圖11.7顯示了五個不同的MST面板配置。面板是預先組裝的自適應測試,可以在每個階段將考生路由到更簡單或更困難的模塊。圖11.7的上排顯示了兩個2階段面板配置。下排展示了三個3階段配置。模塊可以是由離散試題、試題集甚至是複雜的計算機表現練習組成的小型到中等大小的單元。MST的預組裝方面改善了實時自適應測試的測試形式質量控制,也可以簡化得分和路由機制(Luecht&Nungester,1998;Luecht,2014,2016)。

利用幾種不同的ATA建模方法,Luecht和Nungester(1998)和Luecht,Brumfield和Breithaupt(2006)能夠展示首批大規模MST面板裝配方法的成功實施和操作可行性。 

結論

我們的三部曲故事還沒有完結。首先,在一本書的章節甚至一本書中都無法完全講述IRT研究、模型和應用的完整而迷人的歷史。一些主題,如數據-模型配適和參數不變性,可能需要更廣泛的探討,特別是關於它們的歷史發展方面。第二,IRT應用正在迅速發展,並且呈現出多樣化的趨勢,可能正在超越研究,開發運營軟件資源以及我們驗證這些新應用程序的能力。儘管如此,未來可能會出現四種廣泛的IRT應用類型。

第一類是將多維和受限潛在類別模型應用於心理學、人格評估、醫療保健和生活質量等非認知多維構面。 IRT研究文獻的大部分都被教育測試使用的二元或多元得分數據所主宰。但是,有心理、人格和診斷評估背景的上下文使用新的試題反應格式,並且本質上是多維的,需要得分概要。

第二類應用無疑將涉及電腦適性和多階段測試的新發展。例如,正在進行的原則性試題設計研究使得可能集中試題校準整個試題家族,而不是單獨的項目。在適性背景下,這意味著路由到不同的試題家族並在家族內進行選擇。 IRT校準設計和得分也可以從試題家族的層次結構中受益(例如,Geerlings等,2011; Sinharay&Johnson,2012)。自動適性試題的概念也是可能的,其中試題設計特徵被校準並操作以最佳地改變每個受試者的試題 - 可能在不同的設置中。

第三類當然涉及來自結構化和非結構化評估相關任務、工作流程或電腦日誌文件的新類型響應和過程數據。需要處理這些不同類型的數據所需的新建模和估計程序的程度既令人興奮又有點令人畏懼。

最後,對於報告分數、進行適合度和探索參數不變性以及校準和評分質量保證應用程序,更有效率、更有效的數據可視化方法正變得越來越普及。毫無疑問,許多數據科學和數據可視化方面的內容都會適用於心理測量學。

因此,雖然這個歷史故事確實是不完整的,但重要的是要意識到未來有一天也會成為歷史的一部分。思考IRT理論、研究和應用實踐的未來時代是令人著迷、具有挑戰性和令人興奮的。

注意