A HISTORY OF RASCH MEASUREMENT THEORY

原文出處:Engelhard, G., & Wind, S. A. (2021). A history of Rasch measurement theory. In The history of educational measurement (pp. 343-360). Routledge. 

翻譯君:ChatGpt

檢查員:maoosu

科學史是測量史(Cattell,1893,第316頁) 

Rasch 於 1960 年發表了他的經典著作:《概率模型在某些智力和成就測試中的應用》。在這本書中,他提出了他的測量理論,被認為是“一種真正新的解決心理測量問題的方法… [產生] 非任意性測量”(Loevinger, 1965, p. 151),該理論“體現了測量本身的基本原理,即客觀性和可重複性的原理,事實上所有科學知識都是基於這些原理的”(Wright, 1980, p. xix)。van der Linden(2016)建議,任何希望了解從古典測試理論(CTT)過渡到試題反應理論(IRT)的人,應該閱讀Rasch的書的第一章。他說:“對這一範式轉變的最佳介紹之一是Rasch(1960,第1章),這對於對這一主題感興趣的任何人來說都是必讀的”(van der Linden, 2016, p. xvii)。本章將進一步介紹為什麼Rasch測量理論受到如此讚譽。 

Rasch 測量理論的使用呈現穩步增長,這一點可以通過 Web of Science 中引用次數的統計來證明(Engelhard 和 Wang,2020)。圖 15.1 顯示了引用次數隨時間的穩定增長。在 1990 年 1 月 1 日至 2019 年 9 月 9 日之間,使用主題短語“Rasch 測量理論”在 Web of Science 中進行搜索共得到 847 條結果。前五大應用領域分別是心理學(28%)、衛生保健科學與服務(15%)、教育研究(14%)、康復科學(9%)和環境與職業健康(9%)。通過其他方法總結 Rasch 測量理論在各領域的應用情況也突顯了基於 Rasch 的應用的類似增長。例如,Aryadoust、Tan 和 Ng(2019)對心理學、醫學和教育等相關領域的 Rasch 測量理論進行了詳細回顧。由於 Rasch 測量理論的原理具有多學科相關性,因此它們已在各種領域中廣泛傳播。 

圖15.1 Rasch測量理論主題相關的引用次數在 Web of Science (2019年9月) 

本章的目的是描述 Rasch 測量理論的原則,同時強調這一方法的歷史發展。我們討論了 Rasch 測量理論的主要哲學和歷史方面,重點是特定客觀性和不變測量。本章圍繞以下指導問題組織:

● Rasch 測量理論是什麼?

● Rasch 測量理論的主要模型和擴展有哪些?

我們還包括了一個第三部分,提供了一些與推進 Rasch 測量理論相關的傳記方面的考慮。

我們的主要論點是,Rasch 測量理論不僅僅是由一個特定的 Rasch 模型家族或用他的名字標記的模型來定義的。Rasch 測量理論是一個基於特定客觀性和不變性概念應用於測量模型的基本科學原則的測量框架。此外,許多引用 Rasch 測量理論的研究反映了不斷取得的科學進步,這些進步涉及對社會、行為和健康科學中的測量、統計問題和實質問題的仔細考慮。

Rasch 測量理論是什麼?

科學若無穩定測量方法的不斷演進,則不可能實現 Wright (1997, p. 33) 

在本節中,我們描述了Rasch測量理論如何位於20世紀測量理論的更廣泛的歷史和哲學框架中。接下來,我們描述了在他的測量哲學中被確定為獨特的幾個關鍵概念。

Rasch與其他測量理論之間的關係是什麼?

為了對Rasch在20世紀測量理念史上的貢獻有所了解,有助於考慮三個廣泛的測量傳統(測試分數、量表和結構傳統)。圖15.2展示了反映這三個傳統的概念圖。

測量理論中最古老的傳統之一是基於簡單的總分。古典測試理論(Classical test theory)是這一傳統的例子(Gulliksen,1950年)。古典測試理論將觀察到的分數(總分)定義為由真實分數和誤差分數兩部分組成。通過一些簡單的假設,古典測試理論可以用來獲得一組與一致性、可靠性和測試分數精度相關的分數的心理測量品質的幾個有用指標(Traub,1997年)。嵌入測試分數傳統的測量理論以總分為重點。它們基於線性模型,可以被認為是用於估計變異分量(誤差變異的來源)的隨機效應模型。基於這種方法的心理測量分析的主要目標是減少測試分數中的噪聲和誤差變異。古典測試理論和這一傳統內的其他模型是同義反復(Brennan,1997年),實證數據不能用來推翻這些模型。與量表傳統相比,沒有反映潛在變量或構念的底層線或連續體。

應該注意的是,由於總分在Rasch模型中是估計人員位置的充分統計量,因此古典測試理論和Rasch測量理論在使用上具有一對一的對應關係。

下一個傳統是量表傳統。Rasch模型是這一傳統內測量模型的例子。量表傳統中的測量模型重點反映了針對測量工具中包含的每個試題的個體反應的概率模型的發展。這些模型是非線性的(它們使用邏輯鏈接函數),它們的主要優點是它們有助於發展一個表示潛在變量或構念的不變量表。量表模型強調確定一條線(線性尺度),在該線上估計試題、人員和其他變量的位置,在各種條件下(例如,不同試題、不同人員和不同情境)具有保持穩定的潛力。與測試分數傳統中對噪聲(即測量誤差)的關注相比,量表傳統的主要目標是增加有關人員和試題在底層連續體上位置的信號。(有關將模型劃分為測試分數和量表傳統的更詳細討論,請參見Engelhard(2013))。

Rasch測量理論與試題反應理論(Item Response Theory)關係密切。創建一個連續體來表示潛在變量或構念是量表模型的定義特徵,Rasch模型提供了一種同時定位兩者的方法,即人員和試題在線上(有關量表的更詳細討論,請參見本卷第12章Briggs)。

與測量理論中的另外兩個傳統相比,結構傳統中的測量模型具有不同的焦點。首先,結構模型關注的是重現協方差或相關矩陣(Bollen,1989年)。在這個意義上,估計人在線上的位置並不是直接目標。接下來,結構傳統中的測量模型起源於傳統因子分析和結構理論(Mulaik,1972年)。結構傳統中的理論可以追溯到Spearman(1904a,1904b,1907,1910)和Spearman使用兩個平行形式的測試之間的相關性來糾正測量誤差的相關性的想法(Traub,1997年)。結構傳統中的測量模型也被Thurstone(1931年)所考慮。Joreskog(1974年)是使用結構傳統中的模型來解決測量問題的一個重要例子。關於效度的研究有著長期包含結構傳統內原則的歷史(Loevinger,1965年;Messick,1995年)。例如,測試標準(AERA, APA和NCME,2014年)包括了與提供有效性證據以支持測試分數的預期用途相關的結構證據。

結構傳統中的最近進展包括因子分析的發展,包括使用二分法和多分法數據的非線性模型,這些模型將測試分數和量表傳統之間的區別融合在一起。基於各種測量模型的潛在變量的使用可以用來探索這些潛在變量之間的結構關係。眾所周知,結構方程模型可以看作是與潛在變量結合的路徑分析。我們的觀點是,將Rasch測量理論應用於結構方程建模方法是擴展Rasch測量理論未來發展的一個令人振奮的領域。

圖15.2 測量的三個傳統:測試分數、量表和結構傳統 

是什麼使得Rasch測量理論成為一種獨特的測量哲學?

當今的統計方法完全以群體為中心,因此有必要發展以個人為中心的統計方法。(Rasch,1961,第321頁) 

Rasch受到對個人為中心的統計方法發展的關注所激勵。他對只關注以群體為中心的統計方法的問題的解決方案,使他提出一套針對以個人為中心的測量中的特定客觀性的要求:

此列表中的前兩個要求表明,試題校準(刺激物)應該在用於獲得比較的人群中保持不變:試題的人員不變校準。後兩個要求表明,個人測量應該在用於獲得比較的特定試題(刺激物)上保持不變:試題不變的個人測量。

Wright(1968年)強調了客觀測量作為Rasch測量理論的一個關鍵方面。用他的話說:

只有當我們找到一種方法來處理客觀的測量,這些測量仍然是被測量人的屬性,無論他回答了哪些試題或與他相處的人,進步才會繼續緩慢發展。(第101頁)

Wright(1968年)對客觀測量的Rasch要求的陳述如下:

首先,測量儀器的校準必須獨立於用於校準的物體。其次,對物體的測量必須獨立於恰好用於測量的儀器。(第87頁)

Engelhard(2013年)強調了客觀性和不變性之間的密切聯繫。根據Nozick(2001年),客觀性包括幾個關鍵特徵:可接近性、主觀間性、獨立性和不變性。客觀陳述可以從不同角度進行,這意味著它們可以在不同的觀察者和不同的時間中重複。主觀間性意味著觀察者之間對科學事實存在共識。接下來,客觀陳述獨立於特定的觀察者。最後,不變性意味著可接近性、主觀間性和獨立性的前三個特徵。方框15.1列出了不變測量的五個要求(Engelhard,2013年)。

方框15.1 不變測量的五個要求(Engelhard,2013)

試題不變的人員測量

人員不變的試題校準

單一維度尺度

這些要求反映了Rasch測量理論的特點。許多20世紀的測量理論家,如Thurstone(1925, 1926)、Guttman(1944, 1950)和Mokken(1971)都在尋求不變性。Engelhard(2008)在一篇特別的《測量:跨學科研究與觀點》(2008年,第6卷,第3號)的焦點文章中討論了不變測量的歷史,並附有評論和反應。

Rasch(1964)將客觀性視為測量的兩個主要基本概念之一(另一個是比較)。用他的話說,

在尋找可能作為基本測量概念的過程中,專注於“科學陳述”的兩個基本特徵似乎是值得的:1. 他們涉及“比較”;2. 聲明被認為是“客觀的。”(Rasch,1964,第2頁)

在考慮客觀性時,Rasch(1977)使用了特定客觀性這個術語。他的意思是應詳細檢查Rasch模型的不變性特性(模型-數據擬合),以確定數據是否符合不變測量的要求。形容詞“特定”指的是劃定特定情況,即不變性是否實現或未實現。Nozick(2001)也指出了這一點:

我聲稱,某物的客觀性是來自不同角度、不同觀點和不同變換下的不變性。然而,通常變化的東西是特別有趣的。我們可以從不同的角度看待一件事物(越多角度越好),注意到它的哪些特徵是客觀的和不變的,也注意到它的哪些特徵是主觀的和變化的。(第102頁)

Rasch測量理論為檢驗不變量測量是否達成提供了一個框架。Rasch測量理論提供了一個理想模型的要求,該模型必須用收集到的易錯數據來確認,以支持創建Rasch比例尺。

Engelhard 和 Wang(2020)將Rasch的哲學總結為將科學的基本原則應用於測量。Andrich(2018)強調,Rasch測量理論反映了一種獨特的認識論。在與Rasch的一次訪談中,Andrich(2002)表示,Rasch “相信他的洞察力超越了社會科學測量的問題,他認為不變比較的成分是知識本身可能性的一個組成部分”(Olsen,2003,p. 151)。Andrich(2018)認為,Rasch對認識論的立場是Rasch測量理論的基礎(p. 72)。

不變量測量包括幾個相關概念。Wright 和 Masters(1982)用客觀性、充分性、可分性和可加性的概念描述了不變量測量。客觀性意味著在單維度尺度上進行試題不變測量和人不變試題校準。充分性通常指代表一個人或試題在潛在連續體上的位置所需的所有訊息的簡單總分。充分統計量還允許使用條件最大似然估計,這對其他IRT模型(Andersen,1977)是不可用的。可分性表示可以隔離人和試題參數,並意味著非交叉試題反應函數和人反應函數。可分性這一特性類似於帶有兩個因素(人和試題)且不包括交互作用項的可加線性模型。可加性意味著測量模型通過加法或減法連接人和試題參數。這有時被稱為尺度不變性。另一個與Rasch測量理論相關的有趣概念集可與可加共同測量(Luce和Tukey,1964;Perline、Wright 和 Wainer,1979)相連接。 

Rost(2001)明確考慮了對Rasch模型的擴展至關重要的概念,以便將其視為Rasch測量理論。以下是他的定義:

Rasch模型是一個旨在以度量水平測量一個或多個定量潛在變量的試題反應模型,具有充分性、可分性、特定客觀性和潛在可加性的特性。(p. 27)

Von Davier 和 Carstensen(2007)認為,單調性特性、局部獨立性和總分的充分性是理解Rasch測量理論的關鍵。

總之,可以將定義Rasch測量理論的概念通常視為與不變量測量相關,包括將科學原則應用於社會、行為和健康科學的測量。Rasch測量理論的許多具體要求,如單維性,在一些擴展的Rasch模型(稍後在本章討論)中被放寬。我們認為,反映在不變量測量中的Rasch測量理論的基本認識論形成了考慮擴展Rasch模型的優點和缺點的基礎。

Rasch測量理論的主要模型和擴展是什麼?


回答“什麼是Rasch測量理論?”這個問題的一個答案是列出Rasch模型家族,包括Rasch測量理論的各種擴展。

在本節中,我們簡要描述了幾個Rasch模型以及對Rasch測量理論的幾個擴展。圖15.3為Rasch測量理論提供了一個概念地圖。芝加哥大學Wright及其研究生開發的Rasch模型家族對我們對Rasch測量理論的理解作出了重大貢獻。Wright和Masters(1982)描述了二分法、部分積分、評分量表、二項式和泊松模型。Facets模型由Linacre(1989)描述。所有這些Rasch模型都是單維的,機率在相鄰類別之間建模。這些模型的操作特性函數顯示在表15.1中。將這些模型以對數比形式查看也有助於突顯這些模型之間的關係。對數比形式顯示在表15.2中。

表15.3列出了過去六十年來反映Rasch測量理論發展的一些主要書籍。這個時間線從Rasch於1960年出版的書籍開始,一直到Andrich和Marais(2019)以及Engelhard和Wang(2021)關於Rasch測量理論的書籍。在早期幾十年裡,研究集中在概念和理論發展以及為這些模型開發估計方法。接下來,焦點轉向了利用Rasch模型解決實際測量問題的示例。例如,客觀測量書籍系列旨在發布使用Rasch測量理論解決重要測量問題的典型研究(Engelhard和Wilson,1996;Wilson,1992,1994;Wilson,Engelhard和Draney,1997;Wilson和Engelhard,2000)。

表15.1 定義一維Rasch測量模型家族的操作特性函數的一般形式

表15.2 Rasch模型家族的對數勝率格式

現在轉到Rasch測量理論的擴展,圖15.3突顯了擴展Rasch測量理論的三個主要方法。這些基於混合、多層次和多維模型。下面描述了反映這些一般方法的擴展Rasch模型的示例。應該注意的是,擴展的Rasch模型結構不能像之前的Rasch模型家族那樣輕易地組合在一個通用方法下。

Rost(1990)提出了一個混合Rasch模型,將潛在類別模型與Rasch測量理論相結合。這些混合模型的基本前提是,在特定的潛在類別的人群中,可以成功應用Rasch測量理論。Rasch模型的參數可以在潛在類別之間變化,但在每個潛在類別內尋求良好的模型數據適配。Rost(2001)建議了幾個基於將各種Rasch模型與潛在類別分析相結合的擴展。

圖15.3 Rasch測量理論概念 

表15.3 1960年至2020年Rasch測量理論的主要書籍選擇

Adams和Wilson(1996)提出了一個隨機係數多項羅吉特(RCML)模型,可用作估計表15.1中所示的Rasch模型的一般框架。RCML模型為各種Rasch模型提供試題設計矩陣。通過使用其他試題設計矩陣,也可以估計其他模型。在此框架內可以估計的一些模型包括二分選擇Rasch模型(Rasch, 1960/1980)、部分信用模型(Masters, 1982)、評分尺模型(Andrich, 1978)、線性羅吉特試驗模型(Fischer, 1973)和Facets模型(Linacre, 1989)。

RCML模型也可以用於估計多層次模型(Adams, Wilson和Wu, 1997)。Kamata(2001)和Van den Noortgate,De Boeck和Meulders(2003)提供了一些多層次Rasch模型的例子。基於將試題、人員以及人員和試題都視為隨機效應的觀點,可以對多層次Rasch測量模型進行擴展(De Boeck, 2008)。

RCML模型已擴展為創建多維模型:多維隨機係數多項羅吉特(MRCML)模型(Adams, Wilson和Wang, 1997)。MRCML模型提供了根據人員設計矩陣以及試題設計矩陣估計兩個或多個維度的機會。MRCML模型為試題難度提供靈活的設計矩陣,並包含多個潛在變量。該模型已用於國際評估中,例如經濟合作與發展組織(OECD)管理國際學生評估計劃(PISA, 2016)。

在本節中,我們確定了Rasch測量理論的幾個一維擴展,包括RCML(Adams和Wilson, 1996)以及幾個多層次模型(Adams, Wilson和Wu, 1997;Kamata, 2001;Van den Noortgate, De Boeck和Meulders, 2003)。我們還考慮了將一維Rasch模型與潛在類分析相結合的混合二分選擇Rasch模型(Rost, 1990)。我們還確定了基於MRCML模型(Adams, Wilson和Wang, 1997)的多維擴展。Von Davier和Carstensen(2007)編輯的卷子提供了對Rasch模型的其他擴展的描述。 

傳記性考量


Sokal(1984)指出,對於測量歷史有多種方法(Engelhard,1997)。本章主要關注與Rasch測量理論相關的觀念和哲學史。另一種方法是基於關鍵測量理論家的傳記性考量。在本節中,我們為可能對Rasch有更個人興趣的讀者提供傳記資源。我們還強調了Ben Wright的貢獻,他在Rasch測量理論的基本原則的發展和推進中扮演了重要角色。

Georg Rasch

Georg Rasch是一位丹麥數學家和統計學家。Rasch基於特定客觀性原則發展了一個測量理論。他的研究得益於與芝加哥大學教授Benjamin D. Wright的密切學術關係。關於Rasch生活的許多傳記細節可以在Wright為Rasch在1980年重新發行的版本的序言中找到(Wright,1980)。另一個重要資源是Andrich(1995)與Rasch進行的一次訪談。Rasch的訃告由Andersen(1982)提供了Rasch生活的其他細節。Olsen(2003)撰寫了一篇關於Rasch的論文,描述了他對統計學的專業和個人貢獻的細節。

Benjamin D. Wright

Benjamin Wright 在芝加哥大學向我們這些測量界的人介紹了Rasch測量理論。Wright是Rasch測量理論發展的主要支持者和貢獻者。在他的職業生涯中,Wright與來自世界各地的眾多學生和同事合作。目前的電腦軟體,包括Winsteps和Facets(Smith & Wind,2018),可以追溯到Wright為Rasch模型家族各成員估算參數的早期算法。關於Wright生活的許多個人細節都在Wilson和Fisher(2017)中加以考慮。最近,Smith(2019)呈現了一個時間表,重點介紹了在發展Rasch測量理論方面的主要參與者。本節中的傳記性考量主要關注美國的發展,因為我們的個人傳記(有關國際發展的詳細信息,請參見Andersen [1982])。對於有興趣了解與Rasch測量理論相關的學術家族樹的讀者,可以參考Smith(2019)和Wijjsen,Borsboom,Cabaco和Heiser(2019)。

Andrich(2004)指出,可以從不相容範式的角度來看待有關Rasch測量理論的爭議。範式轉變不可避免地包括學者之間的相互矛盾觀點和分歧(Kuhn,1962)。語言測試中所謂的“Rasch戰爭”就是這種衝突的一個例子(McNamara&Knoch,2012)。在各種領域內,還有其他對Rasch測量理論的抵制和最終接受的例子。

顯然,測量歷史有多個,這些不同的觀點形成了一個馬賽克,不僅可以為我們了解測量方面的進步提供幫助,還可以為我們了解社會科學的整體進步提供幫助(Engelhard,1997)。本章關於Rasch測量理論歷史的內容就是為了補充這個馬賽克。

摘要和討論

“客觀性”在所有科學領域都引起了根本性的問題。對於一個陳述要具有科學性,需要“客觀性”。

Rasch(1964,第1頁)

我們以Cattell(1893)的一段引言開始本章,他認為科學的歷史就是測量的歷史。在很多方面,Rasch測量理論的持續影響反映了人們認識到測量是社會科學的基本方面,並且需要加大開發心理測量學上健全的主要構建指標的關注力度。Rasch測量理論為關心建立既通知理論又通知實踐的實質理論的社會、行為和健康科學研究人員提供了堅實的測量基礎。

Rasch測量理論可以被有效地視為一個範式轉變(Andrich,2004),但它也可以被概念化為反映在測量問題上應用科學原則的系統性進步。在很多方面,試題得分和量表傳統在結構傳統內的結合代表了測量和統計方法與實質研究的結合。Maul,Mari,Torres Irribarra和Wilson(2018)從結構的角度討論了評估測量。

一方面,Rasch測量理論可以被視為一個統一的特定客觀性要求和尋求不變性的統計模型的綜合家族。另一方面,Rasch測量理論可以被視為將一般科學方法論的基本原則應用於測量(Rasch,1977)。

歷史有多種方法;因此,應該強調,並沒有一個確定的歷史 - 正如在經典電影《羅生門》中,歷史學家將自己的敘事融入個人歷史。Rasch(1960/1980)指出:“模型並非真實的...沒有模型是真實的 - 連牛頓定律也不是。模型不應該是真實的,但重要的是它們具有適用性。”(第37-38頁)。這與Box(1976)的格言相似:“因為所有模型都是錯誤的,科學家必須警惕重要的錯誤。在有老虎出沒的時候擔心老鼠是不合適的。”(第792頁)。我們可以借用這一點,並說所有的歷史都是錯誤的 - 我們正在編寫一個故事,希望這個故事有可能指導我們在測量方面的進步。