Comparisons and Contrasts Between Item Response Theory and Rasch Measurement Theory

原文出處:Andrich, D., Marais, I., Andrich, D., & Marais, I. (2019). Comparisons and Contrasts Between Item Response Theory and Rasch Measurement Theory. A Course in Rasch Measurement Theory: Measuring in the Educational, Social and Health Sciences, 221-229. 

翻譯君:ChatGpt

檢查員:maoosu

本章是對教育和社會科學中的測量理念、功能和方法的回顧和擴展,這將引導讀者進入後續章節。

測量方法和測量中的數據模型關係

在社會測量方法中存在相當大的爭議。由於您可能會以某種形式遇到這種爭議,通常不是明確的,因此我們在本章中對其進行探討。然而,這種爭議主要集中在與數據和模型之間關係有關的兩個範式上(Andrich,2004, 2011)。

當統計模型以可能應用於已經存在測量數據的方式應用時,爭議基於對測量的方法,而不是估計、擬合度檢驗等眾多細節。儘管不同的模型在擬合度檢驗方面有不同的考慮因素,但技術細節通常是共同的。在兩種方法中,都認為如果數據打算在時間、工具和地點之間提供普遍性,那麼原始數據可能需要進行轉換。

在構建對某種構念的測量時,有兩個同時的目標:

(i)更好地理解測量的構念或變量,並修改工具以改進其對構念的操作化和測量;

(ii)評估並正式測量被測對象在構念或變量上的位置,在我們的案例中通常是人們的能力或態度。

以下簡要概述了在構建測量工具時的兩種數據模型關係方法。


方法1

盡最大努力構建具有內容效度的測試工具。然後努力構建可能描述數據的合理模型。這些模型既有有助於澄清工具並操作化構念的項目(測試)參數,也有個人參數。在可能使用的模型及其參數上沒有特定的事先限制。相反,主要標準是模型是否適合數據。如果選擇的模型不適合數據,則嘗試使用具有更多參數的相同類型的其他模型。具有更多參數的模型通常比具有較少參數的模型更能解釋數據。這就是IRT的方法。

方法2

盡最大努力構建具有內容效度的測試工具。然後努力確定可能描述數據的模型,同時也符合某些測量標準。這些模型既有有助於澄清工具並操作化構念的項目(測試)參數,也有個人參數。在可能使用的模型及其參數上有特定的事先限制。這些模型的依據與任何數據集無關,數據在內容上應有效,並且應盡可能符合模型。我們在第7章中看到,模型的依據取決於應用測量結果進行有意義比較所需的響應應具有的某種不變性。

RMT應用了這種方法。由於它涉及本質上不相容的方法,我們將IRT和RMT方法之間的差異稱為範式差異。

本書所倡導的方法是第二種,即RMT方法。這種方法傳統上更不尋常,但並不罕見,並且正變得越來越普遍。L. L. Thurstone(1920年代)、L. Guttman(1940年代)和G. Rasch(1960年代)闡述了等效標準。他們的標準彼此一致,並與Kuhn(1961)關於物理科學中測量功能的觀點一致。在本章末尾,我們簡要地考慮了Kuhn和Thurstone。在本書前面部分和下一章中,Guttman則被單獨考慮。

在本節中,我們通過考慮來自關鍵人物的引述來建立一種特定的不變性和測量功能。這一標準和測量功能也與本書所采用的方法一致。

自然科學中定量研究的測量功能:托馬斯·庫恩

托馬斯·庫恩(Thomas Kuhn)是一位物理學家,後來轉向科學史和哲學,並在科學史和測量哲學論述中引入了“範式”一詞。他提出了這樣一個觀點:除了傳統的、累積性的科學之外,科學史上還存在著一些具有革命性的思想。這些知識革命可能需要幾個世紀的時間才能完成。庫恩的主要著作出現在20世紀60年代。

教科書教什麼是科學中測量的功能?

在教科書中,從測量得到的數字通常被視為“無法化約和頑固的事實”的原型,科學家必須努力使他的理論符合這些事實。但在科學實踐中,通過期刊文獻來看,科學家似乎經常在與事實搏鬥,試圖強迫它們與他毫不懷疑的理論保持一致。定量事實不再僅僅是“給定”的。他們必須為之而戰,與之共同戰鬥,在這場戰鬥中,與之比較的理論被證明是最有力的武器。科學家們在知道他們應該讓大自然產生哪些數字之前,往往無法得到與理論相符的數字(強調已加)(庫恩,1961/1977,第193頁)。

庫恩認為科學研究中測量的功能是什麼?

即使是自然科學家進行的最好和最具創造性的測量中,也只有極少數是出於發現新規律和確認既有規律的動機(庫恩,1961,第187頁)。新的自然規律很少能夠僅通過檢查在未事先了解這些規律的情況下進行的測量結果來發現。這是因為需要迫使自然產生合適的結果,從理論或規律到測量的途徑幾乎永遠無法逆向行走(強調已加)(庫恩,1961/1977,第197頁)。

在定量科學研究中,質性研究是否有其作用?

…大量的質性研究通常是物理科學中富有成果的定量化的前提(強調)(Kuhn,1961,p.180)。

如果發現新定律或確認現有定律不是測量的功能,那麼...


在科學中,測量的功能和作用是什麼?

在科學發現中,測量和定量技術之所以能夠發揮特別重要的作用,正是因為它們通過顯示嚴重的異常來告訴科學家在何時何地尋找新的質性現象。對於這種現象的本質,它們通常無法提供任何線索(強調)(Kuhn,1961/1977,p. 205)。

總之,物理科學中測量的功能是尋找異常。

社會科學中測量所需的特性:L. L. Thurstone

Thurstone 是一位工程師,曾與托馬斯·愛迪生合作過一段時間,後來轉向心理學,並在芝加哥大學擔任心理學教授。他在社會科學中的測量工作受到了他的工程和科學背景的強烈影響。Thurstone 的主要著作發表於 20 世紀 20 年代。

社會變量 - 社會科學中測量變量的特點是什麼?這些變量的限制是什麼?

一個真正主觀的度量的主要要求是它應該完全獨立於所有物理現象。在完全擺脫物理測量的束縛時,我們還可以自由地嘗試美學對象和許多其他類型的刺激,而這些刺激並沒有對應任何已知的物理測量(Thurstone,1959,p.182-83)。

因此,它們必須獨立於物理變量 - 還有什麼?

各種意見不能僅僅被描述為多或少。它們在多個維度上散佈,但測量的想法本身意味著某種程度的線性連續性,如長度、價格、體積、重量、年齡。當將測量的概念應用於學術成就時,例如,需要將質性變異強制進入某種學術線性尺度中(Thurstone,1959,p.218-19)。 


為什麼您認為我們在社會科學中有定量?

在實踐中,我們有以下例子:熟練程度、表現和成就的分數,全國教育進步測試和態度測量的分數。顯然,在嘗試測量時,構造必須包含更多或更少、更大或更小、更強或更弱等概念。

測量儀器的要求

如果要將一個尺度視為有效,那麼該尺度陳述的尺度值不應受到幫助構建它的人們的觀點的影響。在實踐中,這可能是一個嚴格的測試,但在尺度法可以被接受為不僅僅是對構建尺度的人的描述之前,它必須經受住這樣的測試(Thurstone,1959,p. 228)。

如果某個陳述的尺度值受到任何個人或團體的觀點的影響,那麼在同一基礎上比較兩個團體的觀點分布將是不可能的(Thurstone,1928,p. 416)。

因此,在測量中,儀器需要在不同的群體之間以相同的方式(不變地)運作。這些要求是否合理?


Georg Rasch

Rasch是一位丹麥的數學家和統計學家,被請求協助監測閱讀進度的學生,並在此過程中發展了一類社會科學測量模型。他在第一次和第二次世界大戰之間進行統計咨詢以賺取生計。通過獎學金,他於1934年與Ronald Fisher學習了一年。

Rasch在哥本哈根大學擔任應用社會科學統計學教授以完成其職業生涯。他的咨詢工作包括為丹麥教育研究所進行的工作,這是他的創新工作首次成形的地方。他還與芝加哥大學的統計和教育部門有著密切的聯繫,這一聯繫在1960年代和1970年代得以鞏固。他最後的正式任命是在1974年擔任澳大利亞西部大學數學和教育系的訪問教授。Rasch的主要出版物出現在1960年至1977年之間。

在他報告他在閱讀和其他數據模型方面所做的工作時,他寫道關於模型和數據之間的關係如下。

因此,在某些偏差情況下,詢問模型或測試哪一個出了問題是很誘人的。在某種意義上,這當然顛倒了問題,但在另一種意義上,問題是有意義的。首先,很難相信模型和觀察之間的幾個一致性案例應該是孤立的事件(原文強調)(Rasch,1960,第51頁)。

Rasch模型為何種測量模型?此模型基於以下需求:

比較兩個刺激之間應該獨立於作為比較工具的特定個體以及所考慮類別內的其他刺激,或可能被比較的其他刺激。同樣,比較兩個個體之間應該獨立於所考慮類別內的特定刺激,或是同一個或其他場合所比較的其他個體。(Rasch,1961,p. 332)

將此語句與Thurstone的有關儀器屬性的語句進行比較。這種不變性似乎非常重要,不僅對科學和普遍性而言,對於人類相關的社會正義和準確診斷也同樣重要。

例如:

(i)如果兩個評分員評估學生表現,則要求成績與哪個評分員評分無關;

(ii)如果兩位放射學家在研究X射線,則要求解釋與哪位放射學家閱讀X射線無關。


不變性的標準

Thurstone和Rasch所表達的不變性要求並不是任何數據集的描述,而是數據需要滿足的標準,如果要在測量中使用數據,它們必須符合這些要求。

Rasch模型的獨特之處在於,不變性的標準已內置於模型中,且這些模型是天然的概率模型。然後,檢查不變性是否成立涉及檢查回答是否符合模型。回答可能不符合模型的方式有很多種。這些在本書的其餘部分中詳細討論。我們可以將此類回答視為某種意義上的異常

在許多情況(包括物理和社會科學),滿足這一要求是一個挑戰。如同物理學中的Kuhn所說的,滿足這一要求會將定性和定量考慮相整合。RUMM2030程序符合這一理念。它使得研究人員可以從許多角度檢視數據並掌控數據。

與Rasch模型相比,其他模型可能會吸收某些不變性的差異。由於Rasch模型沒有吸收更多參數模型的數據特徵,因此Rasch模型更有可能揭示數據中的異常。

與模型的適合度及與測量相關的適合度

另一個區分IRT和RMT測量理論範式的角度是對比配適不良的概念。這有助於將IRT範式放在上下文中。

自然科學中出現的數據建模範式已被社會科學和IRT所採用。然而,在自然科學中,假定數據已經是測量結果。例如:

“誤差的法則”,即概率分佈假設描述了在相同條件下由同一程序重複測量固定量時出現的誤差的分佈,是在18世紀下半葉引入的,旨在證明取相同量的多次測量或觀察值的算術平均值作為該量的值是根據手頭的測量或觀察的一個好選擇(Eisenhart,1983,p. 1)。

拉格朗日提出並研究了其他離散誤差法則;辛普森、蘭伯特、拉普拉斯、拉格朗日和D.伯努利提出了連續誤差法則,其中二次指數高斯分佈法則fx(x)=(h / π)exp(-h2x2)是高斯基於最小二乘法的首次概括,這在19世紀幾乎被普遍認為是“誤差法則”(Eisenhart,1983,p. 1)。

注意到分配是指隨機測量誤差。高斯分布是t、χ2和F分布的基礎,通過評估是否模型已解釋了所有系統變異來進行評估。如果沒有,則給定模型和其參數估計,分配將不是隨機誤差分配。然後尋求具有更多參數的模型,這些參數可以解釋較簡單模型未解釋的系統因素或因素。但是,所有這些分配都假定分析的數據是測量數據。

在RMT中,任務是展示儀器正在產生盡可能接近測量的數字。標準是具有測量特性的相關Rasch模型,不選擇描述任何特定數據集的模型。在RMT中,關注的不合適是相對於測量的。如果使用更復雜的模型,測量不匹配將被吸收到模型中。該模型將更適合,因為它具有其他參數,例如項目的鑑別度參數。但是,這種更好的適合可能掩蓋了測量偏差,例如與不同組和整個連續領域的不變性缺乏,而Rasch模型強調了這一點。

從上述觀點來看,當人們滿意數據顯示出足夠的測量特性時,模型化,例如應用分層線性模型進行組比較等,就變得合適了。然後,使用建模數據類比於自然科學中對數據進行建模的方式。 

理想化的線性連續體

在本章的結尾,我們再次引用瑟斯頓(Thurstone)上述的評論:“例如,當將測量的想法應用於學業成就時,有必要將定性變異強制轉換成某種學業線性尺度”(瑟斯頓,1959年,p. 218-19)。線性尺度意味著將性質的大小映射到一條線上。但必須認識到,這條線是一種理想化的抽象,自然界中並不存在實際的線條。因此,測量的屬性本身並不必呈現線性。例如,連接電源插座和電腦的電線可能在許多地方彎曲,但通過將它們的大小映射到這條理想化的線上,可以測量其通過的電流強度或電線的電阻。

練習題