13. A Synthetic Overview

原文出處:Bond, T., Yan, Z., & Heene, M. (2020). Applying the Rasch model: Fundamental measurement in the human sciences. Routledge. 

「那些迷戀實踐卻缺乏科學支持的人,就像沒有舵和羅盤的船長,永遠不知道他要去哪裡。實踐應該始終建立在堅實的理論知識之上。」——達文西(1452-1519,筆記)

人類的條件,無論用哪種定義來描述,都是非常複雜的。儘管我們對於區分每個人的各種個人差異仍然感到驚訝,但人文科學的核心目的之一就是產生描述人類存在的共同特點的法則和理論。似乎那些試圖理解人類條件的人必須努力應對一方面是嘗試描述、解釋、測量和預測人類共同屬性的張力,另一方面則是欣賞和解釋個體差異。

儘管人類科學存在許多范式來研究和解釋人類條件,但本書所介紹的工作對于心理學是一個關鍵,因為心理學是一門理性科學,我們聲稱的定量方面可以通過測量理論進行測試,而不是僅僅斷言它們是這樣的。儘管存在許多其他范式來貢獻我們對人性、社會互動、健康、行為、智力發展和學校成就的理解,但聲稱在20世紀,社會科學被那些決心量化人類行為的人所主宰,這是合理的。

潛在特質理論家認為,可觀察的行為(表觀變數)僅是人類狀態的外在指標,大部分狀態無法直接推斷。然而,儀器開發者的意圖是要在研究者的心中建立一個清晰的圖像,了解受試者的心理狀態。而跨越這個康德式鴻溝的唯一潛在方法是透過儀器的使用。這要求儀器的編寫必須盡可能清晰明確,且受測者必須配合研究者誠實並明智地使用該儀器。在這種情況下,儀器是研究者和受測者之間共享含義的溝通工具。如果儀器無法實現其提供明確雙向溝通的目的,我們的研究工作就注定要失敗。如果我們未能使用適當的分析工具來建構不變的測量特性並從這些數據中提取定性含義,即使儀器慎重地構建也無法作為潛在變數的嚴格量化。 

在《心理學中的測量:一個方法論概念的批判性歷史》一書中,米切爾(Michell,1999)認為心理學中的測量失敗了,因為心理學家無法滿足物理科學中存在的嚴格測量要求,因此發明了自己的定義,以此來描述心理學中的測量。他認為這些定義忽略了測量過程中的兩個基本步驟。首先,需要證明正在研究的特定人類特質是可以量化的。其次,需要構建一個測量這種特質的工具,以便可以合法地對這種特質的各種數值進行數學計算,這是我們在統計分析中經常使用的方法。米切爾認為,僅僅給事件(例如回應、意見或行為)分配數字,然後斷言這就是測量,是不夠的。

事實上,米切爾認為,如果心理學無法處理基本測量在學科中幾乎完全缺乏的問題,則它必須仍然是一個偽科學。他在幾個場合(例如,Michell,2000)中稱心理學對這個不舒服的真相的抵制是病態的。(見“心理測量學是否是病態科學?”米切爾,2008年,以及Barrett、Kyngdon和其他人在《測量》(Measurement)6,78-123中的評論)。僅僅基於一些公認的慣例(例如 Stevens(1946)提出的名義、序數、間隔或比例尺度),給事件分配數字是不足以讓心理學顯得科學的。

Additive Conjoint Measurement (ACM)

是一種量化人類科學的方法,其原理和特性由Duncan Luce及其同事提出。相較於物理學科學已經擁有的嚴格量測方法,這種方法也可以為人類科學帶來同等嚴格的量測。然而,許多心理學家似乎仍然不願意進行實施基本量測的工作,使其成為人類情況的定量理性科學的基石。他們似乎滿足於Stevens(1959)的慣例,即量測是根據規則分配數字,並且對其所述的名義、序數、區間和比率尺度的區別毫不猶豫。

這種現象在心理學家和其他人類學科中發生,因為他們沒有學習到使用其他工具。學術界非常閉門造車,不願意改變,並且對新思想非常抵觸。因此,大多數博士生和新教授甚至沒有學習到基本量測(量測不是標準本科或研究生課程的一部分,只有統計學是)。這種依賴於接受實踐的堅持,然後被期刊編輯和評審者加以強化,他們不會接受除了標準公式化的數據分析方式以外的其他東西。

當然,這些說法對那些教授測量和統計課程的數千人、以Stevens原則為基礎進行量化研究的研究人員或投資了數百萬美元以生成僅僅是數字而不是數量測基礎的測試程序的人來說,這是令人不安的消息。論點是,如果用於這些分析的數據不遵循Luce和Tukey(1964)所描述的物理科學中常見的測量原則,那麼在心理學、教育成果和醫療康復等領域進行的所有複雜的統計分析都可能是徒勞的。

但好消息是:我們常發現許多同事所建立的儀器和他們因此收集的數據,在 Rasch 測量的檢驗下仍然表現良好。這是因為這些儀器是基於對潛在變量或潛在特質的深入理解,再加上傳統統計方法的關鍵應用而精心建構的。這些研究人員通常在採用 Rasch 分析時了解到更多關於他們的數據,往往不是反駁他們的過去工作,而是使其更加精煉。BLOT 測試(第 4 和 5 章的重點)是深入實現 Piaget 的工作和當時傳統統計技術的結晶。只有在經過基本的 Rasch 分析檢驗(Bond, 2005 提供了一些軼事細節)之後,它才出現在第一版(Bond & Fox, 2001)和後來出現在第二版(Bond & Fox, 2007)中的不變性和適合度分析。

對於那些聆聽過芝加哥大學的本·萊特(Ben Wright)闡述 Rasch 分析的人來說,米歇爾對量化心理學的批評並不是新聞。萊特的教學工具一直是一個 1 英尺的尺子,他將其放在後口袋中,用它作為物理科學中測量的模型,以及人文科學中測量必須是什麼樣子的模型。Andrich(1988)、Fisher(1994)、Perline、Wright 和 Wainer(1979)、Wright(1985、1999)等人聲稱,當 Rasch 模型應用於社會科學的測量建構時,可以產生與物理科學中預期的測量相同的測量。這個聲明是說,Rasch 模型實現了概率共同測量的原則(不是 ACM),以產生不變的間隔尺度測量,其中串接原則適用。然而,正如我們在第 1 章中提到的,這種斷言並不是沒有批評者。 

例如,Karabatsos(2001)指出,雖然Rasch模型的反應概率矩陣估計總是滿足在ACM理論中正式規定的順序限制,但構成獲得這些概率的基礎的觀察數據不一定遵循這些限制。因此,估計的反應概率結構可以“......產生這樣的錯覺,即該模型可以自動從任何數據集中構造出可加的共同測量,而不管數據有多嘈雜”(Karabatsos,2001,頁395)。同樣,Kyngdon(2011)證明,由Rasch模型創建的“區間尺度”僅與一個特質的序數屬性一致,因此,成功地擬合Rasch模型仍然符合心理特質僅是序數的假設。 

這些論點也適用於常見的觀念,即Rasch模型可以從觀察數據中產生一個間隔尺度(可透過在Google學者中搜索“rasch model” “generating interval” OR “rasch model” “generates interval” 來證實這種觀點是多麼普遍)。正如Ballou(2009年,第364頁)所指出的那樣,這是非常關鍵的,因為它“忽略了實證關係系統必須是一個聯合可加…結構的要求。任意應用IRT模型到成就測試數據本身並不會賦予任何特定的尺度度量屬性。”這裡的重點是,測量實際上是將數字分配給物體,以便這些數字表示或保留物體之間的某些關係。讀者可能還記得我們在第1章中的一個例子,即將數字分配給三支不同長度的筆,以便這些數字對應於我們的實證觀察,即第三支筆的長度是其他筆的兩倍。因此,實證關係系統首先出現,然後我們使用數字來表示對象之間的觀察到的關係,而不是反過來。但似乎許多應用Rasch建模的人們經常將Rasch模型解釋成一種魔法棒,可以將序數數據轉換為間隔尺度。需要注意的是,Rasch模型產生的Logit尺度不是由真實物品的單位構成的,而是從數據中生成的實數,這一點Humphry(2011年)也有所闡述,即“數量與數值之間的差異”(第4頁)。 

細心的讀者可能還記得,我們在第四章強調了數量和數值之間的區別,而建立單位則在建立量之前進行。此外,單位(例如千克、公分或攝氏度)來自於一個標準的“測量程序,以及根據指定的測量程序、包括測量條件的校準測量系統”(國際計量局,2012年,第16頁)。然而,在社會科學領域中建立這樣的單位仍然非常缺乏。我們不知道有任何標準的測量程序可以測量工作記憶或智力(似乎大多數心理學理論太過模糊,無法提供這樣的標準測量程序)。因此,在Rasch模型下生成的logit刻度不提供任何真實的單位,它們實際上是從數據生成的實數,同時也開放了關於這些實數的刻度水平的問題:雖然測量是一個實數,但反之不一定成立(參見Humphry,2011年,第5頁)。因此,在觀察數據上施加聯合結構的嚴格條件之下,Rasch模型的logit刻度才能顯示為一個間隔刻度。基於ACM理論的詳細條件的細節遠超出了本章的範圍,但我們鼓勵感興趣的讀者諮詢Ballou(2009)的總結這些條件的易懂摘要,以及與Rasch模型生成間隔比例數據的主張相關的一般問題。不可否認的是,實際的測試數據很少滿足聯合結構的條件。存在評估量的ACM條件的概率測試和軟件(例如Karabatsos&Sheu,2004;Domingue,2014),但心理數據通常違反這些條件(例如Kyngdon&Richards,2007;Narens&Luce,1993)。如Michell(2013、2014)所指出的,大多數可觀察到的心理測試數據表明心理特徵具有部分有序性的特性,這種特性與定量結構不相容。 

那麼,從這個結論中得出什麼?我們應該放棄應用Rasch模型,因為它不一定提供區間尺度,並擁抱和使用ACM作為我們建立(可能非常少的)真正量化的心理變量的新手段嗎?不幸的是,ACM的歷史教我們這件事情並不容易。1992年,Norman Cliff譴責了Luce在ACM方面工作的期望成果,認為這是“從未發生的革命”,儘管在1996年,Luce仍在談論“實驗科學和測量理論之間的持續對話”。但是,數學心理學家和數據分析軟件的最終用戶之間的“對話”仍然像Piaget在幼兒園時描述的平行遊戲一樣:他們在彼此的公司裡談話(和遊戲),而不是與對方互相溝通。但是,至少嘗試進行討論一直在繼續:Measurement第6卷(2008)和Theory&Psychology第18卷(2008)、第22卷(2012)和第23卷(2013)的收集證明了這一點(例如,Borsboom&Zand Scholten,2008; Humphry,2013; Kyngdon,2008a)。因此,雖然值得懷疑Rasch模型是否提供ACM的概率理論,但我們可以同意Kyngdon(2008b,第130頁)的觀點,“這並不排除對兩個理論可能具有的關係進行調查。在這方面的研究仍有待進行”。此外,正如我們剛才在前幾章中所看到的那樣,Rasch模型具有理想的測量特性,這使其與一般的項目反應模型區分開來。放棄Rasch模型的嚴格要求,並代之以應用更寬鬆的IRT模型,這實際上是降低了心理測量的標準,而不是邁向更量化的心理學方向的步驟。 

這本書在某種程度上是對於那些研究人文社會科學中測量應該是怎樣的理論家和日常研究的從業人員之間進行建設性溝通的一個小貢獻。我們所聲稱的是,通過儀器建立基本測量(通常被稱為伽利略任務,參見Trendler,2009和Saint-Mont,2012)是任何需要進行真正量化的人文科學中的主要任務。這並不是要暗示Rasch模型取代了我們在大學統計課程中所學到的所有知識。我們也不聲稱Rasch測量實際上即時實現了ACM。使用Rasch模型是進行任何其他統計分析的先決條件(參見第10章)。可以說,“心理測量學”這個術語有致命的缺陷,當前的實踐與“心理”有很大關係,與“測量”相關性很小。我們可以通過觀察用於研究生測量課程的經典文本之一Hays(1994)的一段話來突顯這個問題。在他的書《統計學》的簡介中,他解釋道:

在任何科學的受控實驗中,都試圖最小化觀察中的偶然變異或誤差。精確的測量技術是科學家在銳化自己的觀察和比較事件能力時的幫助。因此,所謂的精確科學,如物理和化學,已經能夠從時間到地點、從觀察者到觀察者之間去除大量不需要的變異,因此經常能夠對有限的事件觀察作出具有極大把握的物理現象的一般陳述......然而,在生物、行為和社會科學中,情況卻截然不同。在這些科學中,觀察之間的變異並不受到物理科學中可能出現的精確實驗控制。精緻的測量技術尚未達到在物理和化學中已經達到的發展階段......然而,社會或生物科學測試的目的與物理科學家一樣,都是為了對所研究的現象作出一般性的陳述。 (第4頁) 

Hays在文中隨即提及其餘的內容,解釋統計部分的執行方式,並將測量部分排除在外。他的立場似乎是,由於人類現象的測量尚未發展,我們應該放棄這個議程,並著手進行可行的推論統計分析任務。當然,Hays在這方面並不奇特。他對測量的處理方式,或者說缺乏對測量的處理方式,在該領域中相當典型。Michell(1997)列出了許多標準的領域文獻,在這些文獻中,研究的測量方面被如此處理。一般的做法是,因為物理科學中所視為理所當然的測量在人文科學中是不可行的,因此心理學對測量的獨特觀點就必須能夠適用。

把測量排除在邊緣的做法,受到Pedhazur和Schmelkin(2013)的抱怨:

測量是社會行為研究的致命弱點。雖然社會行為科學中的大多數計畫……都需要一些統計和研究設計方面的知識,但似乎只有很少的計畫需要測量相關的知識……因此,很少或根本不會對許多研究所使用的測量屬性給予關注。(第2-3頁)

不幸的是,即使是這些作者似乎也不理解有用的測量必要的屬性是物理科學所使用的線性、可加性和不變性屬性。我們的主張更強:我們的儀器應該產生測量試題和人的區間尺度測量(帶有誤差項),並且這些區間尺度應該在該儀器的所有使用情境下保持不變。此外,這些測量的建立是有意義的統計分析的必要先決條件。我們回想起 Galileo 想要建造一個測量溫度的儀器的努力。他的裝置同時對環境的兩個屬性——溫度和壓力——都敏感。隨後的研究者改進了這項工作,直到只有一個屬性——溫度——影響讀數,而這些值最終位於不變的區間級別測量尺度上。這是科學測量的標準,它一直是物理科學的服務者。我們主張,這些測量原則可以通過概率共同測量在人文科學中近似實現。目前,Rasch 模型是唯一一個專注於提供滿足這些標準的測量建構的模型。使用 Rasch 模型進行不變測量的建構並不取代統計分析;它是其前置過程。

因此,那些參與潛在特徵測量的人必須處理兩個困難。首先,潛在特徵不是直接可觀察的;只有它們的結果或表現行為是可觀察的。其次,測量不僅僅是將數字分配給事件,而是一個深思熟慮的過程的結果。

真實分數理論(True Score Theory,TST)、潛在特質(Latent Traits)以及試題反應理論(Item Response Theory,IRT) 

現在,我們將區分長期以來被接受的真實分數理論(True Score Theory,TST)和現代的試題反應理論(Item Response Theory,IRT)。我們在本書中所討論的傳統研究方法,也就是基於史蒂文斯原則的方法,深深根植於TST(也稱為古典測驗理論,Classical Test Theory,CTT)。CTT / TST的基礎是模型X = T + E。X是考生在測驗中實際觀察到的分數(答對的題數)。T,真實分數,是考生真實能力的一個假設(未知)值。可以把它想象成考生在理論上無限次地重複同一測驗,在相同條件下不會有學習效果時,計算出的假設平均分數。E表示誤差。該模型假定T的值是恆定且不可知的,觀察值X的變化是由於誤差E。由於錯誤是隨機發生的且與T或彼此無關,因此T和E永遠無法得知。

相比之下,IRT被稱為潛在特質理論或現代測試理論。Rasch測量方法與潛在特質模型有一些共同特點。我們假設存在人類特質、構造或屬性,這些特質不可直接觀察。潛在用於強調單個試題反應是這些內部但不可觀察的人類狀態的外部或可觀察的表現形式。因此,必須從這些觀察到的表現形式中推斷出潛在特質的存在和數量。我們的測量儀器,如測驗、觀察時間表、問卷、評分標準等,是我們試圖將這些潛在特質或變量操作化的嘗試。

我們的溫度類比仍然適用:科學家們建立了一個名為溫度的科學變量,以解釋某些觀察到的現象,儘管他們不能直接觀察到溫度,僅能觀察到溫度變化對某些物體類別的影響。然後他們開始間接地測量溫度——通過觀察它對溫度計的系統性可觀察效應(例如對精心構建、校準的空間中所含汞量的影響)。當我們使用這個溫度計時,我們實際上從水銀毛細管的長度上讀取一個數值,推斷出一個特定的溫度,例如 37°C。值得注意的是,許多類型的溫度計在建立、校準和科學使用上都遠在全面解釋它們行為的科學理論之前就已經建立了。

在處理 Rasch 模型的少數教科書中,大多數都傾向於將其與二參數和三參數模型歸於同一類別,即項目反應理論(Item Response Theory 或 IRT)。對於我們的目的來說,IRT 模型的概念幾乎與潛在特徵模型的概念相等。它們與真實分數理論不同,主要是因為 IRT 著眼於測試的每個單獨試題,而不是真實分數理論著眼於整個測試或儀器作為單位。

IRT 包含了許多共通的特徵,使它們與 TST 有所區別。這些特徵包括單一向度潛在特質的概念以及作為這些潛在特質指標的試題之間的局部獨立性。然後,任何人對任何測驗試題的反應都被建模成一個數學函數。最重要的是,試題特性的估計不依賴於任何特定的群體,而個人能力/態度的估計也不依賴於特定的測驗/日程安排。每個人能力估計(和試題難度估計)都有其自己的精確度量(誤差項),因此可以估計不同能力人群對任何難度試題的成功概率。

在這個更一般的 IRT 框架下,Rasch 模型通常被稱為一參數項目反應理論(IRT)模型。不出所料,我們聲稱 Rasch 模型具有比其他 IRT 模型更有吸引力的特性。Rasch 模型的支持者聲稱,儘管將其稱為 1-PL IRT 模型,但它是一種明顯不同的 IRT 模型。這種區別的重要性在於 Rasch 試圖指定健全科學測量的規則,以物理科學的測量程序作為參考點,從而導出反映這些測量原則的統計估計方法(條件最大概然估計)。因此,健全的人類科學測量必須遵循 Rasch 的規則;如果不是這樣,測量儀器/實踐必須重新考慮。Andrich(2002年,第351頁)將此描述為 Rasch 測量理論和傳統的數據建模方式之間的主要區別:“考慮到當數據與模型之間存在不匹配時,可能是數據而不是模型存在問題,這本身就是從數據-模型關係的傳統觀點轉變為相當大的知覺轉變。”回溯到 Stevens 的理論,人文科學中可以透過根據某些規則為事件分配數字來實現區間水準的測量,而這些規則正是Rasch測量理論所包含的。 

然而,1-PL、2-PL 和 3-PL 模型之所以被稱為如此,是因為測驗試題的特性是由一、兩或三個參數表示,而受試者的樣本則是由一個分布表示。在這些模型中,並未像Rasch模型中一樣,對受試者進行個別參數化。這對於測量不變性的概念有重要的影響,因為這些IRT模型並不是“人-分布自由”的(請參閱第12章)。二參數IRT模型包括一個試題鑑別度參數,而三參數IRT模型則增加了試題鑑別度和猜測參數。支持二和三參數模型的人認為,在使用這些技術時,數據擬合通常會改善。儘管如此,我們不應該對此感到驚訝,因為有時候會如此,但並非總是如此(參見附錄C中的BLOT範例)。這些模型的第二個和第三個參數值是為了這個目的而引入或明確操作的:最大限度地提高模型對數據的擬合度。

然而,Rasch模型用於另一個目的:基本量度的建構。這與其他IRT模型和TST截然不同,因為在這些模型中,觀察到的數據具有首要性,而分析的結果是這些數據的描述。一般而言,IRT和TST是探索性和描述性模型;而Rasch模型是確認性和預測性的模型。探索性模型必須解釋所有數據;確認性模型要求數據符合該模型。在這種情況下,通過關注殘差的大小和結構,確保與概率共同量測原則在實踐中得到足夠實現,進而證明結果可用作具有不變、區間測量特性的測量尺度。

在這種情況下,Rasch模型的問題是:實證數據在測量模型要求方面表現如何?該儀器是否產生了不變的、間隔水平的測量結果以滿足其預期的目的?對於二參數和三參數IRT模型,有另一個焦點:如何操縱額外的參數(鑑別度和猜測)以最大程度地適應模型與數據?如何最完整地解釋實證數據?實際上,正如我們在本章後面所看到的,正是增加額外參數使數據輸出失去了基本測量特性。2和3-PL模型類似於統計分析,因為額外的參數被添加到模型中以解釋數據中的變異性,而不是遵循基本測量的特性,然後質疑不符合這些規定的數據點。 

為了簡明地對比Rasch方法和一般IRT方法,Panayides、Robinson和Tymms(2010)聲稱:

「重要的是要區分測量和建模。如果目的是構建一個好的測量,那麼試題和測驗應受到測量原則的約束。如果反過來,目的是對一些測試數據進行建模,那麼應該選擇最符合數據的模型。Rasch對應於測量原則,而其他IRT模型則對應於建模。」(Panayides等人,2010年,第10頁)然後,他們引用Fischer和Molenaar(1995)的話:

「它們(2-p和3-p模型)做出的假設比(Rasch模型)更寬鬆,因此更容易用作現有測試的模型。另一方面,它們在參數估計、適配評估和結果解釋方面通常會帶來更多問題。因此,如果可能的話,建議找到一組符合Rasch模型的試題,而不是找到符合現有試題集的IRT模型。」(Fischer和Molenaar,1995年,第5頁)

這些方法上的差異代表著人文科學家處理實證數據/模型適配觀念上的真正差異。IRT理論家堅持認為他們的職責是調查事實-實際存在的實證數據,並使用適當的(即使是複雜的)IRT方法來解釋那些數據/事實。我們所倡導的Rasch方法則集中於開發和校準數據收集儀器的伽利略任務上。簡單的Rasch模型將我們的注意力集中在我們嘗試進行此項任務失敗的地方,以調查異常數據的來源和原因。我們不能,也不應該漠視、拒絕或僅僅丟棄我們產生的與測量模型不符合的數據。

為了指導我們,我們可以回想一下加利福尼亞/溫度計的例子。加利福尼亞的儀器是當時最好的溫度指示器。儘管加利福尼亞作為科學家的卓越地位(半個千年過去了,我們仍然對他的科學成就感到敬畏),但他的儀器產生了異常的實證數據(如果你喜歡,就是科學事實):熱源不變,但讀數變化了;熱源變化了,但讀數仍然保持不變。作為潛在的科學家,也許我們應該經常問一下,“加利福尼亞會怎麼做?”我們必須從儀器構造的缺陷中學習,並在下一次迭代中進行改進。

在這種情況下,長期批評Rasch模型的人Harvey Goldstein(1979, 2010, 2015;Panayides,Robinson和Tymms,2015)的持續評論是具有啟發性和說明性的:“(Rasch)標準是試題應符合模型,而不是模型應符合試題。這是一個極端的提議”(1979,第15頁)。又:“這幾乎等於說數據必須符合預設的模型,而不是找到一個符合數據的模型。這與通常的統計程序相當不同,其中發展(越來越複雜的)模型來描述數據結構”(2010,第2頁)。 Goldstein的評論假定數據分析的唯一目標是操縱數據分析程序,直到無法解釋的變異量減至最小。許多因素分析技術以及二參數和三參數IRT模型都分享了這種量化方法。從這個角度來看,實證數據的優先性是至關重要的。數據分析的任務是解釋數據的特殊性(另見Linacre&Fisher,2012)。

從基本測量的角度來看,測量模型的要求至關重要,實證數據的個別特徵居次要地位。Rasch模型所體現的測量理想至高無上。研究者的任務是努力使數據與模型的要求更加匹配,直到該領域的實際測量目的得到足夠的滿足。換句話說,我們監控我們收集的數據的測量質量。不符合Rasch模型測量要求的異常數據為我們的儀器在某個地方失敗提供了證據,並激勵我們針對這些實證證據採取行動。

這與Heene(2013年,第2頁)的主張相矛盾,他稱我們在心理學中存在對可證偽性的抵制:“我的主張最好的證據來自於邏輯論證:有沒有人看過使用SEM、IRT或Rasch模型的文章,作者承認了他/她的假設被證明是錯誤的?相反,嚴格的模型測試似乎大多被小心地避免,而更多關注的是不靈敏的“適合度指數”(Heene,Hilbert,Draxler,Ziegler和Bühner,2011;Karabatsos,2000)。”(注:Heene指的是心理學領域中的研究)本·萊特(Ben Wright)的MESA實驗室的許多學生不得不每週承認他們的測試開發數據未滿足Rasch的要求。當學生和同事們進行新儀器的測試開發和試點測試時,他們的試題編寫技能通常基於他們對實質理論的理解,被Rasch分析證明是錯誤的。也許我們錯誤地將這些艱難的過程視為常態而不是新聞。似乎我們應該在發表的研究報告中包括這些信息。

然而,Heene的抗議比這更重要。回想一下在《ARM3》第9章中提供數據的IATA滿意度調查,其中有65個試題中有29個未滿足Rasch測量要求。現在,讓我們改變一下情境,假設一位Rasch同事開發了65個試題,用於測量人文科學中一個重要的潛在特徵,他打算使用Rasch測量標準來精煉試題。這是一個令人欣賞的意圖,但是,這65個試題中有29個未能通過一個或多個關鍵的Rasch標準:閾值無序、與模型拟合度差、點-量測相關性為負、在殘差PCA中明顯存在競爭性的附加維度等等。因此,我們的Rasch同事只能使用36個原來的65個試題來構建所謂的“潛在特徵的基本測量”——這些被刪除的試題沒有進一步考慮其實質意義。 

然而,很少有人討論罕見的兩個後果(這表明該領域對“證伪”的“抵抗”),這兩個後果非常嚴重。第一個後果是,最終測試中的潛在特徵現在受到了極大的低估。如果最初假定需要60個試題,但在Rasch分析之後,認為少於40個就足夠,那麼該建構的長度或深度(或兩者)都受到了損害。第二個更嚴重的結論是,在一開始時,Rasch的同事對構建的概念非常不足。其他人可能並沒有把變數視為必然是單一維度的。這種常見做法很可能是Roskam(1985)得出結論的原因之一:

這些考慮使我想到問題,“特定客觀性”或“樣本獨立性”是什麼意思。這種Rasch家族的特性意味著,可以獨立於(未知的)試題參數和從內容宇宙中選擇的試題的選擇而估計主題參數。但也可以說,一組試題在一個單一公共因素上具有相等的邏輯迴歸,這是Rasch同質性的要求。這是一個從具體的客觀性中得出的要求,但我不知道反過來是否也成立:相等的邏輯回歸是否意味著特定的客觀性(特別是如果通過消除異常試題來獲得對Rasch模型的擬合)?(重點部分加粗)

我們從一開始就提出了建議:如果試題不符合Rasch模型,不要僅僅將其丟棄;嘗試找出原因。試題建構和測試包含了我們對潛在特徵和測量模型的隱含假設;無法面對證據的虛假性,會貶低我們的數據收集工具,因此也會貶低人類科學。然而,當然,對於Rasch測量來說,迄今為止未能解決的挑戰是要證明確定實際反應頻率矩陣(xni)的程序是否足夠符合基本測量要求的問題。Rasch測量尚未使米歇爾和其他測量理論學者滿意,但Rasch測量的支持者正在解決這些問題,而來自經典測量理論和通用IRT領域的大多數心理測量學家似乎對這些問題保持沉默。只要在更廣泛的論壇上提出這些“間隔層次測量”問題,就會得到沉默、否認或被指責為教條主義的反應。


你想要附加一個區間刻度嗎?


毫無疑問,我們許多學術同行將繼續認為我們在本卷的概念介紹是偏狹和有偏見的修辭(例如,van der Linden,2001)。在心理計量學中,許多人認同另一種觀點:許多模型(特別是其他IRT模型)具有這樣的特點。另一個普遍觀點是,在社會科學中,傳統的統計方法提供了所有足以理解數據的技術。換句話說,Rasch模型並不是什麼特別的,而任何超出傳統統計範疇的東西都不能因為所涉及的額外工作:特殊軟件、Rasch研討會和像本書這樣的書籍而提供更多的收益。

在一項有影響力的大規模實證比較中,該研究比較了IRT(包括Rasch)、CTT試題和人員統計數據在指定的成就測驗中的表現,研究者Fan(1998)得出結論,即跨Rasch、2-PL、3-PL IRT和CTT模型的人員指標和試題指標之間的相互關聯性非常高,不足以證明潛在特徵建模所涉及的額外工作的價值。

由於IRT Rasch模型(一參數IRT模型)假設所有試題的鑑別度恆定,且不猜測,因此該模型僅提供試題難度的參數估計。因為Rasch模型的試題難度參數估計幾乎與基於CTT的試題難度指數(原始和標準化)完全相關,因此看起來一參數模型提供的與試題難度相關的信息與CTT幾乎相同,但代價是相當大的模型複雜性。除非Rasch模型估計能夠表現出在不同樣本中的不變性優於CTT試題難度指數,否則這裡的結果顯示Rasch模型可能不會比更簡單的CTT框架帶來任何實證優勢。(Fan,1998年,第371頁) 


對於Rasch measurement的新手可能會問:「這怎麼可能呢?」解釋其實很簡單,但涉及到本書中關於Rasch measurement和一般IRT和CTT分析之間區別的核心問題。Fan指出:「如表中所示,對於IRT Rasch模型(即單一參數IRT模型),CTT和IRT基礎的試題難度估計之間的關係幾乎是完美的」(p.371)。當然,對於CTT和Rasch模型來說,N(正確數量)是試題難度和人員能力估計的充分統計量。然而,對於Rasch模型,有一個關鍵的限制:只有當數據符合Rasch模型的測量規格時,N才是充分的統計量。

考慮到第11章中對Rasch模型適配要求和單一維度性的討論,Fan分析中所提到的問題並不容易忽略:「即使使用強有力的統計測試,也只有一到兩個試題被確定為不符合二/三參數IRT模型。結果表明,數據非常適合二/三參數IRT模型」(Fan, 1998, p.368)。那麼,這是否是2-PL和3-PL模型很好地解釋了這些數據?

Fan繼續報告:「然而,一個參數IRT模型的數據適配明顯存在問題,約30%的試題被確定為不符合IRT模型」(Fan, 1998, p.368)。根據我們對適配警告的方法,只有約70%的試題可以用來產生Rasch測量尺度,其中N正確是充分的統計量,可以在區間尺度上產生線性人員測量值。Fan繼續說:「因為數據和單一參數IRT模型之間明顯存在不適配,並且由於此類不適配的後果並不完全清楚(Hambleton等,1991),因此應該極度謹慎地看待後面部分呈現的關於單一參數IRT模型的結果」(Fan, 1998, p.368)。

Fan 在他的建議中提到:“結果應該要被極度謹慎地看待”,這回應了 Stevens 在 1946 年所說的“我們應該要謹慎地處理我們的統計分析,特別是在得出結論的時候。”不過,無論是 Fan 或 Stevens,在實際上都沒有如此謹慎。從我們的觀點來看,“應該要被極度謹慎地看待”實際上應該被寫成“被視為與評估 Rasch 模型價值無關”。 

由於第二和第三個試題參數(斜率和猜測)是特意引入到2-PL和3-PL IRT模型中的,目的是為了減少預測正確試題概率和觀察到的回答之間的差異,因此我們可以合理地期望(但不總是能夠實現)2-PL和3-PL IRT模型與數據的擬合更好。讓我們不要模棱兩可地看待支持Rasch模型而非Fan所引用的權威,擬合統計在量化過程的質量控制中所扮演的角色:“Rasch模型是唯一的量化定律,它們定義了客觀量度,確定了什麼是可測量的,決定哪些數據是有用的,並揭示哪些數據不是”(Wright,1999,第80頁)。因此,科學測量學家的任務是什麼?是解釋所有收集到的數據,包括缺陷?還是揭示數據收集過程的失敗,從剩下的數據中創造出區間測量?

換句話說,在我們看來,顯示試題未符合Rasch模型的結果不應僅僅被視為極度謹慎地看待,而應被直接拒絕,因為它們未達到量化所需的最低標準。讀者可以自己判斷Fan到底有多謹慎地處理Rasch的結果,但最起碼,除非30%未符合擬合的試題的數據被從採用Rasch模型的數據分析中排除,否則所得的Rasch與IRT與CTT的比較仍然是具有誤導性,且具有傷害性。 

從Rasch的觀點來看,有兩種可供選擇的調查策略:一種是先驗的,一種是事後的。對於後者,人員的測量值將從減少(符合模型的)試題集中建構,然後這些人員的測量值將與CTT和IRT人員估計值進行繪製,然後作出通過/不通過或切分點的決策。結果之間的相似性只會使我們稍稍延遲,調查和尋求解釋差異-異常數據-應該對了解潛在特質有所貢獻。當然,從先驗的角度來看,Rasch模型的工具開發和校準團隊將經歷多次迭代,以確保測試已準備好收集數據,旨在創建潛在特質的區間級人員測量值。然後,我們將看看CTT和IRT的結果對我們對變量的理解能夠添加什麼。

由於在文獻和發表文章(甚至本書)中,Rasch模型的使用與IRT模型的使用仍存在爭議,因此理解原始爭議的來源是相關的。 Andrich(2004)在他的論文中引用了Kuhn的歷史和科學哲學研究,將Rasch數據到模型方法和傳統的IRT和TST模型到數據方法定位為不相容的範式。

您需要一個不變的區間級測量尺嗎?一個可以同時定位人員能力和試題難度的尺度?以至於試題難度的估計與樣本中人員能力的分佈獨立,反之亦然?您需要內建的質量控制技術來估計每個位置的精度以及每個人員和試題表現與測量要求的遵從性嗎?

模型假設與測量要求

一些基本的Rasch模型基礎(例如單一度量、局部獨立、相等的試題鑑別度和沒有猜測)在其他地方被描述為模型假設,並且一些批評者認為這些假設是站不住腳的。儘管IRT模型都斷言具有單一度量和局部獨立性,但2-PL模型的鑑別度參數和3-PL模型進一步添加的猜測參數的存在,明確地斷言這兩個測試特徵也值得參數化。

我們的警告是,Rasch測量使用者如果忽略猜測,會自食其果。猜測是一種重要的非特質行為,如果存在,會產生測量干擾。猜測不是一個試題參數;是猜測的人。儘管有可能所有參加特定測試的人都會在所有試題上猜測,但更有可能是某些人在某些情況下在某些試題上猜測。只有使用Rasch診斷,才能確定此類猜測的模式以及其對測量質量的影響。只有通過將數據與理想測量模型進行比較,我們才能觀察到這些特徵的模式和系統性偏差。診斷和糾正情況比添加犧牲測量不變性的另一個參數更好。 BLOT試題21的證據很具有說服力:對於在最困難的BLOT試題上成功的機率非常低的學生(當D-B差異> 1.5 logit時),猜測似乎是一種有吸引力的策略。因此,不要假設猜測對測量沒有影響-尋找實證指標。

試題的鑑別度相等,這是一個假設嗎?在沒有試題鑑別度參數的情況下,Rasch模型暗示鑑別度參數的唯一值是相同的(未使用)。實際上,Rasch模型要求鑑別度是均勻的,但是軟體和使用者通常忽略了這個特定的特徵。再次,我們需要依賴適合度指標來幫助我們。但是適合度統計量僅僅表明某些Rasch測量要求未被滿足,它們並不能告訴我們是哪個要求以及原因。因此,即使試題是單維度的,某些試題可能因為鑑別度斜率與模型期望的斜率不符合而具有較差的適合度。這可能是違反試題本地獨立的Rasch要求所導致的(Chen&Wang,2007; Tuerlinckx&De Boeck,2001)。但是,適合度統計量本身並不能告訴我們。這需要研究者有探究精神,研究所有證據。

Rasch的假設/要求是試題應該展現本地獨立性。顯然,單個數據收集工具中的所有試題可能都具有相同的格式:(a)客戶滿意度調查中的所有試題都具有共同的Likert型格式; (b)ESL學習者需要提供一個單詞來填寫句子中的空格;以及(c)護士可能被要求根據“標準病例/患者”的症狀記錄他們的行動。然而,Rasch要求本地獨立性的內涵是,一個試題的解決方案不應取決於另一個試題的解決方案。因此,如果滿足此要求,所有試題應該可以獨立地解決。所以:

‘Q1 三個男孩各有四顆彈珠;總共有多少顆彈珠?’是可以的;

‘Q2 12 + 5 = □’ 也是可以的; 

但是,如果該問題改為:“Q2 另一個男孩有五顆彈珠;現在一共有多少顆彈珠?”就缺乏局部獨立性,因為這個 Q2 的解決取決於解決另一個試題 Q1。對於早期的例子,以下也可能缺乏局部獨立性:

(a) 最後的客戶滿意度試題,詢問:“您會再次入住這家酒店嗎?”;

(b) 在一個段落中填寫幾個空格的單詞答案;和

(c) 對於最先在“標準病例/患者”中檢測到心律失常的護士,正確的治療是可能的。

在這些情況下,對後面的試題做出適當的回答取決於已經對先前的試題做出了適當的回答。

Rasch 模型的獨特的吸引力特徵——線性、可加、不變的值在一個間隔水平的測量尺度上——並不一定是從成功地將數據拟合到 Rasch 模型中得出的。實際上,具有適合 Rasch 模型的數據既不是間隔尺度的必要條件,也不是充分條件,因為我們可以在沒有適合 Rasch 模型的情況下擁有一個間隔尺度,同樣地,數據可以適合 Rasch 模型,而底層特徵不是量化的,這一點在第1章已經強調過了。合適度統計量表面上似乎是我們唯一的救星。實際上,對於許多 Rasch 使用者來說,這似乎是唯一重要的事情;對於 Applying the Rasch Model 一文的唯一引用來自第12章,聲稱合適度統計量值介於某些“通常可接受的值”之間,這種權威似乎是審稿人和編輯希望看到的。 但是我們的建議更加嚴格和細緻:第一,所有試題應該朝著同一個方向運作(試題量測相關應為正向);第二,應該聰明地解釋適配統計值;第三,主成分分析應該呈現出無相關的殘差;第四,在度量上應該展現度量不變性。此外,研究者在使用Rasch測量方法時,應該對隱藏的特質在測量實踐中的呈現方式有實質性理論的了解。 

對於我們所關注的問題,這個後者但顯然重要的主張,在 Kuhn(1961)的論文中得到了支持,其中他描述了“現代物理科學中的測量功能”。考慮到 Rasch 自己從物理科學的測量中學習的傾向,以及我們採用測量溫度作為一個模型,延伸了 Choppin 和其他同事的想法,Kuhn 的想法對於那些旨在進行基礎測量的人文科學研究人員具有特殊的重要性。Kuhn 認為,科學測量實踐的基礎在於測量理論。正在調查的假設與更廣泛的實質理論框架有關。然後,測量實踐是檢測測量結果和理論驅動假設之間差異的量化工具。

建構效度

上述討論強調了一個極其重要的問題:在心理測量學領域,實證數據優先於理論模型的觀點通常伴隨著對實質理論的數據優先的關注。這種觀點在實踐上的哲學根源在於實證主義,但通常會表現為分析實用主義。那種替代立場的個人表達可能如下:“我是一個實用主義者和實證主義者......(並且)在我參與的任何應用測量項目中,可能永遠不會選擇使用 Rasch 模型......科學方法的關鍵是認為事實優先,如果你的理論不符合已知事實,你就修改理論(而不是忽略拒絕遵循其的瑣碎事實)。從這個角度來看,主張使用IRT模型是毫無意義的,因為該模型可能與已知的實證事實最不一致(即拋棄所有不符合其理論觀點的試題的Rasch模型)。”

儘管Laing在近半世紀前就警告過,人文科學數據神化的現象仍然影響深遠:

研究中“給定”的‘數據’並非如此容易得到,而是從一個不斷變幻的現象矩陣中取出的。我們應該使用“抓取”(capta)這個詞來代替“數據”。用於可靠性研究和評分尺度的可量化、可交換的應變因素,是我們對現實進行加工的表現,而不是現實本身的表現。(Laing,1967,第38f頁)

人文科學的數據並非像海岸上的貝殼或天空中的星星那樣不受我們的控制存在;它們存在是因為我們創造出來的獨特且極不完美的人類創造物:這些數據是由不完全了解、被部分激勵且被迫構建的回答者以及被迫構建分析的數據集構成的。而我們應該優先考慮這些數據,而不是一個關於良好數據應該如何的概念性、數學模型?

在這方面,Rasch 的實踐者經常犯有像其他人一樣的錯誤。往往情況是,數據是以相對無序的方式收集的,常常使用粗糙的工具,並且 Rasch 測量技術是事後用於已組裝的實證數據集上的,目的是從豬耳朵裡做出絲綢的錢包。這裡存在著 IRT 實踐者群體之間的一個主要爭議點。Rasch 方法采用了在此處倡導的質量控制機制,僅從符合模型的數據中構建度量。更普遍的 IRT 方法包括使用所有數據並構建 IRT 模型(很少是 Rasch 模型)以解釋所有的實證數據。Rasch 分析師被認為是在為 Rasch 的“不實用”的理論挑選數據,而 2-/3-PL 方法被認為是為數據描述而犧牲了區間測量。但是,Rasch 模型的實用性恰好是我們強調的。由於它關注不變性,因此實際上是有用的——即它是預測性和推論性的,而 2-/3-PL 模型和 SEM 和 G 理論則仍然是描述性的。

儘管使用Rasch技術後期開發出了相當有用的實用測量結果,但這並沒有充分利用Rasch測量在儀器校準和質量控制方面可以和應該作為建構效度的工具。根據Bond(2005):

「我們的研究結果…(參見Bond, 2001;Bond, 2003;Endler & Bond, 2001)讓我相信,將Georg Rasch的測量模型應用於像Jean Piaget這樣有力的實質理論中,可以以相當高效的方式實現高質量的測量。難怪我公開和私下都認同Piaget的首席合作者Bärbel Inhelder的座右銘,“如果你想成功,就要找一個理論。”(Karmiloff-Smith&Inhelder,1975)。」(第333頁)

在他1999年美國心理學會(APA)的發言中,Overton詳細介紹了Fisher(1994)關於Rasch模型是構念效度的工具的重要性。由Cronbach和Meehl(1955)引入的“構念效度”一詞,根據Overton的說法,是指“一個測驗[或分數]能夠衡量理論構念或特質的程度”。構念效度應該集中我們的“注意力在心理學[或其他引導性]理論的作用上”(Anastasi&Urbina,1997,p.126)。

因此,根據某種構念的理論主張,Rasch模型允許強烈推斷,測量的行為是該基本構念的表達。即使在之前引用的文本中,構念效度也成為一個包括其他類型的全面概念:內容效度、面效度、同時效度等(Messick,1989,1995)。在研究世界中,其中實證數據佔主導地位,驗證測驗的過程涉及證明它們與已有的數據收集設備的相符性。正是歸納過程將我們從我們收集的數據引導到我們可以對其進行總結性陳述或解釋的地方(Overton,1998,1999)。但是,作為廣泛的期刊的專家評審員,發現關注構念效度並不像從事理論驅動的研究者所希望的那樣普遍。似乎存在一整個量表開發方法可以總結為:對樣本具有某些個人相關性的便利樣本進行調查。基於樣本列表構建一個大型自我報告指標集。通過廣泛相關樣本的試驗,並放棄具有較差Rasch測量資格的試題。然後宣稱成功開發了該條件的“基本測量”。

本卷第一版顯示,Rasch-Messick 連結對於那些對於效度與測量關係感興趣的人來說是相當豐富的思想來源(例如Fisher,1994; Wilson,1994; Wolfe&Smith,2007a,2007b)。同時,Smith(2001)概述了來自Rasch分析的可靠度和內部一致性的心理測量指標範圍,以便從Rasch理論和實踐中直接得出Messick(1995)識別的八個構念效度面向之一對一的對應關係的推論。 Smith(2001)和Bond(2004)所討論的論點是,Rasch測量方法構建和監測變量的方法直接適用於Messick更廣泛的構念效度問題。實際上,Rasch測量體現了一種評估方法,可以描述為“將內容,標準和後果考慮融入構建框架中,從而對得分意義和效用提出合理的假設進行實證測試的效度綜合觀”(Messick,1995,第742頁;引自Bond,2004;尤其見Wolfe&Smith,2007a和2007b,以獲取展示使用Rasch證據證明效度主張的實踐指南)。

在假定有一個有實質理論的人類行為,教育成就或創傷後康復的研究情況下,研究者的角色是確定或假設一個適當的構念或潛在特徵,並使用該構念作為指南,以決定哪些可觀察的人類狀況方面應該作為數據收集工具的一部分被運作化。根據Kuhn,研究者對構念的理解應該在相當程度上對測量結果進行預測。鑑於測量構念是第一個目標,研究者將確保測試題目、提示、觀察檢查表或類似物不僅有效地代表理論構念,而且符合基本測量的要求。 

我們可以使用圖13.1中的插圖來展示理論-實踐界面的不斷交互性。當左箭頭(從理論,例如)推動實踐時,右箭頭(從實踐)同時推動理論。當理論告訴調查者如何進行數據收集過程時,實踐的結果也關於理論提供了信息。構造驗證的過程在數據收集工具的開發和實際收集的實證數據之間進行。我們使用了監獄的眼睛來展示Rasch測量的監管角色,這樣調查者就可以確定數據實際上是否測量了所研究的潛在特質或構造。

圖 13.1 在 Rasch 模型要求下進行的迭代理論 / 實踐循環 

Rasch模型與科學的進步

Michell(1999)認為,心理學在20世紀的發展受到測量和基本測量注意力不足的阻礙。然而,僅僅建立測量並不能為人類科學的進步鋪平道路。經常情況下,研究方法、數據分析甚至Rasch測量的工作者會在數據收集完成後被召集來提供建議,有時甚至在數據分析的最初幾次嘗試失敗後才會被召集。而不是從一開始就參與研究方法和儀器設計過程,數據分析者經常在最後一刻被召集,為即將畢業的博士生提供有關如何分析和呈現已收集數據結果的建議。在另一種情況下,同事、外部承包機構或專業許可委員會趕來尋求如何挽救一個從一開始看起來設計不良的項目。

這些一次性的研究項目似乎走投無路。它們僅僅是為了滿足某些課程要求或機構報告義務等而設計的一次性研究咨詢。我們有Rasch測量同行堅持他們參與此類事後情況的非可議要求是使用Rasch測量技術來看看可以從組裝好的數據中建立(挽救)什麼樣的測量。這是一種基於實際情況而相當實用的方法。事實上,在這些情況下,前幾章給出的許多建議是相當適用的,需要知道如何在像把一個豬的耳朵變成絲質手提包這樣的情況下進行。 

我們可以從Yan在香港對已有健身數據進行的分析(第9章)的成功中發現,這樣的事後調查往往會產生啟發性的結果,特別是當數據基於強有力的理論,並且試題已經經過精心設計時。這些結果應該鼓勵那些想要探索轉向使用Rasch測量但害怕失去一生的數據和分析的讀者。

然而,對於那些在具體的人類研究領域具有長期承諾的研究人員,並且他們在項目的概念化時就被諮詢的情況下,這種方法可能略有不同。在這些情況下,研究人員打算讓他們的工作對所研究的領域產生一些影響,他們對實質(理論)領域的理解可以與基本測量的Rasch模型並肩前進,推進該人文科學領域的進步。雖然Michell(1999)譴責心理學家繼續避免科學測量命令,但Mauran(1998)警告我們,儘管測量可能是進行科學研究的必要條件,但缺乏實質性理論導向,它永遠不會是足夠的。但我們必須記住,所有理論建立都始於觀察。我們都與一些(常常是早期研究人員)合作,他們願意在自己的學科中在缺乏現有理論的情況下,冒著傳統數據分析方法使用Rasch引導的數據收集和分析的風險。在那些領域中,似乎標準程序是在沒有任何指導理論的情況下對人們進行調查。我們的方法是鼓勵研究者使用Rasch方法來建立測量工具和理論,我們見證了數百名跨越世界和學科領域的研究者成功實踐了這一方法。 

Rasch 模型的實用應用與研究項目一開始就融入其中的對比,在托雷多大學(University of Toledo)教育學院開設的研究生測量課程中變得清晰。大多數學生在博士課程中取得了相當大的進展。事實上,有些人在撰寫和答辯他們的博士論文之前正在修讀最後的課程。在研究生測量課程中,他們需要展示適當使用 Rasch 分析軟件的能力,並展示對 Rasch 測量原則的足夠理解,以便從分析過的數據中得出合理的結論和推斷。還在考慮他們的博士論文提案階段的學生被敦促關注一個小但重要的理解領域,並努力提高該領域的發展水平。

對於測量課程評估,任何最低滿意的數據集都是公平的。只要有一個適中大小的試題-個體數據矩陣可用,Rasch 建模就可以用來查看從現有數據構建的度量(如果有的話)的質量。在大多數情況下,實際考慮因素在短時間內起作用。然而,對於他們的博士論文目的,學生開始向我們諮詢如何將基本測量原則納入他們已經考慮的項目中,或者如何在他們特定的感興趣領域中構建度量。當然,有些學生兩全其美,將測量課程評估要求作為他們打算在博士研究項目中開發的調查工具的試驗。

簡言之,我們可以這樣建議:如果您只是想完成您的博士論文或履行研究經費的合同義務,那麼您喜歡的任何數字計算通常就足夠了。但是,如果您對研究主題有長期承諾,如果您想做出真正的改變,並且願意進行迭代和反思,以發展基於理論的度量,那麼選擇將Rasch模型作為人文科學中度量的理想典範可能是一個非常好的開始。

過去、現在和未來之間的對比在更傳統的,也許是父權主義社會中更為明顯,Rasch測量在這些社會中逐漸取代傳統技術。PROMS(太平洋緣目標測量研討會)於2005年開始,以支持東亞國家的Rasch測量倡議。在大多數參與國家中,可能只有很少數資深學者對這種創新持開放態度。正是博士生和初期職業研究人員希望使用他們聽說的“更好的方法”——通常是在受到具有影響力和控制力的學術職位的強烈反對的情況下。有趣的是,僅馬來西亞的在線Rasch測量小組就擁有數百名成員,而一群中國研究生和初期職業研究人員現在已經將《Applying the Rasch Model 》的中文翻譯交給了出版商。

回到起點與終點

當Ben Wright看到一些早期將Rasch測量應用於皮亞杰理論的演示時,顯然發現這些發展心理學家能夠輕易地開發各種數據收集技術來產生人和試題測量,部分原因是他們依賴於成千上萬篇皮亞杰章節和期刊文章中表達的廣泛而深思熟慮的發展理論。對於發展心理學家來說,Rasch方法在數據分析中的主要優勢似乎主要來自序數在試題和人的測量中所起的作用。事實上,對於發展心理學家而言,古特曼(Guttman)分級在發展評估方面的期望僅在實證實踐中得到很少的滿足(Kofsky,1966)。回顧過去,我們可以看到,古特曼排序在發展研究中的關鍵問題是其確定性或真實分數性質。顯然,觀察和記錄人類表現受到系統性和隨機誤差的困擾。像古特曼這樣的確定性排序模型,在實證實踐中很難滿足期望。

對於發展心理學家來說,Rasch原理結合了古特曼模型的吸引力排序特性,並用更現實的概率性或隨機性框架加以補充。事實上,這讓我們回到了我們在這本書第一版上的早期工作,該書旨在成為一本面向發展和教育心理學家的自助書,這些心理學家正試圖對他們的數據進行一些測量的判斷。然而,原本相當多樣化的情況的交匯表明,Rasch模型的價值並非巧合。而且,除了我們最初預期的發展和教育心理學家受眾之外,其好處已經得到了更廣泛的認可。對於那些在建立人類存在某方面基本衡量中使用Rasch建模的人來說,其好處源於該模型對好的測量應滿足並聯測量(conjoint measurement)概率版本的期望(Luce&Tukey,1964)。 

從Andrich(1988)、Fisher(1994)、Michell(1999)、Perline、Wright和Wainer(1979)等人的早期研究中可以看出,源於並聯測量理論的原理為科學測量提供了唯一令人滿意的處方,並且在廣泛應用於人文科學方面,Rasch測量是唯一至少比IRT模型更接近ACM的遊戲。從實際角度來看,任何真實數據從人文科學觀察滿足確定性並聯測量公理的可能性,就如同它們達到完美的古特曼結構一樣出乎意料。然而,由於加法並聯測量公理確定了測量的線性,因此應將其視為數據必須統計近似的規則(Karabatsos,1999,第12頁)。

在上一章中,我們將問題稱為“適配度”,現在可以根據實際反應概率在任何Rasch建模的數據集中違反並聯測量公理的程度來有成效地考慮這個問題。並聯測量的必要性和要求在幾個地方都有討論(Cliff,1992;Fisher,1994;Michell,1986,1990,1997,1999;Narens&Luce,1993)。似乎Luce在實證科學和測量理論之間的持續對話不時地爆發出火花,然後消失。一方面,我們認為ACM為人文科學的測量提供了必要條件,這通常是由Joel Michell提出的;但另一方的對話者似乎主要是Rasch模型的支持者。《理論與心理學》(第18、22和23卷)和《測量》(第6卷)反映了當前對話的狀況。通常情況下,代表Rasch模型和潛變量理論的測量案例是由Denny Borsboom(2005、2008;Markus&Borsboom,2012)提出的。其他定量心理學家對這些問題是否感興趣呢?

Michell對真實測量要求的解釋在哲學和代數方面都非常精美:其中包括,要求所有對象在測量維度上嚴格排序。因此,對象(試題或人)不允許具有相等的測量值,也不允許測量誤差。在實證實踐中,這種方法似乎既不切實際,也無法幫助我們解決實際的測量問題,例如構建測試和量化個人表現。對我們來說,所有我們的觀察,無論其可預測性如何,都有所謂的“隨機誤差”作為基礎。或許,我們使用“誤差”一詞是不幸的——這似乎意味著“錯誤”或“不足”,而不是與隨機性相關的概念。像“不確定性”或“不可預測性”這樣的詞語更能反映我們的情況。在這種情況下,我們的任何嘗試都永遠不會成功;即使是在Karabatsos的術語中“統計近似”,也永遠不會“足夠好”。

撰寫像這樣的卷子或開發像Winsteps這樣廣泛使用的軟件,帶來的一個獨特樂趣是相應地受邀開展初級Rasch測量工作坊,或在專業會議上向以測量為導向的同事演講。這經常涉及回答有關Rasch模型的問題,尤其是回答同事對Rasch測量及其擁護者的主張所提出的反對意見。Winsteps開發者Mike Linacre報告說,在他的長期經驗中,對Rasch模型的反對意見可以分為三個相當簡潔的類別:

因此,回應如下:

就數學定律涉及現實的部分而言,它們並不確定。就它們確定的部分而言,它們並不涉及現實。(阿爾伯特·愛因斯坦,幾何與經驗)

就我們所知,科學並沒有產生真實或高度可能的理論。雖然很少見,但有時候理論能夠精確預測實驗結果。當實現這一理想結果時,大家有理由歡欣鼓舞。理論推導出的預測接近特定問題的數據更常見,但結果並不完全一致。實證問題通常會得到解決,因為對於解決問題,我們不需要理論結果與實驗結果之間的精確相似,只需要大致相似即可。(Laudan,1977,第23-24頁)

...對於那些對Rasch模型的「假設」表示懷疑的人來說,那些使用未加權分數的人,無論他們是否無意識地依賴Rasch模型來支持他們。在實踐中是否有用,這個問題不是為了更多的理論,而是為了實證研究。(Wright,1977,第116頁) 

摘要

Rasch測量:接下來我們該怎麼做?

為了回答問題「那麼,我們目前在已發表的Rasch測量研究中遺漏了哪些內容?」Bond(2014)在廣州舉行的太平洋緣客觀測量研討會的開幕致辭,試圖診斷我們研究努力中的共同缺陷,並為未來的卓越研究實踐提供指導。遵循這一主題,以下是提出的觀點: