7. The Partial Credit Rasch Model

原文出處:Bond, T., Yan, Z., & Heene, M. (2020). Applying the Rasch model: Fundamental measurement in the human sciences. Routledge. 

將簡單二分類數據的 Rasch 模型擴展為多分類數據的評分量表模型(Andersen,1977;Andrich,1978)對 Rasch 測量產生了巨大影響。儘管 Rasch 的原始工作已經概念化了後來開發的所有 Rasch 模型家族成員,但想出模型和開發估計程序是兩個相關但不同的任務。評分量表模型現在經常用於 Likert 型數據的分析(第6章),儘管 Andrich 最初是為了另一個目的設計的 RSM:評估書面文章。它旨在通過產生從審查者應用於質性文章評分量表或評分標準的值來協助考試過程。然而,它也為涉及多於兩個值(0,1)的數據的所有常用 Rasch 程序鋪平了道路。評分量表模型要求調查、評分標準或康復計劃中的每個試題都具有相同數量的回應類別,就像我們對 Likert 型量表所期望的那樣。試題可能有3、4、5,甚至6個回應機會,但無論如何,每個試題的回應或評分選項數量必須相同。

這一要求經常導致一些意想不到的問題,尤其是在該類量表(包括 Likert 型量表)的開發或初期使用過程中。僅僅因為回應表格為每個試題提供了例如五個回應機會,並不保證所選樣本中的受試者實際上會使用所有五個回應類別。儘管研究者最初的目的是收集所有試題的所有五個類別的數據,但數據集可能會顯示一些試題實際使用的類別數量不同(我們在第11章中討論這個問題以及相關問題)。

此外,我們可以輕易想象到其他測試情況,其中不受限於每個試題具有相同評分機會或允許具有相同類別數量的評分量表具有不同類別含義會更有用,例如,一個5類別態度量表和一個5類別強度量表。 

澳洲墨爾本的Geoff Masters(Wright&Masters,1982)通常被認為是多值資料的部分信用Rasch模型(PCM)的開發者。部分信用模型特別涵蓋了在同一評估中,不同試題具有不同數量的回應等級的可能性。考慮到測試中可能存在一個或多個在完全失敗與完全成功之間的中間成功水平的情況(即,部分正確答案)。因此,部分信用模型在教育和其他測試情境中具有很高的適用性,在這些情境中,“部分分數”被授予“部分成功”,即在該試題上在完全失敗與完全成功之間取得進展。然而,在授予部分分數時,必須遵循一個非常重要的Rasch原則。儘管學校老師可能在這裡給兩分,在這裡給半分,在那裡給一分,將數學問題的部分正確解決方案的各個方面的總分為3.5(部分分數),最高可能分數為5,但是Rasch模型原則以及更廣泛的度量原則要求以有序的方式授予部分分數,因此,每次增加的分數代表了正在評估的潛在能力或潛在特徵的增加。 

例如,可以按以下方式將排序值0、1和2應用於回應:0 = 完全錯誤,1 = 部分正確,2 = 完全正確;可以將值0、1、2和3用於另一個項目,如下所示:0 = 完全錯誤,1 = 部分正確,2 = 幾乎完全正確,3 = 完全正確。那麼,在試題的完全失敗和完全成功之間的部分信用步驟的數量有限制嗎?當然,我們應該回到我們正在用來指導試題編寫的實質理論。它告訴我們在失敗和成功之間有多少有意義的排序步驟?那些從明確的理論取向開始的人將根據指導理論預先確定步驟的數量。對於那些更實用主義的人,有必要基於概念分析或對候選人表現的觀察來制定一個“有序部分分數”計劃。在任何實證情況(如測試、評分鑰匙或觀察計劃)中,我們最終將受限於在我們的樣本中發現的不同能力水平的展示中有用的有意義的步驟的數量。極端情況可能是在心理物理和醫學研究中使用視覺模擬量表(VAS),例如要求受試者指示在10厘米的量表上他們關節炎痛感的程度。通常,分數以毫米為單位從量表上讀取,但是沒有實證證據表明受試者可以在量表上的0–100毫米= 101個回應區間之間進行有意義的區分。儘管可以將百分比用作原始PCM數據,但我們在確定在0和100%之間可以進行多少有意義的區分時會遇到相同的問題。第9章的第一部分中,Yan提出了這個問題。 

正是將部分信用Rasch模型應用於皮亞杰認知發展數據,為原創概念鋪平了道路,讓基本測量原則可以在之前意想不到的場景中有意義地應用。事實上,這一章的本質遠比表面上看起來更為重要,因為它體現了純粹定性理論、方法和序數數據一方與另一方建構Rasch測量之間的橋樑。也許現在是時候提醒那些非發展心理學領域的人,皮亞杰的認識論理論在當時以英美為主導的心理學世界明確且嚴格地量化時,是刻意定性的,並且惡名昭彰地非量化的。1969年,加州測試局贊助了一場在美國舉行的精心安排的皮亞杰、因海爾德和美國心理學家之間的會議,題為「認知發展序數量表會議」。研討會的出版物《皮亞杰與測量》(Green, Ford, & Flamer, 1971)由Wohlwill(1972)以蔑視性的標題「二者從未相遇」予以評論。但要保持希望;如果我們在壓倒性的既定觀念面前成功地「測量皮亞杰」,那麼您自己的測量項目可能也不像您經常被告知的那樣不可能。 

讓我們舉一個皮亞杰著作中著名的問題。如果您對皮亞杰有任何了解,那麼您肯定知道這個問題:“物質保持不變”是一個靈活的“臨床訪談”任務,通常用於例如3到7歲的兒童,因此並不適合書面任務格式。一個孩子判斷兩個橡皮泥球有相同的數量。然後在孩子的眼前,其中一個被捲成蛇或香腸形狀。接著要求孩子再次判斷。問題類似於:“蛇形狀的橡皮泥比球多,球比蛇形狀的橡皮泥多,還是它們的橡皮泥數量相同?”任何看過小孩子分享杯子蛋糕、為朋友倒飲料或樂於用小硬幣換大硬幣的人都知道會發生什麼,而大多數成年人則無法理解問題究竟是什麼。只有在小學年代,孩子們才會明白,無論物體如何重新排列,橡皮泥的數量、果汁的數量或糖果的數量都將(實際上,必須)保持不變。 

皮亞杰的方法是聲稱,在物質保持不變方面表現一致的孩子在質量和結構上表現出比不表現一致的孩子更優越的思維,並用對每個孩子推斷出的思維模式進行詳細的邏輯分析來支持他的主張。當心理學家第一次試圖將這種定性研究量化時,他們採用「0 = 未保持不變」、「1 = 保持不變」作為任務表現的總結。事後證明,這樣做相當天真。可以想象到,簡化和輕率化的程度是多麼的高:小約翰對三個保持不變的任務(橡皮泥數量、果汁數量和糖果數量,每個任務都適當地重新排列)接受了15分鐘的訪談,得分為1、1、0(保持橡皮泥和果汁不變,但錯過了數量)。貝蒂和心理學家聊天玩耍了20分鐘,她的努力得分為0、1、0;而珍妮在僅僅10分鐘的專注努力和解釋後,得分為1、1、1。經過同樣短暫的相遇,似乎比爾仍然對那種僅靠移動物體就能使物體多或少的魔法著迷(0、0、0)。然後,那些嚴格遵循定量、經驗主義傾向的人會通過將每個孩子的分數相加來加重這些錯誤:約翰得2分,貝蒂得1分,珍妮得3分,而無論如何看,比爾都得0分。通常,這甚至會被認為向前邁進一步,認為2/3足以將約翰和珍妮描述為「保持者」,將貝蒂和比爾描述為「非保持者」。 因此,如果研究的目的是將兒童的認知發展與他們在小學測試中的數學成績相關聯,那麼就沒有意義的結果。這並不令人驚訝! 

通過部分信用Rasch模型(PCM)的視角來看,對於量化和測量的嚴肅性和敏感性,這些機會似乎在多方面產生了很好的成果。首先,我們可以看到,並不一定要使用0和1(二分)的評分。如果我們找到合適的評分標準,我們還可以使用0、1、2或0、1、2、3。我們不僅可以擁有具有兩個或三個評分標準的"試題"(即不是二分模型),而且我們不受限於每個試題相同的步驟數量(即不是評分量表模型)。更重要的是,部分信用模型允許我們在一個觀察計畫中混合二分和多分試題。此外,我們可以看到每個任務解決了許多關鍵方面,每個方面都可以得分,而不是為每個任務或完整的訪談提供單一的總分。因此,橡皮泥任務可以分解為以下子任務,以便進行PCM評分:

(a) 判斷初始等價:否=0,是=1;

(b) 在蛇變形後保持不變:否=0,是=1;

(c) 合適地使用"更長"來描述蛇:從不=0,不一致=1,一致=2;以及

(d) 給出原因:基於感知=0,將蛇捲回球形=1,說「你沒有增加或拿走任何東西」=2,聲稱「無論你做什麼,它總是一樣的」=3。

因此,對於第一個質性調查(橡皮泥任務)的一系列標準或「試題」a、b、c、d,我們可以得到Johnny的分數為1、1、2、2;Betty的為1、1、1、1;Jane的完美回應序列為1、1、2、3;以及Bill的為1、0、0、0。可以看出,我們現在已經區分了Betty和Bill之間的差異(在二分評分中,兩者都得到了0分的橡皮泥),以及Jane和Johnny之間的差異(在二分情況下,兩者都得到了1分)。還記得第2章中的有序數據矩陣嗎?我們可以再次做到這一點(參見表7.1)。

在表7.1中,我們看到了與表2.2中排序的二分數據相同類型的發展序列證據。在警惕不從數據中做出無根據的推斷時,我們只需觀察到我們已經記錄了響應水平的有序增加(即0 < 1 < 2 < 3等,或序數數據)。此外,我們避免在試題a和b的1值之間、試題c和d的2分之間等等之間得出無根據的等價推斷。從這些有序數據分類中,我們所能說的只是對於試題a,0 < 1,對於試題b,0 < 1。我們不能聲稱1(在a上)= 1(在b上),或者2(在c上)= 2(在d上)。在分析過程中,我們使用Rasch分析來估計這些關係,以及這些有序值之間的區間。

表7.1 四個孩子在四個多分試題上的有序數據集 

本章節中所選擇的數據用於展示部分信用Rasch模型的應用,有幾個重要的原因。我們可以選擇一個常用的書面數學或科學成就測試、一個作文評分指南或一個醫學康復範例,只要它提供了對回應進行部分正確評分的可能性。許多評分情況都可以滿足要求,只要實施以下回應所代表的評分原則:“錯誤—部分正確—正確”或“不及格—在掌握方面取得一些進展—更完整的回應—掌握”。然而,通過當前的示例,我們可以在了解PCM的同時擴大我們對將傳統上被視為人文科學中定性數據量化的可能範圍的認識。

如果我們回到之前在圖3.3和4.4(對於二分試題)中介紹的回應概率曲線,那麼對於關於“判斷初始等值”的回應,期望會呈現相同的形式;所有孩子都有超過50%的概率得分為1(=是)。如果我們想要為多分回應機會建模曲線(例如,針對恰當地使用“更長”的蛇詞語的0,1,2),我們需要稍微修改一下圖表。圖7.1顯示了這些關係。

圖 7.1 三個回應機會多元試題的回應概率(c)適當地使用"長度較長"來描述蛇。 

低能力的學生(如 Bill)在這個問題上得分 0 的概率更高(即,概率超過 50%)。高能力的學生(例如 Johnny 和 Jane)有超過 50% 的可能性在這個試題上得到最高分(一致使用"長度較長" = 2 分)。然而,Betty 的能力水平預測她得分 1 的可能性更高(而不是 0 或 2)。

為了繪製具有四個回應機會的多元評分試題的曲線(例如,給出理由:0,1,2,3),必須在圖中添加基於第三個閾值的相鄰等級二分曲線。圖 7.2 展示了與表 7.1 中顯示的分數相對應的該試題最可能的回應之間的關係。

倫敦大學的 Shayer、Küchemann 和 Wylam(1976)為了在教室中使用皮亞傑推理任務(Piagetian Reasoning Tasks),有許多原因。我們在第 5 章使用的 PRTIII- 鐘擺是他們開發的用於取代傳統的一對一臨床訪談技巧的示範課任務之一。英國研究人員希望數據收集工具可以同時適用於整個班級,而皮亞傑的技巧則是一對一的訪談。他們希望有兴趣的學校科學老師可以使用這些任務,而皮亞傑則聲稱他的訪談者需要每天練習一年才能變得稱職。他們希望這些任務可以產生可量化的數據,而皮亞傑的工作因其不妥協的質化方法而聲名狼藉。好吧,Rasch 模型不能改變皮亞傑對優秀訪談技能的要求,也無法讓 30 名學童同時進行訪談,但它可以在保留所有豐富的質性含義的同時,將傳統上被認為是質性數據的東西變得非常量化。的確,以下這篇研究報告最早出現在 Bond 和 Bunting(1995),正是受到部分信用 Rasch 模型(Stafford, 2005)存在的啟發。 

圖 7.2 四個回應機會多元試題的回應概率(d)給出原因 

臨床訪談分析:受 Rasch 啟發的突破

Bond 和 Bunting(1995)報導了比這裡需要的更詳細的內容,即使用日內瓦訪談技術直接複製鐘擺任務,如《從童年到青春期邏輯思維的成長》(Inhelder & Piaget, 1955/1958)第 4 章所述。孩子面前擺放著一個鐘擺裝置,由一個固定點懸掛著可調節的繩子和一系列重物:40 克、80 克、100 克。在展示裝置並受到像「你能告訴我什麼原因使鐘擺在短時間內擺動次數增加或減少嗎?」這樣的初始問題激發之後,孩子被鼓勵用裝置進行實驗,以確定哪個變量(重量、長度、推力、角度)影響擺動周期。孩子被要求「大聲思考」,訪談者會提出提示性問題,尋求澄清,並在適當的時候挑戰孩子的結論。不,這不是您通常的標準測試,甚至不是結構化訪談!(註釋1)

Bond 和 Bunting(1995)在這項工作中的原創之處是詳細的計分表(表 7.2),它完全來自 Inhelder 和 Piaget(1955/1958)的第 4 章。這些績效標準遠比之前的任何標準都更全面,包括 Bond(1976/1995)、Shayer 和同事們(1976)以及其他人的標準;尤其是,它們直接源於密切關注皮亞傑理論關鍵章節的詳細重讀,同時牢記部分信用模型(PCM)作為關鍵刺激帶來的可能性。這可能聽起來像是過度的傳教熱情在這裡潛伏,但重要的主張是,當我們用新的眼光(在這種情況下是 PCM)看待舊世界的數據時,會出現全新的可能性。我們可能在上一章中也提出了類似的主張,即通過評分尺度模型開發測量方法,但那個主張並不是原創的。許多人已經為利克特型調查開發了分數,即使他們錯誤地提出了「測量」主張。雖然絕大多數標準化的心理和教育測試都屬於二分法傳統(比如說,智商得分)或利克特型量表(人格評估;Michell,1986),但 PCM 允許在幾乎未被觸及的人類科學研究範疇中進行有意義的量化,其中數據既不是二分法的,也不是在試題中具有固定數量的多元回應類別。

因此,從 PCM 的角度而不是通常的二分法/利克特型觀點來看,Inhelder 和 Piaget(1955/1958)的 15 個調查任務的獨特之處在於精心構建與廣泛兒童樣本相關且有趣的問題。每個任務都可以吸引大約 5 歲至 18 歲的兒童參與。由於原始工作的重點是監控從童年的邏輯思維到青春期的進展,因此兒童對這些任務的回應不僅僅被歸類為對或錯。兒童的解決方案些任務的回應不僅僅被歸類為對或錯。兒童的解決方案幾乎總是部分正確的,而整個部分正確答案的領域,無論是在數學問題解決、文章寫作還是醫療康復方面,都是 PCM 的關注重點。 

表格7.2 關於擺錘訪談任務的18個方面的有序性能標準 

對訪談紀錄進行評分

表7.2是一個評分指南,為那些希望建立新評估情境的PCM實施者展示了一些重要的關鍵特徵。在表格的頂部,我們可以看到皮亞杰不同階段思維的日益複雜的子階段:IIA(早期具體運作思維)、IIB(成熟的具體思維)、IIIA(早期形式運作思維)和最後的IIIB(成熟的形式運作思維)。階段的不變順序是皮亞杰工作的關鍵特徵,就像順序是Rasch測量的關鍵要求一樣。沿著表格,我們可以看到解決擺錘問題的18個不同方面,這些方面都是Bunting在焦點皮亞杰章節中找到的。顯然,問題的低水平方面(例如,方面1、3和4)將被二分評分:達到性能標準為1,未達到性能標準為0。同樣,方面7、8和9各有三個可識別的有序性能層次,將產生有序的多分類數據:標準7.0、8.0和9.0表示這些方面最低的可觀察性能水平,應該得分0。標準7.2、8.2和9.2分別表示在這些問題方面取得的完全成功,每個都將得分2。因為7.1、8.1和9.1顯示出部分成功,每個將在完全失敗(0)和完全成功(2)之間的有序路徑上吸引到1分。

接下來,方面10和12各有四個有序的性能類別層次,將得分0、1、2和3。然而還有更多:儘管16、17和18要進行二分評分,但在這些方面的成功表現應該反映出青少年和成年人所能達到的最高水平的成熟思維。顯然,在這裡得分1的意義要比在方面1.1、2.1、3.1和4.1上的成功表現得分1更加重要。在臨床任務執行中受到讚揚和批評的靈活性對Rasch分析來說並不是問題。在訪談過程中實際上未遇到的任何問題方面(無意或故意省略)都被視為「缺失數據」,數據文件在這些點上記錄為空白。( Rasch模型家族可以應對不完整的數據集,無論是試題還是人員。它可以根據可用數據提供能力和難度的估計。當然,隨著可用信息的減少,測量精度和檢測特異性發展模式的能力會下降。)

作為程序要點,所有高中學生(N = 58)的訪談都由Bunting進行,並進行了錄像和抄錄。基於表格7.2的矩陣用於對每個孩子的表現進行數字編碼,每個孩子的數據串記錄了問題的每個方面的分數(每個孩子有18個數據點),其中更高的分數表示更高級的表現。例如,第14列的分數(在以下的樣本回應串中)表示學生21滿足了表格7.2中的標準14.1,而學生65則達到了標準14.3中的要求。 

111111000212010000 學生21(最不成功的人)

111112212323132111 學生65(最成功的人) 

有序表現標準的18個方面的擺錘面試任務

要對此調查生成的數據文件執行PCM分析,我們需要向Rasch分析軟件指示以下內容:數據文件中的“試題”數量及其位置。在這種情況下,有18個試題位於第1至18列。文件中的有效代碼是什麼?代碼0、1、2、3涵蓋了這裡的所有響應可能性。我們總是小心地將0用作每個試題最低可能觀察到的響應類別的代碼。估算過程應使用PCM。對於某些軟件,這是多項數據的默認估算過程。在Winsteps中,默認的“Groups = 0”運行PCM:這將取消分組試題,從而允許每個試題都具有自己的響應結構。

部分信用模型結果

圖7.3顯示了使用本文中採納的通道原則對擺錘問題的方法論面試數據進行PCM分析後的試題估計和適合統計數據。圖7.3結合了第4章和第5章的二元數據分析顯示以及第6章的評分尺度分析多項數據的某些功能。

首先,通過平行虛線顯示適合測試的結果(-2 < infit Zstd < +2)。在這種情況下,僅憑這個單一標準,所有18個試題都符合Rasch模型,這並不令人驚訝,因為N = 58在統計上是較小的。它們全部位於這些線之間。對於那些得分為二分法的試題(2、3、4、5、16、17 和 18),每個試題都繪製了一個試題難度估計值,表示得分為 0 或 1 的概率為 50% 的閾值。對於那些多分法評分的試題(0、1、2 或 0、1、2、3),會繪製兩個或三個難度閾值。三個回應類別(試題 7 的 0、1、2)由兩個閾值分開(例如,估計值 7.1 將試題 7 的 0 分與 1 分的可能性分開;估計值 7.2 將試題 7 的 1 分和 2 分的最可能回應區域分開),而四個回應類別(0、1、2、3)則由三個閾值估計值分開(例如,試題 10:四個回應類別,帶有三個估計值)。因此,圖 7.3 中的試題圖將顯示多種試題估計格式: 

圖 7.3 擺錘面試試題的路徑圖

圖 7.2 中的回應類別所需的閾值估計數量決定了所顯示的格式。Winsteps PCM(參數級數模型)允許每個試題有超過 30,000 個有序類別(包括 0-100,因此甚至可以使用原始百分比作為數據)。但是,任何特定測試情況是否能實際並有意義地使用 10 個或更多回應類別,這是一個在第 11 章中討論的實證問題。

正如我們所料,擺錘任務試題旨在從一大群受訪者(例如,5 至 18 歲)中獲得部分正確的回應,試題難度範圍幾乎為 6 個羅吉特,從最不困難的試題(6.1 在 -2.58 羅吉特)到滿足最困難標準的試題(試題 18 上得分為 1 的 +3.21 羅吉特)。考慮到這項具有開創性的研究是由一名本科生在很短的時間內完成的,並且每次個別面試都需要大量的時間來計劃、實施、抄寫和評分,所以僅使用了 58 名學生的樣本。因此,在某些情況下,試題和閾值的誤差估計仍然相當大。之前提到的兩個影響因素會影響誤差估計的大小。在所有其他條件相等的情況下(實際上它們從未相等過),當試題與樣本的目標不符時,試題的不確定性會增加,而樣本較小時也是如此。但是,當 18 個多分類試題(而不是 18 個二分類試題)組成一個測驗時,個體的 SE 會更小。一般來說,更多的(實際使用的)回應類別提供了更多的統計訊息,這使得對個人能力估計的精確度更高。閾值估計的精確度最直接地取決於相鄰類別中的回應頻率。

Mike Linacre提出的經驗法則是:每個試題每個類別至少需要有10個觀察值,以使用Rasch偏差計分模型。請花些時間查看表7.3中的試題誤差估計值,並識別出誤差較大的試題難度位置(它們在圖7.3中有較大的誤差指示器)。然後觀察完整的試題-人員地圖(圖7.4),查看前述影響中哪些因素導致了您所識別的大誤差估計值。 

解讀

以上考量提供了關於使用皮亞傑臨床訪談形式下擺錘任務的樣本選擇的指南。首先,我們需要將這個任務發放到更大的樣本中,但是要選什麼樣的樣本呢?我們可以看一下圖7.4的Wright 圖中的被試分佈情況:大多數被試在0到+2 logit之間,很少有被試不在此範圍之內。當我們看到試題難度範圍的兩極端均為二元試題,但是它們的錯誤估計與多元試題10、11、12和13的錯誤估計大小相當時,我們應該得出結論,下一個樣本應該包括更能夠應對擺錘任務的人,以使對16、17和18進行更精確的估計,也要包括能力較差的人,以增強對1、2、3、4和5試題的精確度。

這與我們已經知道的一致:英勒德和皮亞傑(1955/1958) 設計了這個任務,用於廣泛的年齡範圍(例如,5-18歲),而本研究的樣本範圍則故意限制在12至15歲之間,原因有兩個。首先,Bunting 研究的是從具體思維到形式思維的轉變,而不是早期具體思維或成熟形式思維。其次,這項研究旨在避免將認知發展的測量與其他年齡相關的變數(例如教育量或暴露於正式科學教學的時間)混合在一起。樣本大小的增加將牽涉到這兩個變數,以及針對更大樣本進行任務的訪問者/評分員團隊不可能像N = 58時一樣一致地進行工作。我們在第8章介紹的多屬性Rasch模型解決了評分者行為的問題,有望估計這些影響的效應。 

表 7.3 搖擺球面試任務的試題估計 

但是,這也提出了一個重要問題,對於希望使用Rasch校準其研究工具的人而言。從目標人口中方便地或隨機地抽取樣本可能會產生大致呈(高斯)正態分佈的人員能力分佈。為了獲得每個試題的相等精度(小到足夠小的標準誤),我們需要尋找那些具有更多和更少我們工具所針對的潛在能力的人員。實質上,我們所需的分佈看起來會比正態分佈更為矩形(即均勻分佈)。我們應確保人員分佈應延伸到超出試題範圍的範圍,並且人員應均勻分散在該範圍內。這將導致對極端人員的測量不精確,但不至於誤導。我們仍然毫不懷疑高表現者是高表現者,低表現者是低表現者,但我們這裡重點在於校準工具。相反,當我們尋求更精確的人員測量時,試題應超出人員能力範圍,並且在該範圍內均勻分散。但請記住,每個多分類試題的操作範圍比二分類試題寬得多;即使是一個試題的評分標度,其操作範圍通常也比整個人員樣本的範圍還要寬。而且總是有一個警告,即更好地針對目標的試題將產生更精確的人員測量,更好地針對目標的人員將改善試題測量的精確度。 

圖7.4 Pendulum面談的試題-人員對應圖 

理論與實踐之對話 

首先,我們必須承認,從小而受限的樣本中得出的實證結果,很少能做到更多的工作,只能指引未來進行更大範圍的研究,儘管這些結果中有些提示出理論與實踐對話的可能性。我们想起皮亞傑以小樣本而聞名。對於小樣本進行良好的研究,我們預期更大的樣本只能微調我們的發現。在這種情況下,鐘擺任務的數據,在其第一次迭代中展現出足夠符合Rasch測量要求,被認為是產生認知發展量度的證據。這些結果對於明確的質性方法而言並不糟糕,這種方法因未使用傳統統計方法產生適當的可量化結果而逐漸淡出。有興趣的讀者可以參考研究報告(Bond&Bunting,1995),以了解從皮亞傑理論和實證結果中得出的相應性及缺失性。除非這些發現被進一步的研究所否定,否則只需要對基礎的皮亞傑理論或其解釋進行微調。儘管該報告建議未來的任務複製應該包括提供合適的計時裝置以準確評估鐘擺的擺動,但是這個結論是根據面試者在面試情況下追求兒童回應的機會得出的,而不是Rasch分析的結果。我們不是在建議Rasch分析是人文科學中測量的萬能良藥。沒有什麼比深思熟慮的理論驅動的研究更好,而Rasch測量是一種高效的工具,應該成為每個社會科學家工具箱中的必備工具。 

Unidimensionality

在 Bond 和 Bunting(1995)的研究中使用 Rasch 測量法顯示了「順序」概念在單一度量標準架構中的價值。項目和試題步驟順序以及個人順序的解釋在發展和教育研究中非常重要,對於測量身體技能習得和醫療復健也有明確的意義。隨著對受測變量的明確概念,Rasch 測量中的單一度量標準概念也隨之出現,即所有試題是否與同一潛在變量相關,並且它們是否都沿著相同方向指向它?雖然在人文科學數據的定量分析中這一點通常被視為理所當然,但在Rasch 測量法的構建、意義和應用,尤其是在仍在發現潛在變量的新型態中,這一點是非常重要的。

在美國教育研究協會(AERA)的 Rasch 特別興趣小組(SIG)上,Keeves(1997)在演講中提醒聽眾,在國際協會經常進行的教育成就的縱向測試(例如國際教育成就評估協會)所要求的縮放和等化方面,單一度量標準的主要作用:

遵守單一度量標準的要求不僅是一種種類,而是一種程度,正如 Bejar(1983,p.31)所指出的:

單一度量標準並不意味著試題表現是由單一心理過程所產生的。事實上,在回答一組試題時涉及到各種心理過程。然而,只要它們同步運作 - 即,每個試題的表現受到相同的過程和形式的影響 - 就可以滿足單一度量標準。因此,一個科學測驗可以涉及物理、化學或生物內容並測試不同的技能、知識、理解、應用和分析(使用布魯姆分類法的術語,遵循芝加哥大學的傳統),只要所涉及的過程是一致的,即對每個試題的表現都受到相同的過程以及以相同形式影響,就滿足了一維性的要求。這要求進行實證測試和邏輯分析。(Keeves,1997年,第4頁) 

在Keeves的例子中,單一的潛在變量與“科學”有關。然而,對於許多學科教師來說,會有三個明確的單一潛在變量,與“物理”、“化學”和“生物”有關。當我們仔細觀察任何潛在變量時,我們會發現它包含次級潛在變量。我們必須選擇對應我們目的的聚合級別,並問:“在那個級別上是否存在一個連貫的單一潛在變量?”這為將Rasch測量結果解釋為理論-實踐對話提供了有趣的背景。如果我們的目標是逐步將某一心理、教育或健康相關的生活品質構造的特定概念納入體系化實踐,我們的成功在實證上通過開發單一潛在特質的測試來表示。失敗的方面,特別是在不適合的試題或試題無序方面(即缺乏構造效度),要求我們重新審視我們基於理論的意圖。也許不是理論未通過測試,而是我們通過測試、觀察時間表或評分標準將理論實現到實踐中的努力失敗了。也許是標記方案不夠好。應該在測試中包含試題,因為有非常好的理由讓它們存在。測試開發人員應該致力於他們開發的試題:當試題不適合時,它向調查人員發出信號,“再次思考!”而不是通常的“拋棄它!”如果在我們的理論考慮和實證證據都向我們表明,我們開發某些潛在特質的測試已經成功,那麼錯序的試題或人員的證據表明需要精煉我們的想法。 

然而,作為一個更普遍應用在測驗開發和使用的原則,我們有顯示出不僅是單一潛在變數,也有一定次序的指標,需要在生成測驗的理論和產生結果的實際情況下進行解釋。 

摘要:

部分信用模型允許反應閾值的數量和校準在試題間變化(與RSM比較)。

PCM反應類別必須按順序排列。高分數表示在試題上獲得了接近總體成功的部分成功(請注意,這是部分得分,而不是部分標記)。

應用PCM有潛力在人文科學研究中建立定性/定量的橋樑。

實質(內容)理論和Rasch(測量)理論共同用於反應類別描述、排序、解釋和測試改進。

在第9章中,使用PCM開發了一個適用於香港兒童的Rasch測量身體健康量表,並在第10章中為優化美國國立衛生研究院中風量表提供了更多的例子。 

註釋1:皮亞傑方法的標準觀點可以用 Wallace(1965)充分概括:“通過這種靈活的方法(méthode clinique)獲得的結果不適合進行統計分析”(第 58 頁)。事實上,即使是皮亞傑本人也認同這一觀點。因此,開發了標準化的個人訪談程序,用像 Shayer 的課堂任務(Shayer、Kuchemann 和 Wylam,1976)來替代,或者像 Bond(1976)的鉛筆和紙測試來提供適合統計分析的數據。